TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició...

63
TEMES 7 i 8 Inferència Estadística Inferència per a la mitjana d’una població Estadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Dep. Estadística i Inv. Operativa Univ. de València

Transcript of TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició...

Page 1: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

TEMES 7 i 8

Inferència Estadística

Inferència per a la mitjana d’una població

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Dep. Estadística i Inv. Operativa

Univ. de València

Page 2: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Diverses mostres aleatòries d’una mateixa població, amb idènticagrandària, presenten variabilitat. És a dir, no tenen la mateixamitjana, ni la mateixa desviació típica, ni els histogrames es semblen,etc…. Açò es diu variabilitat mostral o en el mostreig.

Una distribució de probabilitat que caracteritze la variabilitat d’unestadístic, entre les diferents mostres d’una població, reb el nom dedistribució en el mostreig. Per exemple, la mitjana mostral té la seuadistribució en el mostreig.

La mitjana mostral té una distribució de probabilitat i depèn de ladistribució de la població que estigam mostrejant i de la grandàriamostral n.

Distribucions en el Mostreig

m

s

Població

Mostreig aleatori

Mostra de grandària n

Mostra de grandària n

Mostra de grandària n

1x

3x

X

2x

Page 3: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Observacions quantitatives

• Quan la variable observada és quantitativa estudiar la similitud entre

mostra i població és complicat.

• La població i la mostra d’una variable quantitativa poden ser descritesde diverses maneres complementàries: distribució de freqüències, mitjana,mediana, desviació típica… Ens centrarem, en aquest curs, en la mitjana.

• En Inferència s’utilitza la mitjana d’una mostra com una estimació

puntual de la mitjana de la població µ d’on s’ha extret la mostra.

• Ens interessa determinar l’error mostral d’aquesta estimació, és a dircom de prop esperem que estiga la mitjana de la mostra de la mitjana de lapoblació.

• Per a contestar aquesta pregunta considerarem la variable aleatòria (valors que puga prendre la mitjana mostral en diverses mostres de la mateixa grandària) i la seua distribució mostral (distribució de probabilitat que descriu la variabilitat entre les diferents mostres).

x

X

Page 4: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

1. Mitjana: La mitjana de la mitjana mostral és igual a la mitjanade la població:

La distribució mostral de nX

2. Desviació típica: La desviació típica de la mitjana mostral és igual a la desviació típica de la població dividida per l’arrel quadrada de la grandària de la mostra:

3. Forma de la distribució:

a) Si la població té distribució Normal, aleshores també té distribució Normal, independentment del valor de n.

b) Si la població no té distribució Normal, aleshores té aproximadament distribució Normal per a n suficientment gran.

Aquest resultat es conseqüència del Teorema del Límit Central.

nXm m

nXn

ss

nX

nX

Page 5: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Si la distribució de la població és normal, sempre té distribucióNormal, l’augment en el valor de n només suposa una reducció de ladesviació típica.

Influència de n en la distribució de (1)nX

nXD

istrib

ucio

ns

mo

stra

ls

4 (500,60)X N

9 (500, 40)X N

16 (500,30)X N

Distribució Poblacional

(500,120)X N

)n P(450 550Xn

0,99964

0,9116

0,799

0,594Si n=64, és

pràcticament segur que la mitjana

prenga valors en l’interval [450,550]

X

Page 6: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Quan la població no té distribució normal però no massa diferent, quanaugmenta n la distribució de va aproximant-se bastant ràpidamenta la distribució normal.

Influència de n en la distribució de (2)

Distribució

Poblacional

nX

m=64,s=22

nX

X

X X

X X

X

Nombre d’ulls de la

Drosophila

• Amb n=16 la distribució de la mitjana mostralés una mica més apuntada que la Normal.

• Amb n=32 la distribució de la mitjana éspràcticament normal.

Page 7: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Fins i tot encara que la distribució poblacional siga molt diferent a lapoblacional, el Teorema del Límit Central continua funcionant, malgratque la convergència és més lenta.

Influència de n en la distribució de (3)nX

nX

Distribució poblacional

molt assimètrica

2 modes

Page 8: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Com a conseqüència de la variabilitat mostral i la distribució en el

mostreig, la mitjana mostral pren valors al voltant de la mitjana

poblacional m.

És natural prendre a la mitjana mostral com una aproximació a la

mitjana de la població d’on hem extret la mostra.

En general, a un estadístic utilitzat per a aproximar un paràmetre de la

població se li denomina estimador del paràmetre.

Per exemple, la mitjana mostral és un estimador de la mitjana

poblacional, la desviació típica mostral és un estimador de la desviació

típica poblacional i així successivament.

Concepte d’estimació estadística (1)

és una estimació puntual de

és una estimació

és un de

é

puntual de

s u

n d e

X

x

S

estimador puntual

estimador punt al

s

u

m

m

s

s

X

Page 9: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Concepte d’estimació estadística (2)

Una ullada a l’universDe lletres llatines a gregues

(llevat de la proporció p)D’estadístics a paràmetres

Informacióde la

mostra

Característiques de la

població

Paràmetres

Estimació

Estadístics

ˆx s p pm s

Page 10: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Concepte d’estimació estadística (3)

Esbiaixat No esbiaixat

Error típic gran

Error típic gran

Esbiaixat

Error típic baix

No esbiaixat

Error típic baix

DIVERSES

SITUACIONS

D’ESTIMACIONS

I ESTIMADORS

Page 11: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Poblacions, mostres i distribucions en el mostreig

És important distingir clarament entre tres distribucions diferents relacionades

amb una variable quantitativa X:

1. La distribució de X en la població.

2. La distribució de X en la mostra.

3. La distribució en el mostreig de

VARIABLE MitjanaDesviació

típica

X en la població m

X en la mostra s

m

x

nX en el mostreign

s

nX

s Paràmetres poblacionals

Estadístics mostrals

Estimador i propietats

Page 12: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Exemple 7.1

Una població segueix una distribució normal amb mitjana de 500 mg i desviaciótípica de 120 mg. Prenem una mostra de grandària 25 i obtenim el següentresultat:

343 755 431 480 516 469 694 659 441 562 597 502 612

549 348 469 545 728 416 536 581 433 583 570 334

Distribució poblacional de X

X

500

24

X

X

m

s

500

120

m

s

526,1

113,7

x

s

25X

Distribució en

el mostreig

de

X 25X

Distribució mostral de 25 observacions de X: Histograma

N(500,24)

N(500,120)

Page 13: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Estimació puntual i per intervalsEn l’exemple anterior hem obtingut una mostra amb n=25 i 526,1 113,7x s

La mitjana mostral és un estimador puntual de .

El valor és una estimació puntual de .

La desviació típica mostral és un estimador puntual de .

El valor és una estimació113.

5

26,1

puntual de .7

s

x m

s

s

m

Hem de ser conscients que les estimacions puntuals canvien de mostra a mostra, per això és convenient utilitzar tota la informació que tenim a la mostra. Podem fer intervindre a la desviació típica mostral en l’estimació de la mitjana poblacional. Això s’aconsegueix utilitzant l’estimació per intervals.

L’ESTIMACIÓ PER INTERVALS CONSISTEIX EN FABRICAR UN INTERVAL QUE ESPEREM CONTINGA AL PARÀMETRE DESCONEGUT DE LA POBLACIÓ.

Extrem Inferior

Extrem Superior

mEN UN CAS REAL

MAI SABREM SI EL PARÀMETRE ESTÀ O

NO DINS.

Page 14: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Estimació per intervals La mitjana mostral és el millor estimador de la mitjana poblacionalja que és no esbiaixat i de mínima desviació o error típic.

És convenient tindre una idea de la proximitat de la nostra estimació delvertader valor de la mitjana poblacional.

També serà dessitjable donar informació de la fiabilitat que tenim respectea la precisió de la nostra estimació.

La precisió de l’estimació es mesura amb l’estimació per intervals o intervals de confiança.

Un interval de confiança per a m és un interval [L1, L2] que conté a la mitjana

m amb una alta garantia predeterminada. La garantia reb el nom de confiança i

s’expressa en %.

Per exemple, un mètode per a construir un interval de confiança al 95% per a mha de complir que si repetirem l’experiment moltes vegades i calculant cadavegada un interval de confiança, aproximadament el 95% dels intervals

resultants hauria de contindre a m.

Page 15: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Construcció d’un interval de confiança per a m.(1)

Anem a construir un IC(95%) per a m (s és coneguda).

~ ,nX Nn

sm

~ (0,1)nXZ N

n

m

s

( 1,96 1,96) 0,95P Z

1,96 1,961,96 1,96 0.95

/

1,96 1,96 1,96 1,960,95

nn

n n n n

XP P X

n n n

P X X P X Xn n n n

m s sm

s

s s s sm m

Sota certes condicions, té una distribuciónX

m

0,025 0,025

-1,96

0

1,96

0,95

nX

Z

Page 16: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Construcció d’un interval de confiança per a m.(2)La interpretació de la probabilitatanterior és que un 95% delsIntervals de la forma

1,96 1,96,x x

n n

s s

… contindran a la mitjana poblacional µ.

Interval que no

conté a m

Interval que si

conté a m

0,95

0,025 0,025m

~ ,nX Nn

sm

En aquest cas tots elsintervals tenen la mateixaamplària.

Interval de confiança al 95% per a µ amb

σ coneguda

Page 17: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Error típic (estàndar) de l’estimació de m.

La magnitud de les diferències entre la mitjana mostral i la mitjana poblacional es pot mesurar (en termes probabilístics) per la distribució en el mostreig de en particular per la seua desviació típica:

X

ss

Xn

La desviació típica poblacional, σ, quasi sempre és un paràmetre desconegut

que haurem d’estimar mitjançant el corresponent estadístic en la mostra, la desviació típica mostral s.

Definim error típic o estàndar de la mitjana a: X

sSE

n

Queda encara un detall per resoldre que veurem en la pròximatransparència.

Page 18: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

La distribució t de Student. (1)

En la construcció de l’interval de

confiança utilitzavem el fet que(0,1)nX

N

n

m

s

Per a certs valors de n.

Però si s és desconeguda i utilitzem s en la fòrmula anterior.

nX

sn

m Aquesta variable ja no té una distribució N(0,1) i es transforma en una t amb n-1 graus de llibertat.

Ho escriurem: 1n

n

Xt

sn

m

Les distribucions t de Student són distribucions contínues de forma acampanada similar a lanormal estàndar, caracteritzades per un paràmetre anomenat graus de llibertat (gl).

La dispersió de la t és major que en la N(0,1) amb cues més altes i centre més baix.

Quan augmenta el nombre de gl la distribució t es va aproximant a la normal estàndar.

La t de Student amb infinits gl és igual a la normal estàndar.

Page 19: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

La distribució t de Student.(2)

Gosset treballà durant un breu període en el departament d’Estadística Aplicada de UCL(University College London) i va descobrir el test t.

Gosset va treballar com a químic per als cervesers Arthur Guinness and Son. Mentre quetreballava en la UCL visqué en Wimbledon i més tard retornà a Londres per a treballar en lanova planta de Guinness en Park Royal en l’oest de Londres.

William Gosset 1876-1937

t() N(0,1)

Page 20: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Construcció del IC per a µ quan σ és desconeguda.

Si en l’expressió de l’interval de confiança, on σ era desconeguda, substituïm σ per s (estimació de σ obtinguda a partir de les dades):

L’interval de confiança al 100(1-a)% per a m quan σ és desconeguda será:

n

stxSEtx

X aa

On el valor crític t a s’obté d’una t de Student amb gl=n-1.

1(| | )nP t ta a Veure la taula de la t de Student

Si σ és coneguda, es pot utilitzar més cómodament la taula de la t amb infinits graus de llibertat que la taula de la N(0,1), substituint s per σ.

ntx

sa

Page 21: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Taula de la t

Exemple, per a calcular un IC(90%) per a µ, si σ és desconeguda i n=10, utilitzariem un valor crític: t0.1 = 1.833 amb una t de 9 g.l.

Si σ és coneguda podem usar la taula t amb infinits g.l. (última fila)

Page 22: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Exemple 7.2

Les alçades dels adults d’una determinada regió segueixen una distribució Normal de mitjana µ i desviació típica σ desconegudes.

Volem estimar l’alçada mitjana µ.

Triem a l’atzar 25 individus i els mesurem, obtenim una mostra aleatòria de grandària 25

Els valors en centímetres són: 159, 177, 175, 174, 170, 164, 181, 168, 170, 180, 169, 168, 175,

163, 170, 177, 160, 168, 165, 168, 162, 178, 179, 161, 170.

•Mitjana mostral = 170,04 cm.

•Desviació típica mostral = 6,52 cm.

•Estimación (puntual) de µ:

x

s

Observem que si prenerem una altra mostra de 25 individus, l’estimació

puntual de µ seria diferent.

Per tant, és evident que l’estimació puntual no és suficient.

ˆ 170,04 cmm x =

Page 23: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

IC per a µ quan σ és desconeguda

6,52170,04 ± 2,064

25170,04 ± 2,69

167,35 172,73m

En l’exemple 7.2 on volem estimar l’alçada mitjana

n = 25

mitjana mostral = 170,04 cm.

desviació típica mostral s = 6,52 cm.

Si volem un nivell de confiança del 95% a = 0,05

Per tant ta= 2,064 (gl=24)

L’interval de confiança al 95% per a m serà:

x

Page 24: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Exemple 7.2 (cont.)

Si volem construir un interval al 90% de confiança en lloc del 95%, només hem de canviar el quantil ta:

Amb les dades de l’exemple anterior tenim que en una t amb 24 gl.

t0.1 = 1,711.

Per tant l’ interval de confiança per a µ al 90% es calcula:

6,52170,04 ± 1,711

25170,04 ± 2,23

n

stx 1.0

167,81 172,27m

Notem que l’interval al 90% de confiança és mes estret que el del 95%. Passarà sempre açò? Raona la resposta.

Page 25: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Interpretació de l’interval de confiança (1)

Si considerem un interval de confianza al 95%, i realitzem un mostratge repetit de lapoblació amb mostres de grandària constant i, per a cada mostra, construim elcorresponent interval de confiança, aleshores el 95% d’aquests intervals hauria decontindre a la mitjana de la població µ.

Pensem que és conceptualment erroni, una vegada hem construit un interval deconfiança, dir que la mitjana poblacional µ estarà dins l’interval amb una probabilitat de0,95. És incorrecte aquest raonament ja que una vegada extreta la mostra ja no hi hares aleatori, és a dir la mitjana poblacional estarà dins l’interval o no estarà. L’únicaleatori que tenim és la manera de traure l’interval de confiança.

Per aquesta raó utilitzem el terme “confiança” en lloc del de “probabilitat”.

Exemple 7.3: grossor de la closca dels ous

En la producció comercial dels ous, el trencament és un dels majors problemes. El grossorde la closca és una variable important. En un estudi s’observaren els grossors de lesclosques dels ous produits per una gran quantitat de gallines White Leghorn, apreciant-seaproximadament una distribució normal amb mitjana µ=0,38 mm i desviació típicaσ=0,03 mm.

Page 26: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Interpretació de l’interval de confiança (2)

,34 ,36 ,38 ,40 ,42

mm

El 90%

dels

IC(9

0%

) co

ntindrà

el vert

ader

valo

r de µ

=0,3

8m

m

Població

Normal

µ=0,38mm

σ=0,03 mm

x=0,387

s=0,032

x=0,354

s=0,021

x=0,377

s=0,034

x=0,399

s=0,024

mostres

IC (90%) per a µ

Page 27: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Interpretació de l’interval de confiança (3)

0

50

100

150

200

250

300

350

400

450

500

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

mostra

mitjana poblacional lím.sup. lím.inf mitjana de cada mostra

µ

Quan σ és desconeguda els IC poden tindre diverses amplàries

Page 28: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Selecció de la grandària mostral (1)

• En la planificació d’un experiment podem estar interessats que l’estimacióobtinguda a partir de les dades siga d’una precisió determinada.

• Aquesta precisió ve determinada de forma important per la grandària de lamostra.

• Si dessitgem augmentar aquesta precisió hem de calcular la grandària de lamostra per a obtindre un error estàndar adequat a las necessitats del’experiment.

• Si tenim alguna informació prèvia del valor de la desviació típica mostralpodem calcular aquesta grandària n per a obtindre un error estàndar dessitjat.

Si en un experiment tenim:

13 1,22 1,22 0,34 .s

n x cm s cm SE cmn

i volem reduir l’error estàndar per a que siga de 0,25 cm.

1,220,25

s

n n

1,224,88

0,25n 24n

Page 29: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Selecció de la grandària mostral (2)

• En altres ocasions, el que es demana és una determinada amplària del’interval de confiança.

• Interval de confiança (σ coneguda):

amplària =

error =

x t x x tn n

a a

s s

nt

sa2

nt

sa

Si coneguem a, σ i l’amplària (o l’error), podem calcular el n necessari.

t de Student amb ∞graus de llibertat

Page 30: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Selecció de la grandària mostral (3)

• En el cas més habitual de σ desconeguda:

• Si coneguem a, s i l’amplària (o l’error), podem calcular el n necessari.

• Com no coneguem n, no sabem els graus de llibertat de la t.

• Prenem t amb infinits graus de llibertat (que coincideix amb la N(0,1)).

s s

x t x x tn n

a a

amplària =n

sta2

error = n

sta

Page 31: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

EXEMPLE 7.4: NIVELL DE PROTEÏNES.

El nivell total mitjà de proteïnes en un adult sa és de 7,25. S’efectua un totalde vuit anàlisis de sang a un determinat pacient durant uns quants dies, i esmesura el nivell total de proteïnes. Els resultats obtinguts són:

7,23 7,25 7,28 7,29 7,32 7,26 7,27 7,24

Estem interessats en comprovar si aquestes dades ens donen alguna evidènciade si el nivell mitjà de proteïnes d’aquest pacient és el mateix o no ho és que elnivell d’un adult sa.

En aquest apartat introduirem els contrasts d’hipòtesis per a la mitjanapoblacional, que com veurem es duen a terme mitjançant el test t.

Un contrast d’hipòtesi és un procediment que permet, a partir de les dadesobservades d’una mostra aleatòria, decidir si cal rebutjar o no, una afirmaciósobre alguna característica de la població objecte d’estudi.

Anem a introduir els diferents elements que conformen un contrast d’hipòtesismitjançant un exemple:

Concepte de contrast d’hipòtesis (1)

Page 32: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Considerem la variable aleatòria Y = nivell total de proteïnes del pacient, que suposem segueix una distribució Y ~ N (µ, s), on µ serà el nivell total mitjà de proteïnes del pacient.

La hipòtesi que ens formulem a l’enunciat és si:

“la mitjana (µ) del nivell de proteïnes del pacient es pot considerar similar al d’un adult sa (7,25)”.

La formularem com: H0 : µ = 7,25

Concepte de contrast d’hipòtesis (2)

En un contrast d’hipòtesis sempre es formulen dues hipòtesis incompatibles,de manera que només una potser vertadera.

La hipòtesi anterior H0 rep el nom d’Hipòtesi Nul·la i representa el “no canvi” o“sense variació” respecte a una situació considerada usual o regular.

D’altra banda tenim la Hipòtesi Alternativa, que representarem per H1, i enaquest cas la formularem com:

H1: µ 7,25Hi ha diferències entre el nivell deproteïnes del pacient i un adult sa.

Page 33: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Les hipòtesis Nul·la i Alternativa no tenen papers simètrics. Sota el prisma del’Estadística s’anomena Hipòtesi a una conjectura sobre algun paràmetre opropietat desconeguda de la població.

Concepte de contrast d’hipòtesis (3)

CONTRAST D’HIPÒTESIS (més formal)

Problema consistent en decidir si és possible rebutjar la Hipòtesi Nul·la H0 ambla base de l’evidència de les dades d’una mostra aleatòria.

HIPÒTESI NUL·LA: Hipòtesi amb la qual partim (STATUS QUO), que representarem com H0 i que suposem correcta d’inici.

HIPÒTESI ALTERNATIVA: Hipòtesi incompatible amb la hipòtesi nul·la, que denotarem per H1 o per HA, i que els resultats experimentals (MOSTRA) poden recolzar-la amb una evidència gran.

La Hipòtesi Alternativa H1 també rep el nom d’Hipòtesi del’investigador, la qual intenta demostrar a partir de l’evidència de les dades.

Un contrast d’hipòtesis és com un judici on H0 representa la “Noculpabilitat” de l’acusat (Presumpció d’innocència). Mentre que H1

representa la “Culpabilitat”.

Page 34: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Exemple 7.5

El nivell mitjà de radiació latent en EEUU era de 0.3 rem/any. Es tem que, coma conseqüència de l’augment de l’ús de materials radiactius, aquesta xifra hajaaugmentat.

Exemples

Exemple 7.6

Es va calcular en 1969 que el 8% del contingut dels fems urbans era metall.Degut a l’ increment dels processos de reciclatge, s’espera que s’haja reduïtaquesta quantitat.

Exemple 7.7

El Departament de Salut d’un país ha fixat en 70 el nombre mitjà de bacterisper cm3 d’aigua que és el nivell màxim per a les aigües en què es practica larecollida de cloïsses. Un nivell mitjà superior a 70 és perillós, perquè menjarcloïsses d’aquestes aigües pot causar hepatitis. Després de prendre una mostraaleatòria de cloïsses, s’ha de prohibir la pesca de cloïsses en aquestes aigües?

En cada un dels exemples següents: Plantejar un contrast d’hipòtesis indicantles raons de selecció de les hipòtesis nul·la i alternativa.

Page 35: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Resolució d’un Contrast d’Hipòtesis(1)

RESUM

1. Es planteja el contrast, identificant les hipòtesis nul·la i alternativa.

2. Es pren una mostra aleatòria x1, x2,…,xn.

3. Amb la mostra mesurem la compatibilitat de les dades amb H0, podenocórrer dues coses:

a) Es Rebutja H0.

b) No es rebutja H0.

COMENTARIS

• En el cas 3.a: Rebutgem H0, correspon al cas on l’evidència aportadaper la mostra és suficient per a no admetre H0.

• En el cas 3.b: No Rebutgem H0, perquè les dades són prou compatiblesamb H0, per tant no han aportat bastant evidència a favor de H1, cosa quèdeixa les coses com abans de fer el contrast. Notem que en aquest cas elcontrast no ha decidit res ni a favor ni en contra de H0 ni de H1.

Page 36: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Resolució d’un Contrast d’Hipòtesis(2)En l’esquema anterior encara hem de resoldre dues qüestions fonamentals.

1. Com es valora l’evidència a favor de H1, o equivalentment la incompatibilitat amb H0,que aporten les dades d’una mostra?

2. Una vegada valorada l’evidència, com decidim si és suficient o no per a prendre unadecisió: “Rebutjar” o “No Rebutjar H0”?

Test estadístic: És un procediment estadístic per a determinar el rebuig o no de H0 a

partir de les dades d’una mostra. Donat un contrast poden haver diversos testsestadístics que podem aplicar segons la seua adequació al cas concret.

Estadístic del test: És una funció de les dades de la mostra, l’estadístic té una

distribució que ha obtingut l’inventor del test. Amb el valor de l’estadístic i les taules

apropiades es mesura l’evidència de les dades a favor de H1. Cada test té el seu

estadístic.

Decisió: L’evidència es mesura com la probabilitat de la compatibilitat entre les dades

de la mostra i H0. Açò rep el nom de valor P. Si el valor P és menor que una fita

prèviament fixada 0<a<1 que s’anomena nivell de significativitat, H0 es Rebutja,

en cas contrari No es Rebutja.

Conclusió: Descriure amb paraules el que vol dir la decisió. Per exemple:

Si H0 no es rebutja: “No hi ha suficient evidència per a dir ....(enunciat de H1)”.

Si H0 es rebutja: “Les dades aporten suficient evidència per a dir ... ....(enunciat de H1)”.

Page 37: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

1 0:H m m- Si la hipòtesi alternativa és el CH és Unilateral per l’esquerra.

El test t (1)

S’utilitza per a resoldre qualsevol dels següents contrasts d’hipòtesis:

El primer contrast s’anomena bilateral o de dues cues, mentre que elsegon i el tercer reben el nom d’unilaterals o d’una cua.

Com es veu, la hipòtesi nul·la i alternativa estan formulades sobre

possibles valors del paràmetre µ. En realitat, H0 representa µ ≤ µ0 en el

segon contrast i µ µ0 en el tercer.

0 0 0 0

1 0 1

0 0

0 01

:(

: :( ) ( )

:)

: :

H HII III

H

HI

H H

m m m mm m

m mm m m m

1 0:H m m- Si la hipòtesi alternativa és el CH és Unilateral per la dreta.

El valor µ0 s’anomena valor nul del contrast o valor de prova.

Page 38: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

El test t (2)

On µ és la mitjana del nivell de proteïnes d’una població

imaginària de pacients com el que estem analitzant.

Amb la mostra: 7,23; 7,25; 7,28; 7,29; 7,32; 7,26; 7,27;7,24. Calculem l’estadístic del test t: ts.

0

1

: 7,25

: 7,25

H

H

m

m

Continuant amb l’exemple 7.4 del nivell de proteïnes, plantegem:

0

s

xt

s

n

m

La distribucióde ts quan H0

és certa ésuna t amb n-1gl.

08 7,268 7,25 0,029

7,268 7,251,756

0,029

8

s

n x s

t

m

En les taules de la t amb 7 gl, trobem que 1,756 està entre1,415 i 1,895, que corresponen als valors P bilaterals de 0,2i 0,1, respectivament. La qual cosa significa 0,1< P < 0,2.És a dir, les dades són compatibles amb H0 amb unaprobabilitat bastant gran i per a qualsevol nivell designificativitat raonable (a=0,01; a=0,05; a=0,1), P a.Per tant, No Rebutgem H0.

Page 39: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

El test t (3)

Si H0 és certa, ts té una distribució t de Student amb n-1 graus de llibertat, aquesta distribució rep el nom de Distribució Nul·la.

L’esència del test t és localitzar ts en aquesta distribució:

ts està prop del centre de la distribució:les dades són compatibles amb H0, ladiferència entre la mitjana de la mostra i µ0

pot ser deguda a la variació aleatòria delmostreig.

ts està en una de les cues de la distribució: les dades no són compatibles amb H0 i proporcionen evidència a favor de que H1 siga vertadera.

Page 40: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Què ha passat en l’exemple 7.4?

t0.95=1,895

ts=1,756-1,756

t0.90=1,415

Distribució nul·la

t amb 7 gl.

Un valor com aquest té una

probabilitat d’ocórrer > 0,05.

Page 41: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Concepte de valor P

El valor P de les dades, vé representat per l’àrea de les dues cues, més enllàdel valor de l’estadístic, sota la corba de densitat de la distribució nul·la,quan tenim un contrast bilateral. És a dir la probabilitat que l’estadísticprenga un valor més extrem, en el cas que H0 siga correcta.

En l’exemple 7.4

P/2P/2

El valor P mesura la compatibilitat de les dades i H0 :

Un valor P gran (prop de 1) indica un valor de ts prop del centre de la distribució (dades molt compatibles amb H0).

Un valor P menut (prop de 0) indica que ts està en una de les cues de la distribució (dades incompatibles amb H0).

Page 42: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Nivell de significativitat del test (1)A l’hora de rebutjar la hipòtesi nul·la hem de decidir quan consideremsuficientement menut el valor P.

Per això és costum fixar un valor límit, en l’escala del valor P, de forma queper davall d’aquest valor diem que les dades són incompatibles amb H0 i perdamunt considerem que les dades són compatibles amb H0.

A aquest valor límit li diem nivell de significativitat del test i es designa

mitjançant el símbol a.

El valor a més utilitzat és 0,05, encara que en alguns experiments poden

considerar-se 0,10; 0,01 o altres valors.

Si el valor P < a, aleshores “Rebutgem H0” i considerarem que les dades sónincompatibles amb H0. En aquest cas direm que “les dades presentenevidència a favor de H1” o equivalentment que “les dades són significativesal nivell a”.

Si el valor P ≥ a, aleshores “No rebutgem H0” i la conclusió serà que “No hiha suficient evidència per afirmar que H1 siga certa” o equivalentment que“Les dades no són significatives al nivell a”.

Page 43: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Nivell de significativitat del test (2)Si considerem contrasts amb un nivell de significativitat a = 0,05

(a) El valor P és major que 0,05. No rebutgem H0.

No hi ha evidència que H1 siga certa.

(b) El valor P és menor que 0,05. Rebutgem H0.

Hi ha evidència suficient que H1 és certa.

Page 44: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Esquema del Contrast d’Hipòtesi

1. Establir el nivell de significativitat a.

2. Especificar les hipòtesis del contrast.

3. A partir de les dades de la mostra veure si hi ha alguna evidència a favor de H1, en cas contrari el contrast acaba No Rebutjant H0.

4. Utilitzant el test estadístic apropiat, calcular el seu valor a partir de les dades de la mostra.

5. Calcular (o afitar) el valor P utilitzant la distribució de l’estadístic.

6. Decidir si rebutgem o no la hipòtesi nul·la comparant P amb a.

7. Presentar les conclusions del contrast.

Estratègia: Suposar que H0 és certa, mentre les dades no demostren el contrari.

• Com l’acusat en un judici, què és innocent fins que no es demostra el contrari.

• Això no vol dir que nosaltres creguem que H0 és certa.

Page 45: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Possibles errors en un Contrast (1)

Realitat (desconeguda)

H0 és

correcta

H0 és falsa

(H1 és correcta)

Decisió

del

contrast

No Rebutjar

H0

Decisió

correcta

ERROR de

tipus II

Rebutjar H0

(acceptar H1)

ERROR de

tipus I

Decisió

correcta

Si H0 és realment correcta i no rebutgem H0, estarem encertant.

Si H0 és realment correcta i rebutgem H0, cometem un error de tipus I. I denotarem:

a = P (error de tipus I) = P (rebutjar H0 | H0 és correcta)

Si H0 és realment falsa i no rebutgem H0, cometem un error de tipus II. I denotarem:

b = P (error de tipus II) = P (No Rebutjar H0 | H0 és falsa)

Si H0 és realment falsa i rebutgem H0, estarem encertant.

Amb aquesta notació, tenim:

P (No Rebutjar H0 | H0 és correcta) = 1 – a

P (Rebutjar H0 | H0 és falsa) = 1 – b = Potència del contrast

Page 46: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

• Per a una grandària mostral donada n, no es poden reduir al mateix temps els dos tipus d’error.

• Per a reduir b, cal augmentar n, augmentant la potència del test.

• Durant molt de temps els estadístics han intentat dissenyar els millors test estadístics, és a dir els que amb un a i n fixes augmenta la potència del test el màxim possible.

a

b

Possibles errors en un Contrast (2)

Podem reduir també la probabilitat de cometre un

error de tipus II ?

La probabilitat de cometre un error de tipus I és a. Es pot controlar, normalment agafem a=0,05.

RESPOSTA

Page 47: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Relació entre Contrast i Interval de Confiança

Tant per a la construcció de l’interval de confiança com per alcontrast utilitzem els mateixos elements (la mitjana de la mostra,l’error estàndard i la distribució t). Es lògic pensar que haurà unaestreta relació entre els dos procediments de realitzar inferència.

Estudiem la relació que existeix entre un interval de confiança al 95% i un contrast amb a = 0,05.

Rebutgem H0: m =m0 amb un nivell de significativitat del 5%

m0 no està en l’interval de confiança al 95% per a m

Page 48: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Aplicació sobre l’exemple 7.4

n = 8 x = 7,268, s = 0,029, 0,029

0,00368

XSE

En aquest exemple tenim:

L’interval de confiança al 95% és:

7,268 2,365 0,0036 [7,24;7,29]

Les dades són compatibles amb la hipòtesi H0: m = 7,25, perquè m0= 7,25 està en l’interval de confiança al 95%, és a dir 7,25 és un

valor “possible” per a m , amb aquest nivell de confiança.

Però les dades també són compatibles amb moltes altres hipòtesis, com per exemple: H0: µ = 7,26 H0: µ = 7,27 H0: µ = 7,285 etc... quina és la vertadera?

Page 49: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Interpretació del nivell de significativitat

Si la hipòtesi nul·la és certa la distribució de l’estadístic

és una t amb n-1 gl. La regió d’aquesta distribució en què rebutgem la

hipòtesi nul·la, encara que siga certa, té un àrea de 0,05, per tant

Suposem que contrastem H0: m = m0 amb un nivell de significativitat

a=0,05

Si prenim mostres repetides d’una població que realment té mitjana m0, el

5% de les vegades estaríem rebutjant la hipòtesi nul·la essent certa.

0

s

xt

sn

m

0,950,0250,025

P(Rebutjar H0| H0 és certa) = 0,05

Probabilitat de cometre un error de

tipus I

Page 50: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Conseqüències dels errors en un contrast

Acabem de veure que el nivell de significativitat és la probabilitat de

cometre un error de tipus I, que controlem ja que a la fixa l’usuari.

Normalment l’error de tipus I és el més important, però de vegadesno és així.

Si estem estudiant la influència d’un medicament en el tractament d’una malaltia, plantejarem el següent contrast:

H0: El tractament no és eficaç.

H1: El tractament és eficaç.

Si H0 és certa i la rebutgem (error de tipus I) s’introduirà en el mercat unmedicament que no és eficaç i potser no continuem investigant en algunaltre tipus de tractaments, a banda d’altres conseqüències com poden serels efectes secundaris en els malalts.

Si H0 és falsa i no la rebutgem (error de tipus II) no s’introduirà en el mercat un medicament que és eficaç almenys fins que nous estudis, amb el corresponent augment del cost, proven la seua eficàcia.

Page 51: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Contrasts direccionals (1)

Els contrasts que hem estudiat s’anomenen no direccionals perquè no indiquem una direcció per a la hipòtesi alternativa.

Sovint està clar que la desviació de la mitjana només pot ocórrer en un sentit o només ens interessa demostrar que la desviació es dóna en un únic sentit.

És lògic pensar que la utilització d’un catalitzador ha d’augmentar la velocitat de la reacció.

Un antipirètic deu disminuir la febra del malalt.

En aquests casos utilitzarem una hipòtesi alternativa direccionalper a indicar que rebutjarem la hipòtesi nul·la si la diferència entremostra i població és significativa en la direcció que proposa lahipòtesi alternativa.

Page 52: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Contrasts direccionals (2)

En aquest cas només hem de canviar la forma de calcular el valor P.

Primer hem de comprovar si les dades aporten evidència a favor (en la mateixa direcció) de H1. Si no es així no és possible rebutjar la hipòtesi nul·la i s’atura el contrast. Veure pas 3 en la diapositiva 45.

Si les dades aporten evidència a favor de la hipòtesi alternativa hem de calcular el valor P com l’àrea d’una única cua. La corresponent a la direcció de la hipòtesi alternativa.

Àrea ombrejada =

Valor P

Àrea ombrejada =

Valor P

0 0

1 0

:

:

H

H

m m

m m

0 0

1 0

:

:

H

H

m m

m m

Page 53: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Exemple 7.7 (Contrast direccional)El Departament de Salut d’un país ha fixat en 70 el nombre mitjà de bacteris per cm3

d’aigua que és el nivell màxim per a les aigües en què es practica la recollida de cloïsses.Un nivell mitjà superior a 70 és perillós, perquè menjar cloïsses d’aquestes aigües potcausar hepatitis. Després de prendre una mostra aleatòria de cloïsses, s’ha de prohibir lapesca de cloïsses en aquestes aigües? La mostra obtinguda és: 69 74 75 70 69 72 73 7273 68

Només rebutgem la hipòtesi nul·la si el nombre mitjà de bacteris és superior a 70. Plantegem el següent contrast direccional:

H0: El nombre mitjà de bacteris en l’aigua és de 70 (m = 70)

H1: El nombre mitjà de bacteris en l’aigua és superior a 70 ( m > 70)

Càlcul dels estadístics de la mostra: 71,5 2,37x s

Comprovem que les dades aporten evidència a favor de H1: 71,5 > 70

Estadísticdel test:

0 71,5 702,00

2,37 10s

xt

s n

m 0,025 < P < 0,05

Com el valor P és menor que 0,05 (nivell de significativitat per defecte si no s’indica altre) Rebutgem la hipòtesi nul·la.

Hi ha evidència de què el nombre mitjà de bacteris és superior a 70 per cm3 cosa per la qual s’ha de prohibir la recollida de cloïsses en aquesta aigua.

Page 54: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Com triar la forma de la hipòtesi alternativa

La forma de la hipòtesi alternativa ha de fer-se d’acord amb l’experiment que s’està fent. Triarem una alternativa direccional si:

No té sentit una desviació en l’altra direcció.

Només ens interessa rebutjar la hipòtesi nul·la quan la desviació es dóna en un sentit.

En qualsevol cas hem d’elegir la forma de H1 sempre abansd’obtindre les dades, si no és així estarem falsejant el significat

del nivell de significativitat a del test.

Page 55: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Condicions per a la validesa dels mètodes

CONDICIONS SOBRE EL DISSENY DE L’EXPERIMENT

Ha de ser raonable considerar les dades com una mostra aleatòria d’una població gran.

Les observacions han de ser independents.

CONDICIONS SOBRE LA DISTRIBUCIÓ DE LA POBLACIÓ

Si n és menuda (n<30), la distribució de la població ha de ser aproximadament normal.

Si n és gran (n30), encara que la distribució de la població no siga normal. Tant la construcció dels Intervals de Confiança com les resolucions dels Contrasts d’Hipòtesis són vàlides.

TANT EN LA CONSTRUCCIÓ D’INTERVALS DE CONFIANÇA COM ENELS CONTRASTS D’HIPÒTESIS HEM DE CONSIDERAR LESCONDICIONS SEGÜENTS:

Page 56: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Comportament dels mètodes segons població

Població 1

Població 3

Població 2

La Població 1 és Normal.

La Població 2 és asimètrica (bastant allunyada de la Normal).

La Població 3 té dues modes (molt allunyada de la Normal).

Veure la discussió sobrenormalitat de la mitjanamostral en aquest tema(diap. 5-7).

Page 57: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Comportament dels mètodes segons n

El mateix passaria amb el contrast d’hipòtesis. El nivell de significativitat no seria realment el que proposem en el contrast.

Grandària mostral

2 4 8 16 32 64 Molt gran

Població 1 0,95 0,95 0,95 0,95 0,95 0,95 0,95

Població 2 0,94 0,93 0,94 0,94 0,95 0,95 0,95

Població 3 0,87 0,53 0,57 0,80 0,88 0,92 0,95

Interval de Confiança al 95%

Grandària mostral

2 4 8 16 32 64 Molt gran

Població 1 0,99 0,99 0,99 0,99 0,99 0,99 0,99

Població 2 0,99 0,98 0,98 0,98 0,99 0,99 0,99

Població 3 0,97 0,82 0,60 0,81 0,93 0,96 0,99

Interval de Confiança al 99%

Page 58: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Inferència per a una proporcióConsiderem una variable dicotòmica que pren el valor 1 si apareix certa característica i 0 en altre cas.La població queda restringida a una col·lecció de 0s i 1s. El que ens interessa és fer inferència sobre p (la proporció d’individus en la població amb eixa característica.

Per a fixar idees p podria ser la proporció de conductors que necessita ulleres per a conduir.

11

111

1

11

1

1

11

1

1

11

1

11

00 0

0 0

0

0

0

00

0

00

0

0

0

00

0

0

0

0 0

00

0

00

00

00

00

0

0

0

MOSTRA

011011 100 0 0

000

1

POBLACIÓ DE CONDUCTORS

1=Necessita ulleres

0=No necessita.

Volem estimar p (proporció poblacional)

Sabem que X=nombre de conductors que necessita ulleres en la mostra, té la distribució Bi(n,p).

ˆConsiderem l'estimador (proporció mostral).X

pn

Pel Teorema del Límit Central quan n és gran i

0.1 ≤ p ≤ 0.9 aleshores X≈N(np,(npq)1/2)

Això significa que i tipificant (0ˆ ),ˆ

,1p p

Z Npq

n

pqp N p

n

Page 59: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Interval de Confiança per a una proporció

L’interval de confiança al 100(1a)% per a una proporció poblacional p es construeix:

Per exemple z0.05 = 1.96. Es pot buscar també en les taules de la t amb infinits g.l.

Els IC’s amb altres confiances (90%, 99%, etc.) es construeixen de forma similar,utilitzant els valors crítics corresponents de la distribució normal estàndard.

és el valor crític de dues cues de la N(0,1)

que deixa una probabilitat en cada cua.2

za

aˆ és la proporció mostral.

ˆ ˆ1

p

q p

Com aquest és un càlcul aproximat del vertader interval de confiança, és recomanable utilitzar-lo només quan la grandària mostral és “suficientment” gran fent ús de la taula.

ˆ ˆˆ

pqp z

na

Page 60: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Contrast d’hipòtesis per a una proporció

Per a fer contrasts sobre una proporció poblacional, el procés és idèntic a l’utilitzat per a contrastar la mitjana d’una població.

Tenim tres contrasts possibles:

ˆ ˆs

p pp

pq

n

0 0 0 0

1 0 1

0 0

0 01

: :( ) ( )

:( )

: : :

H p p H p pII III

H

H p pI

H p p H p pp p

L’estadístic que utilitzarem és

Considerant les grandàries mostrals de la diapositiva anterior, podem dir quan la distribució nul·la de l’estadístic del contrast ps és aproximadament N(0,1). Amb aquesta distribució podríem calcular el P-valor associat per a veure quina decisió es pren. Finalment, si la hipòtesi alternativa fóra unidireccional el procés és idèntic al que hem vist en el test t.

Page 61: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Contrast d’hipòtesis per a una proporció

0,043 0,032,22

0,043 0,957

1200

sp

El càlcul de l’estadístic dóna: Com la grandària mostral és suficientment gran (n=1200) per a la proporció mostral hallada, podem dir que la distribució nul·la de l’estadístic del contrast és aproximadament N(0,1).

Mirant les taules de la Normal estàndard vegem que el valor P associat és : 0,02 < P < 0,05. Per tant Rebutgem la Hipòtesi Nul·la i concluim que la proporció d’esquerrans és significativament major ara que fa 10 anys.

Exemple 7.8: En una gran població el 3% eren esquerrans fa 10 anys. En un estudi

per a veure si eixa proporció ha canviat s’ha agafat una mostra de 1200 individus dels quals 52 són esquerrans. Hi ha evidència per a pensar que la proporció d’esquerrans en la població ha canviat? Calcular un interval de confiança al 95% per a la proporció d’esquerrans en la població.

On p és la proporció d’esquerrans en la població i p0=0.03 la proporció fa 10 anys.

Tenim n=1200 i 52 esquerrans, això dona una proporció mostral de 0,043 esquerrans.

0

1

: 0,03

: 0,03

H p

H p

Plantegem el contrast

Càlcul de l’interval de confiança al 95%

0,043 0,9570,043 1,96 0,043 0,011 [0.032,0.054]

1200

Page 62: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Tests de Normalitat

CRITERIS BASATS EN LA FORMA DE LA DISTRIBUCIÓ

Pràcticament el 100% dels valors de la mostra han d’estar entre la mitjana mostral i 3 desviacions típiques mostrals. La distribució mostral ha de ser bastant simètrica. L’asimetria en valor absolut ha de ser menor que el doble del seu error estàndard. La distribució ha de ser mesocúrtica. La curtosi, en valor absolut ha de ser menor que el doble del seu error estàndard.

Com hem vist, la normalitat de la població mostrejada sol ser important sobretot quan la mostra és xicoteta (n<30).

Hi ha criteris per a veure si una mostra procedeix o no d’una població normal

CRITERIS BASATS EN CONTRASTS D’HIPÒTESIS

H0: La distribució d’on venen les dades és normal.

H1: La distribució d’on venen les dades no és normal.

Els tests més importants per a contrastar les hipòtesis anteriors són el de Kolmogorov-Smirnov i el de Shapiro-Wilk. Com és habitual No rebutjar H0 no significa que la distribució siga normal, però s’accepta així com els mètodes basats en aquesta assumpció. Si H0 es rebutja, no serien aplicables els mètodes anteriors per a mostres xicotetes.

Page 63: TEMES 7 i 8 Inferència Estadísticamontes/NHD/teoria/Tema7-8_val.pdfEstadística-Grau de Nutrició Humana i Dietètica. Temes 7 i 8 Diverses mostres aleatòries d’una mateixa població,

Estadística-Grau de Nutrició

Humana i Dietètica. Temes 7 i 8

Tests de Normalitat (cont)

Exemple 7.9: S’han obtingut les mides dels pams drets, en cm, d’un grup de 25

estudiants. Es pot acceptar que venen d’una població normal?

19 20 20 22,5 21 22,3 22 19 21 22,3 18,6 16 18,6 15 19 21,4 15 17 18 16,5 23 20 18 20 18

Amb ajuda del SPSS obtenim

Criteris de forma

19,33 - 32,32 =12,38 < mínim (SI)

19,33 +32,32 =26,27 >Màxim (SI)

0,25 < 20,46 (SI)

0,71 < 20,90 (SI)

Per tant passa el test dels criteris de forma.

Kolmogorov-Smirnov dóna un valor P > 0,20

Shapiro-Wilk dóna un valor P = 0,417

En ambdós casos No Rebutgem la Normalitat