TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El...

22
TEMA 10 Anàlisi de dades categòriques Estadística. Grau de Nutrició Humana i Dietètica. Tema 10 Dep. Estadística i Inv. Operativa Univ. de València

Transcript of TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El...

Page 1: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

TEMA 10

Anàlisi de dades categòriques

Estadística. Grau de Nutrició

Humana i Dietètica. Tema 10

Dep. Estadística i Inv. Operativa

Univ. de València

Page 2: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Variables i dades categòriquesFins ara ens hem ocupat fonamentalment del tractament de variablesquantitatives. En el Tema 8 ens ocuparem de l' inferència d’una proporció, ons’estudia el cas d’una variable dicotòmica. En aquest tema introduiremmètodes per a l’estudi de variables categòriques, és a dir aquelles que prenendos o més valors qualitatius o categories.

Si X és una variable categòrica, cadascun dels seus valors representa una deles categories que els individus de la població poden prendre.

Exemples

X = “grup sanguini (sense Rh)”, aleshores X pot prendre els valors{A,B,AB,O};

Y = “color dels ulls”, aleshores Y pot prendre els valors {negre, marró, blau,verd} o simplement {clar, fosc}, depèn del nivell de detall que ens interessa.

• Les variables amb només dues categories s’anomenen dicotòmiques.

• Una variable categòrica queda completament caracteritzada per laproporció de totes les seues categories.

Page 3: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemples

EXEMPLE 10.1: VACUNA CONTRA L’ÀNTRAX

EXEMPLE 10.2: TRACTAMENT DE L’ANGINA DE PITEn un estudi per avaluar l’efectivitat de la droga Timolol per a prevenir els atacsd’angina de pit, es tria a l’atzar a un grup de malalts als quals se’ls administradurant 28 setmanes una dosi de Timolol. A la resta dels malalts, se’ls administraun placebo. La proporció dels pacients que milloren amb Timolol éssignificativament millor que els que prenen un placebo?

TRACTAMENT

RESPOSTA Vacunats No vacunats

Morts d’àntrax 0 24

Supervivents 24 0

Total 24 24

% supervivents 100 % 0%

Són les dades presentades per Pasteur suficientment convincents?Què passaria si les dades no foren tan evidents?

Page 4: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Taules de contingència

Les taules de contingència apareixen en les següients situacions:

• Volem esbrinar si una determinada característica (variable categòrica) té lamateixa distribució en diverses poblacions (Homogeneïtat).

• Volem saber si dues característiques diferents (dues variables categòriques)estan relacionades entre sí, o són independents (Independència).

Exemple 10.1: VACUNA CONTRA L’ÀNTRAX

En 1881 Louis Pasteur va realitzar un famós experiment per demostrar l’efecte de la seua vacuna contra l’àntrax.

TRACTAMENT

RESPOSTA Vacunats No vacunats

Morts d’àntrax 0 24

Supervivents 24 0

Total 24 24

% supervivents 100 % 0%

Població 1: Ovelles vacunades.Població 2: Ovelles no vacunades.

Variable categòrica: {Mor, No mor}

H0: Les morts es donen per igual en les dues poblacions.H1: Les morts són menors entre les ovelles vacunades.

Page 5: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

24 24 48

151 1 13.55 10 0.00000000000000355

2 2 2

El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja quel’experiment s’ha fet amb un total de 48 ratolins.No sempre les coses estan tan clares, potser que la mostra siga més xicotetao potser les dades no siguen tan extremes.

Taules de contingència

H0: Les morts es donen per igual en les dues poblacions.H1: Les morts són menors entre les ovelles vacunades.

Quina credibilitat té H0 davant de les dades observades?

Si H0 fóra certa tindríem una probabilitat de 0,5 de morir o sobreviure. Això equival a llançar una moneda 24 vegades i obtindre 24 cares, tant en la columna Vacunats com en la columna No vacunats.

Açó és el valor P del contrast plantejat.

Page 6: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Taules de contingènciaExemple 10.2: TRACTAMENT DE L’ANGINA DE PIT

En un estudi per avaluar l’efectivitat de la droga Timolol per a prevenir els atacs d’angina de pit, es tria a l’atzar a un grup de malalts als quals se’ls administra durant 28 setmanes una dosi de Timolol. A la resta dels malalts,

se’ls administrà un placebo. S’obtingueren els següents resultats:

Timolol Placebo TOTAL

Sense atacs 44 19 63

Amb atacs 116 128 244

TOTAL 160 147 307

Aquest exemple no és tan clar com l’anterior, tenim pacients què amb el tractament de Timolol continuen tenint atacs i també hi ha pacients que prenint un placebo no han tingut atacs.

Page 7: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Taules de contingència

Població 1: Pacients tractats amb Timolol.Població 2: Pacients tractats amb un placebo.

H0: Els atacs es donen per igual en els dos tipus de pacients.H1: Els atacs no es donen per igual en els dos tipus de pacients.

Dels pacients que reberen Timolol, el 27,5% estigué lliure d’atacs.

44(sense atacs | Timolol) 0,275

160freq

19(sense atacs | placebo) 0,129

147freq

Variable categòrica

{Té atacs, No té atacs}

Plantegem el següent contrast

Dels pacients que reberen un placebo, el 12,9% estigué lliure d’atacs.

Si H0 és certa, estimaríem laprobabilitat de no patir atacs com:

# pacients sense atacs 630,205

# total de pacients 307

Page 8: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Taules de contingència: Freqüències esperades

Aleshores, si H0 és certa, d’un total de 160 pacients que han pres Timolol hauríem d’esperar que, aproximadament un 20,5% estigueren lliures d’atacs.

0freq_esperada(Timolol i Sense atacs | H certa)=160 0,205

63 160 (Total fila 1) (Total columna 1)32,83

307 Total general

(Total fila i) (Total columna j)e

Total generalij

La freqüència esperada eij de la cel·la (i,j) de la taula de contingència es calcula

11

12

21

22

63 16032,83

307

63 14730,17

307

244 160127,17

307

244 147116,83

307

e

e

e

e

eijTimolol Placebo

Sense atacs 32,83 30,17

Amb atacs 127,17 116,83

Freqüències esperades(Si la hipòtesi nul·la és certa)

Proporció de pacients lliuresd’atacs si H0 és certa: 0,205

Page 9: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Taules de contingència: Test Xi-quadrat

Una vegada calculades les freqüències esperades, suposant que la hipòtesi nul·la és certa, cal comparar-les amb les freqüències observades (taula inicial de contingència).

El test Xi-quadrat es basa en aquestes discrepàncies entre freqüències observades i esperades.

22 ( )s

O E

E

Estadístic del test

La distribució nul·la de l’estadístic és una Xi-quadrat amb 1 grau de llibertat.

(la suma s’estén a totes les cel·les de la taula)

O: freqüència observada en cada cel·la.E: freqüència esperada en cada cel·la.

Com més “gran” és el valor de l’estadístic més incompatibles són les dades

observades amb la hipòtesi nul·la.

Page 10: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

La distribució Xi-quadrat i valor P

2

s

P = )( 22

sP

Exemple: Xi-quadrat amb gl = 2

2( 3,22) 0,20PSegons la taula, si tenim2 3,22s

(Valor P)

Valor P (àrea de la cua dreta)

Usualment el valor de l’estadístic no coincidirà amb cap valor de la Xi-quadrati haurem de procedir igual que amb la taula t per a encaixar el valor P entredos valors.

Exemple: Xi-quadrat amb gl = 24 Si tenim 0,02< P < 0,052 38,228s

Si tenim P < 0,00012 81,330s

Page 11: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.2 (cont.)

En l’exemple 10.2 comparàvem el nou medicament Timolol vs. un Placeboper a reduir els atacs d’angina de pit.

2 2 2 22 (44 32,83) (116 127,17) (19 30,17) (128 116,83)

9,9832,83 127,17 30,17 116,83

s

eijTimolol Placebo

Sense atacs 32,83 30,17

Amb atacs 127,17 116,83

oijTimolol Placebo TOTAL

Sense atacs 44 19 63

Amb atacs 116 128 244

TOTAL 160 147 307

Freq. esperadesFreq. observades

Buscant en la taula Xi-quadrat amb 1 gl, obtenim 0,001 < P < 0,01

Com P < = 0,05 Rebutgem H0

Notem que el nombre observat de pacients sense atacs és 44, mentre que el nombre esperat (suposant H0 certa) era menor: 32,83.

Com rebutgem H0 i el comentari anterior, podem concloure que: Els pacients tractats amb Timolol tenen una probabilitat menor de patir atacs que els tractats amb un Placebo.

Page 12: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.2 amb SPSSCreem l’arxiu Timolol :

Ponderem els casos per la variable “frecuencia”

(Datos / Ponderar casos)

I ara amb Estadísticos Descriptivos / Tablas de contingencia

44freq(sense atacs | timolol) = = 0,275

160

19freq(sense atacs | placebo) = = 0,129

147

63freq(sense atacs | total) = = 0 ,205

307

116freq(timolol | amb atacs) = = 0,475

244

44freq(timolol | sense atacs) = = 0,698

63

160freq(timolol | total) = = 0 ,521

307

Càlculs a mà

Page 13: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.2 amb SPSS (cont.)

0,002 = P < = 0,05 Rebutgem H0

H0: Els atacs es donen per igual en els dos tipus de pacients. (els que prenen Timolol i els que prenen placebo).H1: Els atacs no es donen per igual en els dos tipus de pacients.

Conclusió: El Timolol redueixsignificativament la probabilitat de patirangina de pit.

19freq(sense atacs | placebo) = = 0,129

147

44freq(sense atacs | timolol) = = 0,275

160

Page 14: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.3 Ceguera al color i gènere

En un estudi recent sobre el daltonisme, un grup d’investigadors examinà a

un gran nombre d’escolars noruecs obtenint-ne els següents resultats:

Xiquets Xiquetes TOTAL

Daltònics 725 40 765

No Daltònics 8324 9032 17356

TOTAL 9049 9072 18121

El 8,0% dels xiquets són daltònics (proporció 725/9049). El 0,44% de les xiquetes son daltòniques (proporció 40/9072).

Demostren aquestes dades que és major la probabilitat de ser daltònic si se és mascle que si se és femella?

Està relacionat el daltonisme amb el sexe?

Són independents daltonisme i sexe?

Page 15: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.3 Ceguera al color i gènere (cont.)

H0: El daltonisme és independent del sexe

H1: El daltonisme està relacionat amb el sexe

2 642,2s gl = 1

P = 0,000 < = 0,05

Rebutgem H0

Comparant freqüències:La proporció de daltònics és significativament major en els xiquets que en les xiquetes.

Comprovar manualment que el valor de l’estadístic és 642,219.

Page 16: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Taules de contingència r k

En els exemples anteriors sempre hem considerat taules de contingència

amb 2 files i 2 columnes. De vegades es vol contrastar una situació més

complexa on hi ha r files i k columnes.

Variable categòrica o

k-mostres

B1 B2 ····· Bk

Va

riab

le Ca

tegò

rica

A1 O11 O12 ····· O1k

A2 O21 O22 ····· O2k

····· ····· ····· ·····

Ar Or1 Or2 ····· Ork

Columnes: variable amb k categories o k mostres.Files: variable amb r categories.

Generalització de les taules 2x2 a r files i k columnes.

Observacions

Page 17: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Test Chi-2: Taules de contingència r x k

rkrr

k

k

H

21

22221

11211

0 :

kjriBAP jiij ,,1,,1)|(

global total

columna total fila total jiEij

Freqüències esperades

Estadístic

ij ij

ijij

sE

EO 2

2)(

1 0: Alguna igualtat de s'incumpleixH H

valor-P: S’obté amb les taules de la 2 amb (r-1)(k-1) g.l.H1 només potser ser unilateral si r=k=2

Probabilitats condicionades si el contrast és d’independència/associació.Frequències/proporcions en el cas d’homogeneïtat.

OBSERVEM QUE QUAN r=k=2, la distribució és una 2 amb 1 g.l.

Page 18: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.4 Distribució del tipus de sang

La següent taula mostra la distribució observada dels tipus sanguinis de 3 mostres d’afroamericans procedents de 3 estats diferents d’Amèrica del Nord.

Florida Iowa Missouri TOTAL

A 122 1781 353 2256

B 117 1351 269 1737

AB 19 289 60 368

0 244 3301 713 4258

TOTAL 502 6722 1395 8619

La distribució dels tipus de sang és la mateixa en els tres estats?

H0: La distribució dels tipus de sang és la mateixa en els tres estats.H1: Hi ha diferències en la distribució dels tipus de sang en els tres estats.

En aquesta ocasió no es proposa la independència entre dues variables,sinó l’equidistribució d’una única variable en diverses poblacions. En aquestcas el test s’anomena d’homogeneïtat, en l’exemple 10.3 d’independència.Les conclusions són diferents però les operacions són idèntiques.

Page 19: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.4 Resolució manual

Florida Iowa Missouri TOTAL

A 122 (131,4) 1781 (1759,5) 353 (365,1) 2256

B 117 (101,2) 1351 (1354,7) 269 (281,1) 1737

AB 19 (21,4) 289 (287,0) 60 (59,6) 368

0 244 (248,0) 3301 (3320,8) 713 (689,2) 4258

TOTAL 502 6722 1395 8619

Freqüències observades (esperades)

22 ( )

5,651s

O E

E

Obtenim: 0,4 < P < 0,5 No Rebutgem H0

Conclusió: Les dades són compatibles amb la hipòtesi que la distribució dels tipus sanguinis és la mateixa en els tres estats.

Busquem en la taula Xi-quadratamb gl = (4-1)×(3-1) = 6.

Page 20: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.4 Resolució amb SPSS (1)

Per cada cel·la cal entrar la parella de valors que la caracteritza amb la seua freqüència.

Page 21: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Exemple 10.4 Resolució amb SPSS (2)

22 ( )

5,651s

O E

EP = 0,463 No Rebutgem H0

No hi ha evidència estadística suficient per a afirmar que els tipus de sang es distribueixen de forma diferent en els tres estats considerats.

Page 22: TEMA 10 - UV · Humana i Dietètica. Tema 10 24 24 48 1 1 1 3.55 10 0.0000000000000035515 2 2 2 El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja que l’experiments’hafet

Estadística. Grau de Nurició

Humana i Dietètica. Tema 10

Condicions d’aplicabilitat

Condicions sobre el disseny de l’experiment

L’experiment ha de ser d’un dels dos tipus següents:

• Dues o més mostres aleatòries, observades respecte a una variable categòrica (Test d’homogeneïtat).• Una mostra aleatòria, observada respecte de dues variables categòriques (Test d’independència).

Condicions sobre la grandària de la mostra

• Mostra suficientment gran. • Totes les cel·les (llevat un 20% com a màxim) han de tindre freqüències esperades majors o iguals a 5.• Cap cel·la ha de tindre freqüència esperada 0.