Pràctica 3 ANÀLISI D’UNA MOSTRA - Universitat de …Pràctica 3.Anàlisi d‟una mostra 3...

16
Pràctica 3 ANÀLISI D’UNA MOSTRA Objectius: En aquesta pràctica utilitzarem el programa SPSS per a il·lustrar l‟anàlisi duna mostra d‟una variable numèrica: estimació puntual, càlcul dintervals de confiança i contrasts d‟hipòtesis. Així mateix, es planteja la comprovació de les condicions necessàries per a l‟aplicació de la prova t. Índex: 1. Construcció d‟intervals de confiança sobre la mitjana poblacional. 2. Simulació d‟un mostreig aleatori. 3. Interpretació dels intervals de confiança. 4. Resolució de contrasts d‟hipòtesis sobre la mitjana poblacional: Test t. Significativitat. Proves de normalitat.

Transcript of Pràctica 3 ANÀLISI D’UNA MOSTRA - Universitat de …Pràctica 3.Anàlisi d‟una mostra 3...

Pràctica 3

ANÀLISI

D’UNA MOSTRA

Objectius:

En aquesta pràctica utilitzarem el programa SPSS per a il·lustrar l‟anàlisi d‟una mostra

d‟una variable numèrica: estimació puntual, càlcul d‟intervals de confiança i contrasts

d‟hipòtesis. Així mateix, es planteja la comprovació de les condicions necessàries per a

l‟aplicació de la prova t.

Índex:

1. Construcció d‟intervals de confiança sobre la mitjana poblacional.

2. Simulació d‟un mostreig aleatori.

3. Interpretació dels intervals de confiança.

4. Resolució de contrasts d‟hipòtesis sobre la mitjana poblacional: Test t.

Significativitat. Proves de normalitat.

Pràctica 3. Anàlisi d‟una mostra 2

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

1. Construcció d’intervals de confiança sobre la mitjana poblacional.

Per conveniència, suposarem que les dades que apareixen en aquest apartat procedeixen

d‟una població normal.

1.1 Un exemple amb una mostra

Suposem que la col·lecció de 100 cercles que es presenta en el full adjunt representa

una població natural del mític organisme C. Ellipticus. Els cercles tenen números

d‟identificació 00, 01, 02,...., 98, 99 per conveniència en el mostreig. Alguns individus

de C. Ellipticus són mutants i són més foscos.

Anem a utilitzar aquesta "població" per a simular la recollida de dades en un

experiment, estudiar la relació entre mostra i població i interpretar les propietats dels

intervals de confiança i del contrast d‟hipòtesis.

Exercici 1:

a. Seleccionar una mostra aleatòria de grandària 5 de la població de C. Ellipticus i

mesurar els seus diàmetres en mm.

b. Calcular la mitjana i la variància de la mostra obtinguda.

c. Comparar els estadístics obtinguts en l‟apartat b) amb els que han obtingut els

vostres companys.

1. 2 Intervals de confiança

Evidentment, en altres estudis no coneixerem el valor de la mitjana poblacional.

Tanmateix, en aquest exercici sabem que µ = 11. Això ens permetrà saber amb

seguretat si els intervals de confiança que calculem contenen o no el vertader valor de

µ. Per als pròxims càlculs necessitarem els valors crítics de la t amb 4 graus de

llibertat, t0.05 = 2.776 i t0.20=1.533.

Recordem que la fórmula per a construir un interval de confiança per a la mitjana

poblacional al 95% és:

0.05

sx t

n

Pràctica 3. Anàlisi d‟una mostra 3

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Exercici 2:

a. Construir un interval de confiança del 95% per a µ a partir de la mostra obtinguda

en l‟exercici 1. Anàlogament per al 80%.

b. Considerant tots els intervals de confiança del 95% construïts pels vostres

companys, calcular la proporció d‟ells que contenen el vertader valor de µ (11 mm).

c. Fer el mateix amb els intervals del 80%. Són els resultats obtinguts els que hauríem

d‟esperar donat el nivell de confiança utilitzat en cada cas?

Recordar que en un estudi real no sabem quin és el vertader valor de µ i per tant mai estarem completament segurs de si l‟interval de confiança que hem obtingut conté o no

aquest valor. Solament podem esperar que el continga amb major o menor confiança.

2. Simulació d’un mostreig aleatori.

Considerem ara la simulació d‟una mostra d‟una població amb distribució coneguda,

però de la qual no disposem de banc de dades. Per exemple, d‟una població amb

distribució Normal de mitjana 20 i desviació típica 5.

En primer lloc, necessitem crear un nou banc de dades (Archivo/Nuevo/Datos), al qual

podem anomenar Simul-Normal.

Per a poder simular una mostra necessitem tindre una columna inicial de dades que

indique el nombre de casos de l‟arxiu, per exemple 100 casos. Per a fer això, basta amb

escriure el valor 1 (per exemple) en les 100 primeres caselles de la primera columna.

Una manera senzilla de fer-lo seria: escriure un 1 en la primera casella de la primera

columna, copiar aquest valor (amb la casella de la dada seleccionada triem

Edición/Copiar) i reproduir-lo en les caselles de la 2 a la 100.(una vegada

seleccionades les caselles de 2 a 100, triem Edición/Pegar). D‟aquesta manera

obtindrem una primera columna de 100 casos tots amb valor 1.

Ara, per a no generar les mateixes mostres en cada ordinador utilitzarem una opció del

programa que inicialitza una seqüència aleatòria de números aleatoris. Després d‟activar

Transformar/Generadores de números aleatorios obtenim el següent quadre on

acceptem l‟opció que apareix en el quadre.

Pràctica 3. Anàlisi d‟una mostra 4

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Ara pots guardar el fitxer amb el nom Simul-Normal.sav i, a continuació, ja podem

començar a simular mostres.

Seleccionem Transformar/Calcular i ens apareix la finestra de calcular variables.

En el camp Variable de destino, escrivim m1 com a nom de la variable que anem a

crear (mostra 1). De la llista de funcions que ens ofereix el SPSS, seleccionem

RV.NORMAL(media,desv_típ) i, amb la fletxa la situem en el camp Expresión

numérica.

Veiem que en les posicions de la “media” i “desv_típ” apareixen uns interrogants, que

substituirem pels valors de la mitjana i la desviació típica de la distribució Normal de la

qual pretenem simular una mostra, en aquest cas, 20, 5.

Després d‟acceptar, SPSS genera una mostra que afegeix en la primera columna lliure

de l‟editor de dades.

Exercici 3:

a. Genera 10 mostres (m1 a m10) de grandària 100 de la distribució N(µ=20, σ=5).

Observa que totes són diferents

b. Crea una nova variable, amb nom „mitjanes’, que calcule la mitjana aritmètica de

les 10 variables que has creat abans (m1 a m10).

Recorda: Transformar/Calcular Variable

Variable destino: mitjanes

Expresión Numérica: mean(m1,m2,m3,m4,m5,m6,m7,m8,m9,m10)

c. Grava les variables que has creat (en Simul-Normal.sav).

Pràctica 3. Anàlisi d‟una mostra 5

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

En aquest moment, tindràs en l‟editor de dades 12 columnes. Les columnes 2ª a 11ª

contenen un total de 1000 valors aleatoris de la N( 20, 5):

si els considerem per columnes, tenim 10 mostres de grandària 100 d‟aquesta

distribució N( 20, 5), però

si els considerem per files, tenim 100 mostres de grandària 10 d‟aquesta

mateixa distribució N( 20, 5).

Considerem les 100 mostres de grandària 10. Al calcular la variable mitjanes, hem

obtingut 100 valors de la 10X , és a dir de la mitjana mostral de mostres de grandària 10

d‟una població N( 20, 5).

2.1 Càlcul dels estadístics

Anem a veure que les 11 columnes m1, m2,...,m10 i mitjanes representen mostres

aleatòries de grandària 100, les 10 primeres d‟una variable X amb distribució N( 20,

5), i la darrera d‟una 10X amb distribució 5

20, (20,1.58)10

N N .

Exercici 4:

Calcula els estadístics descriptius de les variables generades: m1, m2, m3, m4, m5,

m6, m7, m8, m9, m10 i mitjanes, usant el procediment:

Analizar/ Estadísticos Descriptivos/ Descriptivos.

Entra en Opciones i inclou també el càlcul de Amplitudes (rangs).

Compara els rangs de cada mostra, les seues mitjanes mostrals i les seues desviacions

típiques. Observes alguna variable amb comportament diferent a la resta? Com ho

explicaries? A què és degut?

Realitza un histograma de les 11 variables, usant el procediment:

Analizar/ Estadísticos Descriptivos/Explorar

Dependientes: les variables m1,...,m10 i mitjanes

Mostrar només gràfiques i dins de gràfiques, només els histogrames.

Edita l‟histograma de mitjanes, demana 25 intervals i que es veja des del 5 fins el 35.

Observa on està centrat cada histograma (en l‟eix d‟abscisses), on estan situades les

observacions més allunyades de la mitjana, quina forma té cada histograma. Quina

relació guarden amb les distribucions N(µ=20, σ=5) i N((µ=20, σ=1.58)?

Realitza un diagrama de caixes de les 11 variables juntes, usant el procediment:

Analizar/ Estadísticos Descriptivos/Explorar

Dependientes: les variables m1,...,m10 i mitjanes

Mostrar només gràfiques i dins de gràfiques: Dependientes juntas. Llevar els

diagrames de tija i fulles.

Interpreta els resultats.

Pràctica 3. Anàlisi d‟una mostra 6

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Possiblement, els resultats que mostrem a continuació no coincidisquen amb els que

tens al teu ordinador ni amb els dels teus companys, recorda que això és degut a que les

mostres que hem generat són aleatòries. El que si coincidiran és amb els trets generals.

Estadísticos descriptivos

N Rango Mínimo Máximo Media Desv. típ.

m1 100 19,55 11,11 30,67 20,4325 4,27080

m2 100 20,71 9,53 30,25 20,7238 4,58012

m3 100 21,69 8,36 30,05 20,3797 4,72836

m4 100 24,24 8,70 32,93 19,3368 4,94572

m5 100 25,65 5,25 30,91 19,5082 4,63938

m6 100 29,42 2,05 31,47 20,7826 5,60584

m7 100 30,53 6,77 37,30 20,0463 5,25931

m8 100 23,60 8,08 31,68 20,1092 4,87943

m9 100 27,85 4,47 32,32 19,3978 5,41475

m10 100 24,44 10,19 34,63 20,2152 4,99734

mitjanes 100 8,60 15,90 24,50 20,0932 1,79764

Taula 3.1:Resultats per a 10 variables N(20,5) i una N(20,1.58)

Pràctica 3. Anàlisi d‟una mostra 7

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Exercici 5:

Considera ara una població que segueix una distribució Bernoulli amb p = 0.5.

X pot agafar els valors 1 (èxit) i 0 (fracàs) sent P(X=1) = 0.5

Obri un nou arxiu de dades.

a. Genera 10 mostres (m1 a m10) de grandària 100 de la distribució Bernoulli (0.5) Per

a fer-ho, segueix les instruccions del principi d‟aquest apartat, però seleccionant

RV.BERNOULLI(p) amb p= 0.5 en el camp Expresión numérica.

Guarda aquestes dades en un fitxer anomenat Simul-Bernoulli.sav.

b. Crea una nova variable, amb nom mitjanes, que calcule la mitjana aritmètica de les

10 variables que has creat abans (m1 a m10).

Guarda el fitxer Simul-Bernoulli.sav.

c. Quins valors observes en cadascuna de les mostres? A què és degut?

d. Calcula els estadístics descriptius de les variables generades: m1, m2, m3, m4, m5,

m6, m7, m8, m9, m10 i Mitjanes (com en l‟Exercici 3, apartat a).

e. Compara els rangs de cada mostra, les seues mitjanes mostrals i les seues desviacions

típiques. Observes alguna variable amb comportament diferent a la resta?. Com ho

explicaries?

f. Realitza un diagrama de barres de les 11 variables, usant el procediment:

Analizar/ Estadísticos Descriptivos/ Frecuencias

No mostrar taules de freqüències

Gráficos: diagramas de barras

Observa els possibles valors i les seues freqüències. Què pots deduir? Et suggereix

alguna cosa especial la forma que observes en el diagrama de barres de la variable

mitjanes?

3. Interpretació dels intervals de confiança

Hem vist que cada simulació de la mostra d‟una distribució Normal o Bernoulli genera

cada vegada una mostra diferent. Per eixe motiu els estadístics mitjana, desviació típica,

etc...també variaran de mostra a mostra. En particular, variaran els intervals de

confiança, ja que els seus límits depenen dels valors dels estadístics.

La interpretació d‟un interval de confiança ha de considerar-se dins del context anterior,

donat que l‟interval de confiança varia de mostra a mostra, hem de utilitzar-lo com una

estimació de la localització del paràmetre a estimar (per exemple la mitjana), però eixa

estimació no significa que la mitjana estiga dins de l‟interval de confiança i, ni tan sols

amb una probabilitat determinada. El terme confiança (en %) s‟ha d‟entendre com que

Pràctica 3. Anàlisi d‟una mostra 8

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

el % indicat representa el percentatge esperat d‟intervals de confiança que contindrien a

la mitjana poblacional.

En l‟exercici 2 hem vist com hi havia intervals de confiança que contenien al vertader

valor de la mitjana del C. Ellipticus i altres intervals que no. El que assegura el

procediment de construcció d‟un interval de confiança és que el 95%, 90%, 80%,...,

depenent de la confiança seleccionada contindran a la mitjana poblacional.

Recordar que en un estudi real no sabem quin és el vertader valor de µ i per tant mai

estarem completament segurs de si l‟interval de confiança que hem obtingut conté o no

aquest valor. Solament podem esperar que el continga amb major o menor confiança.

Exercici 6:

Amb les dades de la Taula 4.1, calcula 10 intervals de confiança al 95% associats a

cada una de les mostres m1 a m10. Compta quants intervals contenen a la vertadera

mitjana poblacional que val 20 en aquest cas.

4. Resolució de contrasts d’hipòtesis sobre la mitjana poblacional.

Exercici 7: (Resoldre’l manualment)

1. Fes el següent contrast d‟hipòtesis sobre el valor de la mitjana poblacional utilitzant

la primera mostra de l‟exercici 1: H0 : µ = 11 HA : µ ≠ 11:

a. Utilitzar = 0.05

b. Utilitzar = 0.20

Quina relació hi ha entre els resultats obtinguts en els dos contrasts anteriors i el fet que

els intervals de confiança de l‟exercici 1. a) continguen o no el valor 11?

2. Si en lloc d‟observar si el valor 11 pertany o no als intervals de confiança ens fixem

en si contenen o no el valor 8, quin contrast d‟hipòtesis plantejaries?

3. Suposem que un expert en C. Ellipticus assegura que el diàmetre mitjà d‟aquest

organisme és 13 mm. Utilitzar un test t de dues cues per a contrastar aquesta afirmació:

H0 : µ = 13 HA : µ ≠ 13

a. Utilitzar = 0.05

b. Utilitzar = 0.20

c. Tenint en compte que sabem que µ = 11, és equivocada la conclusió a la

qual arribem amb el test?

4. Tenint en compte els resultats obtinguts pels vostres companys en els apartats

anteriors, per a cada valor de

a. Calcular la proporció de vegades en que es produeix un resultat erroni.

b. Quina és la proporció de vegades en que s‟ha produït un error de tipus I?

Té aquesta proporció alguna relació amb el valor ? Quina és la

proporció de vegades que s‟ha produït un error de tipus II? Com

valoraries la potència del test?

Pràctica 3. Anàlisi d‟una mostra 9

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

4.1 Test t. Significativitat

En aquest apartat descrivim l‟ús del SPSS per a l‟anàlisi d‟una mostra mitjançant

l‟obtenció d‟intervals de confiança per a la mitjana i la resolució de contrasts d‟hipòtesis

del tipus:

0

00

:

:

AH

H

Una vegada obert un banc de dades, per exemple GLUCOSA, podem invocar el

procediment Prueba T para una muestra, triant el menú Analizar / Comparar

medias / Prueba T para una muestra, i apareix la següent pantalla:

Aquesta pantalla ens permetrà obtindre intervals de confiança i resoldre contrasts per a

les mitjanes d‟aquelles variables que situem a la finestra de Contrastar variables.

Introduïu en el quadre la variable g1antes.

El Valor de prueba ens permet introduir el valor que defineix la hipòtesi nul·la (µ0).

Per últim, si seleccionem Opciones apareix una finestra en la qual podem introduir el

coeficient (percentatge) de confiança desitjat per a l‟interval. Per defecte és del 95%.

S‟activa, doncs, el botó Aceptar, i al polsar-lo, SPSS mostra en el Visor de resultados,

sota el títol de “Estadísticos para una muestra”, la grandària de la mostra, la

mitjana, la desviació típica i l‟error estàndard de la mitjana.

sota el títol de “Prueba para una muestra”, trobem l‟estadístic del contrast (ts), els

graus de llibertat (gl), el p-valor (Sig (bilateral), la diferència de mitjanes ( 0x ) i

un interval de confiança per a la diferència µ - µ0.

Pràctica 3. Anàlisi d‟una mostra 10

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

És important tindre en compte que el p-valor que proporciona SPSS correspon sempre al

contrast bilateral o no direccional, i per això el p-valor apareix com sig (bilateral). Per

tant, si el problema que volem resoldre involucra un contrast unilateral o direccional

hem d‟adaptar el p-valor, dividint-lo per dos si fos necessari.

Construeix un interval de confiança al 95% per al valor mitjà de g1antes.

Estadísticos para una muestra

N Media Desviación típ.

Error típ. de la

media

Glucosa en sangre (mg/dl).

Tiempo 1, antes

80 73,9000 11,30878 1,26436

Prueba para una muestra

Valor de prueba = 0

t gl Sig. (bilateral)

Diferencia de

medias

95% Intervalo de confianza

para la diferencia

Inferior Superior

Glucosa en sangre

(mg/dl). Tiempo 1, antes

58,449 79 ,000 73,90000 71,3834 76,4166

Notar que:

Al no haver modificat el Valor de prueba = 0, amb els resultats de Prueba para una

muestra estem resolent el contrast:

0 :

0 :0

AH

H

el p-valor del qual és 0.000 i per tant rebutgem la hipòtesi nul·la.

L‟interval de confiança que mostra SPSS no és l‟interval de confiança per a µ

(IC0.95( )) sinó l‟interval de confiança per a la diferència – 0, IC0.95( 0). En

aquest cas, al ser 0 = 0 tenim:

IC0.95( 0) = IC0.95( ) = IC0.95( )

Pràctica 3. Anàlisi d‟una mostra 11

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Exercici 8:

a. Construeix un interval de confiança al 90%, i al 99% per al valor mitjà de g1antes.

Compara‟ls amb l‟interval obtingut anteriorment i interpreta‟ls.

b. Alguns metges opinen que el nivell esperat de glucosa en sang en el primer període

després de prendre el xarop és 75: Quina és la teua opinió al respecte?

Formular el contrast d‟hipòtesis adequat i resoldre‟l (matisant el nivell de

significativitat dels resultats (p-valor)) i també utilitza els intervals de confiança.

Exercici 9:

Podem afirmar que el nivell de glucosa esperat en el 2º període, després del xarop siga

superior a 100?

El nostre contrast seria:

100 :

100 :0

AH

H

Seleccionant la variable g2des amb un valor de prova 0 = 100 s‟obtenen els següents

resultats:

Estadísticos para una muestra

N Media Desviación típ.

Error típ. de la

media

Glucosa en sangre (mg/dl).

Tiempo 2, después

80 96,2125 24,53243 2,74281

Prueba para una muestra

Valor de prueba = 100

t gl Sig. (bilateral)

Diferencia de

medias

95% Intervalo de confianza

para la diferencia

Inferior Superior

Glucosa en sangre

(mg/dl). Tiempo 2,

después

-1,381 79 ,171 -3,78750 -9,2469 1,6719

Pràctica 3. Anàlisi d‟una mostra 12

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Observem que la mitjana mostral NO compleix la direcció marcada en la hipòtesi

alternativa ja que 96,2125 < 100. Per tant, no podem rebutjar la hipòtesi nul·la ja que les

dades no la contradiuen.

És més, com [-9,2469, 1,6719] és un interval de confiança per a - 100,

[-9,2469 + 100, 1,6719+ 100] → [90,7531, 101,6719]

confiem (95%) que el vertader valor de la mitjana poblacional, µ, estarà entre 90,7531 i

101,6719.

Exercici 10: Podem afirmar que el nivell de glucosa esperat en el tercer període,

després del xarop és inferior a 105?

El nostre contrast seria:

105 :

105 :0

AH

H

Seleccionant la variable g3des amb un valor de prova 0 = 105 s‟obtenen els següents

resultats:

Observem que la mitjana mostral compleix la direcció marcada en la hipòtesi

alternativa ja que 99,5375 < 105.

El valor de l‟estadístic ts = -1,960 té un p-valor (bilateral) associat igual a 0,053, i

per tant el p-valor del contrast que estem resolent serà 0,053/2 = 0,0275.

Per tant, si treballem amb = 0.05, podem rebutjar la hipòtesi nul·la. Les dades

aporten suficient evidència estadística com per a afirmar que el nivell mitjà de

glucosa en sang en el tercer període, després del xarop, és inferior a 105 unitats.

Pràctica 3. Anàlisi d‟una mostra 13

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Recordem que l‟objectiu era estudiar la influència del xarop dolç en el nivell de glucosa

en els diferents períodes. Si centrem l‟estudi en el primer període:

quina seria la variable d‟interès?

disposem ja d‟aquesta variable?

com la podem obtindre?

Exercici 11:

Construeix la variable g1dif com la diferència entre les g1des i g1antes del fitxer

GLUCOSA. Quin significat té g1dif? Quins són els seus valores possibles i com els

interpretes?

Lògicament el que interessa saber és si per efecte del xarop el nivell de glucosa

augmenta. Planteja el contrast d‟hipòtesis adequat per a resoldre aquesta qüestió.

Quin és el nivell de significativitat dels resultats (p-valor) corresponent al contrast

d‟hipòtesis que ens interessava? Quines conclusions obtenim?

Quin és l‟interval de confiança al 95% que s‟obté? Determina també els intervals al

90% i al 99%.

Resultats Exercici 11.

Estadísticos para una muestra

80 23,3750 27,68968 3,09580g1dif

N Media

Desviación

típ.

Error típ. de

la media

Prueba para una muestra

7,551 79 ,000 23,37500 17,2130 29,5370g1dif

t gl Sig. (bilateral)

Diferenc ia

de medias Inferior Superior

95% Intervalo de

confianza para la

diferenc ia

Valor de prueba = 0

Recordar que la prova t és vàlida sempre que la mostra siga suficientment gran

o, en cas contrari, quan la mostra procedisca d’una població amb distribució

normal. En la següent Secció veurem com comprovar si se satisfà aquesta última

condició.

Pràctica 3. Anàlisi d‟una mostra 14

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

4.2 Proves de normalitat

Quan la mostra és xicoteta una de les condicions que ha de comprovar-se abans

d‟obtindre un interval de confiança o de realitzar el test t per a contrastar una mitjana és

la de la normalitat de les observacions. Aquesta condició pot validar-se utilitzant el test

de Kolmogorov-Smirnov, els histogrames, diagrames de caixes i gràfiques Q-Q

proporcionades per les dades. En aquestes gràfiques, la distribució de les dades ha de ser

bastant simètrica i sense valors atípics.

Amb SPSS aquesta informació s‟obté a partir del menú Analizar/Estadísticos

descriptivos / Explorar.

Anem a obtindre una prova de normalitat de les dades contingudes a l‟arxiu

Notas_estad.sav. L‟obrim, i seleccionem el menú Analizar/Estadísticos descriptivos

/Explorar. Apareix la finestra següent:

En el cas d‟una mostra situem la variable a estudiar a la finestra Dependientes, i deixem

Factores en blanc. A continuació, polsem el botó Gráficos i a la nova finestra triem

l‟opció de Diagrama de cajas (Niveles de factores juntos), Histograma i activem l‟opció

de Gráficos con pruebas de normalidad.

Pràctica 3. Anàlisi d‟una mostra 15

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

Seleccionem Continuar i Aceptar. En el Visor de resultados trobem, junt amb alguns

estadístics de la variable a estudiar, la prova de Kolmogorov-Smirnov amb la correcció

de Lilliefors per a contrastar la normalitat de la distribució de la qual procedeixen les

dades (hipòtesi nul·la) i les gràfiques sol·licitades.

Exemple:

L‟arxiu Notas_estad.sav conté les notes obtingudes per 17 estudiants en un examen

d‟Estadística:

4.90, 8.10, 5.20, 6.60, 4.80, 7.10, 6.60, 7.50, 5.40, 5.30, 4.50, 5.20,

5.50, 7.90, 6.60, 5.10, 5.20

Si estudiem la normalitat d‟aquestes observacions amb SPSS veiem que el p-valor

proporcionat per la prova de Kolmogorov – Smirnov és 0.007, i això ens condueix a

rebutjar la normalitat de la distribució de la qual procedeixen les dades.

L‟asimetria observada en el diagrama de caixes i en l‟histograma reforça aquesta idea.

A més, en les gràfiques Q-Q observem que les observacions s‟allunyen de la recta que

representa la normalitat.

Pruebas de normalidad

Kolmogorov-Smirnov

a Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.

notas ,247 17 ,007 ,885 17 ,038

a. Corrección de la significación de Lilliefors

8,007,006,005,00

Notas

6

5

4

3

2

1

0

Fre

cu

en

cia

Media =5,9706Desviación típica =1,

15313N =17

Histograma

87654

Valor observado

2

0

-2

No

rma

l e

sp

era

do

Gráfico Q-Q normal de Notas

Pràctica 3. Anàlisi d‟una mostra 16

Pràctiques d‟Estadística. Graus de la Fac. de Farmàcia. Dpt. d‟Estadística i I. O.. Universitat de València

8765

Valor observado

0,50

0,25

0,00

-0,25

-0,50

Des

v. d

e n

orm

al

Gráfico Q-Q normal sin tendencias de Notas

Notas

8,00

7,00

6,00

5,00

Exercicis complementaris

1. En el fitxer Glucosa.sav, treballant amb la mostra completa (embarassades i no

embarassades)

Calcula els intervals de confiança al 90%, al 95% i al 99% per a les sis mesures de

glucosa.

Analitza la influència del xarop en els períodes 2 i 3, creant les variables g2dif i

g3dif, anàlogues a g1dif. Quines conclusions obtens?

2. Repeteix l‟exercici anterior per separat per a les embarassades i les no embarassades.

Compara els resultats obtinguts per a cada grup.