APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y...

94
Gestión Aeronáutica: Estadística Teórica Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández APLICACIONES CHI-CUADRADRO

Transcript of APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y...

Page 1: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández

APLICACIONES CHI-CUADRADRO

Page 2: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21
Page 3: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 1

Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

En estadística paramétrica se trabaja bajo el supuesto de que las poblaciones poseendistribuciones conocidas, donde cada función de distribución teórica depende de uno o másparámetros poblacionales.

Sin embargo, en muchas situaciones, es imposible especificar la forma de la distribuciónpoblacional. El proceso de obtener conclusiones directamente de las observaciones muestrales,sin formar los supuestos con respecto a la forma matemática de la distribución poblacional sellama teoría no paramétrica.

En este tema se  realizan procedimientos que no exigen ningún supuesto, o muy pocos acerca dela familia de distribuciones a la que pertenece la población, y cuyas observaciones pueden sercualitativas o bien se refieren a alguna característica que se pueda ordenar.Estos procedimientos reciben el nombre de Contrastes de hipótesis no paramétricos.

Así, uno de los objetivos es el estudio de contrates de hipótesis para determinar si unapoblación tiene una distribución teórica específica.

La técnica que introduce a estudiar esas cuestiones se llama Contraste de la Chi‐cuadrado parala Bondad de Ajuste. Una variación de este contraste se emplea para resolver los Contrastes deIndependencia. Tales contrastes pueden utilizarse para determinar si dos características estánrelacionadas o son independientes.

Por último,  se estudia otra variación del contraste de la bondad de ajuste llamado Contraste deHomogeneidad. Tal contraste se utiliza para estudiar si diferentes poblaciones, son similares (uhomogéneas) con respecto a alguna característica.

ANÁLISIS DE DATOS CATEGÓRICOS: TABLAS DE CONTINGENCIA

Las variables categóricas o cualitativas son aquellas cuyos valores son un conjunto de cualidadesno cuantificables (no numéricas) que reciben el nombre de categorías o modalidades.

CLASIFICACIÓN DE VARIABLES CATEGÓRICAS:

VARIABLES CUALITATIVAS ORDINALES: Son aquellas en las que se pueden ordenar sus distintasmodalidades. Es decir, es posible establecer relaciones de orden entre las categoría. (Ejemplo: laclase social, el nivel de estudios).

VARIABLES CUALITATIVAS NOMINALES:  Son aquellas en las que no se puede definir un ordennatural entre sus categorías. (Ejemplo: el color de los ojos, la raza, la religión).

VARIABLES CUALITATIVAS POR INTERVALO: Proceden de variables cuantitativas agrupadas enintervalos. Estas variables pueden tratarse como ordinales pero en éstas se pueden calculardistancias numéricas entre dos niveles de la escala ordinal. (Ejemplos de variables que sepueden agrupar por intervalos:  el sueldo, la edad, el nivel de presión sanguínea).

Page 4: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 2

Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández

PRINCIPALES APLICACIONES DE LA CHI‐CUADRADO

Al analizar en una población un carácter cualitativo o cuantitativo el estudio resulta muy tediosopor el gran número de elementos del que consta la población.

Generalmente, se examina una muestra tomada de la población, lo que lleva a tener una seriede datos, y ver hasta qué punto la muestra se pude considerar perteneciente a una distribuciónteórica conocida.

Siempre existirán desviaciones entre la distribución empírica u observada  y la distribuciónteórica. Se plantea la cuestión de saber si estas desviaciones son debidas al azar o al habertomado una distribución teórica inadecuada.

CONTRASTE DE BONDAD DEL AJUSTE

El objetivo del contraste de bondad del ajuste es saber si una muestra procede de una poblaciónteórica con determinada distribución de probabilidad.

Sea una población, donde se analiza un carácter X con  1 2 k(x , x , , x )  modalidades

excluyentes, denotando por  in  es el  número de elementos que presenta la modalidad  ix

(frecuencia observada de  ix ) , k

i

i 1

n n=

=∑

Por otra parte, sea  i ie n .p=  la frecuencia esperada o teórica de cada modalidad  ix

Se origina la TABLA DE CONTINGENCIA:

X 1x 2x ix kx

Frecuencia observada 1n 2n in kn

Frecuencia esperada 1e 2e ie ke

Se plantea la hipótesis nula   0

La distribución teórica representa a H :

la distribución empírica u observada⎧⎨⎩

Para un nivel de significación (o riesgo) α

Se acepta  0H :  k 2

i i 2, ( k 1 )

ii 1

estadísticoobservado estadístico

teórico(n e )

e α −=

−< χ∑ Se rechaza  0H :  

k 2i i 2

, ( k 1 )ii 1

estadísticoobservado estadístico

teórico(n e )

e α −=

−≥ χ∑

El estadístico  k 2 k 2

i i i

i ii 1 i 1

(n e ) nn

e e= =

−= −∑ ∑   (útil en el cálculo)    ‐ demostración página 43 ‐

Page 5: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 3

OBSERVACIONES DE LA APLICACIÓN

a) El test de la  2χ  se puede aplicar en situaciones donde se desea decidir si una serie de  datos(observaciones) se ajusta o no a una función teórica previamente determinada (Binomial,Poisson, Normal, etc.)

b) Es necesario que las frecuencias esperadas de las distintas modalidades no sea inferior acinco. Si alguna modalidad tiene una frecuencia esperada menor que cinco se agrupan dos o másmodalidades contiguas en una sola hasta conseguir que la frecuencia esperada sea mayor quecinco.

c) Los grados de libertad de la  2χ  dependen del número de parámetros que se necesitan hallarpara obtener las frecuencias esperadas. En este sentido, si se requieren hallar p parámetros, losgrados de libertad son  ( k p )−  si las modalidades son independientes y   ( k p 1 )− −  cuando las

modalidades son excluyentes.

TABLAS CONTIGENCIA: CONTRASTE DE DEPENDENCIA O INDEPENDENCIA

Cuando se desea comparar dos caracteres (X, Y) en una misma población que admiten lasmodalidades:  1 2 i k 1 2 j mX (x , x , , x , , x ) , Y (y , y , , y , , y ) , se toma una muestra de

tamaño n, representando por  i jn  el número de elementos de la población que presentan la

modalidad  ix  de X e  jy  de Y.

          Y   X 1y 2y jy my

k

i

i 1

n •=∑

1x 11n 12n 1jn 1mn 1n •

2x 21n 22n 2jn 2mn 2n •

ix i 1n i 2n i jn imn in •

kx k 1n k 2n k jn kmn kn •

m

j

j 1

n•=∑ 1n• 2n• jn• mn• n

Se plantea la hipótesis nula   0

No existe diferencia entre las H :

distribuciones empíricas de X e Y⎧⎨⎩

Bajo la hipótesis nula, cada frecuencia observada  i jn   ( i 1, , k ; j 1, ,m )= =   de la tabla de

contingencia  x( k m )  hay una frecuencia esperada  i j(e )  que se obtiene mediante la expresión:

xi j

i j i j

n ne p . n

n• •= =  , donde   x

i ji j

n np

n n• •=

Agrupando fecuencias observadas y esperadas en la tabla de contingencia  x( k m ) :

Page 6: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 4

          Y   X 1y 2y jy my

k

i

i 1

n •=∑

1x11n

11e12n

12e1jn

1je1mn

1me1n •

2x21n

21e22n

22e2jn

2je2mn

2me 2n •

ixi 1n

i 1ei 2n

i 2ei jn

i jeimn

imein •

kxk 1n

k 1ek 2n

k 2ek jn

k jekmn

kme kn •

m

j

j 1

n•=∑ 1n• 2n• jn• mn• n

Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exige que al menos el 80% delos valores esperados de las celdas sean mayores que 5.

Cuando esto no ocurre hay que agrupar modalidades contiguas en una sola hasta lograr que lanueva frecuencia sea mayor que cinco.

En una tabla de contingencia de  x2 2  será necesario que todas las celdas verifiquen esta

condición, si bien en la práctica suele permitirse que una de ellas tenga frecuencias esperadasligeramente por debajo de 5.

El estadístico de contraste observado:  k m 2

ij i j 2( k 1 ) . (m 1)

i ji 1 j 1

( n e )

e − −= =

−= χ∑∑  que sigue

aproximadamente una Chi‐cuadrado con  x( k 1 ) (m 1 )− −  grados de libertad.

Para un nivel de significación α  se puede contrastar la diferencia significativa entre las dosdistribuciones empíricas o la independencia de las distribuciones empíricas.

CONTRASTE DE HOMOGENEIDAD

Hipótesis nula   0H :   Las distribuciones empíricas X e Y son homogéneas

Se acepta  0H  si :    k m 2

ij i j 2, ( k 1 ) . (m 1 )

i ji 1 j 1

estadístico observadoestadístico teórico

(n e )

e α − −= =

−< χ∑∑

Page 7: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 5

Se rechaza 0H si : k m 2

ij i j 2, ( k 1 ) . (m 1 )

i ji 1 j 1

estadístico observadoestadístico teórico

(n e )

e α − −= =

−≥ χ∑∑

CONTRASTE DE INDEPENDENCIA

Hipótesis nula 0H :   Las distribuciones empíricas X e Y son independientes

Se acepta  oH  si :   k m 2

ij i j 2, ( k 1 ) . (m 1 )

i ji 1 j 1

estadístico observadoestadístico teórico

(n e )

e α − −= =

−< χ∑∑

Se rechaza  oH  si :   k m 2

ij i j 2, ( k 1 ) . (m 1 )

i ji 1 j 1

estadístico observadoestadístico teórico

(n e )

e α − −= =

−≥ χ∑∑

TABLAS CONTIGENCIA  2 x 2  y  2 x 3

Para las tablas de contingencia 2 x 2 y 2 x 3 se obtienen fórmulas sencillas de la  2χ  utilizandoúnicamente las frecuencias observadas

     Y   X 1y 2y

1x 11n 12n 1n •

2x 21n 22n 2n •

1n• 2n• n

x x x

x x x

211 22 12 212

11 2 1 2

n (n n n n )

n n n n• • • •

−χ =

Se acepta  0H  sí   2 21 , 1αχ < χ Se rechaza  0H  sí   2 2

1 , 1αχ ≥ χ

     Y   X 1y 2y 3y

1x 11n 12n 13n 1n •

2x 21n 22n 23n 2n •

1n• 2n• 3n• n

x x

2 2 2 2 2 211 12 13 21 22 232

21 1 2 3 2 1 2 3

n n n n n nn nn

n n n n n n n n• • • • • • • •

⎡ ⎤ ⎡ ⎤χ = + + + + + −⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Se acepta  0H  sí   2 22 , 2αχ < χ Se rechaza  0H  sí    2 2

2 , 2αχ ≥ χ

Page 8: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 6

COEFICIENTE DE CONTINGENCIA

Es una medida del grado de relación o dependencia entre dos caracteres en la tabla decontingencia, se define:

      2

2Cn

χ=

χ + 0 C 1≤ ≤       o bien    

GC

G n=

+   G razón de verosimilitud≡

Mayor valor de C indica un grado de dependencia mayor entre X e Y

FACTOR DE CORRECCIÓN DE YATES

Los valores calculados en la Prueba de la Chi‐cuadrado se basan en datos discretos, en tanto quela distribución de Chi‐cuadrado es una distribución continua. En definitiva, una distribucióncontinua esta siendo utilizada para representar una distribución discreta.

Cuando las frecuencias esperadas  i je  para las casillas no son pequeñas, este factor no es

importante considerando que la distribución estadística de prueba es aproximada por ladistribución Chi‐cuadrado.

El estadístico Yates demostró que como regla empírica, el factor de corrección tiene poco efectoy puede omitirse cuando  (n 50 )≥ . Además, no debe aplicarse a ninguna casilla cuando

ij i j(n e ) 0,05− < .

Cuando la muestra   (n 50 )<   se hace aconsejable el uso de la Chi‐cuadrado con el factor de

corrección de continuidad de Yates para cualquier tabla de contingencia:

      Factor corrección de Yates  i j i j i j

i j i j i j

n e n 0,5

n e n 0,5

< → +⎧⎪⎨ > → −⎪⎩

Para una tabla de contingencia de  x2 2  la corrección de Yates:

x x x

x x x

2

11 22 12 2121

1 2 1 2

nn n n n n

2n n n n• • • •

⎡ ⎤− −⎢ ⎥⎣ ⎦χ =

Expresión que se puede sintetizar:

22 2

ij ij21

iji 1 j 1

n e 0,5

e= =

⎡ ⎤− −⎣ ⎦χ = ∑∑

La corrección no es válida cuando  x x11 22 12 21n

n n n n2

− ≤

La corrección de Yates se hace cuando el número de grados de libertad es 1.

Hay abundante bibliografía relativa a la conveniencia de la utilización de la corrección decontinuidad de Yates, destacando las aportaciones clásicas de Mantel y Greenhouse (1968),Mantel (1974), Fleiss (1973), Conover (1968, 1974), Haber (1980), Marín (2005), Haviland (2007)y Cochran (1942).

Page 9: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 7

TEST G DE LA RAZÓN DE VEROSIMILITUD

El test de contraste de independencias por la razón de verosimilitudes  ( test G ) es una pruebade hipótesis de la Chi‐cuadrado que presenta mejores resultados que el de Pearson.

Se distribuye asintóticamente con una variable aleatoria  2χ  con  x( k 1 ) (m 1 )− −  grados de

libertad.

Se define el estadístico   x

k mij

i ji ji 1 j 1

nG 2 n ln

e= =

⎛ ⎞= ⎜ ⎟⎜ ⎟

⎝ ⎠∑∑

Se acepta la hipótesis nula  0H  sí    x

k mij 2

i j , ( k 1 ) . (m 1 )i ji 1 j 1

nG 2 n ln

e α − −= =

⎛ ⎞= < χ⎜ ⎟⎜ ⎟

⎝ ⎠∑∑

PRUEBA DE  BARTLETT : HOMOGENEIDAD DE LAS VARIANZAS

En muchas ocasiones es útil comparar más de dos varianzas para conocer si existe o no unadiferencia significativa entre ellas o, lo que es lo mismo, si varias muestras con unasdeterminadas varianzas se pueden considerar o no pertenecientes a una misma población.

Para ello se puede utilizar la F de Snedecor, pero para eso se necesitan tantas pruebas F comopares distintos de varianzas se pueden formar.

BARTLETT  demostró que se podía utilizar la Chi‐cuadrado para comprobar la homogeneidad devarias varianzas.

Sean  k muestras con  1 2 k(n , n , , n )  elementos,  con  varianzas 1 2 k

2 2 2x x x( , , , )σ σ σ ,

respectivamente.

Se establece la hipótesis nula    0H :   Todas las varianzas son iguales

Lo que conduce a estimar que la varianza es:   i

k2 2x x

i 1

1.

k =σ = σ∑

Entonces el estadístico: k k

2 2 2k 1 i i i

i 1 i 1

( ln ) . ( n 1 ) (n 1 ) . ln−= =

⎡ ⎤⎡ ⎤χ = σ − − − σ⎢ ⎥ ⎣ ⎦⎢ ⎥⎣ ⎦

∑ ∑

sigue aproximadamente una 2χ con ( k 1 )− grados de libertad ( k variables i

2xσ ,

i 1, 2, ... , k= menos un parámetro 2xσ obtenido de la muestra )

Si todas las muestras tuvieran los mismos elementos 1 2 k(n n n n)= = = =  el

estadístico sería:

k

2 2 2k 1 i

i 1

(n 1 ) . k . ln ln−=

⎡ ⎤χ = − σ − σ⎢ ⎥

⎢ ⎥⎣ ⎦∑

Se acepta la hipótesis nula, con un nivel de significación α , cuando:   2 2k 1 , ( k 1 )− α −χ < χ

Se rechaza  0H  sí   2 2k 1 , ( k 1 )− α −χ ≥ χ

Page 10: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 8

CORRELACIONES

COEFICIENTE DE CORRELACIÓN DE PEARSON:  Es una medida de asociación lineal especialmenteapropiada para estudiar la relación entre variables de intervalo o razón.

COEFICIENTE DE CORRELACIÓN DE SPEARMAN: Es una medida de asociación lineal paravariables ordinales.

Ambos coeficientes son de poca utilidad en el estudio de las pautas de relación presentes en unatabla de contingencia.

MEDIDAS DE ASOCIACIÓN DE VARIABLES CATEGÓRICAS

En caso de rechazar la hipótesis de independencia entre los dos factores de una tabla decontingencia, se plantea la necesidad de definir índices que describan no sólo la intensidad de laasociación, sino también su dirección.

Es decir si la asociación entre los factores es directa o inversa. El estudio de estos índices recibeel nombre de medidas de asociación.

Para detectar el grado y sentido de la asociación entre dos factores existen diferentes métodos.A continuación se exponen las  medidas de asociación más empleadas en la práctica.

MEDIDAS DE ASOCIACIÓN EN ESCALA NOMINAL

Después de analizar si existe relación o no entre las variables objeto de estudio, surge lapregunta ¿cuál es la intensidad de esa relación?.

Entre las medidas utilizadas en escala nominal (variables en las que no se puede definir un ordennatural entre sus categorías), se distinguen:

Coeficiente Phi (φ )Coeficiente de contingencia o C de PearsonCoeficiente V de CramerCoeficiente Lambda (λ)  de Goodman y KruskallCoeficiente de incertidumbreCoeficiente Q de Yule

MEDIDAS DE ASOCIACIÓN EN ESCALA ORDINAL

Las medidas de asociación en escala ordinal son una serie de medidas de asociación que permiteaprovechar la información ordinal que las medidas diseñadas para datos nominales no analizan.

Entre las medidas utilizadas en escala ordinal:

Coeficiente Gamma (γ) de Goodman y KruskalCoeficiente d de SomersCoeficiente de Concordancia TAU‐b de Kendall (τb)Coeficiente de Concordancia TAU‐c de Kendall (τc)

Page 11: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 9

PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES

Estos contrastes, son la alternativa no paramétrica de los tests basados en el t de Student, seutilizan para comparar dos poblaciones independientes.Se comparan dos grupos de casos existentes en una variable y se comprueba si provienen de lamisma población (homogeneidad). SPSS dispone de cuatro pruebas para realizar este contraste.

Prueba U de Mann‐Whitney es la más conocida de las pruebas para dos muestrasindependientes. Es equivalente a la Prueba de la suma de rangos de Wilcoxon y a la Prueba deKruskal‐Wallis para dos grupos. Requiere que las dos muestras probadas sean similares en laforma y contrasta si dos poblaciones muestreadas son equivalentes en su posición.

La Prueba Z de Kolmogorov‐Smirnov y la Prueba de rachas de Wald‐Wolfowitz son pruebas másgenerales que detectan las diferencias entre las posiciones y las formas de las distribuciones.

La Prueba Z de Kolmogorov‐Smirnov se basa en la diferencia máxima absoluta entre lasfunciones de distribución acumulada observadas para ambas muestras. Cuando estadiferencia es significativamente grande, se consideran diferentes las dos distribuciones.

La Prueba de rachas de Wald‐Wolfowitz combina y ordena las observaciones de ambosgrupos. Si las dos muestras proceden de una misma población, los dos grupos debendispersarse aleatoriamente en la ordenación de los rangos.

La Prueba de reacciones extremas de Moses  presupone que la variable experimental afectará aalgunos sujetos en una dirección y a otros en dirección opuesta. La prueba contrasta lasrespuestas extremas comparándolas con un grupo control.

PRUEBAS PARA DOS MUESTRAS RELACIONADAS

Estas pruebas comparan las distribuciones de dos poblaciones relacionadas. Se supone que ladistribución de población de las diferencias emparejadas es simétrica.

SPSS dispone de cuatro pruebas para realizar este contraste, la prueba de signos, la Prueba deWilcoxon de los rangos con signo, la Prueba de McNemar y la Prueba de homogeneidadmarginal.

Utilizar una u otra Prueba depende del tipo de datos:

DATOS CONTINUOS:  Prueba de signos o la Prueba de Wilcoxon de los rangos con signo.

    La Prueba de los signos calcula las diferencias entre las dos variable y clasifica las diferenciascomo positivas, negativas o empatadas. Si las dos variables tienen una distribución similar, elnúmero de diferencias positivas y negativas no difiere de forma significativa.

    La Prueba de Wilcoxon de los rangos con signo tiene en cuenta la información del signo de lasdiferencias y de la magnitud de las diferencias entre los pares. Dado que esta pruebaincorpora más información acerca de los datos, es más potente que la Prueba de los signos.

Page 12: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 10

DATOS BINARIOS:  Prueba de McNemar, dicha prueba se usa normalmente cuando las medidasestán repetidas, es decir la respuesta de cada sujeto se obtiene dos veces, una antes y otradespués de que ocurra un evento especificado.Esta prueba determina si la tasa de respuesta inicial (antes del evento) es igual a la tasa derespuesta final (después del evento). Es útil para detectar cambios en la respuesta en los diseñosdel tipo antes‐después.

DATOS CATEGÓRICOS: Utiliza la Prueba de homogeneidad marginal. Es una extensión de laPrueba de McNemar a partir de la respuesta binaria a la respuesta multinomial. Contrasta loscambios de respuesta, utilizando la distribución de Chi‐cuadrado y es útil para detectar cambiosde respuesta en diseños antes‐después.

TEST DE RACHAS: CONTRASTE DE ALEATORIEDAD

La Prueba de Rachas contrasta si es aleatorio el orden de aparición de los valores de unavariable. Se puede utilizar para determinar si la muestra fue extraída de manera aleatoria.

Una racha se define como una secuencia de casos al mismo lado del punto de corte (sucesión desímbolos idénticos consecutivos).

El punto de corte puede ser la Mediana, Moda, Media o Personalizado.

En esta línea,  

51 2 3 4 6

    ‐   ‐   ‐     ‐   ‐           ‐   ‐   ‐  + + + + + + +   (6 rachas)

Una muestra con un número excesivamente grande o excesivamente pequeño de rachas sugiereque la muestra no es aleatoria.

COEFICIENTES EN DISTRIBUCIONES DICOTÓMICAS

Los coeficientes más utilizados en variables dicotómicas son los de correlación phi φ  y Q  deYule.

Estos coeficientes tienen algunas propiedades comunes de interés:

a)  Están normalizados, las magnitudes no dependen del tamaño de la tabla.

b)  Son muy sensibles a la distribución empírica observada, traduciendo concentraciones decasos en algunas celdas en magnitudes.

c)  Tienen un recorrido teórico entre  [ 1, 1]-  indicando situaciones de asociación perfecta y de

independencia estadística.

Los coeficientes φ  y Q de Yule se diferencian en la sensibilidad rinconal:

  El coeficiente φ  alcanza su máximo valor sólo cuando una de las dos diagonales se havaciado.

   El coeficiente Q es muy sensible a la existencia de una celda que en términos relativos seestá vaciando. Su valor máximo se alcanza cuando en una celda no hay ningún caso, esto es loque se conoce como sensibilidad rinconal.

Page 13: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 11

YX

+ −Total

+ a b a  +  b− c d c  +  d

    Total a  +  c b +  d n

Coeficiente Phi:   ad bc

(a b) (c d) (a c) (b d)

−=

+ + + +φ     0 1≤ ≤φ

Coeficiente Q de Yule:   ad bc

Qad bc

−=

−    0 Q 1≤ ≤

PRUEBA Q  DE COCHRAN

La prueba Q de Cochran es una prueba estadística no paramétrica para verificar si  ktratamientos tienen efectos idénticos.

La Prueba Q de Cochran asume que hay k 2>  tratamientos experimentales y que las

observaciones están dispuestas en m bloques.

Cuando hay exactamente dos tratamientos es equivalente a la prueba de McNemar .

Hipótesis nula   0H :  Los tratamientos son igualmente efectivos

Hipótesis alternativa:  0H :  Existe diferencia en la eficacia de los tratamientos

Tratamientos

 Bloques 1 2 j k

m

i

i 1

x •=∑

1 11x 12x 1jx 1kx 1x •

2 21x 22x 2jx 2kx 2x •

i i 1x i 2x i jx i kx ix •

m k 1x k 2x k jx mkx mx •

k

j

j 1

x •=∑ 1x • 2x • jx • kx • n

Se acepta la hipótesis nula cuando:

  x x

x

2k

j

j 12 2Cochran ( k 1 ) , ( k 1 )m

i i

i 1

nx

kQ k (k 1)

x ( k x )

− −

• •

=

=

⎡ ⎤−⎢ ⎥⎣ ⎦= χ = − ≤ χ

∑α

Page 14: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 12

TEST DE McNemar

El test de McNemar se utiliza para decidir si se puede aceptar o no que determinado tratamientoinduce un cambio en la respuesta  de los elementos sometidos al mismo, y es aplicable a losdiseños del tipo antes‐después en los que cada elemento actúa como su propio control.

Consisten en n observaciones de una variable aleatoria bidimensional  (X,Y)

La escala de medición para X e Y es nominal con dos categorías, tales como positivo o negativo,hembra o macho, presencia o ausencia, que se pueden denominar 0 y 1.

YX

+ −Total

+ a b a  +  b− c d c  +  d

    Total a  +  c b +  d n

Los casos que muestran cambios entre la primera y segunda respuesta aparecen en las celdillasb y  c

Un individuo es clasificado en la celdilla  b si cambia de  +  a   − , en la celdilla a cuando la

respuesta es  +  antes y después,  en la celdilla d cuando la respuesta es  −  antes y después.

Hipótesis nula   0H :  El tratamiento no induce cambios significativos en las respuestas

En el test de McNemar para la significación de cambios solamente interesa conocer las celdas b yc que presentan cambios.

Puesto que b + c  es el número de individuos que cambiaron, bajo el supuesto de la hipótesisnula, se espera que  (b + c ) / 2  casos cambien en una dirección y   (b + c ) / 2  casos cambien enotra dirección.

  Estadístico de contraste sí  b c 20+ < :

        2McNemar bχ = →  Se acepta  0H  sí   2 2

McNemar /2 , 1b αχ = < χ

   Estadístico de contraste sí  b c 20+ ≥ :

22 2McNemar 1

(b c )b c−

χ = χ = →+

Se acepta  0H  sí    2

2 2 2McNemar 1 /2 , 1

(b c )b c α−

χ = χ = < χ+

La aproximación muestral a la distribución Chi‐cuadrado es más precisa si se realiza la correcciónde continuidad de Yates ( ya que se utiliza una distribución continua para aproximar unadistribución discreta ).

El estadístico corregido:  

2

2 2McNemar 1

b c 1

b c

⎡ ⎤− −⎣ ⎦χ = χ =+

Page 15: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 13

 Se acepta  0H  sí  

2

2 2 2McNemar 1 /2 , 1

b c 1

b c α

⎡ ⎤− −⎣ ⎦χ = χ = < χ+

TEST EXACTO DE FISHER

Si las dos variables que se están analizando son dicotómicas, y la frecuencia esperada es menor

que 5 en más de una celda, no resulta adecuado aplicar el test de la  2χ  aunque sí el test exactode Fisher.

El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas cuando lamuestra a estudiar es demasiado pequeña y no cumple las condiciones necesarias para que laaplicación del test de la Chi‐cuadrado sea idónea.

YX

+ −Total

+ a b a  +  b− c d c  +  d

    Total a  +  c b +  d n

Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exige que al menos el 80% delos valores esperados de las celdas sean mayores que 5.

De este modo, en una tabla de contingencia de  x2 2   será necesario que todas las celdas

verifiquen esta condición, si bien en la práctica suele permitirse que una de ellas tengafrecuencias esperadas ligeramente por debajo de 5.

El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las tablas  x2 2

que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tablaobservada.Cada uno de estas probabilidades se obtiene bajo la hipótesis de independencia de las dosvariables que se están analizando.

La probabilidad asociada a los datos que han sido observados viene dada por:

                             (a b)! (c d)! (a c)! (b d)!

pn! a! b! c! d!

+ + + +=

La fórmula general de la probabilidad descrita deberá calcularse para todas las tablas decontingencia que puedan formarse con los mismos totales de filas y columnas de la tablaobservada.

El valor de la p asociado al test exacto de Fisher puede calcularse sumando las probabilidades delas tablas que resulten menores o iguales a la probabilidad de la tabla que ha sido observada.

El  planteamiento es bilateral, es decir, cuando la hipótesis alternativa asume la dependenciaentre las variables dicotómicas, pero sin especificar de antemano en qué sentido se producendichas diferencias, el valor de la p obtenido se multiplica por 2.

Page 16: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 14

TABLAS DE CONTINGENCIA: COHORTES Y CASO‐CONTROL

Las frecuencias de una tabla de contingencia pueden obtenerse utilizando dos estrategiasbásicas de recogidas de datos.

En la estrategia habitual, los datos representan un corte temporal transversal: se recogen en elmismo o aproximadamente el mismo punto temporal.

Si, en lugar de esto, se miden una o más variables en una muestra de sujetos y se hace unseguimiento a estos sujetos para volver a tomar una medida de esas mismas variables o de otrasdiferentes, es una situación longitudinal: las medidas se toman en diferentes puntostemporales.

Los índices de riesgo que se estudian resultan especialmente útiles para diseños longitudinalesen los que se miden dos variables dicotómicas.

El seguimiento de los estudios longitudinales puede hacerse hacia adelante o hacia atrás.

En los diseños longitudinales hacia adelante, llamados diseños prospectivos o de cohortes, lossujetos son clasificados en dos grupos con arreglo a la presencia o ausencia de algún factordesencadenante (por ejemplo, el hábito de fumar, fumadores y no fumadores) y se les hace unseguimiento durante un espacio de tiempo hasta determinar la proporción de sujetos de cadagrupo en los que se da un determinado desenlace o incidencia objeto de estudio (por ejemplo,problemas vasculares).

En los diseños longitudinales hacia atrás, también denominados retrospectivos o decaso‐control:  Se forman dos grupos a partir de la presencia o ausencia de una determinadacondición objeto del estudio (por ejemplo, sujetos sanos y pacientes con problemas vasculares)y se hace un seguimiento hacia atrás intentando encontrar información sobre la proporción enla que se encuentra presente en cada muestra un determinado factor desencadente (porejemplo, el hábito de fumar).

Lógicamente, cada diseño de recogida de datos permite dar respuesta a diferentes preguntas yrequiere la utilización de unos estadísticos particulares.

ESTADÍSTICOS SEGÚN DISEÑO

En el diseño de cohortes (longitudinal hacia adelante):  En los que se establecen dos grupos desujetos a partir de la presencia o ausencia de una condición que se considera desencadente y sehace un seguimiento hacia adelante para determinar qué proporción de sujetos de cada grupoalcanza un determinado desenlace o incidencia, la medida de interés suele ser el riego relativo(RR): grado en que la proporción de desenlaces o incidencias es más alta en un grupo que en elotro.

En el diseño de caso‐control (longitudinal hacia atrás), tras formar dos grupos de sujetos a parirde alguna condición de interés, se va hacia atrás buscando la presencia de algún factordesencadenante ‐ Por ejemplo, en el estudio sobre el tabaquismo y problemas vasculares sepodría diseñar seleccionando dos grupos de sujetos diferenciados por la presencia de problemasvasculares y buscando en la historia clínica la presencia o no de fumar ‐.

Puesto que el tamaño de los grupos se fija a partir de la presencia o ausencia de un determinadodesenlace, no tiene sentido calcular un índice de riesgo basado en las proporciones dedesenlaces o incidencias, pues el número de fumadores y no fumadores no ha sido previamenteestablecido sino que es producto del muestreo.

Page 17: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 15

Se puede calcular la ratio fumadores/no‐fumadores tanto en el grupo de sujetos con problemasvasculares como en el grupo de sujetos sin problemas, y utilizar el cociente de ambas ratioscomo una estimación del riesgo relativo.

ESTUDIOS TRANSVERSALES O DE PREVALENCIA

Estudian simultáneamente la exposición y una característica en un momento determinado. Laobtención de datos puede ser prolongada (semanas o meses).

El estudio transversal  facilita información de gran utilidad para valorar el estado de lacaracterística en estudio y determinar sus necesidades.

Utiliza un formato de tabla para análisis bivariado de variables dicotómicas, donde la variableindependiente (exposición) se presenta en filas y la variable dependiente (característica enestudio) en columnas.

La Prevalencia corresponde a la probabilidad de la característica en estudio antes de realizar laprueba.

CaracterísticaFactor de riesgo Sí No TotalExpuestos a b a + bNo expuestos c d c + dTotal a + c b + d a + b + c + d

PREVALENCIAS DE LA CARACTERÍSTICA EN ESTUDIO

•   Riesgo en expuestos:  1a

pa b

=+

•   Riesgo en no expuestos:  2c

pc d

=+

•    1

2

pIncidencia en expuestosRazón prevalencia   Riesgo relativo (RR)

Incidencia en no expuestos p≡ = =

El Riesgo Relativo (RR) expresa cuántas veces más aparece la característica en estudio en losexpuestos que en los no‐expuestos, o bien cuántas veces más riesgo tienen los expuestos enrelación con los no‐expuestos.

RR 1 No hay asociación

RR 1 Asociación al factor de riesgo

RR 1 Asociación al factor de protección

= →> →< →

•  a c

Riesgo atribuible o diferencia de riesgos (RA)a b c d

= −+ +

El Riesgo Atribuible o diferencia de riesgos (RA) indica la cantidad adicional de incidencia detener una la característica en estudio (o exceso de riesgo) que tienen los expuestos a losno‐expuestos.

Page 18: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 16

•   Intervalo de confianza para la razón de prevalencia RR de la característica con distribuciónasintóticamente normal:

/2 /2 /2z . V( ln RR) z . V( ln RR) z . V( ln RR)IC(RR) RR . e RR . e , RR . eα α α± −⎛ ⎞= = ⎜ ⎟

⎝ ⎠

donde 1 1 1 1

V ln RRa a b c c d

= − + −⎡ ⎤⎣ ⎦ + +

PREVALENCIAS DE EXPOSICIÓN

•   Riesgo en Sí característica:  1a

pa c

=+

•   Riesgo en No característica:  2b

pb d

=+

1

2

pIncidencia  Si característicaRazón prevalencia Riesgo relativo esperado (RR)

Incidencia  No característica p≡ = =•

•   Intervalo de confianza para la razón de prevalencia RR de exposición con distribuciónasintóticamente normal:

( )/2 /2 /2z . V( ln RR ) z . V( ln RR ) z . V( ln RR )IC(RR) RR . e RR . e , RR . eα α α± −= =

donde 1 1 1 1

V ln RRa a c b b d

= − + −⎡ ⎤⎣ ⎦ + +

MEDIDA DE ASOCIACIÓN: Odds Ratio (OR)

La medida de asociación que se utiliza en los estudios de casos y controles para evaluar la fuerzade la asociación ente el factor en estudio y el evento se conoce como Odds Ratio, medida queindica la frecuencia relativa de la exposición entre los casos y los controles.

Razón de Odds anticipado:  x

x

1 2

2 1

p . (1 p ) a dOR

p . (1 p ) b c−

= =−

En el estudio de casos y controles no se puede estimar directamente la incidencia de lacaracterística en los expuestos y no expuestos, dado que los sujetos son seleccionadosbasándose en la presencia o ausencia del evento en estudio y no por el estatus de exposición (aexcepción de variantes del estudio como los anidados y caso‐cohorte).

Sin embargo, cuando la presencia de la enfermedad es baja, el Odds ratio puede ser unestimador no sesgado de la razón de tasas de incidencia o de riesgo relativo.

El Odds ratio indica cuantas veces es mayor, o menor si la exposición actúa como un factorprotector, la probabilidad de los casos que han estado expuestos al factor en estudio encomparación con los controles: 0 OR≤ < ∞

OR 1= →   Indica que la exposición analizada no se asocia con la característica.

OR 1< →   La exposición disminuye la probabilidad de desarrollar el evento.

OR 1> →   La exposición aumenta la probabilidad de desarrollar el evento.

Page 19: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 17

El Odds ratio es una estimación puntual de la magnitud de asociación entre un determinadofactor y la característica analizada,  para encontrar una medida de variabilidad de estaestimación se recurre al Intervalo de confianza.

Cuanto más amplio sea el Intervalo de confianza menor es la precisión de la estimación. UnIntervalo de confianza que incluya el valor 1 indica que la asociación no es significativa.

INCONVENIENTES DE OR  (Razón de ventajas SPSS)

 Es más susceptible a sesgos que otros diseños, posibilidad que disminuye si el estudioconsidera el uso de datos recogidos con anterioridad a la ocurrencia de la enfermedad.

 El riesgo o la incidencia de la característica no se puede medir directamente.

VENTAJAS DE OR  (Razón de ventajas SPSS)

 Es económico en términos de recursos y tiempo debido al menor tamaño de muestrarequerido.

 Es más adecuado para características con largo período de investigación. La elección de undiseño prospectivo no resultaría eficiente pues para detectar los casos se tendría que seguir a lapoblación completa durante un largo período.

 Puede evaluar simultáneamente la exposición a múltiples factores etiológicos

•   Intervalo de confianza para OR (Método de Woolf)

( )/2 /2 /2z . V( ln OR) z . V( ln OR) z . V( ln OR)IC(OR) OR . e OR . e , OR . eα α α± −= =

donde 1 1 1 1

V ln ORa b c d

= + + +⎡ ⎤⎣ ⎦

⊕   Cuando el tamaño de la muestra es inferior a 30 se introduce la corrección:

            x

x

(a 0,5) (d 0,5)OR

(b 0,5) (c 0,5)+ +

=+ +

TAMAÑO MUESTRAL

Siendo, x

x

1 2

2 1

p . (1 p ) a dOR

p . (1 p ) b c−

= =−

    con   1a

pa c

=+

  ,  2b

pb d

=+

  , se expresa:

21

22

pp

(1 p )p

OR

=−

+  y      1

21

1

pp

(1 p )p

OR

=−

+

en este caso,    2 1 1 2 2/2 2

1 1p . (1 p ) p . (1 p )

n z .ln (1 )α

+− −

=− ∈

        precisión relativa∈ ≡

Page 20: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 18

COMBINACIÓN DE TABLAS: COCHRAN Y MANTEL‐HAENSZEL

Hay situaciones donde se analizan diseños de cohortes y de caso‐control. Estas situaciones seproducen cuando se desea evaluar el efecto de una variable sobre una determinada respuestautilizando distintos grupos de sujetos.

En general, se trata de estudiar si existe o no asociación entre la variable factor y una variablerespuesta, ambas dicotómicas, cuando se dispone de información referida a varios estratos.

En estas situaciones, utilizar el estadístico Chi‐cuadrado de Pearson sobre el conjunto de datosagrupados puede conducir resultados equivocados. Por otra parte, analizar separadamente cadaestrato no proporciona una idea global  del efecto de la variable factor.

Se obtiene información más ajustada utilizando los estadísticos de Cochran y Mantel‐Haenszelpara contrastar la hipótesis de independencia condicional , es decir, la hipótesis deindependencia entre las variables factor y respuesta una vez que se ha controlado el efecto delos estratos.

Característica Factor de riesgo Caso Control Total

 Expuestos ia ib 1in •

 No expuestos ic id 2in •

 Total 1in • 2in • in

CHI‐CUADRADO DE COCHRAN:

x

x x x

x

2 2k k

1i 1ii i i

ii 1 i 12 2Cochran 1k k

1i 2i 1i 2ii 2

i ii 1 i 1

n na E(a ) a

nestrato k‐ésimo

n n n nV(a )

n (n 1)

• •

• • • •

= =

= =

⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = = χ

∑ ∑

∑ ∑

CHI‐CUADRADO DE MANTEL‐HAENSZEL:

x

x x x

x

2 2k k

1i 1ii i i

ii 1 i 12 2MH 1k k

1i 2i 1i 2ii 2

i ii 1 i 1

n na E(a ) 0,5 a 0,5

nestrato k‐ésimo

n n n nV(a )

n (n 1)

• •

• • • •

= =

= =

⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− − − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = = χ

∑ ∑

∑ ∑

      (Ejercicio página 77)

Page 21: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 19

CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE

1. Para comprobar si los operarios encontraban dificultades con una prensa manual de imprimir,se hizo una prueba a cuatro operarios anotando el número de atascos sufridos al introducir elmismo número de hojas, dando lugar a la siguiente tabla:

Operario A B C D TotalObstrucciones 6 7 9 18 40

Con un nivel de significación del 5%, ¿existe diferencia entre los operarios?

Solución:

Estableciendo la hipótesis nula   :H0  'No existe diferencia entre los operarios'

La probabilidad de que se atascase una hoja sería 1 / 4  para todos los operarios.De este modo, el número de atascos esperados para cada uno de ellos sería  i i 1, , 4(e 10) == .

Se tiene la tabla de contingencia 1 x 4:

Operario A B C D Total

Obstrucciones610

710

910

1810

4040

Se acepta la hipótesis nula, a un nivel de significación α  sí

2 2k ki i i2 2

k 1 , k 1i ii 1 i 1 estadístico teórico

estadístico contraste

( n e ) nn

e e− α −= =

−χ = = − < χ∑ ∑       número intervalosk ≡

o bien, la región de rechazo de la hipótesis nula: 2k

i i 2, k 1

ii 1

(n e )R

e α −=

⎧ ⎫−⎪ ⎪= ≥ χ⎨ ⎬⎪ ⎪⎩ ⎭∑

con lo cual, 24 2 2 2 2i2

3ii 1

n 6 7 9 18n 40 9

e 10 10 10 10=

χ = − = + + + − =∑

Con el nivel de significación ( 0,05α = ),  el estadístico teórico:   20, 05 , 3 7,815χ =

siendo  223 0, 05 , 39 7,815χ = > = χ  se verifica la región de rechazo.

En consecuencia, se rechaza la hipótesis nula,  concluyendo que existe diferencia significativaentre los operarios respecto al número de atascos en la prensa de imprimir.

Page 22: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 20

CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE A UNA POISSON CONPARÁMETRO DESCONOCIDO.

2. En un laboratorio se observó el número de partículas α  que llegan a una determinada zonaprocedentes de una sustancia radiactiva en un corto espacio de tiempo siempre igual,obteniéndose los siguientes resultados:

Número partículas 0 1 2 3 4 5Número períodos de tiempo 120 200 140 20 10 2

¿Se pueden ajustar los datos obtenidos a una distribución de Poisson, con un nivel designificación del 5%?

Solución:

Se establece la hipótesis nula  0H : 'La distribución empírica se ajusta a laPoisson'

La hipótesis nula se acepta, a un nivel de significación α   sí

2 2k ki i i2 2

k p 1 , k p 1i ii 1 i 1 estadístico teórico

estadístico contraste

(n e ) nn

e e− − α − −= =

−χ = = − < χ∑ ∑     

número intervalos   

númeroparámetros aestimar

k

p

≡≡

o bien, la región de rechazo de la hipótesis nula: 2k

i i 2, k p 1

ii 1

(n e )R

e α − −=

⎧ ⎫−⎪ ⎪= ≥ χ⎨ ⎬⎪ ⎪⎩ ⎭∑

La distribución de Poisson se caracteriza porque sólo depende del parámetro λ  que coincidecon la media.

Sea la variable aleatoria X = 'Número de partículas' y   in = 'Número de períodos de tiempo'

ix in i ix n. i iP(x k) p= =

0 120 0 0,3012

1 200 200 0,3614

2 140 280 0,2169

3 20 60 0,0867

4 10 40 0,0260

5 2 10 0,0062

i ix .n 590

x 1,2n 492

= λ = = =∑ 1,2λ = en consecuencia,

k

1,2i

1,2P(x k) e

k!−= = k 0, , 5=

n = 492 590

Las probabilidades con que llegan las partículas  k 0, 1, , 5=   se obtienen sustituyendo los

valores de k en   k

1,2i

1,2P(x k) e

k!−= = , o bien en las tablas con  1,2λ =

Page 23: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 21

Para verificar si el ajuste de los datos a una distribución de Poisson se acepta o no, mediante una2χ , hay que calcular las frecuencias esperadas  i i( e n . p )=

ix 0 1 2 3 4 5

Frecuencias120

1e 148,2=200

2e 177,8=140

3e 106,7=20

4e 42,7=10

5e 12,8=2

6e 3,05=

1e = 492.0,3012 = 148,2 2e = 492.0,3614 = 177,8 3e = 492.0,2169 = 106,7

4e = 492.0,0867 = 42,7 5e = 492.0,0260= 12,8

6e = 492.0,0062 = 3,05

dando lugar a una tabla de contingencia 1 x 6, en donde hay que agrupar las dos últimascolumnas por tener la última columna frecuencias esperadas menores que cinco.

Por tanto, se tiene la tabla de contingencia 1 x 5 :

ix 0 1 2 3 4  y  5

Frecuencias120

1e 148,2=200

2e 177,8=140

3e 106,7=20

4e 42,7=12

5e 15,85=

Así, los grados de libertad son tres   ( k p 1 5 1 1 3 )− − = − − =

♦ El estadístico de contraste:

2 25 5 2 2 2 2 2i i i2

3i ii 1 i 1

(n e ) n 120 200 140 20 12n 492 32,31

e e 148,2 177,8 106,27 42,7 15,8= =

−χ = = − = + + + + − =∑ ∑

♦ El estadístico teórico:  20,05 , 3 7,815χ =

El estadístico de contraste (bondad de ajuste) es mayor que el estadístico teórico  (7,815) ,

rechazándose la hipótesis nula, es decir, la distribución NO se puede ajustar a una distribuciónde Poisson a un nivel de significación del 5%.

Se verifica la región de rechazo:  { }2k

i i 2, k p 1

ii 1

(n e )R 32,31 7,815

e α − −=

⎧ ⎫−⎪ ⎪= ≥ χ ≡ >⎨ ⎬⎪ ⎪⎩ ⎭∑

Page 24: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 22

0H : 'La distribución empírica se ajusta auna distribución de Poisson'

Valor experimental del estadístico decontraste:  z 1,225=

p_valor (Sig. asintótica bilateral)  0,100=

Siendo p_valor  0,1 0,05= > = α   se

acepta la hipótesis nula.

Page 25: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 23

CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE A UNA NORMAL CONPARÁMETROS DESCONOCIDOS.

3. Para una muestra aleatoria simple de 350 días, el número de urgencias tratadas diariamenteen un hospital A queda reflejado en la siguiente tabla:

Nº urgencias 0 – 5 5 – 10 10 – 15 15 – 20 20 – 25 25 ‐ 30 Total días

Nº días 20 65 100 95 60 10 350

Contrastar, con un nivel de significación del 5%, si la distribución del número de urgenciastratadas diariamente en el hospital A se ajusta a una distribución normal.

Solución:

Para decidir si los datos se distribuyen normalmente es necesario calcular la media y desviacióntípica.

Se establece la hipótesis nula  0H : 'La distribución empírica se ajusta a lanormal'

Se acepta la hipótesis nula, a un nivel de significación α  si

2ki i2

k p 1ii 1

estadístico contraste

(n e )

e− −=

−χ = ∑     

número intervalos   

númeroparámetros aestimar

k

p

≡≡

Se obtiene la media y la desviación típica:

Intervalos ix in i ix n.ix n2

i .

0 ‐ 5 2,5 20 50 125

5 ‐ 10 7,5 65 487,5 3.656,25

10 ‐ 15 12,5 100 1250 1.5625

15 ‐ 20 17,5 95 1662,5 29.093,75

20 ‐ 25 22,5 60 1350 30.375

25 ‐ 30 27,5 10 275 7.562,56

i

i 1=

n = n = 350∑6

i i

i 1=

x n 5075=∑6

2i i

i 1

x . n 86.437,5=

=∑6

i i

i 1

x . n

x 14,5350

== =∑

     

6 62 2

i i i i

i 1 i 1 22x

(x x) . n x .n

(x ) 36,71350 250

= =

σ = = − =∑ ∑

      x 6,06σ =

Se procede al ajuste de una distribución normal N (14,5 , 6,06) ,  hallando las

probabilidades de cada uno de los intervalos:

Page 26: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 24

Intervalos in ip i ie p . n= 2i i(n e )− 2

i i i(n e ) / e−

0 ‐ 5 20 0,0498 17,43 6,6 0,38

5 ‐ 10 65 0,1714 59,99 25,1 0,42

10 ‐ 15 100 0,3023 105,81 33,76 0,32

15 ‐ 20 95 0,2867 100,35 28,62 0,29

20 ‐ 25 60 0,1396 48,86 124,1 2,54

25 ‐ 30 10 0,0366 12,81 7,9 0,62

n 350=6

2i i i

i 1

(n e ) / e 4,57=

− =∑

⎡ ⎤⎢ ⎥⎣ ⎦

0 ‐ 14,5 x ‐ 14,5 5 ‐ 14,5P(0 < x < 5) = P < < = P(‐2,39 < z < ‐1,57) =

6,06 6,06 6,06

= P(1,57 < z < 2,39) = P(z > 1,57) ‐ P(z > 2,39) = 0, 0582 ‐ 0, 00842 = 0, 04978

⎡ ⎤⎢ ⎥⎣ ⎦

5 ‐ 14,5 x ‐ 14,5 10 ‐ 14,5P(5 < x < 10) = P < < = P(‐1,57 < z < ‐ 0,74) =

6,06 6,06 6,06

= P(0,74 < z < 1,57) = P(z > 0,74) ‐ P(z > 1,57) = 0,2296 ‐ 0, 0582 = 0,1714

⎡ ⎤⎢ ⎥⎣ ⎦

10 ‐ 14,5 x ‐ 14,5 15 ‐ 14,5P(10 < x < 15) = P < < = P(‐0,74 < z < 0,08) =

6,06 6,06 6,06

= P(0,08 < z < 0,74) = 1 ‐ P(z > 0,74) ‐ P(z > 0,08) = 1 ‐ 0,4681 ‐ 0,2296 = 0,3023

⎡ ⎤⎢ ⎥⎣ ⎦

15 ‐ 14,5 x ‐ 14,5 20 ‐ 14,5P(15 < x < 20) = P < < = P( 0,08 < z < 0,91) =

6,06 6,06 6,06

= P(z > 0,08) ‐ P(z > 0,91) = 0,4681 ‐ 0,1814 = 0,2867

⎡ ⎤⎢ ⎥⎣ ⎦

20 ‐ 14,5 x ‐ 14,5 25 ‐ 14,5P(20 < x < 25) = P < < = P( 0,91 < z < 1,73) =

6,06 6,06 6,06

= P(z > 0,91) ‐ P(z > 1,73) = 0,1814 ‐ 0,0418 = 0,1396

⎡ ⎤⎢ ⎥⎣ ⎦

25 ‐ 14,5 x ‐ 14,5 30 ‐ 14,5P(25 < x < 30) = P < < = P( 1,73 < z < 2,56) =

6,06 6,06 6,06

= P(z > 1,73) ‐ P(z > 2,56) = 0,0418 ‐ 0,0052 = 0,0366

Se calculan las frecuencias esperadas, multiplicando las probabilidades por el número totalde datos  i ie p . n=

Se calcula el estadístico de contraste  2χ , donde el número de grados de libertad esk p 1 (nº intervalos) (nº parámetros a estimar) 1 6 2 1 3− − = − − = − − = , con lo cual,

26

i i23

ii 1

(n e )4,57

e=

−χ = =∑

Page 27: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 25

Adviértase que las modalidades son independientes, con lo que el número de grados de libertadson  ( k p 1 )− − . Se han tenido que calcular dos parámetros:  yμ σ

Por otra parte, el estadístico teórico  20,05 , 3 7,815χ =

Como  2 23 0,05 , 34,57 7,815χ = < χ = , se acepta la hipótesis nula a un nivel de significación del

5%. En consecuencia, la variable aleatoria número de urgencias en el hospital A sigue unadistribución N (14,5 , 6,06) .

4.  En un examen final de estadística teórica los estudiantes recibieron las siguientescalificaciones:

80 70 90 75 55 80 50 65 100 75 60 60

75 95 50 80 90 85 70 95 75 70 85 50

50 65 65 50 60 70 85 85 90 70

Comprobar si las calificaciones fueron o no distribuidas según una ley normal a un nivel designificación 0,05

Solución:

El método de aplicación de la Prueba de ajuste para la normalidad de la distribución defrecuencias es:

Número de intervalos  34 6= ≈

Amplitud del intervalo  máx mínX X 100 5010

n 6− −

= = ≈

Utilizando intervalos de clase convenientes, se clasifican los datos en una distribución defrecuencias:

Intervalos ix in i ix n.ix n2

i .

45 ‐ 55 50 5 250 12.500

55 ‐ 65 60 4 240 14.400

65 ‐ 75 70 8 560 39.200

75 ‐ 85 80 7 560 44.800

85 ‐ 95 90 7 630 56.700

95 ‐ 105 100 3 300 30.000

n 34=6

i i

i 1=

x .n 2.540=∑6

2i i

i 1

x . n 197.600=

=∑

Se calculan la media y la desviación típica:

Page 28: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 26

6

i i

i 1

x . n2.540

x 74,734 34

== = =∑

62i i

i 1 22 2x x

x .n197.600

(x ) 74,7 231,67 231,67 15,234 34

=σ = − = − = σ = =∑

Se calculan las probabilidades de cada uno de los intervalos tipificando con una N(74,7, 15,2)

Intervalos in ip i ie p . n= 2i i(n e )− 2

i i i(n e ) / e−

45 ‐ 55 5 0,0729 2,4786 6,3575 2,5649

55 ‐ 65 4 0,1626 5,5284 2,3360 0,4225

65 ‐ 75 8 0,2469 8,3946 0,1557 0,0185

75 ‐ 85 7 0,2437 8,2858 1,6533 0,1995

85 ‐ 95 7 0,1582 5,3788 2,6283 0,4886

95 ‐ 105 3 0,0673 2,2882 0,5067 0,2214

3,9156

Mediante la tabla normal se hallan las probabilidades de cada uno de los intervalos:

[ ] [ ]45 74,7 x 74,7 55 74,7P 45 x 55 P P 1,95 z 1,29

15,2 15,2 15,2− − −⎡ ⎤< < = < < = − < < − =⎢ ⎥⎣ ⎦

[ ] [ ] [ ]P 1,29 z 1,95 P z 1,25 P z 1,95 0,0985 0,0256 0,0729= < < = > − > = − =

[ ] [ ] [ ]P 55 x 65 P 1,29 z 0,64 P 0,64 z 1,29< < = − < < − = < < =

[ ] [ ]P z 0,64 P z 1,29 0,2611 0,0985 0,1626= > − > = − =

[ ] [ ] [ ] [ ]P 65 x 75 P 0,64 z 0,02 P z 0,64 P z 0,02< < = − < < = > − − > =

[ ] [ ]1 P z 0,64 P z 0,02 1 0,2611 0,4920 0,2469= − > − > = − − =

[ ] [ ] [ ] [ ]P 75 x 85 P 0,02 z 0,68 P z 0,02 P z 0,68 0,4920 0,2483 0,2437< < = < < = > − > = − =

[ ] [ ]P 85 x 95 P 0,68 z 1,34 0,2483 0,0901 0,1582< < = < < = − =

[ ] [ ]P 95 x 105 P 1,34 z 2 0,0901 0,0228 0,0673< < = < < = − =

Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exigen que al menos el 80% delos valores esperados de las celdas sean mayores que 5.  Cuando esto no ocurre hay que agruparmodalidades contiguas en una sola hasta lograr que la nueva frecuencia sea mayor que cinco.

Page 29: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 27

Se agrupan las modalidades que presentan una frecuencia esperada menor que 5 con sucorrespondiente modalidad continua, se tiene:

Intervalos in ip i ie p . n= 2i i(n e )− 2

i i i(n e ) / e−

45 ‐ 65 9 0,2355 8,0070 0,9860 0,1231

65 ‐ 75 8 0,2469 8,3946 0,1557 0,0185

75 ‐ 85 7 0,2437 8,2858 1,6533 0,1995

85 ‐ 105 10 0,2255 7,6670 5,4429 0,7100

1,0511

Se establece la hipótesis nula:

0H :  Las calificaciones se distribuyen según una ley normal

El número de grados de libertad: k p 1 4 2 1 1− − = − − = , se han perdido dos grados de

libertad, ya que se han calculado dos parámetros:   yμ σ

El estadístico de contraste  6 2

2 2i i1 0,05 , 1

ii 1

(n e )1,0511 3,814

e=

−χ = = < = χ∑

En consecuencia, se acepta la hipótesis nula  afirmando puede considerarse  que lascalificaciones se  distribuyen normalmente a un nivel  0,05α =

0H :  Las calificaciones se distribuyen según una ley normal

Page 30: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 28

Valor experimental del estadístico decontraste:  z 0,558=

P_valor (Sig. asintótica bilateral)  0,914=

Siendo p_valor  0,914 0,05= > = α   se

acepta la hipótesis nula. En consecuencia,las calificaciones se distribuyen según unaley normal.

Page 31: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 29

CONTRASTE DE HOMOGENEIDAD.

5. Para conocer la opinión de los ciudadanos sobre la actuación del alcalde de una determinadaciudad, se realiza una encuesta a 404 personas, cuyos resultados se recogen en la siguientetabla:

Desacuerdo De acuerdo No contestan

Mujeres 84 78 37

Varones 118 62 25

Contrastar, con un nivel de significación del 5%, que no existen diferencias de opinión entrehombres y mujeres ante la actuación del alcalde.

Solución:

Se trata de un contraste de homogeneidad en el que se desea comprobar si las muestrasproceden de poblaciones distintas.

Se tienen dos muestras clasificadas en tres niveles, donde se desea conocer si los hombres ymujeres proceden de la misma población, es decir, si se comportan de manera semejanterespecto a la opinión de la actuación del alcalde.

La hipótesis nula:  0H : 'No existe diferencia entre hombres y mujeres respecto a la opinión'

Región de rechazo de la hipótesis nula:  { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ

Se forma una tabla de contingencia 2 x 3 :

En cada frecuencia observada  i j i 1 , , k , j 1 , , m(n ) = =  en la tabla de contingencia se tiene una

frecuencia teórica o esperada  i je  que se calcula mediante la expresión:  i ji j i j

xn ne p . n

n• •= = ,

donde  i jp  son las probabilidades de que un elemento tomado de la muestra presente las

modalidades  ix  de X  e  jy  de Y.

Desacuerdo De acuerdo No contestan i•n

 Mujeres84

11e 99, 50=78

12e 68, 96=37

13e 30, 53= 199

 Varones118

21e 102, 50=62

22e 71, 03=25

23e 31, 46= 205

• jn 202 140 62  n 404=

=11

199 . 202e = 99,5

404 12

199 . 140e = = 68,96

404 13

199 . 62e = = 30,53

404

21

205 . 202e = = 102,5

404 22

205 . 140e = = 71,03

404 23

205 . 62e = = 31,46

404

Page 32: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 30

Estadístico de contraste:  22 3

ij i j 2 2( 2 1 ) . ( 3 1 ) 2

i ji 1 j 1

(n e )

e − −= =

−= χ = χ∑∑ , con lo que,

22 3 2 2 2 2ij i j2

2iji 1 j 1

2 2

= =

(n e ) (84 99,5) (78 68,96) (37 30,53) (118 102,5)χ + + + +

e 99,5 68,96 30,53 102,5

(62 71,03) (25 31,46)               + + 9,76

71,03 31,46

− − − − −= =

− −=

∑∑

sigue una  2χ  con  dos grados de libertad si es cierta la hipótesis nula con  i je 5>   i, j∀ ; en caso

contrario sería necesario agrupar filas o columnas contiguas.

♦ Estadístico de contraste: 2 2k m k m

ij ij i j2( k 1 ) . (m 1)

ij iji 1 j 1 i 1 j 1

(n e ) nn

e e− −= = = =

−= χ = −∑∑ ∑∑

22 3 2 2 2 2 2 2ij

iji 1 j 1

n 84 78 37 118 62 25n 404 9,76

e 99,5 68,96 30,53 102,5 71,03 31,46= =

− = + + + + + − =∑∑

El estadístico teórico  20,05 , 2 5,991χ =

Como  2 22 0,05 , 29, 76 5,991χ = > χ =  se cumple la región de rechazo, concluyendo que las

muestras no son homogéneas, es decir, no proceden de la misma población, hombres y mujeresno opinan lo mismo.

Page 33: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 31

CONTRASTE DE INDEPENDENCIA.

6. Novecientos cincuenta escolares se clasificaron de acuerdo a sus hábitos alimenticios y a sucoeficiente intelectual:

Coeficiente Intelectual

< 80 80 ‐ 90 90 ‐ 99 ≥  100Total

 Nutrición buena 245 228 177 219 869

 Nutrición pobre 31 27 13 10 81

      Total 276 255 190 229 950

A un nivel de significación del 10%,  ¿hay relación entre las dos variables tabuladas?

Solución:

Se trata de un contraste de independencia entre el coeficiente intelectual y los hábitosalimenticios.

Se establecen las hipótesis: 0

1

 H :  'Las dos variables estudiadas son independientes' 

H :   'Existe dependencia entre las dos variables'   ⎧⎨⎩

Estadístico de contraste:  2 2k m k m

i j i j i j2( k 1 ) . (m 1)

i j i ji 1 j 1 i 1 j 1

( n e ) nn

e e− −= = = =

−= χ = −∑∑ ∑∑

Siendo la región de rechazo de la hipótesis nula:  { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ

En la tabla de contingencia 2 x 4  para cada frecuencia observada  i j i 1 , , k , j 1 , , m(n ) = =  se

tiene una frecuencia teórica o esperada  i je  que se calcula mediante la expresión: xi j

i j

n ne

n• •=

Coeficiente  Intelectual< 80 80 ‐ 90 90 ‐ 99 ≥  100 i•n

Nutrición buena245

11e 252, 46=228

12e 233, 25=177

13e 173, 80=219

14e 209, 47= 869

Nutrición pobre31

21e 23, 53=27

22e 21, 74=13

23e 16, 20=10

24e 19, 52= 81

• jn 276 255 190 229 950

11

869 . 276e = = 252, 46

950 12

869 . 255e = = 233,25

950 13

869 . 190e = = 173,8

950 14

869 . 229e = = 209, 47

950

21

81 . 276e = = 23,53

950 22

81 . 255e = = 21,74

950 23

81 . 190e = = 16,2

950 24

81 . 229e = = 19,52

950

Page 34: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 32

Estadístico de contraste:

22 4 2 2 2 2 2 2 2ij2

3iji 1 j 1

2

= =

n 245 228 177 219 31 27 13χ n + + + + + + +

e 252,46 233,25 173,8 209,47 23,53 21,74 16,2

10                                               + 950 9,75

19,52

= − =

− =

∑∑

ó bien,

22 4 2 2 2ij i j2

3iji 1 j 1

2 2 2 2 2

= =

(n e ) (245 252,46) (228 233,25) (177 173,8)χ + + +

e 252,46 233,25 173,8

(219 209,47) (31 23,53) (27 21,74) (13 16,2) (10 19,52)     + + + + + 9,75

209,47 23,53 21,74 16,2 19,52

− − − −= =

− − − − −=

∑∑

sigue una  2χ  con  tres grados de libertad si es cierta la hipótesis nula con  5eij >   j,i∀ ; en caso

contrario sería necesario agrupar filas o columnas contiguas.

El estadístico teórico  20,10 , 3 6,251χ =

Como  2 23 0,10 , 39, 75 6,251χ = > χ =  se cumple la región de rechazo, concluyendo que se

rechaza la independencia, habiendo por tanto dependencia estadística entre el coeficienteintelectual y la alimentación.

7.  Tres métodos de empaquetado de tomates fueron probados durante un período de cuatromeses; se hizo un recuento del número de kilos por 1000 que llegaron estropeados,obteniéndose los siguientes datos:

Meses A B C Total

1 6 10 10 26

2 8 12 12 32

3 8 8 14 30

4 9 14 16 39

Total 31 44 52 127

a) Observando simplemente los datos, ¿qué se puede inferir sobre el experimento?

b) Con un nivel de significación de 0,05, comprobar que los tres métodos tienen la    misma eficacia.

Solución:

a)  Con la simple observación de los datos, el empaquetado A parece ser el mejor, ya que es elque menos kilos de tomates estropeados tuvo.  Ahora bien, esta situación puede ser engañosa,ya que hay que tener en cuenta el número de kilos que se empaquetaron.

Para tomar una decisión sobre si hay diferencia entre los diferentes métodos de empaquetado,se contrasta la hipótesis nula

Page 35: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 33

0H : 'No existe diferencia entre los métodos de empaquetado'

b)  Se acepta  0H  sí   2 2k m k m

ij ij i j2 2( k 1 ) . (m 1) , ( k 1 ) . (m 1 )

ij iji 1 j 1 i 1 j 1

( n e ) nn

e e− − α − −= = = =

−χ = = − < χ∑∑ ∑∑

Se forma la tabla de contingencia 3 x 4 , donde xi j

i j

n ne

n• •=

 EmpaquetadoMeses

A B C Total

16

11e 6, 35=10

12e 9, 01=10

13e 10, 62=2626

28

21e 7, 81=12

22e 11, 09=12

23e 13, 10=3232

38

31e 7, 32=8

32e 10, 39=14

33e 12, 28=3030

49

41e 9, 52=14

42e 13, 51=16

43e 15, 97=3939

Total 31 44 52 127

11

26 . 31e 6, 35

127= =      21

32 . 31e 7, 81

127= =        31

30 . 31e 7, 32

127= =         41

39 . 31e 9, 52

127= =

12

26 . 44e 9, 01

127= =      22

32 . 44e 11, 09

127= =       32

30 . 44e 10, 39

127= =      42

39 . 44e 13, 51

127= =

13

26 . 52e 10, 65

127= =     23

32 . 52e 13, 10

127= =       33

30 . 52e 12, 28

127= =      43

39 . 52e 15, 97

127= =

Estadístico de contraste: 23 4i j2 2

( 3 1 ) . ( 4 1 ) 6i ji 1 j 1

nn 128,24 127 1,24

e− −= =

χ = χ = − = − =∑∑

Estadístico teórico o esperado:  20,05 , 6 12,592χ =

Siendo 2 26 0,05 , 61, 24 12,592χ = < χ = , el estadístico observado es menor que el

estadístico teórico o esperado. Por tanto, no se cumple la región de rechazo,concluyendo que los tres métodos de empaquetado tienen la misma eficiencia.

Page 36: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 34

0H : 'No existe diferencia entre los métodos de empaquetado'

Page 37: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 35

Como p_valor (Sig. asintótica)  0,975 0,05= > = →α    Se acepta la hipótesis nula.  Se

concluye que no existe diferencia entre los métodos de empaquetado

Page 38: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 36

8.  Una empresa multinacional desea conocer si existen diferencias significativas entre sustrabajadores en distintos países en el grado de satisfacción en el trabajo‐ Para ello se tomanmuestran aleatorias simples de trabajadores, obteniendo los siguientes resultados:

Satisfacción en el trabajo

Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho

 España 200 300 300 100

 Francia 300 400 350 150

 Italia 350 300 250 150

¿Puede admitirse con un nivel de significación del 5% que la satisfacción en el trabajo es similaren los tres países?

Solución:

La hipótesis nula  0H : 'Las proporciones de los trabajadores con los distintos grados de

                                        satisfacción son iguales en los tres países'

Se acepta  0H  sí   2 2k m k m

ij ij i j2 2( k 1 ) . (m 1) , ( k 1 ) . (m 1 )

ij iji 1 j 1 i 1 j 1

( n e ) nn

e e− − α − −= = = =

−χ = = − < χ∑∑ ∑∑

Región de rechazo de la hipótesis nula:  { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ

Se forma la tabla de contingencia 3 x 4 , cada frecuencia observada  i j i 1 , , k , j 1 , , m(n ) = =

tiene una frecuencia teórica o esperada xi j

i j

n ne

n• •=

Satisfacción en el trabajo

Muy satisfecho Satisfecho Insatisfecho Muy insatisfechoTotal

 España200

11e 242, 86=300

12e 285, 71=300

13e 257, 14=100

14e 114, 29=900900

 Francia300

21e 323, 81=400

22e 380, 95=350

23e 342, 86=150

24e 152, 38=1.2001.200

 Italia350

31e 283, 33=300

32e 333, 33=250

33e 300=150

34e 133,33=1.0501.050

 Total 850 1.000 900 400 3.150

Estadístico observado:

2 23 4 3 4i j i j i j2

( 3 1 ) . ( 4 1 )i j i ji 1 j 1 i 1 j 1

2 2 2 2 2 2 2 2

2 2

( n e ) nn

e e

200 300 300 100 300 400 350 150              

242,86 285,71 257,14 114,29 323,81 380,95 342,86 152,38

350 300 250             

283,33 333,33

− −= = = =

−χ = = − =

= + + + + + + + +

+ + +

∑∑ ∑∑

2 21503150 49,55

300 133,33+ − =

Page 39: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 37

Estadístico teórico:  2 20,05 , ( 3 1 ) . ( 4 1 ) 0,05 , 6 12,592− −χ = χ =

Siendo  226 0,05 , 649,55 12,592χ = > = χ  se rechaza la hipótesis nula de homogeneidad de las

tres muestras.Es decir, la satisfacción en el trabajo de los empleados de los tres países es significativamentedistinta.

9.  Las compañías de seguros de automóviles suelen penalizar en sus primas a los conductoresmás jóvenes, con el criterio que éstos son más propensos a tener un mayor número deaccidentes. En base a la tabla adjunta, con un nivel de significación del 5%, contrastar si elnúmero de accidentes es independiente de la edad del conductor.

Número de accidentes al año Edad del conductor

0 1 2 3 4

 25 o menos 10 10 20 40 70

 26 ‐ 35 20 10 15 20 30

 más de 36 60 50 30 10 5

Solución:

Hipótesis nula  0H :  'El número de accidentes sufridos por los conductores no depende

                                    de la edad del conductor'

Se acepta  0H  sí   2 2k m k m

ij ij i j2 2( k 1 ) . (m 1) , ( k 1 ) . (m 1 )

ij iji 1 j 1 i 1 j 1

( n e ) nn

e e− − α − −= = = =

−χ = = − < χ∑∑ ∑∑

Región de rechazo de la hipótesis nula:  { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ

En la tabla de contingencia 3 x 5 cada frecuencia observada  i j i 1 , , k , j 1 , , m(n ) = =  tiene una

frecuencia teórica o esperada en caso de independencia xi j

i j

n ne

n• •=

Número de accidentes por añoEdad delconductor

0 1 2 3 4

3

i

i 1

n •=∑

25 o menos10

11e 33, 75=10

12e 26, 25=20

13e 24, 37=40

14e 26, 25=70

15e 39, 37=150150

26 ‐ 3520

21e 21, 37=10

22e 16, 62=15

23e 15,44=20

24e 16,62=30

25e 24,94=9595

más de 3660

31e 34,87=50

32e 27,12=30

33e 25,19=10

34e 27,12=5

35e 40,69=155155

5

j

j 1

n•=∑ 90 70 65 70 105 400

Page 40: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 38

11

150 . 90e 33,75

400= = 12

150 . 70e 26,25

400= = 13

150 . 65e 24,37

400= = 14

150 . 70e 26,25

400= = 15

150 . 105e 39,37

400= =

21

95 . 90e 21,37

400= =

22

95 . 70e 16,62

400= =

23

95 . 65e 15, 44

400= =

24

95 . 70e 16,62

400= = 25

95 . 105e 24,94

400= =

31

155 . 90e 34,87

400= = 32

155 . 70e 27,12

400= = 33

155 . 65e 25,19

400= = 34

155 . 70e 27,12

400= = 35

155 . 105e 40,69

400= =

Estadístico observado:2 23 5 3 5

i j i j i j2 2( 3 1 ) . ( 5 1 ) 8

i j i ji 1 j 1 i 1 j 1

2 2 2 2 2 2 2 2 2 2

2 2 2

(n e ) nn

e e

10 10 20 40 70 20 10 15 20 30      

33,75 26,25 24,37 26,25 39,37 21,37 16,62 15,44 16,62 24,94

60 50 30      

34,87 27,12 2

− −= = = =

−χ = χ = = − =

⎛ ⎞ ⎛ ⎞= + + + + + + + + + +⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠

+ + +

∑∑ ∑∑

2 210 5400 143,51

5,19 27,12 40,69

⎛ ⎞+ + − =⎜ ⎟

⎝ ⎠

Estadístico teórico:    2 20,05 , ( 3 1 ) . ( 5 1 ) 0,05 , 8 15,507− −χ = χ =

Como  228 0,05 , 8143,51 15,507χ = > = χ  se rechaza la hipótesis nula de independencia entre la

edad del conductor y el número de accidentes.

En consecuencia, la edad influye significativamente en el número de accidentes al año.

10.  En dos ciudades, A y B, se observó el color del pelo y de los ojos de sus habitantes,encontrándose las siguientes tablas:

              Ciudad A                   Ciudad BPelo

 Ojos Rubio No RubioPelo

 Ojos Rubio No Rubio

 Azul 47 23  Azul 54 30

 No azul 31 93  No azul 42 80

a) Hallar los coeficientes de contingencia de las dos ciudades.

b) ¿En cuál de las dos ciudades podemos afirmar que hay mayor dependencia entre el color delpelo y de los ojos?

Solución:

a)   Se calculan los valores de la  2χ  correspondientes a las dos observaciones, siendo la

frecuencia esperada xi j

i j

n ne

n• •=

Page 41: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 39

Ciudad A

PeloOjos

Rubio No Rubio Total

 Azul47

11e 28,14=23

12e 41,85=7070

 No azul31

21e 49,85=93

22e 74,14=124124

 Total 78 116 194

11

70 . 78e 28,14

194= = 12

70 . 116e 41,85

194= =

21

124 . 78e 49,85

194= = 22

124 . 116e 74,14

194= =

Estadístico de contraste:

22 2 2 2 2 2i j2 2

( 2 1 ) . ( 2 1 ) 1i ji 1 j 1

n 47 23 31 93n 194 33,05

e 28,14 41,85 49,85 74,14− −= =

χ = χ = − = + + + − =∑∑O bien,

x x x x x x

x x x x x x

2 211 22 12 212

11 2 1 2

n (n n n n ) 194 ( 47 93 23 31)33,05

n n n n 70 124 78 116• • • •

− −χ = = =

Coeficiente de contingencia:   A33,05

C 0,381533,05 194

= =+

En la población B, la tabla de contingencia 2 x 2 :

Ciudad B

PeloOjos

Rubio No Rubio Total

 Azul54

11e 39,15=30

12e 44,85=8484

 No azul42

21e 56,85=80

22e 65,15=122122

 Total 96 110 206

   11

84 . 96e 39,15

206= =     12

84 . 110e 44,85

206= =

   21

96 . 122e 56,85

206= =    22

110 . 122e 65,15

206= =

Estadístico de contraste:

22 2 2 2 2 2i j2 2

( 2 1 ) . ( 2 1 ) 1i ji 1 j 1

n 54 30 42 80n 206 17,82

e 39,15 44,85 56,85 65,15− −= =

χ = χ = − = + + + − =∑∑O bien,

x x x x x x

x x x x x x

2 211 22 12 212

11 2 1 2

n (n n n n ) 206 ( 54 80 30 42)17,82

n n n n 84 122 96 110• • • •

− −χ = = =

Coeficiente de contingencia:    B17,82

C 0,28217,82 206

= =+

Page 42: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 40

b) Como el coeficiente de contingencia mide el grado de relación o dependencia entre lasvariables, se afirma que en la población A hay mayor dependencia entre el color de los ojos ydel pelo.

11.  En una muestra aleatoria de personas se analizan algunos hábitos de la vida, habiendorecogido datos de las siguientes variables:

1X   Estado general de salud: muy bueno (3),  bueno (2),  regular (1), malo (0)≡

2X  Sexo: mujer (1),  hombre (0)≡

3X  Nivel del ejercicio diario:  intenso (2), moderado (1),  ninguno (0)≡

Realizadas las tablas de contingencia correspondientes, se calcularon los siguientes estadísticospara contrastar la asociación:

2 2 21 2 2 3 1 3a) ( X , X ) 8 b) ( X , X ) 4,5 c) ( X , X ) 6,1χ = χ = χ =

Con la información facilitada, a un nivel de significación del 5%, elaborar un diagnóstico paracada una de las parejas de variables.

Solución:

Calculando los p‐valor ( pα ) de cada estadístico se obtiene:

a) 0 1 2H :  X  e  X   son independientes

 En  21 2( X , X ) 8χ =  el número de grados de libertad es  x( 4 1 ) ( 2 1 ) 3− − =

2p p , 3P( 8 )α = χ ≥ −   Interpolando en la tabla Chi‐cuadrado:

0,05 pα 0,025

7,815 8 9,348     

p

0,05 0,025 7,815 9,348

0,025 8 9,348

− ⎯⎯→ −

α − ⎯⎯→ −

x xp p( 0,025 ) ( 7,815 9,348 ) ( 0,05 0,025) ( 8 9,348 ) 0,0469α − − = − − → α =

Siendo   p 0,0469 0,05α = <  se rechaza la hipótesis nula, concluyendo que el estado general de

salud está asociado al sexo.

b)  0 2 3H :  X  e  X   son independientes

En  22 3( X , X ) 4,5χ =  el número de grados de libertad es  x( 2 1 ) ( 3 1 ) 2− − =

2p p , 2P( 4,5 )α = χ ≥ −   Interpolando en la tabla Chi‐cuadrado:

0,90 pα 0,10

0,211 4,5 4,605     

p

0,90 0,10 0,211 4,605

0,10 4,5 4,605

− ⎯⎯→ −

α − ⎯⎯→ −

p px x( 0,10 ) ( 0,211 4,605 ) ( 0,90 0,10 ) ( 4,5 4,605 ) 0,119α − − = − − → α =

Page 43: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 41

Siendo p 0,119 0,05α = > se acepta la hipótesis nula, concluyendo que el sexo esindependiente del nivel del ejercicio diario.

c)    0 1 3H :  X  e  X   son independientes

 En   21 3( X , X ) 6,1χ =  el número de grados de libertad es  x( 4 1 ) ( 3 1) 6− − =

2p p , 6P( 6,1 )α = χ ≥ −    Interpolando en la tabla Chi‐cuadrado:

0,90 pα 0,10

2,204 6,1 10,645     

p

0,90 0,10 2,204 10,645

0,10 6,1 10,645

− ⎯⎯→ −

α − ⎯⎯→ −

x xp p( 0,10 ) ( 2,204 10,645 ) ( 0,90 0,10 ) ( 6,1 10,645 ) 0,530α − − = − − → α =

Siendo   p 0,530 0,05α = >  se acepta la hipótesis nula, concluyendo que el estado general de

salud es independiente del nivel del ejercicio diario.

12.  Para curar cierta enfermedad se sabe que existen cuatro tratamientos diferentes. Aplicadospor separado a un grupo distinto de enfermos, se han observado los siguientes resultados:

                            EnfermoTratamientos

Curados No curados Total

A 60 23 83

B 46 10 56

C 70 17 87

D 54 30 84

¿Se puede considerar que la eficacia de los cuatro tratamientos es la misma con un nivel deconfianza del 95 por 100?

Solución 1:

Se trata de un contraste de homogeneidad de cuatro muestras, con 83, 56, 87 y 84 personas, delas cuales hay, respectivamente,  60, 46, 70 y 54  personas curadas.

Se establece la hipótesis nula:

0H : Los cuatro tratamientos (muestrales) son de la misma eficacia

Lo que lleva a afirmar que la proporción de personas curadas en cada muestra esp 230 / 310 0,742= =  y  las no curadas  q 1 0,742 0,258= − = , donde  xi ie n p• •=

Page 44: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 42

                              EnfermoTratamientos

Curados

i 1( n ) No curados in •

A 60 2383

  x1e 83 0,742 61,58• = =

B 46 1056

x2e 56 0,742 41,55• = =

C 70 1787

x3e 87 0,742 64,55• = =

D 54 3084

x4e 84 0,742 62,32• = =

4 2 2 2 2 2i 1 i

ii 1

( n e ) ( 60 61,58 ) ( 46 41,55 ) ( 70 64,55 ) ( 54 62,32 )1,55

n 83 56 87 84•

•=

− − − − −= + + + =∑

x xx x

4 2i 1 i2 2

k 1 4 1ii 1

( n e )1 11,55 8,09

p q n 0,742 0,258•

− −•=

−⎛ ⎞ ⎛ ⎞χ = χ = = =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

Siendo  2 23 0,05 , 38,09 7,815χ = > = χ  se rechaza la hipótesis nula. Es decir, los tratamientos a

efectos de curar a  los pacientes tienen diferente eficacia, con un nivel de significación   0,05α =

Solución 2:

Se establece la hipótesis nula:

0H : Los cuatro tratamientos (muestrales) son de la misma eficacia

Es una tabla de contingencia 4 x 2, con una frecuencia teórica  x

xi j

i j i j

n ne p n

n• •= =

                       EnfermoTratamientos

Curados No curados in •

A60

11e 61,58=23

12e 21,42=8383

B46

21e 41,55=10

22e 14,45=5656

C70

31e 64,55=17

32e 22,45=8787

D54

41e 62,32=30

42e 21,68=8484

jn • 230 80 310

11x83 230

e 61,58310

= = 21x56 230

e 41,55310

= = 31x87 230

e 64,55310

= = 41x84 230

e 62,32310

= =

Page 45: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 43

12x83 80

e 21,42310

= = 22x56 80

e 14,45310

= = 32x87 80

e 22,45310

= = 42x84 80

e 21,68310

= =

4 2 2 2 2 2ij i j2

( 4 1 ) . ( 2 1 )i j

i 1 j 1

2 2 2 22

(n e ) ( 60 61,58 ) ( 23 21,4 2) ( 46 41,55)e 61,58 21,42 41,55

( 70 64,55 ) (17 22,45 ) ( 54 62,32 ) ( 30 21,68 )(10 14,45)8,09

14,45 64,55 22,45 62,32 21,68

− −

= =

− − − −χ = = + + +

− − − −−+ + + + + =

∑∑

La expresión anterior se podía haber realizado de forma más sencilla con la igualdad:

4 2 4 22 2 2 2 2 2ij i j i j2

( 4 1 ) . ( 2 1 )i j i j

i 1 j 1 i 1 j 1

2 2 2 2

(n e ) n 60 23 46 10n

e e 61,58 21,42 41,55 14.45

70 17 54 30                                                                     3

64,55 22,45 62,32 21,68

− −

= = = =

−χ = = − = + + + +

+ + + + −

∑∑ ∑∑10 8,09=

Como  2 23 0,05 , 38,09 7,815χ = > = χ  se rechaza la hipótesis nula. Los tratamientos a efectos de

curar a  los pacientes tienen diferente eficacia, a un nivel  0,05α =

13.  Demostrar que el estadístico  k 2 k 2

i i i

i ii 1 i 1

(n e ) nn

e e= =

−= −∑ ∑

Solución:

 

k 2 k 2 2 k 2i ii i i i i i i

i i ii 1 i 1 i 1

n . e(n e ) n 2 .n . e e n2 .

e e e= = =

− − += = −∑ ∑ ∑

ie

k 2i

i 1

e

=

+∑ie

k

i 1

k 2 k k k 2 ki i

i i i ii ii 1 i 1 i 1 i 1 i 1

k 2 k k 2 k 2i i i

ii i ii 1 i 1 i 1 i 1

n n                            2 . n e 2 .n n .p

e e

n n n                            2 .n n . p 2 .n n n

e e e

=

= = = = =

= = = =

=

= − + = − + =

= − + = − + = −

∑ ∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

Page 46: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 44

14.  En el gráfico se presenta la evaluación del estado general de salud de una muestra depersonas adultas mayores, según sea su peso normal o sobrepeso.

Con los datos del gráfico, con un nivel de significación del 5%, analizar la existencia de unarelación significativa entre el peso y el estado general de salud en el adulto mayor.

Solución:

a)  Se trata de dos variables dicotómicas, con datos de frecuencia, pudiéndose aplicar unaprueba de contraste de asociación con la Chi‐cuadrado.

Hipótesis nula  0H :  El estado de salud y el peso son independientes

Llevando la información a una tabla de contingencia de  x2 2

PesoEstado de Salud

Normal SobrepesoTotal

  Bueno12

11e 9,41=8

12e 10,59=2020

  Malo4

21e 6,59=10

22e 7,41=1414

  Total 16 18 34

La frecuencia observada  21n 4=  es menor que lo aconsejable en cada celda ( 5≥ ), lo que

podría hacer pensar en una inestabilidad del cálculo.

Como la frecuencia esperada   21e 6,59= , todas las celdas cumplen con el mínimo aconsejable

de 5 en su valor esperado. En la práctica se acepta hasta un 20% de las celdas que no cumplencon el requisito de que la frecuencia esperada sea  5≥

Se calculan los valores de la  2χ  correspondientes a las dos observaciones, siendo la frecuencia

esperada x

xi j

i j i j

n ne p n

n• •= =

1120 . 16

e 9, 4134

= = 1220 . 18

e 10,5934

= = 2114 . 16

e 6,5934

= = 2214 . 18

e 7, 4118

= =

Page 47: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 45

Estadístico de contraste:

22 2 2 2 2 2ij2 2

( 2 1 ) . ( 2 1 ) 1iji 1 j 1

n 12 8 4 10n 34 3,27

e 9,41 10,59 6,59 7,41− −= =

χ = χ = − = + + + − =∑∑

Se podría haber calculado con la fórmula sencilla:

x x x x x x

x x x x x x

2 211 22 12 212

11 2 1 2

n (n n n n ) 34 (12 10 8 4)3,27

n n n n 20 14 16 18• • • •

− −χ = = =

Estadístico teórico:   20,05 , 1 3,841χ =

Como  2 21 0,05, 13,27 3,841χ = < = χ   se acepta la hipótesis nula, concluyendo que el estado

general de salud del adulto mayor no está asociado a su peso.

Adviértase que como la muestra n 50<  se hace aconsejable el uso de la Chi‐cuadrado con

el factor de corrección de continuidad de Yates:

Factor corrección de Yates: i j i j i j

i j i j i j

n e n 0,5

n e n 0,5

< → +⎧⎨ > → −⎩

Expresión que se puede sintetizar:

22 2

ij ij21

iji 1 j 1

n e 0,5

e= =

⎡ ⎤− −⎣ ⎦χ = ∑∑

PesoEstado de Salud

Normal SobrepesoTotal

  Bueno11,5

11e 9,41=8,5

12e 10,59=2020

  Malo4,5

21e 6,59=9,5

22e 7,41=1414

  Total 16 18 34

2 2 22 2ij ij2

1iji 1 j 1

2 2

n e 0,5 12 9,41 0,5 8 10,59 0,5

e 9,41 10,59

4 6,59 0,5 10 7,41 0,5    2,13

6,59 7,41

= =

⎡ ⎤− − ⎡ ⎤ ⎡ ⎤− − − −⎣ ⎦ ⎣ ⎦ ⎣ ⎦χ = = + +

⎡ ⎤ ⎡ ⎤− − − −⎣ ⎦ ⎣ ⎦+ + =

∑∑

O bien,

x x x x x x

x x x x x x

2 211 22 12 212

11 2 1 2

n (n n n n ) 34 (11,5 9,5 8,5 4,5)2,13

n n n n 20 14 16 18• • • •

− −χ = = =

Para una tabla de contingencia de  x2 2  la corrección de Yates, caso general de aplicación:

Page 48: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 46

x x x

x x x

2

11 22 12 2121

1• 2• •1 •2

nn n n n n

2n n n n

⎡ ⎤− −⎢ ⎥⎣ ⎦χ =      Corrección no es válida cuando

x x11 22 12 21n

n n n n2

− ≤

En el caso,  x x x

x x x

2

21

3434 12 10 8 4

22,13

20 14 16 18

⎡ ⎤− −⎢ ⎥⎣ ⎦χ = =

Como  2 21 0,05, 12,13 3,841χ = < = χ   se acepta la hipótesis nula.

La validez del contraste también se puede hacer con el p‐valor ( pα ) :

( )2p p , 1P 2,13 0,271α = χ > =

0,90 pα 0,10

0,0158 2,13 2,706     

p

0,90 0,10 0,0158 2,706

0,10 2,13 2,706

− ⎯⎯→ −

α − ⎯⎯→ −

x xp p( 0,10 ) ( 0,0158 2,706 ) ( 0,90 0,10 ) ( 2,13 2,706 ) 0,271α − − = − − → α =

Al ser  p 0,271 0,05α = > = α   se rechaza la hipótesis nula, afirmando que el estado general de

salud del adulto mayor es independiente de su peso.

15.  Un experimento para investigar el efecto de vacunación de animales de laboratorio reflejala siguiente tabla:

Animal laboratorioVacuna

Enfermo No Enfermo

  Vacunado 9 42

  No Vacunado 18 28

Con un nivel de significación de 0,05, ¿Es conveniente vacunar?.

 Solución:

Hipótesis nula  0H :  Es independiente la vacuna de los animales enfermos

Animal laboratorioVacuna

Enfermo No EnfermoTotal

  Vacunado 9 42 51

  No Vacunado 18 28 46

  Total 27 70 97

En una tabla de contingencia de  x2 2  Chi‐cuadrado se puede calcular de una forma sencilla

recurriendo a las frecuencias observadas.

Page 49: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 47

Estadístico observado:

x x x x x x

x x x x x x

2211 22 12 212

11 2 1 2

n (n n n n ) 97 9 28 42 185,5570

n n n n 51 46 27 70• • • •

− −⎡ ⎤⎣ ⎦χ = = = =

El número de grados de libertad es  x( 2 1 ) ( 2 1) 1− − =

Estadístico teórico:   20,05 , 1 3,841χ =

Siendo  2 21 0,05 , 15,5570 3,841χ = > = χ   se rechaza la hipótesis nula, es decir, la vacuna afecta a

la enfermedad, con un nivel de significación  0,05α =

El grado de relación o dependencia viene determinado por el coeficiente de contingencia:

3,841C 0,195 (19,5%)

3,841 97= =

+

16.  Se desea analizar si los estudiantes de universidades privadas preferentemente son de losestratos económicos altos del país. Para ello, se ha tomado la siguiente muestra:

Grupos socioeconómicos  Universidades

Alto Medio alto Medio bajo Bajo

    Estado 13 17 4 3

   Privadas 38 19 2 2

a)  Para validar el análisis con un nivel de confianza del 95%, realizar un contraste por la razón deverosimilitud (test G).

b)  Estudiar el grado de dependencia entre el tipo de universidad y el estrato socioeconómico.

 Solución:

a)  El test de contraste de independencias por la razón de verosimilitudes  (test G) es una pruebade hipótesis de la Chi‐cuadrado que presenta mejores resultados que el de Pearson. Se

distribuye asintóticamente como una variable aleatoria  2χ  con   x( k 1 ) (m 1 )− −  grados de

libertad.

El estadístico  . .

k mij

i ji ji 1 j 1

nG 2 n ln

e= =

⎛ ⎞= ⎜ ⎟⎜ ⎟

⎝ ⎠∑∑

Se acepta la hipótesis nula  0H  sí    . .

k mij 2

i j , ( k 1 ) . (m 1 )i ji 1 j 1

nG 2 n ln

e α − −= =

⎛ ⎞= < χ⎜ ⎟⎜ ⎟

⎝ ⎠∑∑

Hipótesis nula  0H :  El tipo de universidad es independiente del grupo socioecónomico

En un principio, la tabla presenta un 50% de celdas que no verifican que las frecuencias seanmayores que 5, teniendo que agrupar modalidades contiguas en una sola hasta lograr que lanueva frecuencia sea mayor que cinco.

Page 50: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 48

Grupos socioeconómicosUniversidades

Alto Medio alto Medio bajo ‐ Bajo

    Estado 13 17 7

    Privadas 38 19 4

Se calculan los valores esperados de cada celda, donde x

xi j

i j i j

n ne p n

n• •= =

Grupos socioeconómicosUniversidades

Alto Medio alto Medio bajo ‐ BajoTotal

   Estado13

11e 19,26=17

12e 13,59=7

13e 4,15=3737

   Privadas38

21e 31,74=19

22e 22,41=4

23e 6,85=6161

   Total 51 36 11 98

1137 . 51

e 19,2698

= = 1237 . 36

e 13,5998

= = 1337 . 11

e 4,1598

= =

2161 . 51

e 31,7498

= = 2261 . 36

e 22, 4198

= = 2361 . 11

e 6,8598

= =

La frecuencia observada   23n 4=   es menor que lo aconsejable en cada celda ( 5≥ ), lo que

podría hacer pensar en una inestabilidad del cálculo. Como la frecuencia esperada   23e 6,85=se confirma la estabilidad de la prueba.

Todas las celdas, excepto  13e 4,15 5= < , cumplen con el mínimo aconsejable de 5 en su valor

esperado.  En la práctica se acepta hasta un 20% de las celdas que no cumplen con el requisitode que la frecuencia esperada sea  5≥

En cada celda se calcula el valor de  xij

i ji j

nn ln

e

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠

Grupos socioeconómicosUniversidades

Alto Medio alto Medio bajo ‐ BajoTotal

   Estado

13

11e 19,26=

11g 5,11= −

17

12e 13,59=

12g 3,80=

7

13e 4,15=

13g 3,66=

37372,35

   Privadas

38

21e 31,74=

21g 6,84=

19

22e 22,41=

22g 3,14= −

4

23e 6,85=

23g 2,15= −

61611,55

   Total511,73

360,66

111,51

983,9

x13

13 ln 5,1119,26

⎛ ⎞ = −⎜ ⎟⎝ ⎠

x17

17 ln 3,8013,59

⎛ ⎞ =⎜ ⎟⎝ ⎠

x7

7 ln 3,664,15

⎛ ⎞ =⎜ ⎟⎝ ⎠

Page 51: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 49

x38

38 ln 6,8431,74

⎛ ⎞ =⎜ ⎟⎝ ⎠

x19

19 ln 3,1422,41

⎛ ⎞ = −⎜ ⎟⎝ ⎠

x4

4 ln 2,156,85

⎛ ⎞ = −⎜ ⎟⎝ ⎠

Estadístico observado:   . . x

2 3i j

i ji ji 1 j 1

nG 2 n ln 2 3,9 7,8

e= =

⎛ ⎞= = =⎜ ⎟⎜ ⎟

⎝ ⎠∑∑

Número de grados de libertad:   x( 2 1 ) ( 3 1) 2− − =

Estadístico teórico:   20,05, 2 5,991χ =

Como  20,05, 2G 7,8 5,991= > = χ , se rechaza la hipótesis nula de independencia, concluyendo

que el tipo de universidad está asociado al grupo socioeconómico.

La validez del contraste también se puede hacer con el p‐valor ( pα ):

( )2p p , 2P 7,8 0,02α = χ > =

0,025 pα 0,02

7,378 7,8 7,824     

p

0,025 0,02 7,378 7,824

0,02 7,8 7,824

− ⎯⎯→ −

α − ⎯⎯→ −

x xp p( 0,02 ) ( 7,378 7,824 ) ( 0,025 0,02 ) ( 7,8 7,824) 0,02026α − − = − − → α =

Al ser  p 0,02026 0,05α = < = α  se acepta la hipótesis nula, afirmando que el tipo de

universidad depende del estrato socioeconómico.

b)  El grado de contingencia mide el grado de relación o dependencia:

 G 7,8

C 0,2715G n 7,8 98

= = =+ +

 , hay una dependencia del 27,15%.

0H :  El tipo de universidad es independiente del grupo socioecónomico

Page 52: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 50

Page 53: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 51

La  2χ  de Pearson se podía calcular con una fórmula sencilla sin tener que calcular lasfrecuencias esperadas:

Grupos socioeconómicosUniversidades Alto Medio alto Medio bajo ‐ Bajo

2

i

i 1

n •=∑

   Estado 13 17 7 37

   Privadas 38 19 4 61

   3

j

j 1

n•=∑ 51 36 11 98

x x

2 2 2 2 2 211 12 13 21 22 232

21 1 2 3 2 1 2 3

n n n n n nn nn

n n n n n n n n• • • • • • • •

⎡ ⎤ ⎡ ⎤χ = + + + + + −⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

x x

2 2 2 2 2 222

98 9813 17 7 38 19 498 7,78

37 51 36 11 61 51 36 11

⎡ ⎤ ⎡ ⎤χ = + + + + + − =⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦

17.  Un agricultor desea saber si existe diferencia entre diez abonos en el cultivo del plátano enuna determinada zona.  Para ello abona seis matas con cada abono, observa el número de kilosy obtiene los siguientes resultados:

 Abonos 1x 2x 3x 4x 5x 6x 7x 8x 9x 10x

 i

2xσ 9 3 4 3 5 4 2 4 5 3

¿Existe diferencia entre los abonos a un nivel  0,01α = ?

Solución:

Se desea comprobar si todos los abonos tienen o no la misma varianza. Para ello se establece lahipótesis nula  0H :  Todas las varianzas son iguales

Lo que equivale a decir que no hay diferencia entre los abonos.

Como todas las muestras tienen los mismos elementos 1 2 10(n n n 6)= = = = , se acepta

la hipótesis nula sí:

k

2 2 2 2k 1 i , ( k 1 )

i 1

(n 1 ) . k . ln ln− α −=

⎡ ⎤χ = − σ − σ < χ⎢ ⎥

⎢ ⎥⎣ ⎦∑

Abonos 1x 2x 3x 4x 5x 6x 7x 8x 9x 10x TOTAL

 i

2xσ 9 3 4 3 5 4 2 4 5 3 42

i

2xln σ 2,20 1,10 1,39 1,10 1,61 1,39 0,69 1,39 1,61 1,10 13,56

i

102 2x x

i 1

1 42. 4,2

10 10=σ = σ = =∑

Page 54: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 52

210 1 ( 6 1 ) . 10 . ln 4,2 13,56 3,9542−χ = − − =⎡ ⎤⎣ ⎦

Siendo  2 29 0,01, 9 03,9542 21,6660 Se acepta H  (todas las varianzas son iguales)χ = < = χ →

En consecuencia, no hay diferencia entre los abonos, pudiendo considerar las seis matas deplátanos pertenecientes a la misma población.

18.  Para analizar la repercusión que tienen los debates televisivos en la intención de voto, unequipo de investigación recogió datos entre 240 individuos antes y después del debate,resultando la siguiente tabla:

Después del debate(candidatos)Antes del debate

(candidatos)A B

Total

     A 46 50 96

     B 85 59 144

Total 131 109 240

Se desea saber si el debate televisivo cambió la intención de voto, con un nivel de significacióndel 5%.

Solución:

Se trata de una muestra pareada en una situación antes‐después, con lo que es idóneo uncontraste estadístico Chi‐cuadrado de McNemar.

Después del debate (candidatos)Antes del debate(candidatos) A B

Total

     A 46  (a) 50  (b) 96   (a b)+

     B 85  (c) 59  (d) 144   (c d)+

Total 131  (a c)+ 109   (b d)+ 240   n

Sea la hipótesis nula  0H :  La intención de voto es la misma antes y después del debate

Siendo  b c 50 85 135 20+ = + = ≥

El estadístico de contraste es:   2

2 2McNemar 1

(b c )b c−

χ = χ =+

Estadístico muestral:  2

2McNemar

( 85 50 )9,074

85 50−

χ = =+

Estadístico teórico:  2 2/ 2 , 1 0,025, 1 5,024αχ = χ =

Como  2 2McNemar 0,025, 19,074 5,024χ = > = χ  se rechaza la hipótesis nula, concluyendo que la

intención de voto cambió significativamente después del debate, con un nivel de significacióndel 5%.

Page 55: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 53

Hipótesis nula  0H :  La intención de voto es la misma antes y después del debate

Page 56: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 54

p_valor (Sig. bilateral)  0,003 0,05= <Por tanto, se rechaza la hipótesis nula

Page 57: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 55

19.  En un ensayo experimental se administran cuatro tratamientos diferentes a cincoindividuos, se refleja 1 ó  0 dependiendo si hay o no mejoría, respectivamente. Los resultadosobtenidos se reflejan en la tabla adjunta. Con un nivel de significación de 0,05, ¿existe diferencia en los tratamientos?

Tratamientos

 Individuos 1 2 3 4

5

i

i 1

x •=∑

1 1 1 1 0 3

2 0 0 0 1 1

3 1 1 0 1 3

4 1 0 0 0 1

5 0 0 1 0 14

j

j 1

x •=∑ 3 2 2 2 9

Solución:

Sea la variable dicotómica X = resultado en el tratamiento

Hipótesis nula   0H :  Los tratamientos son igualmente efectivos

Hipótesis alternativa:  0H :  Existe diferencia en la eficacia de los tratamientos

x x x x

x

24

j

j 12Cochran ( 4 1 ) 5

i i

i 1

nx

k 0,75Q 4 (4 1) 4 3 0,6

15x ( k x )

• •

=

=

⎡ ⎤−⎢ ⎥⎣ ⎦= χ = − = =

∑24 2 2 2 2

j

j 1

n 9 9 9 9x 3 2 2 2 0,75

k 4 4 4 4•=

⎡ ⎤ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞− = − + − + − + − =⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎢ ⎥⎣ ⎦ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠∑

x

5

i i

i 1

x (k x ) 3 . ( 4 3 ) 1 . ( 4 1 ) 3 . ( 4 3 ) 1 . ( 4 1 ) 1 . ( 4 1 ) 15• •=

− = − + − + − + − + − =∑

Como  2 23 0,05, 30,6 7,8147χ = < = χ → Se acepta la hipótesis nula, concluyendo que los

tratamientos con igualmente efectivos.

Page 58: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 56

Hipótesis nula   0H :  Los tratamientos son igualmente efectivos

p_valor (Sig. asintótica)  0,896 0,05= >Por tanto, se admite la hipótesis nula

Page 59: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 57

20.  Se ha realizado un estudio sobre la situación laboral de las mujeres y su estado civil, losdatos obtenidos fueron:

Estado civil       Trabajoremunerado Casada Soltera

Total

        Si        No      Total 45 35 80

Los resultados obtenidos en el análisis de la tabla de contingencia fueron:

Estadísticos Valor p‐valorChi‐cuadrado Pearson 5,634361 0,0175Chi‐cuadrado de Yates 4,154897 0,0357Test G 5,789645 0,0189Chi‐cuadrado NcNemar 2,94 0,0978Correlación Phi ‐0,685643 0,0178Q de Yule ‐0,812345

Con un nivel de significación  0,05α = , se pide:

a)  ¿Se encuentra asociada la situación laboral de la mujer a su estado civil?

b)  ¿Generalmente, las mujeres que realizan un trabajo remunerado con solteras?

Solución:

a)  Para analizar la dependencia o no de la situación laboral de la mujer con su estado civil

(asociación entre variables categóricas en una tabla de  x2 2 ) se utiliza el test de la  2χ  de

Pearson, con o sin corrección de Yates, el test G de razón de verosimilitudes.

El test de McNemar no se puede utilizar en este caso por no tratarse de muestras pareadas(antes‐después).

Estableciendo las hipótesis:

0H : La situación laboral de la mujer es independiente de su estado civil. 1H La situación laboral de la mujer depende de su estado civil.:

Los tres estadísticos primeros, basados en la  2χ , presentan un p‐valor 0,05α =< , con lo que se

rechaza la hipótesis nula  0H , concluyendo que la situación laboral de la mujer está asociada a su

estado civil.

b)  Partiendo de que la situación laboral de la mujer se encuentra asociada a su estado civil, faltapor determinar la dirección de dicha asociación, para lo que se recurre al coeficiente decorrelación Phi y la Q de Yule.

Ambos estadísticos son negativos, con un p‐valor 0,05α =< ,  pudiendo afirmar que la

correlación entre la situación laboral y el estado civil de las mujeres es inversa y significativa al5%.

Se puede concluir que la situación laboral de la mujer (sí esta trabajando) esta asociada  a lassolteras, con un nivel de significación del 5%.

Page 60: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 58

21.  La tabla adjunta refleja un análisis de la obesidad en 14 sujetos. Con un nivel de significaciónde 0,05, se desea analizar si existen diferencias en la prevalencia de obesidad entre hombres ymujeres o si, por el contrario, el porcentaje de obesos no varía entre sexos.

Obesidad  Sexo

Sí NoTotal

 Mujeres 1  (a) 4  (b) 5   ( a b )+

 Hombres 7  (c) 2  (d) 9   ( c d )+

 Total 8   ( a c )+ 6   (b d )+ 14  n

 Solución:

El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas cuando lamuestra a estudiar es demasiado pequeña y no cumple las condiciones necesarias para que laaplicación del test de la Chi‐cuadrado sea idónea.

Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exige que al menos el 80% delos valores esperados de las celdas sean mayores que 5.  De este modo, en una tabla decontingencia de  x2 2   será necesario que todas las celdas verifiquen esta condición, si bien en la

práctica suele permitirse que una de ellas tenga frecuencias esperadas ligeramente por debajode 5.

Si las dos variables que se están analizando son dicotómicas, y la frecuencia esperada es menor

que 5 en más de una celda, no resulta adecuado aplicar el test de la  2χ  aunque sí el test exactode Fisher.

El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las tablas  x2 2

que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tablaobservada. Cada uno de estas probabilidades se obtiene bajo la hipótesis de independencia delas dos variables que se están analizando.

La probabilidad asociada a los datos que han sido observados viene dada por:

                             ( a b )! ( c d )! ( a c )! (b d )!

pn! a! b! c! d!

+ + + +=

La fórmula general de la probabilidad descrita deberá calcularse para todas las tablas decontingencia que puedan formarse con los mismos totales de filas y columnas de la tablaobservada.

El valor de la p asociado al test exacto de Fisher puede calcularse sumando las probabilidades delas tablas que resulten menores o iguales a la probabilidad de la tabla que ha sido observada.

Cuando el  planteamiento es bilateral, es decir, cuando la hipótesis alternativa asume ladependencia entre las variables dicotómicas, pero sin especificar de antemano en qué sentido seproducen dichas diferencias, el valor de la p se multiplica por 2.

En este caso, planteando la hipótesis nula  0H :  El sexo y ser obeso son independientes

Page 61: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 59

ObesidadSexo

Sí NoTotal

 Mujeres 1  (a) 4  (b) 5   ( a b )+

 Hombres 7  (c) 2  (d) 9   ( c d )+

 Total 8   ( a c )+ 6   (b d )+ 14  n

p 0,0599=

( a b )! ( c d )! ( a c )! (b d )! 5! 9! 8! 6!p 0,0599

n! a! b! c! d! 14! 1! 4! 7! 2!+ + + +

= = =

Las siguientes tablas muestran todas las posibles combinaciones de frecuencias que se puedenobtener con los mismos totales de filas y columnas:

ObesidadSexo

Sí NoTotal

 Mujeres 4  (a) 1  (b) 5   ( a b )+

 Hombres 4  (c) 5  (d) 9   ( c d )+

 Total 8   ( a c )+ 6   (b d )+ 14  n

p 0,2098=

( a b )! ( c d )! ( a c )! (b d )! 5! 9! 8! 6!p 0,2098

n! a! b! c! d! 14! 4! 1! 4! 5!+ + + +

= = =

ObesidadSexo

Sí NoTotal

 Mujeres 2  (a) 3  (b) 5   ( a b )+

 Hombres 6  (c) 3  (d) 9   ( c d )+

 Total 8   ( a c )+ 6   (b d )+ 14  n

p 0,2797=

ObesidadSexo

Sí NoTotal

 Mujeres 3  (a) 2  (b) 5   ( a b )+

 Hombres 5  (c) 4 (d) 9   ( c d )+

 Total 8   ( a c )+ 6   (b d )+ 14  n

p 0,4196=

( a b )! ( c d )! ( a c )! (b d )! 5! 9! 8! 6!p 0,4196

n! a! b! c! d! 14! 3! 2! 5! 4!+ + + +

= = =

ObesidadSexo

Sí NoTotal

 Mujeres 0  (a) 5  (b) 5   ( a b )+

 Hombres 8  (c) 1  (d) 9   ( c d )+

 Total 8   ( a c )+ 6   (b d )+ 14  n

p 0,0030=

Page 62: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 60

ObesidadSexo

Sí NoTotal

 Mujeres 5 (a) 0  (b) 5   ( a b )+

 Hombres 3  (c) 6  (d) 9   ( c d )+

 Total 8   ( a c )+ 6   (b d )+ 14  n

p 0,0280=

Sumando las probabilidades de las tablas que son menores o iguales a la probabilidad de la tablaobservada (p 0,0599= ) se tiene:

p 0,0599 0,0030 0,0280 0,0909= + + =

Siendo p valor 0,0909 0,05− = >  se acepta la hipótesis nula, concluyendo que el sexo y el

hecho de ser obeso son independientes, es decir, no existe asociación entre las variables enestudio, con un nivel de significación  0,05α =

Para calcular el p valor− unilateral se suman las probabilidades asociadas a aquellas tablas quesean más favorables a la hipótesis alternativa de los datos observados.

La tabla extrema de los datos observados es la que no se observa ninguna mujer obesa,

p 0,0030=

p 0,0599 0,0030 0,0629= + =

0H :  El sexo y ser obeso son independientes

Page 63: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 61

Page 64: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 62

Siendo p_valor (Sig. exacta bilateral)   0,090909 0,05= > = →α  Se acepta la hipótesis nula,

concluyendo que la obesidad es independiente del sexo.

Page 65: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 63

22.  Entre los pacientes con cáncer de pulmón, el 90% o más muere generalmente en el espaciode tres años. Se cree que un tratamiento experimental reduce esta tasa. En un reciente estudiosobre 150 pacientes diagnosticados de cáncer de pulmón, 125 murieron en el espacio de tresaños. ¿Se puede afirmar, con un nivel de confianza del 95%, que realmente ha disminuido la tasade mortalidad?

Solución:

En la  muestra:  125ˆ ˆp 0,833 q 0,167 n 150150

= = = =      X B(150 , 0,833)∼

Se trata de un contraste unilateral a la izquierda para el parámetro p de una distribuciónbinomial:

                                  0 1H : p 0,90 H : p 0,90≥ <

Se acepta  0H  sí    0p̂ pz

ˆ ˆp . qn

α−

≤ −

0,833 0,900,03

0,833 . 0,167150

−= − ≤ 0,051,645 z− = −

En consecuencia,  se rechaza la hipótesis nula, el nuevo tratamiento reduce la tasa demortalidad

0 1H : p 0,90 H : p 0,90≥ <

Page 66: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 64

El p_valor del contraste (Sig. asintót. unilateral)   0,008 0,05= < = α   que  indica que debe

rechazarse la hipótesis nula.  En consecuencia,  se puede afirmar que ha disminuido la tasa demortalidad.

23.  En unos grandes almacenes se realiza un estudio sobre el rendimiento de ventas de loscomerciales. Durante 10 días se observa el número de ventas de dos comerciales. Con un nivelde significación  0,05α = , ¿existe diferencia sobre las ventas de los dos comerciales?

        Comercial A:   10    40    60     15    70     90     30      32       22      13

        Comercial  B:   45    60    35     30    30     15      50     20       32       9

Solución:

Se comparan las ventas de los dos Comerciales (dos Grupos) en una variable y se comprueba siprovienen de la misma población (homogeneidad).

Se utiliza la Prueba U de Mann‐Whitney, que es la más conocida de las pruebas para dosmuestras independientes. Es equivalente a la Prueba de la suma de rangos de Wilcoxon y a laPrueba de Kruskal‐Wallis para dos grupos. Requiere que las dos muestras probadas seansimilares en la forma y contrasta si dos poblaciones muestreadas son equivalentes en suposición.

0H :  No existe diferencia en las ventas de los dos comerciales

Page 67: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 65

Las ventas de los dos comerciales (grupos) secombinan para formar una sola muestra, seordenan linealmente y se les asigna unrango, asignándose el rango promedio encaso de producirse empate, conservando suidentidad como grupo.

Si las diferencias entre los comerciales se deben al azar, el rango promedio de los doscomerciales (grupos) debería ser aproximadamente igual.

En la salida de SPSS se detecta que hay una diferencia de alrededor de 125 (el rango promediode Ventas del Comercial 1 es 412,03  y el del Comercial 2 es 287,09),  siendo mayor el promediodel Comercial 1.

Page 68: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 66

SPSS calcula dos estadísticos: U de Mann‐Whitney y W deWilcoxon, muestra un único valor de p_valor (Sig asintóticabilateral) al ser los dos estadísticos equivalentes. En el cálculodel p_valor se aplica una aproximación a la distribuciónnormal, sólo válida para muestras grandes.

♦ El estadístico U de Mann‐Whitney, como el de W de Wilcoxon, dependen de las ventas delos dos comerciales linealmente ordenadas.

        El estadístico U es el número de veces que un valor del número de ventas del Comercial 2precede al del Comercial 1. El estadístico U es grande si la población de ventas delComercial 2 está situada por encima de la población ventas del Comercial 1 y será pequeñosi sucede lo contrario.

♦ El estadístico W de Wilcoxon es la suma de los rangos asociados con las ventas queoriginariamente constituyen la muestra menor (Comercial 2).

        Se realiza está elección porque si la población de número de ventas del Comercial 2 quedapor debajo de la población número de ventas del Comercial 1, entonces los rangos menorestenderán a asociarse con los valores del número de ventas del Comercial 2.  Ello generaráun valor pequeño para el estadístico W de Wilcoxon.

        Si ocurre lo contrario, la población número de ventas del Comercial 2 queda por encima dela población número de ventas del Comercial 1, los rangos mayores se encontrarán entre elnúmero de ventas del  Comercial 2, dando lugar a un valor grande del estadístico W deWilcoxon.

         En esta línea, se rechaza la hipótesis nula  0H  si el valor observado W de Wilcoxon es

demasiado pequeño o demasiado grande para que se debiera al azar.

El p_valor (Sig asintótica bilateral)  0,000 0,05= < = α  , concluyendo que se rechaza la

hipótesis nula. En consecuencia, el número de ventas del Comercial 1 es mayor que el númerode ventas del Comercial 2.

Page 69: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 67

24.  Se realiza un estudio sobre la práctica deportiva y la sensación de bienestar. La prácticadeportiva se clasifica en (Poca, Moderada, Alta y Muy Alta) y la sensación de bienestar seclasifica en (Poca, Moderada y Alta). Para dicho estudio se selecciona una muestra aleatoria de500 sujetos. Los datos se muestran en la siguiente tabla.

Sensación bienestarPrácticaDeportiva

Poca Moderada Alta

Poca 75 35 40

Moderada 60 70 50

Alta 20 30 40

Muy Alta 15 25 40

Se desea saber si hay asociación entre ambas variables realizando los contrastes necesarios, conun nivel de significación de 0,05.

Solución:

Se realiza primero el contraste de independencia sobre la Práctica Deportiva y la Sensación debienestar.

0H :  La Práctica Deportiva y la Sensación de binestar son independientes

1H :  La Práctica Deportiva y la Sensación de binestar no son independientes

Page 70: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 68

Page 71: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 69

El estadístico observado  26 40,049χ =  tiene asociado un p_valor (Sig. asintótica  bilateral)  =

0,000 0,05= < = α  por lo que se rechaza la hipótesis nula de independencia, concluyendo que

las variables Práctica Deportiva y Sensación de bienestar se encuentran relacionadas.

El estadístico G de la razón de verosimilitud G 39,693=  tiene un p_valor  0,000 0,05= < = α ,

rechazando la hipótesis nula de independencia.

Señalar que cuando los dos estadísticos tienen distinto p_valor se elige el estadístico con menorp_valor.

Page 72: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 70

En el análisis de Medidas Direccionales se encuentran las medidas Nominales (Lambda, Tau deGoodman y Kruskal, Coeficiente de incertidumbre), medidas Ordinales (d de Somers).

• Las medidas Nominales permiten contrastar la independencia sin decir nada sobre la fuerzade asociación entre las variables, informan únicamente del grado de asociación existente, no dela dirección o de la naturaleza de tal asociación.

En esta línea, cada medida Nominal en la tabla (Lambda, Tau de Goodman‐Kruskall, Coeficientede incertidumbre) se encuentra asociada a un p_valor (Signatura aproximada) de0,002 , 0,000 , 0,000 , respectivamente, que al ser menores que 0,05 , conduce a rechazar la

hipótesis nula de independencia, concluyendo que las variables en estudio (Práctica deportiva ySensación de bienestar) están relacionadas.

Al lado del valor adoptado por cada medida de asociación Nominal por nominal:0,108 , 0,027 , 0,033 , respectivamente,  aparece su valor estandarizado (T aproximada), que se

obtiene dividiendo el valor de la medida entre su error típico (calculado éste suponiendoindependencia entre las variables.

También aparece el error típico de cada medida calculado sin suponer independencia (Errortípico asintótico).

• Las medidas Ordinales recogen la dirección de la asociación de las variables:  Una relaciónpositiva indica que los valores altos de una variable se asocian con los valores altos de la otravariable, y los valores bajos con los valores bajos.  Una relación negativa indica que los valoresaltos de una variable se asocian con los valores bajos de la otra variable, y los valores bajos conlos valore altos.

En el análisis de Medidas Simétricas se encuentran las medidas Nominales y  medidas Ordinales.

Las medidas Nominales medidas basadas en el estadístico Chi‐cuadrado: Phi, V de Cramer y elCoeficiente de Contingencia.

Las medidas Ordinales (Tau‐b de Kendall, Tau‐c de Kendall y Gamma) se basan en el concepto deconcordancias (o inversión) y discordancias ( o no inversión).Utilizan en el numerador la diferencia entre el número de concordancias o inversiones ydiscordancias o no‐inversiones resultantes de comparar cada caso con otro, diferenciándose enel tratamiento dado a los empates.

Cada coeficiente de asociación se muestra con su p_valor ( Sig. aproximada, cada uno 0,000 ) ,puesto que estos niveles críticos son menores que 0,05 se rechaza la hipótesis nula de

Page 73: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 71

independencia, afirmando que las variables (Práctica deportiva y Sensación de bienestar) estánrelacionadas.

Como el valor concreto adoptado por estas medidas:  0,283,  0,2,  0,272,  0,216,  0,225 y  0,307 ,respectivamente,  es positivo (relación positiva entre Práctica deportiva y Sensación debienestar).  Se puede interpretar que a una mayor Práctica deportiva corresponde una mejorSensación de bienestar. El grado de asociación entre las variables es bajo.

25.  Se quiere estudiar si el número de bacterias que aparecen en un determinado cultivo alcabo de una semana es aleatorio o por el contrario habría que suponer que hay algo en elcultivo que propicia el desarrollo de tales bacterias.Para ello, se sometió el cultivo a 10 semanas de observación y se obtuvieron los siguientesresultados:  498, 490, 510, 505, 495, 496, 497, 501, 502, 520

Solución:

Para comprobar si el número de bacterias que aparecen en un determinado cultivo al cabo deuna semana es aleatorio, se realiza un contraste no paramétrico de aleatoriedad.

0 1H :  Hay aleatoriedad H :  No hay aleatoriedad

Valor de la prueba  500=  Punto de corte para dicotomizar la

variable. El punto de corte es la Mediana.

Número de rachas  4=

p_valor (Sig. Asintótica bilateral)  0,314 0,05= > = α →Se acepta la hipótesis nula. En consecuencia, hayaleatoriedad en la muestra.

Page 74: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 72

26.  Considerando los datos de la tabla referidos a un estudio sobre la relación entre el hábito defumar, tabaquismo, y la presencia de problemas vasculares en una muestra de 240 sujetos.

Problemas vascularesCon problemas Sin problemas

Total

  Fuman 23 81 104Tabaquismo

  No Fuman 9 127 136

                    Total 32 208 240

Calcular los índices de riesgo, con un nivel de significación 0,05.

Solución:

Problemas vascularesCon problemas Sin problemas

Total

  Fuman 23  (a) 81  (b) 104  (a + b)Tabaquismo

  No Fuman 9  (c) 127  (d) 136  (c + d)

                    Total 32  (a + c ) 208  (b + d) 240  (a + b + c + d)

Razón de Odds Ratio:  x x

x x

a d 23 127OR 4,007

b c 81 9= = =

Intervalo de confianza para OR:

( ) ( )/2z . V( ln OR) 1,96 . 0,1748 1,96 . 0,1748IC(OR) OR . e 4,007 . e , 4,007 . e 1,766 , 9,093α± −= = =

1 1 1 1 1 1 1 1V ln OR 0,1748

a b c d 23 81 9 127= + + + = + + + =⎡ ⎤⎣ ⎦

1

2

p 0,221Cohorte Problemas vasculares:  Riesgo relativo (RR) 3,342

p 0,066= = =

Riesgo en Fumadores:   1a 23

p 0,221a b 104

= = =+

Riesgo en No Fumadores:   2c 9

p 0,066c d 136

= = =+

Intervalo de confianza para la Cohorte con Problemas Vasculares:

( ) ( )/2z . V( ln RR ) 1,96 . 0,0197 1,96 . 0,0197IC(RR) RR . e 3,342 . e , 3,342 . e 1,615 , 6,915α± −= = =

1 1 1 1 1 1 1 1V ln RR 0,0197

a a b c c d 23 104 9 136= − + − = − + − =⎡ ⎤⎣ ⎦ + +

1

2

p 0,779Cohorte sin Problemas vasculares:  Riesgo relativo (RR) 0,834

p 0,934= = =

Riesgo en Fumadores:   1b 81

p 0,779a b 104

= = =+

Page 75: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 73

Riesgo en No Fumadores:   2d 127

p 0,934c d 136

= = =+

Intervalo de confianza para la Cohorte sin Problemas Vasculares:

( ) ( )/2z . V( ln RR ) 1,96 . 0,0033 1,96 . 0,0033IC(RR) RR . e 0,834 . e , 0,834 . e 0,746 , 0,933α± −= = =

1 1 1 1 1 1 1 1V ln RR 0,0033

b a b d c d 81 104 127 136= − + − = − + − =⎡ ⎤⎣ ⎦ + +

Índices de riesgo entre Tabaquisno y Problemas Vasculares, nivel de significación 0,05.

Page 76: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 74

♦ La primera fila indica el riesgo estimado de fumadores sobre no fumadores (Fuman/NoFuman). El valor es de 4,007, se interpreta que entre los sujetos con problemas vasculares laprobabilidad (el riesgo) de encontrar fumadores es 4 veces mayor que la de no encontrarfumadores.

Page 77: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 75

  En un diseño de caso‐control (Razón de las ventajas) puede interpretarse como una estimación  del valor relativo (en especial cuando la proporción de desenlaces es pequeña): El riesgo de  padecer problemas vasculares es 4 veces más entre fumadores que entre no fumadores.

  Los límites del intervalo de confianza al 95% indican que el riesgo obtenido es mayor que 1.

♦ Las dos filas siguientes ofrecen dos índices de riesgo para un diseño de cohortes (dos índicesporque el desenlace que interesa evaluar puede encontrarse en cualquiera de las doscategorías de la variable).

  Si el desenlace que interesa analizar es la presencia del problema vascular, la probabilidad o  riesgo de encontrar tal desenlace entre los fumadores es 3,342 veces mayor que la de  encontrarlo entre los no fumadores. Es decir, por cada sujeto con problema vascular entre los  no fumadores se encuentran 3,342 sujetos con problema vascular entre los fumadores.

   Si el desenlace que interesa estudiar es la ausencia del problema vascular, la probabilidad o   riesgo de encontrar tal desenlace entre los fumadores es menor que entre los no fumadores:   Por cada sujeto sin problema vascular entre los no fumadores se encuentran 0,834 sujetos sin   problema vascular entre los fumadores.

Page 78: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 76

27.  Se quiere analizar si  existe o  no relación entre los datos de la variable Tabaquismo yProblemas vasculares en dos estratos (varones y mujeres), con la información recogida en latabla y un error de significación de 0,05.

Problemas vascularesCon problemas Sin problemas

Total

  Fuman 22 103 125 Varones Tabaquismo

  No Fuman 17 151 168

  Fuman 23 81 104 Mujeres Tabaquismo

  No Fuman 9 127 136

  Total 71 462 533

Solución:

En el ejercicio anterior se han analizado los diseños de cohortes y de caso‐control. Estassituaciones se producen cuando se desea evaluar el efecto de una variable sobre unadeterminada respuesta utilizando distintos grupos de sujetos.

En general, se trata de estudiar si existe o no asociación entre la variable factor y una variablerespuesta, ambas dicotómicas, cuando se dispone de información referida a varios estratos.

Page 79: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 77

0H :   Las variables Tabaquismo y Problemas vasculares son independientes

Tabla de contingencia Tabaquismo * Problemas Vasculares

Problemas vasculares

Sí NoTotal

 Fuman 45  ia= 184   ib= 229  1in •=Tabaquismo

 No Fuman 26  ic= 278  id= 304  2in •=

 Total 71  1in •= 462  2in •= 533  in=

xx

x x xx x x

xx

2 2k k 21i 1i

i i iii 1 i 12

Cochran k k1i 2i 1i 2i

2i 2i ii 1 i 1

n n229 71a E(a ) a 45n 533

13,932229 304 71 462n n n n

V(a )533 (533 1)n (n 1)

• •

• • • •

= =

= =

⎛ ⎞ ⎛ ⎞⎛ ⎞⎜ ⎟ ⎜ ⎟− − −⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠χ = = = =

−−

∑ ∑

∑ ∑

x

x x x

x

2 2k k

1i 1ii i i

ii 1 i 12MH k k

1i 2i 1i 2ii 2

i ii 1 i 1

n na E(a ) 0,5 a 0,5

n12,963

n n n nV(a )

n (n 1)

• •

• • • •

= =

= =

⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− − − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = =

∑ ∑

∑ ∑

Page 80: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 78

Razón de Odds Ratio:  x x

x x

a d 45 278OR 2,615

b c 184 26= = =

OR 1> →   El tabaquismo aumenta la probabilidad de tener problemas vasculares.

Intervalo de confianza para OR:

( ) ( )/2z . V( ln OR) 1,96 . 0,068 1,96 . 0,068IC(OR) OR . e 2,615 . e , 2,615 . e 1,559 , 4,387α± −= = =

1 1 1 1 1 1 1 1V ln OR 0,068

a b c d 45 184 26 278= + + + = + + + =⎡ ⎤⎣ ⎦

1

2

p 0,1965Cohorte Problemas vasculares:  Riesgo relativo (RR) 2,298

p 0,086= = =

Riesgo en Fumadores:   1a 45

p 0,1965a b 229

= = =+

Riesgo en No Fumadores:   2c 26

p 0,086c d 304

= = =+

1

2

p 0,803Cohorte sin Problemas vasculares:  Riesgo relativo (RR) 0,879

p 0,914= = =

Riesgo en Fumadores:   1b 184

p 0,803a b 229

= = =+

Riesgo en No Fumadores:   2d 278

p 0,914c d 304

= = =+

La primera fila indica el riesgo estimado de fumadores sobre no fumadores (Fuman/NoFuman). El valor es de 2,615, se interpreta que entre los sujetos con problemas vasculares laprobabilidad (el riesgo) de encontrar fumadores es 2,6 veces mayor que la de no encontrarfumadores.Los límites del intervalo de confianza al 95% indican que el riesgo obtenido es mayor que 1.

Las dos filas siguientes ofrecen dos índices de riesgo para un diseño de cohortes (dos índicesporque el desenlace que interesa evaluar puede encontrarse en cualquiera de las dos categoríasde la variable).

Si el desenlace que interesa analizar es la presencia del problema vascular, la probabilidad oriesgo de encontrar tal desenlace entre los fumadores es 2,298 veces mayor que la deencontrarlo entre los no fumadores. Por cada sujeto con problema vascular entre losno fumadores se encuentran 2,298  sujetos con problema vascular entre los fumadores.

Page 81: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 79

Si el desenlace que interesa estudiar es la ausencia del problema vascular, la probabilidad oriesgo de encontrar tal desenlace entre los fumadores es menor que entre los no fumadores:Por cada sujeto sin problema vascular entre los no fumadores se encuentran 0,879 sujetos sinproblema vascular entre los fumadores

El estadístico de Cochran  2Cochran 13,932χ =  con un p_valor (Sig. asint. bilateral)  0 0,05= < = α

rechazando la hipótesis nula de independencia condicional y, concluyendo que las variablesTabaquismo y Problemas vasculares están relacionadas.Idéntica conclusión se obtiene con el estadístico de Mantel‐Haenszel.

   Se contrasta la hipótesis nula de independencia condicional:  Independencia entre factor(Tabaquismo) y respuesta (Problemas vasculares) cuando se introduce la variable control (Sexo).

Se estratifica por la variable control (Sexo)

Page 82: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 80

La hipótesis de homogeneidad de la razón de varianzas (Odds Ratio)  se contrasta con losestadísticos de Breslow‐Day (1980, 1987) y de Tarone (1983), se observa que el p_valor (Sig.asintótica bilateral) de ambos estadísticos es 0,167 0,05> = α  , por lo que se mantiene la

hipótesis nula de homogeneidad.

El estadístico de Cochran  2Cochran 13,932χ =  con un p_valor (Sig. asint. bilateral)  0 0,05= < = α

rechazando la hipótesis nula de independencia condicional y se concluye que,  una vezcontrolada la variable Sexo, las variables Tabaquismo y Problemas vasculares estánrelacionadas.

Idéntica conclusión se obtiene con el estadístico de Mantel‐Haenszel.

Como se puede asumir que el riesgo es homogéneo en todos los estratos, tiene sentido obteneruna estimación común del riesgo. En la tabla aparece una solución basada en un estadísticodebido a Mantel‐Haenszel (1959).

Page 83: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 81

El valor del riesgo común  (Estimación) es 2,608, con un intervalo de confianza   1,555, 4,373⎡ ⎤⎣ ⎦  ,

intervalo que no cubre el 1, con lo que se puede concluir  que el riesgo común de todos losestratos tomados juntos es significativamente mayor que 1.

28.  Niños de un barrio pobre de una ciudad que asisten a una guardería padecen deenfermedades respiratorias.

a)  Se recogieron datos de 1.000 niños para averiguar si, con un 95% de confianza, asistir a laguardería esta relacionado con la infección respiratoria.

Infección respiratoria

   Guardería Sí NoTotal

        Sí 37 72 109

        No 43 848 891

      Total 80 920 1.000

Se considero que aunque ir a la guardería estuviera relacionado con la infección respiratoria, talasociación podía ser confundida con otro factor, la infección respiratoria podía estar originadapor un agente que estuviera relacionado con los niños que van a la guardería.

En otras palabras, asistir a la guardería podría ser un marcador de una exposición que causainfección respiratoria. En caso de ser así, la asociación entre ir a la guardería e infecciónrespiratoria está confundida.

b)  Ante la posibilidad de que el hacinamiento en casa fuera un factor de riesgo para la infecciónrespiratoria y, en consecuencia, un potencial confusor de la asociación entre la asistencia a laguardería y la infección respiratoria, se introdujo el factor de hacinamiento en casa como factorde asociación,  resultando las tablas estratificadas:

Con una confianza del 95%,introduciendo el efecto delhacinamiento,  ¿existe unaasociación entre la infecciónrespiratoria  y la asistencia ala guardería?.

Solución:

Page 84: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 82

a)  Para analizar la posible asociación entre la Guardería y la Infección respiratoria de los niñosse plantea un estudio por cohortes (longitudinal hacia adelante) calculando el riesgo(proporción) y la razón de estos riegos (razón de prevalencia o riesgo relativo)  RR≡

El Riesgo Relativo (RR) expresa cuántas veces más aparece la característica en estudio (Infecciónrespiratoria) en los niños que van a la Guardería que en los niños que no van a la Guardería.  Esdecir,  cuántas veces más riesgo tienen los niños que van a la Guardería en relación con los niñosque no van a la Guardería

RR 1 No hay asociación

RR 1 Asociación al factor de riesgo

RR 1 Asociación al factor de protección

= →> →< →

Riesgo de Infección respiratoria de niños que van a la Guardería:   1a 37

p 0,339a b 109

= = =+

Riesgo de Infección respiratoria de niños que no van a la Guardería:   2c 43

p 0,048c d 891

= = =+

Riesgo relativo:   1

2

p 0,339RR 7,034

p 0,048= = =

Infección respiratoria

   Guardería Sí NoTotal

        Sí 37  (a) 72  (b) 109  (a + b)

        No 43  (c) 848  (d) 891  (c + d)

      Total 80  (a + c) 920  (b + d) 1.000  (n)

Intervalo de confianza para el riesgo relativo RR de infección respiratoria:

( )/2 /2 /2z . V( ln RR ) z . V( ln RR ) z . V( ln RR )IC(RR) RR . e RR . e , RR . eα α α± −= =

1 1 1 1 1 1 1 1V ln RR 0,04

a a b c c d 37 109 43 891= − + − = − + − =⎡ ⎤⎣ ⎦ + +

( ) ( )1,96 . 0,04 1,96 . 0,04IC(RR) 7,034 . e , 7,034 . e 4,753 , 10,409−= =

Intervalo de confianza para el riesgo relativo RR de no Infección respiratoria:

Riesgo no Infección respiratoria de niños que van a la Guardería:   1b 72

p 0,661a b 109

= = =+

Riesgo no Infección respiratoria de niños que no van a la Guardería:   2d 848

p 0,952c d 891

= = =+

Riesgo relativo:   1

2

p 0,661RR 0,694

p 0,952= = =

Page 85: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 83

( )/2 /2z . V( ln RR ) z . V( ln RR )IC(RR) RR . e , RR . eα α−=

1 1 1 1 1 1 1 1V ln RR 0,0048

b a b d c d 72 109 848 891= − + − = − + − =⎡ ⎤⎣ ⎦ + +

( ) ( )1,96 . 0,0048 1,96 . 0,0048IC(RR) 0,694 . e , 0,694 . e 0,606 , 0,795−= =

La medida de asociación para evaluar la asociación entre la Guardería y la Infecciónrespiratoria es el Odss Ratio (OR):

x x

x x

a d 37 848OR 10,134

b c 72 43= = =

OR 1= →   Indica que ir a la Guardería no se asocia con la Infección respiratoria.

OR 1< →   Ir a la Guardería disminuye la probabilidad tener Infección respiratoria.

OR 1> →   Ir a la Guardería aumenta la probabilidad de tener Infección respiratoria.

Intervalo de confianza para OR (Método de Woolf)

( )/2 /2 /2z . V( ln OR) z . V( ln OR) z . V( ln OR)IC(OR) OR . e OR . e , OR . eα α α± −= =

1 1 1 1 1 1 1 1V ln OR 0,065

a b c d 37 72 43 848= + + + = + + + =⎡ ⎤⎣ ⎦

( ) ( )1,96 . 0,065 1,96 . 0,065IC(OR) 10,134 . e , 10,134 . e 6,140 , 16,726−= =

Page 86: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 84

Page 87: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 85

La primera fila de la tabla  indica el riesgo estimado entre los niños que van a la Guardería y losniños que no van (Guardería/No Guardería) en un diseño de caso‐control (Razón de lasventajas).

El valor de 10,134 indica que, entre los niños que van a la guardería, la probabilidad (el riesgo)de encontrar niños con infección respiratoria es 10,134  veces mayor que la de no encontrarniños con infección respiratoria.

La Razón de ventajas  (OR)  también puede interpretarse como una estimación del RiesgoRelativo (RR): El riesgo de tener infección respiratoria es 10,134 veces mayor entre los niños quevan a la guardería que entre los niños que no van a la guardería.

Entre los límites del intervalo de confianza calculado   6,140 , 16,726⎡ ⎤⎣ ⎦   no se encuentra el valor

1, indicando que el riesgo es significativo.

Las dos filas siguientes ofrecen dos índices de riesgo para un diseño de cohortes (dos índicesporque el desenlace que interesa evaluar puede encontrarse en cualquiera de las dos categoríasde la variable).

Si el desenlace que interesa evaluar es la presencia de la infección respiratoria (Tener Infecciónrespiratoria), la probabilidad o riesgo de encontrar el problema entre los niños que van a laguardería es 7,034  veces mayor que la de encontrarlo entre los niños que no van a la guardería.En otras palabras, por cada niño con infección respiratoria que no va a la guardería, seencuentran 7,034 niños con infección respiratoria que van a la guardería.

Si el desenlace que interesa analizar es la ausencia de la infección respiratoria (No tenerInfección respiratoria), la probabilidad o riesgo de encontrar tal desenlace entre los niños quevan a la guardería es  0,694 veces menor que entre los niños que no van a la guardería: Por cadaniño sin infección respiratoria entre los que no van a la guardería, se encuentran 0,694 niños sininfección respiratoria entre los que van a la guardería.

b)   Si se introduce un agente (Hacinamiento en casa) que puede estar relacionado con lainfección respiratoria de los niños que van a la guardería, pudiera ocurrir que la asociación entreir a la guardería y la infección respiratoria se encontrase afectada.

Para evaluar al potencial confusor de la asociación calculada, se ajusta la nueva variable(Hacinamiento), estratificando la tabla de contingencia anterior.  Es decir:

1. La tabla original se divide en estratos definidos por la variable Hacinamiento.

2. Se divide la muestra en dos grupos (Hacinamiento y No Hacinamiento), donde en cadagrupo el status de Hacinamiento es el mismo.

Page 88: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 86

El objetivo es encontrar si la asistencia a la guardería está asociada con la infección respiratoriacuando se analizan niños dentro de la misma categoría de hacinamiento.

Page 89: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 87

211 22

k 1Común 2

12 21

k 1

n .nn

ORn .n

n

=

=

= =∑

∑61 . 21 10 . 861101 899 27,83114 . 5 24 . 4101 899

+= =

+

Mientras que el Riesgo Relativo (RR 7,034= ) de la tabla original (sin incorporar el efecto de la

variable hacinamiento en casa) muestra una fuerte relación entre asistencia a guardería einfección respiratoria,  expresando que los niños que van a la guardería tienen 7,034 más riesgode tener infección respiratoria que los niños que no van a la guardería.

Page 90: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 88

Cuando se incorpora la variable con hacinamiento en casa, el Riesgo Relativo manifiesta unamenor relación entre asistencia a guardería e infección respiratoria,  expresando que los niñosque van a la guardería tienen 4,229 más riesgo de tener infección respiratoria que los niños queno van a la guardería.

De otra parte, incorporando el efecto de la variable hacinamiento en casa, la primera fila de latabla  indica el riesgo estimado entre los niños que van a la Guardería y los niños que no van(Guardería/No Guardería) en un diseño de caso‐control (Razón de las ventajas).

El valor de 18,300 indica que, entre los niños que van a la guardería, la probabilidad (el riesgo)de encontrar niños con infección respiratoria es 18,300  veces mayor que la de no encontrarniños con infección respiratoria.Se observa que la Razón de ventajas (OR) ha aumentado con el efecto de la variablehacinamiento en casa.

Entre los límites del intervalo de confianza calculado   5,881 , 56,943⎡ ⎤⎣ ⎦   no se encuentra el valor

1, indicando que el riesgo es significativo.

Se analizan los diseños de cohortes y de caso‐control controlando el efecto de una terceravariable (Hacinamiento en casa). Se estudia si existe asociación entre una variable factor (asistira la guardería) y una variable respuesta (infección respiratoria), ambas dicotómicas, cuando sedispone de información referidas a dos estratos (hacinamiento o no hacinamiento en casa).

En estas situaciones, utilizar el estadístico Chi‐cuadrado de Pearson sobre el conjunto de datosagrupados, puede arrojar resultados equívocos. De otra parte, analizar separadamente cadaestrato no proporciona una idea global del efecto de la variable factor ( guardería).

Los estadísticos de Cochran y de Mantel‐Haenszel proporcionan una información más ajustadapara contrastar la hipótesis de independencia condicional, es decir, la hipótesis nula deindependencia entre la variable factor (guardería) y la variable respuesta (infección respiratoria)una vez que se ha controlado el efecto de los estratos (variable hacinamiento).

El estadístico de Cochran como el de  Mantel‐Haenszel se distribuyen según el modelo de  21χ .

En este caso, ambos estadísticos tienen asociados un p_valor (Signatura asintótica bilateral)menor que 0,05 , por lo que se rechaza la independencia condicional y se concluye que,  una vezcontrolado el efecto del hacinamiento en casa, las variables guardería e infección respiratoriaestán asociadas.

CHI‐CUADRADO DE COCHRAN:

x

x x x

x

2 22 2

1i 1ii i i

ii 1 i 12Cochran 2 2

1i 2i 1i 2ii 2

i ii 1 i 1

n na E(a ) a

n

n n n nV(a )

n (n 1)

• •

• • • •

= =

= =

⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = =

∑ ∑

∑ ∑

Page 91: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 89

x x

x x x x x x

x x

2

2 2

75 66 34 1461 10

101 899                94,502

75 26 66 35 34 865 14 885

101 (101 1) 899 (899 1)

⎡ ⎤⎛ ⎞ ⎛ ⎞− + −⎜ ⎟ ⎜ ⎟⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦= =⎡ ⎤ ⎡ ⎤

+⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦

CHI‐CUADRADO DE MANTEL‐HAENSZEL:

x

x x x

x

2 22 2

1i 1ii i i

ii 1 i 12MH 2 2

1i 2i 1i 2ii 2

i ii 1 i 1

n na E(a ) 0,5 a 0,5

n89,338

n n n nV(a )

n (n 1)

• •

• • • •

= =

= =

⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− − − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = =

∑ ∑

∑ ∑

Si se rechaza la hipótesis de independencia condicional, el interés se centra en cuantificar elgrado de relación existente entre la variable factor (guardería) y la variable respuesta (infecciónrespiratoria). Para ello, se requiere una estimación del riesgo (Odds ratio) común para los dosestratos.

Esta estimación común solo tiene sentido si no existe interacción triple, es decir, si la relacióndetectada es homogénea en los dos estratos analizados.

La hipótesis de homogeneidad de las Odds ratio puede contrastarse utilizando los estadísticosde Breslow‐Day y de Tarone.

El estadístico de Tarone presenta un p_valor  0,066 0,05= > = α  , pudiendo mantener la

hipótesis de homogeneidad. Asumiendo que el riesgo es homogéneo en los dos estratos, tienesentido obtener una estimación común del riesgo  ComúnOR .

211 22

k 1Común 2

12 21

k 1

n .nn

OR 27,831n .n

n

=

=

= =∑

Page 92: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 90

Siendo homogéneo el riesgo en los estratos (Hacinamiento / No Hacinamiento), la estimacióncomún del riesgo es de 27,831.  Es decir, entre los niños que van a la guardería,  la probabilidad(riesgo) de encontrar niños con infección respiratoria es 27,831  veces mayor que la de noencontrar niños con infección respiratoria.

Como el intervalo de confianza del riesgo común (OR):   11,138 , 69,544⎡ ⎤⎣ ⎦   no cubre el 1,  indica

que el riesgo es significativo.

Page 94: APLICACIONES CHI-CUADRADRO - Estadistica · 2019. 12. 20. · Aplicaciones Chi‐cuadrado 4 Y X 1 y y2 " yj " ym k i i1 n • ∑ x 1 n11 e11 n12 e12 n1j e1j n1m e1m n • x 2 n21

Aplicaciones Chi‐cuadrado 92

Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández