Analisis de Contingencia 2
-
Upload
fcs-carito -
Category
Documents
-
view
1 -
download
0
description
Transcript of Analisis de Contingencia 2
Escuela Profesional de Sociología
Estadística Social
Ms. Marcos Obando Aguirre
1
Procedimiento con tablas de 2 x 2.
Se ha visto en el documento anterior, que el tamaño de las tablas es sumamente importante para
el análisis de contingencia. Este tamaño está en relación directa con el número de casillas en la
tabla, utilizándose para designar estos tamaños las expresiones de 2 x 3, 4 x 4, etc. Un elemento
adicional que se puede tener en cuenta, es que dado el número de filas y columnas, las tablas de
contingencia pueden ser también denominadas como tablas cuadradas o no cuadradas, por
ejemplo una tabla de 2 x 2 es una tabla cuadrada en el sentido que tiene igual número de filas y
columnas; igual podemos señalar que tablas de 3 x 3, 4x 4, 5 x 5, etc., caen en esta denominación
de tablas cuadradas. Por contraste, las tablas no cuadradas serán todas aquellas en que el número
de filas y columnas sean diferentes, así tablas de 2 x 3, 4 x 2, 3 x 5, etc., serán tablas de este tipo.
También se mencionó muy rápidamente, que la distribución χ2 que se utiliza en el análisis de
contingencia, es en realidad una distribución diseñada para variables continuas, es decir
numéricas y no cualitativas. Conviene recordar aquí, que el análisis de contingencia tiene
importancia en el análisis sociológico, precisamente porque se le puede utilizar en pruebas de
hipótesis estadísticas en las que están implicadas variables cualitativas; considerando que en
sociología una gran parte de las variables que se analizan tienen estas características, la
importancia esta prueba estadística cae por su propio peso. El tema planteado sobre el carácter
continuo de la distribución χ2, obliga a considerar en algunos casos, procedimientos de corrección
en el análisis. En realidad estas correcciones sólo son necesarias en el caso de las tablas de 2 x 2,
en las que obligatoriamente se tienen que tomar en cuenta.
Las tablas de 2 x 2 son, por decirlo de esta manera, más fuertes para el análisis de contingencia; en
general la relación entre dos variables dicotómicas (es decir de dos posiciones), otorga mayor
precisión a la prueba. De aquí se deduce, que en la medida que las tablas sean más grandes, la
precisión del análisis de contingencia será menor y esta es la razón por las que el sociólogo(a), que
desarrolla este tipo de análisis tenderá siempre a reducir el tamaño de las tablas.
Veamos el siguiente caso:
Estamos interesados en encontrar evidencia empírica que demuestre que el origen no criollo y
urbano de los peruanos adultos, afecta sus posibilidades para lograr niveles educativos elevados.
El indicador para establecer el origen de las personas es la lengua con la que aprendió a hablar
(lengua materna), esta variable ha sido dicotomizada, es decir considera sólo dos posibles
posiciones: castellano y lenguas nativas. Por otra parte el nivel educativo ha sido también
dicotomizado considerando las siguientes dos opciones: secundaria y superior no universitaria la
primera; y universitaria y post grado la segunda.
La Encuesta Nacional de Hogares (ENAHO) 2008, realizada por el INEI, proporciona los datos para
realizar esta prueba; la tabla que contiene las frecuencias observadas es la siguiente:
Escuela Profesional de Sociología
Estadística Social
Ms. Marcos Obando Aguirre
2
Nivel que llevó el año pasado * Lengua materna
Lengua materna
Total
Castellano Lengua nativa
Nivel que llevó el año pasado
Secundaria / Sup. no univ.
371
62 433
Universitaria / Post grado univ.
972
74 1046
Total 1343 136 1479
Con estos datos realizamos el análisis de contingencia siguiendo los cinco pasos del protocolo.
Primer paso. Supuestos.
Nivel de medición: escala nominal para ambas variables
Muestras aleatorias independientes
Hipótesis de nulidad: no existe relación entre la lengua materna con la que aprendió a hablar y el
nivel estudios.
Hipótesis alterna: si existe relación entre ambas variables.
Segundo paso. Elección de la prueba estadística
Como requerimos descartar una H0 que plantea independencia entre dos variables nominales,
elegimos el análisis de contingencia. La distribución de muestreo asociada es la distribución χ2
Tercer paso. Elección de un nivel de significación y región crítica
Deseamos ser muy cuidadosos con el error α, por lo que elegimos como nivel de significación 0.01.
Los grados de libertad implicados en esta prueba son :
�� = �� − 1�� − 1� �� = �2 − 1��2 − 1�
�� = 1
La prueba tiene 1 grado de libertad.
Escuela Profesional de Sociología
Estadística Social
Ms. Marcos Obando Aguirre
3
Observamos en la tabla del χ2, que el valor que corresponde a un nivel de significación de 0.01 y 1
grado de libertad es 6,6349. Este valor se convierte en región crítica, puesto que si al calcular la
prueba obtenemos un valor igual o superior a este, podemos rechazar la H0. En caso el valor
calculado sea inferior a 6,6349, no es posible rechazar H0.
Cuarto paso. Cálculo de la prueba.
Los valores de frecuencias observadas, frecuencias esperadas y residuales, se aprecian en la tabla.
Nivel que llevó el año pasado * Lengua materna Crosstabulation
Lengua materna
Total Castellano Lengua
nativa
Nivel que llevó el año pasado
Secundaria / Sup. no univ.
a) 371
393.2 -22.2
b) 62
39.8 22.2
433
Universitaria / Post grado univ.
c) 972
949.8 22.2
d) 74
96.2 -22.2
1046
Total 1343 136 1479
Aplicamos la fórmula para calcular el χ2, considerando la denominada Corrección por Continuidad
de Yates. Esta corrección consiste en restar media unidad al valor absoluto del residuo antes de
elevarlo al cuadrado1
�� � =��|� − �| − 0.5���
En la siguiente matriz se desarrollan los cálculos correspondientes
Casillas fo fe fo - fe |fo - fe|-0.5 (|fo - fe|-0.5)2 (|fo - fe|-0.5)
2/fe
a 371 393.2 -22.2 21.7 470.89 1.197583927
b 62 39.8 22.2 21.7 470.89 11.83140704
c 972 949.8 22.2 21.7 470.89 0.495778059
d 74 96.2 -22.2 21.7 470.89 4.894906445
Σ 1479 1479 0
18.41967547
1 Se puede indagar sobre más sobre la corrección de Yates en: Vicente Manzano, Inferencia Estadística, Alfa
Omega Grupo Editor, México 1997, pag. 284 y siguientes.
Escuela Profesional de Sociología
Estadística Social
Ms. Marcos Obando Aguirre
4
El valor del χ2 calculado es 18.4197.
Quinto paso. Decisión
Vemos que el valor del χ2 calculado es 18.4197, y es bastante mayor al χ
2 en la tabla que es 6,6349.
En consecuencia, podemos rechazar la H0, y tenemos que concluir, que efectivamente los
peruanos que tuvieron como lengua materna el castellano, presentan mayor posibilidad de
alcanzar niveles educativos elevados, en contraste con los peruanos que aprendieron a hablar en
alguna lengua nativa.
Existen algunas limitaciones en la aplicación de la prueba del χ2, que deben ser tomadas en cuenta
siempre que se aplique la prueba. Vamos a tomar literalmente estas limitaciones, del texto de
Vicente Manzano2:
2 Vicente Manzano, Op. Cit., pag. 276, 277.
Limitaciones de chi cuadrado de Pearson
La Prueba de chi cuadrado de Pearson es, sin duda, la más utilizada en el contexto de las variables
cualitativas cuando se pretende comprobar algún tipo de hipótesis de relación. No obstante,
cuenta con algunas limitaciones en su uso que hay que conocer:
1. Utilizando la terminología con propiedad, el nombre chi cuadrado es la denominación de
una distribución de probabilidad concreta para variables continuas. Mediante
complejos procedimientos matemáticos, se demuestra que la distribución del
estadístico de Pearson se aproxima a la chi cuadrado a medida que aumenta el tamaño
de la muestra. Hablamos entonces de aproximación y no de exactitud en el cálculo de
las probabilidades, y por tanto en el cálculo del grado de significación que se asocia a un
determinado valor estadístico de Pearson. Por esta razón, cuanto más pequeña sea la
muestra, más pequeño deberá ser el grado de significación para tomar decisiones con
relativa seguridad.
2. En el párrafo anterior se ha mencionado que la distribución de probabilidad chi
cuadrado parte de variables continuas. No obstante, la utilización del estadístico de
Pearson se realiza con variables discretas (usualmente nominales). Existe, por ello, una
relativa incorrección, que es tanto más despreciable cuanto mayor sea el número de
valores de las variables implicadas. En la práctica, este dilema discreto-continuo no
tiene repercusiones, salvo en el caso de las tablas de 2 x 2 (dos variables con dos
categorías cada una), en cuyo contexto es necesario realizar una corrección sobre la
fórmula de la chi de Pearson, llamada corrección por continuidad de Yates. Nos
ocuparemos de este aspecto en un apartado específico más adelante.
3. La Chi de Pearson depende de la unidad de medida de forma muy especial. Si se utilizan
metros en lugar de centímetros, el estadístico será más pequeño, por ejemplo. Para
evitar este efecto, existen unas medidas alternativas que manipulan el valor
suministrado por la chi de Pearson: coeficiente Phi, coeficiente de Contingencia y V de
Cramer. Los siguientes apartados se ocupan de estas medidas. Todas suministran la
misma probabilidad, de forma que en términos probabilísticos es indiferente qué índice
utilizar. No obstante, el valor concreto es importante para facilitar la interpretación.
Escuela Profesional de Sociología
Estadística Social
Ms. Marcos Obando Aguirre
5
De estas limitaciones destacamos dos, la que obliga a introducir la corrección de Yates en tablas de
2 x 2; la segunda, que indica que esta prueba no debería seguir adelante si el 20% o más de las
casillas tienen frecuencias observadas menores de 5. Ligada a esta segunda limitación también
debe observarse que en ningún caso deben existir casillas con cero frecuencias observadas.
Por ejemplo, una V de Cramer se encuentra entre los extremos 0 y 1. Conforme se
acerca a 1, la disparidad entre lo esperado y lo observado es mayor en la muestra, con
independencia del grado de significación que se obtenga, es útil para aplicar los
resultados a la población de origen.
4. Empíricamente, se comprueba que la disparidad entre la probabilidad de la chi de
Pearson y la que suministra la distribución chi, aumenta conforme disminuye N, tal y
como se ha indicado en el párrafo 1. Cuando existen frecuencias esperadas ≤ 5, se
considera excesiva esta disparidad y se deben utilizar otras estrategias. Una buena
solución es calcular la probabilidad exacta. No obstante, este procedimiento sólo es
factible con tablas de 2 x 2 mediante el cálculo de la probabilidad exacta de Fisher,
que veremos en otro apartado de este mismo capítulo.
5. Cuando las frecuencias esperadas son inferiores a 5, se ha mencionado que el modelo
puede no estar funcionando bien. Para tablas de 2 x 2, el punto anterior suministra
una solución. ¿Y en las tablas con al menos una variable con más de dos valores? En
general, se considera que si menos del 20% de las casillas muestran frecuencias
esperadas inferiores a 5 (no siendo ninguna 0), la disparidad es despreciable y se
puede utilizar chi de Pearson sin problemas. Si este principio no se cumple, no queda
más salida que agrupar categorías de las variables implicadas para forzar frecuencias
mayores en las casillas.