Download - Analisis de Contingencia 2

Transcript
Page 1: Analisis de Contingencia 2

Escuela Profesional de Sociología

Estadística Social

Ms. Marcos Obando Aguirre

1

Procedimiento con tablas de 2 x 2.

Se ha visto en el documento anterior, que el tamaño de las tablas es sumamente importante para

el análisis de contingencia. Este tamaño está en relación directa con el número de casillas en la

tabla, utilizándose para designar estos tamaños las expresiones de 2 x 3, 4 x 4, etc. Un elemento

adicional que se puede tener en cuenta, es que dado el número de filas y columnas, las tablas de

contingencia pueden ser también denominadas como tablas cuadradas o no cuadradas, por

ejemplo una tabla de 2 x 2 es una tabla cuadrada en el sentido que tiene igual número de filas y

columnas; igual podemos señalar que tablas de 3 x 3, 4x 4, 5 x 5, etc., caen en esta denominación

de tablas cuadradas. Por contraste, las tablas no cuadradas serán todas aquellas en que el número

de filas y columnas sean diferentes, así tablas de 2 x 3, 4 x 2, 3 x 5, etc., serán tablas de este tipo.

También se mencionó muy rápidamente, que la distribución χ2 que se utiliza en el análisis de

contingencia, es en realidad una distribución diseñada para variables continuas, es decir

numéricas y no cualitativas. Conviene recordar aquí, que el análisis de contingencia tiene

importancia en el análisis sociológico, precisamente porque se le puede utilizar en pruebas de

hipótesis estadísticas en las que están implicadas variables cualitativas; considerando que en

sociología una gran parte de las variables que se analizan tienen estas características, la

importancia esta prueba estadística cae por su propio peso. El tema planteado sobre el carácter

continuo de la distribución χ2, obliga a considerar en algunos casos, procedimientos de corrección

en el análisis. En realidad estas correcciones sólo son necesarias en el caso de las tablas de 2 x 2,

en las que obligatoriamente se tienen que tomar en cuenta.

Las tablas de 2 x 2 son, por decirlo de esta manera, más fuertes para el análisis de contingencia; en

general la relación entre dos variables dicotómicas (es decir de dos posiciones), otorga mayor

precisión a la prueba. De aquí se deduce, que en la medida que las tablas sean más grandes, la

precisión del análisis de contingencia será menor y esta es la razón por las que el sociólogo(a), que

desarrolla este tipo de análisis tenderá siempre a reducir el tamaño de las tablas.

Veamos el siguiente caso:

Estamos interesados en encontrar evidencia empírica que demuestre que el origen no criollo y

urbano de los peruanos adultos, afecta sus posibilidades para lograr niveles educativos elevados.

El indicador para establecer el origen de las personas es la lengua con la que aprendió a hablar

(lengua materna), esta variable ha sido dicotomizada, es decir considera sólo dos posibles

posiciones: castellano y lenguas nativas. Por otra parte el nivel educativo ha sido también

dicotomizado considerando las siguientes dos opciones: secundaria y superior no universitaria la

primera; y universitaria y post grado la segunda.

La Encuesta Nacional de Hogares (ENAHO) 2008, realizada por el INEI, proporciona los datos para

realizar esta prueba; la tabla que contiene las frecuencias observadas es la siguiente:

Page 2: Analisis de Contingencia 2

Escuela Profesional de Sociología

Estadística Social

Ms. Marcos Obando Aguirre

2

Nivel que llevó el año pasado * Lengua materna

Lengua materna

Total

Castellano Lengua nativa

Nivel que llevó el año pasado

Secundaria / Sup. no univ.

371

62 433

Universitaria / Post grado univ.

972

74 1046

Total 1343 136 1479

Con estos datos realizamos el análisis de contingencia siguiendo los cinco pasos del protocolo.

Primer paso. Supuestos.

Nivel de medición: escala nominal para ambas variables

Muestras aleatorias independientes

Hipótesis de nulidad: no existe relación entre la lengua materna con la que aprendió a hablar y el

nivel estudios.

Hipótesis alterna: si existe relación entre ambas variables.

Segundo paso. Elección de la prueba estadística

Como requerimos descartar una H0 que plantea independencia entre dos variables nominales,

elegimos el análisis de contingencia. La distribución de muestreo asociada es la distribución χ2

Tercer paso. Elección de un nivel de significación y región crítica

Deseamos ser muy cuidadosos con el error α, por lo que elegimos como nivel de significación 0.01.

Los grados de libertad implicados en esta prueba son :

�� = �� − 1�� − 1� �� = �2 − 1��2 − 1�

�� = 1

La prueba tiene 1 grado de libertad.

Page 3: Analisis de Contingencia 2

Escuela Profesional de Sociología

Estadística Social

Ms. Marcos Obando Aguirre

3

Observamos en la tabla del χ2, que el valor que corresponde a un nivel de significación de 0.01 y 1

grado de libertad es 6,6349. Este valor se convierte en región crítica, puesto que si al calcular la

prueba obtenemos un valor igual o superior a este, podemos rechazar la H0. En caso el valor

calculado sea inferior a 6,6349, no es posible rechazar H0.

Cuarto paso. Cálculo de la prueba.

Los valores de frecuencias observadas, frecuencias esperadas y residuales, se aprecian en la tabla.

Nivel que llevó el año pasado * Lengua materna Crosstabulation

Lengua materna

Total Castellano Lengua

nativa

Nivel que llevó el año pasado

Secundaria / Sup. no univ.

a) 371

393.2 -22.2

b) 62

39.8 22.2

433

Universitaria / Post grado univ.

c) 972

949.8 22.2

d) 74

96.2 -22.2

1046

Total 1343 136 1479

Aplicamos la fórmula para calcular el χ2, considerando la denominada Corrección por Continuidad

de Yates. Esta corrección consiste en restar media unidad al valor absoluto del residuo antes de

elevarlo al cuadrado1

�� � =��|� − �| − 0.5���

En la siguiente matriz se desarrollan los cálculos correspondientes

Casillas fo fe fo - fe |fo - fe|-0.5 (|fo - fe|-0.5)2 (|fo - fe|-0.5)

2/fe

a 371 393.2 -22.2 21.7 470.89 1.197583927

b 62 39.8 22.2 21.7 470.89 11.83140704

c 972 949.8 22.2 21.7 470.89 0.495778059

d 74 96.2 -22.2 21.7 470.89 4.894906445

Σ 1479 1479 0

18.41967547

1 Se puede indagar sobre más sobre la corrección de Yates en: Vicente Manzano, Inferencia Estadística, Alfa

Omega Grupo Editor, México 1997, pag. 284 y siguientes.

Page 4: Analisis de Contingencia 2

Escuela Profesional de Sociología

Estadística Social

Ms. Marcos Obando Aguirre

4

El valor del χ2 calculado es 18.4197.

Quinto paso. Decisión

Vemos que el valor del χ2 calculado es 18.4197, y es bastante mayor al χ

2 en la tabla que es 6,6349.

En consecuencia, podemos rechazar la H0, y tenemos que concluir, que efectivamente los

peruanos que tuvieron como lengua materna el castellano, presentan mayor posibilidad de

alcanzar niveles educativos elevados, en contraste con los peruanos que aprendieron a hablar en

alguna lengua nativa.

Existen algunas limitaciones en la aplicación de la prueba del χ2, que deben ser tomadas en cuenta

siempre que se aplique la prueba. Vamos a tomar literalmente estas limitaciones, del texto de

Vicente Manzano2:

2 Vicente Manzano, Op. Cit., pag. 276, 277.

Limitaciones de chi cuadrado de Pearson

La Prueba de chi cuadrado de Pearson es, sin duda, la más utilizada en el contexto de las variables

cualitativas cuando se pretende comprobar algún tipo de hipótesis de relación. No obstante,

cuenta con algunas limitaciones en su uso que hay que conocer:

1. Utilizando la terminología con propiedad, el nombre chi cuadrado es la denominación de

una distribución de probabilidad concreta para variables continuas. Mediante

complejos procedimientos matemáticos, se demuestra que la distribución del

estadístico de Pearson se aproxima a la chi cuadrado a medida que aumenta el tamaño

de la muestra. Hablamos entonces de aproximación y no de exactitud en el cálculo de

las probabilidades, y por tanto en el cálculo del grado de significación que se asocia a un

determinado valor estadístico de Pearson. Por esta razón, cuanto más pequeña sea la

muestra, más pequeño deberá ser el grado de significación para tomar decisiones con

relativa seguridad.

2. En el párrafo anterior se ha mencionado que la distribución de probabilidad chi

cuadrado parte de variables continuas. No obstante, la utilización del estadístico de

Pearson se realiza con variables discretas (usualmente nominales). Existe, por ello, una

relativa incorrección, que es tanto más despreciable cuanto mayor sea el número de

valores de las variables implicadas. En la práctica, este dilema discreto-continuo no

tiene repercusiones, salvo en el caso de las tablas de 2 x 2 (dos variables con dos

categorías cada una), en cuyo contexto es necesario realizar una corrección sobre la

fórmula de la chi de Pearson, llamada corrección por continuidad de Yates. Nos

ocuparemos de este aspecto en un apartado específico más adelante.

3. La Chi de Pearson depende de la unidad de medida de forma muy especial. Si se utilizan

metros en lugar de centímetros, el estadístico será más pequeño, por ejemplo. Para

evitar este efecto, existen unas medidas alternativas que manipulan el valor

suministrado por la chi de Pearson: coeficiente Phi, coeficiente de Contingencia y V de

Cramer. Los siguientes apartados se ocupan de estas medidas. Todas suministran la

misma probabilidad, de forma que en términos probabilísticos es indiferente qué índice

utilizar. No obstante, el valor concreto es importante para facilitar la interpretación.

Page 5: Analisis de Contingencia 2

Escuela Profesional de Sociología

Estadística Social

Ms. Marcos Obando Aguirre

5

De estas limitaciones destacamos dos, la que obliga a introducir la corrección de Yates en tablas de

2 x 2; la segunda, que indica que esta prueba no debería seguir adelante si el 20% o más de las

casillas tienen frecuencias observadas menores de 5. Ligada a esta segunda limitación también

debe observarse que en ningún caso deben existir casillas con cero frecuencias observadas.

Por ejemplo, una V de Cramer se encuentra entre los extremos 0 y 1. Conforme se

acerca a 1, la disparidad entre lo esperado y lo observado es mayor en la muestra, con

independencia del grado de significación que se obtenga, es útil para aplicar los

resultados a la población de origen.

4. Empíricamente, se comprueba que la disparidad entre la probabilidad de la chi de

Pearson y la que suministra la distribución chi, aumenta conforme disminuye N, tal y

como se ha indicado en el párrafo 1. Cuando existen frecuencias esperadas ≤ 5, se

considera excesiva esta disparidad y se deben utilizar otras estrategias. Una buena

solución es calcular la probabilidad exacta. No obstante, este procedimiento sólo es

factible con tablas de 2 x 2 mediante el cálculo de la probabilidad exacta de Fisher,

que veremos en otro apartado de este mismo capítulo.

5. Cuando las frecuencias esperadas son inferiores a 5, se ha mencionado que el modelo

puede no estar funcionando bien. Para tablas de 2 x 2, el punto anterior suministra

una solución. ¿Y en las tablas con al menos una variable con más de dos valores? En

general, se considera que si menos del 20% de las casillas muestran frecuencias

esperadas inferiores a 5 (no siendo ninguna 0), la disparidad es despreciable y se

puede utilizar chi de Pearson sin problemas. Si este principio no se cumple, no queda

más salida que agrupar categorías de las variables implicadas para forzar frecuencias

mayores en las casillas.