Distribución Chi Cuadrada

16
DISTRIBUCIÓN CHI CUADRADA Construcción del estadístico Chi cuadrada a partir de frecuencias observadas y esperadas. Utilizamos pruebas de una muestra para determinar si una media y una proporcion era significativamente diferente de un valor hipotetizado. En las pruebas de dos muestras examinamos la diferencia entre dos medias o entre dos proporciones, e intentamos saber si esta diferencia era significativa. En estadística, la distribución de Pearson, llamada también ji cuadrada o chi cuadrado (χ²) es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria. Es un estadistico que nos ayuda a decidir si las frecuencias observadas estan o no en concordancia con las frecuencias esperadas (es decir, si el numero de resultados esperados corresponde aproximadamente al numero esperado). X 2 = ( fo fe ) 2 fe Siendo : fo: Observado fe: esperado

description

distribucion chi cuadrada

Transcript of Distribución Chi Cuadrada

Page 1: Distribución Chi Cuadrada

DISTRIBUCIÓN CHI CUADRADAConstrucción del estadístico Chi cuadrada a partir de frecuencias observadas y esperadas.

Utilizamos pruebas de una muestra para determinar si una media y una proporcion era significativamente diferente de un valor hipotetizado. En las pruebas de dos muestras examinamos la diferencia entre dos medias o entre dos proporciones, e intentamos saber si esta diferencia era significativa.

En estadística, la distribución de Pearson, llamada también ji cuadrada o chi cuadrado (χ²) es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria.

Es un estadistico que nos ayuda a decidir si las frecuencias observadas estan o no en concordancia con las frecuencias esperadas (es decir, si el numero de resultados esperados corresponde aproximadamente al numero esperado).

X2=∑ (fo−fe)2fe

Siendo :

fo: Observado fe: esperado

Para comprobarlo, haremos un contraste de hipotesis usando dicha distribucion:

EJEMPLO:

En un grupo de enfermos que se quejaban de que no dormian se les dio somniferos y placebos. Con los siguientes resultados. Nivel de significacion de 0.05

Page 2: Distribución Chi Cuadrada

DUERMEN BIEN DUERMEN MALSOMNIFEROS 44 10PLACEBOS 81 35

¿Es lo mismo tomar somniferos o placebos para dormir bien o mal en este grupo de enfermos?

Las hiportesis de este ejemplo, serian las siguientes:

Ho: no es lo mismo tomar somniferos o placebos para dormir bien o mal

H1: es lo mismo tomar somniferos o placebos para dormir bien o mal

Para la realizacion del ejemplo se muestran los pasos a seguir.

PASO 1:

Completar la tabla de frecuencias observadas.

DUERMEN BIEN DUERMEN MAL TOTALSOMNIFEROS 44 10 54

PLACEBOS 81 35 116TOTAL 125 45 170

PASO 2:

Calcular las frecuencias teoricas.

Para este calculo, tenemos que basarnos en la formula: (total filas x total de columnas)/ total

fe1=¿ (Duermen bien con sonmiferos)

125x 54170

=39.71

Page 3: Distribución Chi Cuadrada

fe2=¿ (Duermen bien con placebos)

116 x125170

=85.29

fe3=¿ (Duermen mal con somniferos)

45 x54170

=14.29

fe 4=¿ (Duermen mal con placebos)

45 x116170

=30.71

La suma de las frecuencias observables debia ser igual a la suma de las frecuencias esperdas. En este caso podemos decir, que dicho pronostico se cumple:

Suma de frecuencias observadas = 170

Suma de frecuencias esperadas= 39.71 + 85.29 + 14.29 + 30.71 =170

PASO 3:

Calcular los grados de libertad. En este caso, como son dos los criterios de clasificacion, el grado de libertad se calcularia asi:

Grados de libertad = (# de filas – 1) x (# de columnas-1)

Grados de libertad = (2-1) x (2-1) = 1 x 1 = 1

PASO 4:

Calcular el valor de chi cuadrado.

Page 4: Distribución Chi Cuadrada

X2=∑ ( fo−fe )2fe

=(44−39.71 )239.71

+(81−85.29 )85.29

2

+(10−14.29 )14.29

2

+(35−30.71 )30.71

2

X2=(−0.46 )+(0.22 )−(1.29 )−0.6=2.57

PASO 5:

Ver la tabla.

Buscamos en la tabla de la distribucion X2 el valor que se compara con el del resultado del chi cuadrado. Tenemos que tener en cuenta el nivel de significacion (0.05) y el grado de libertad (1).

Observando la tabla, obtenemos pues que le valor que buscamos es 3.84

PASO 6:

Comparar los valores.

Page 5: Distribución Chi Cuadrada

Valor calculado = 2.57

Valor de la tabla = 3.84

CONCLUSION

∴2.57<3.84

Aceptamos Ho y rechazamos H1. Podemos decir que la diferencia no es estadisticamente significativa. Es decir, no es lo mismo usar somniferos o placebos para dormir bien o mal en este grupo de enfermos.

Uso de la prueba chi cuadrada

Suponga que tenemos proporciones de cinco poblaciones en lugar de solamente dos. En este caso, debemos utilizar la prueba chi cuadrada, estas pruebas no permiten probar si mas de dos proporciones de poblacion pueden ser consideradas iguales.

En realidad, las pruebas de chi cuadrada nos permiten hacer mucho mas que solamente probar la igualdad de varias proporciones. Si clasificamos una poblacionen diferentes categorias con respecto a dos atributos (por ejemplo, edad y desempeño en el trabajo), entonces podemos utilizar una prueba chi cuadrada para determinar si los dos atributos son independientes entre si.

Descripcion de una distribucion chi cuadrada

Si la hipotesis nula es verdadera, entonces la distribucion de muestreo de la estadistica chi cuadrada, x2, puede aproximarse bastante bien mediante una curva continua conocida como distribucion chi cuadrada. Como en el caso de la distribucion t❑, existe una distribucion chi cuadrada para cada numero distinto de grados de libertad. Para un numero muy pequeño de grados de libertad, la distribucion chi cuadrada esta seriamente sesgada hacia la derecha. Conforme aumenta el numero de grados de libertad, rapidamente

Page 6: Distribución Chi Cuadrada

la curva se va haciendo cada vez mas simetrica hasta que el numero de grados de libertad se hace bastante grande, en cuyo caso la distribucion puede aproximarse con la normal.

La distribucion chi cuadrada es uan distribucion de probabilidad. En consecuencia, el area total bajo la curva de cada distribucion chi cuadrada es 1.0. como en el caso de la distribucion t es posible tener un numero muy grande de distribucion chi cuadrada, de modo que no resulta practico construir una tabla que contenga las areas bajo la curva de todos los valores posibles del area.

Determinacion de los grados de libertad.

Para utilizar la prueba chi cuadrada debemos calcular el número de grados de libertad en la tabla de contingencia mediante la aplicación de la ecuación.

numero de gradosde libertad=(numero derenglones−1)(numero decolumnas−1)

dice que, de un conjunto de observaciones, los grados de libertad están dados por el número de valores que pueden ser asignados de forma arbitraria, antes de que el resto de las variables tomen un valor automáticamente, producto de establecerse las que son libres, esto, con el fin de compensar e igualar un resultado el cual se ha conocido previamente. Se encuentran mediante la fórmula n-r, donde n=número de sujetos en la muestra que puede tomar un valor de forma libre y r es el número de sujetos cuyo valor dependerá del que tomen los miembros de la muestra que son libres. También pueden ser representados por k-r, donde k=número de grupos, esto, cuando se realizan operaciones con grupos y no con sujetos individuales.

Cuando se trata de eliminar los estadísticos con un conjunto de datos, los residuos -expresados en forma de vector- se encuentran habitualmente en un espacio de menor dimensión que aquél en el que se encontraban los datos originales. Los grados de libertad del error los determina, precisamente, el valor de esta menor dimensión.

Page 7: Distribución Chi Cuadrada

Chi cuadrada como prueba de independencia

En muchas ocasiones, se necesitan saber si las diferencias que se observan entre varias proporciones de muestra son significativas o solamente son resultado del azar.

Suponga que en una campaña de un candidato a la presidencia del país estudia tres regiones geográficas diferentes y encuentra que 35, 42 y 51%, respectivamente de los votantes investigados de las tres regiones reconocen el nombre del candidato. Si esta diferencia es significativa, se puede llegar a la conclusión de que el lugar afectara la forma en que debe actuar el candidato. Pero si la diferencia no es significativa (es decir, si el administrador llega a la conclusión de que la diferencia solamente se debe al azar), entonces puede decidir que el lugar escogido para pronunciar un discurso proselitista en particular no tendrá efecto en su recepción. Para conducir la campaña con éxito, entonces, el administrador necesita determinar si el lugar y el reconocimiento del nombre del candidato son dependientes o independientes.

Tablas de contingencia

Suponga que en cuatro regiones, la Compañía Nacional de Cuidado de la Salud muestrea las actitudes de los empleados de sus hospitales con respecto al examen de desempeño en el trabajo. A los trabajadores se les da a escoger entre el método actual (dos exámenes al año) y un nuevo método propuesto (exámenes cada trimestre).

Page 8: Distribución Chi Cuadrada

NORESTE

SURESTE CENTRAL COSTA OCCIDENTAL

TOTAL

Número de empleados que prefieren el método actual

68 75 57 79 279

Número de empleados que prefieren el nuevo método.

32 45 33 31 141

Total de empleados muestreados en cada región.

100 120 90 110 400

Una tabla como esta, está conformada por renglones y columnas: los renglones corren de manera horizontal y las columnas verticalmente. Note que las cuatro columnas de la tabla anterior proporcionan una base de clasificación (regiones geográficas) y que los dos renglones clasifican la información de otra manera: preferencia por algún método de revisión. Se le conoce como “tabla de contingencia de 2 x 4”, ya que consta de dos renglones y cuatro columnas. Describimos las dimensiones de una tabla de contingencia estableciendo primero el número de renglones y luego el número de columnas. La columna y el renglón con el “total” no se cuentan como parte de las dimensiones.

Frecuencias observadas y esperadas.

Suponga que ahora simbolizamos las porciones reales de la población total de empleados que prefieren el plan actual como:

px← proporción de empleados en el noreste que prefieren el presente plan

ps← proporción de empleados en el sudeste que prefieren el presente plan

Page 9: Distribución Chi Cuadrada

pc← proporción de empleados de la región central que prefieren el presente plan

pw← proporción de empleados de la región de la costa occidental que prefieren el presente plan

Utilizando estos símbolos, podemos establecer la hipótesis nula y alternativa de la siguiente manera:

Ho : px=ps=pc=pw←hipotesis nula

H 1: px ´ ps ´ pc ´ y pw ´ nosontodos iguales←hipotesis alternativa

Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro muestras y luego estimar la proporción de la fuerza de trabajo total (la población total) que prefiere el método actual de revisión:

Porción combinada de trabajadores que prefieren el método presente, suponiendo que la hipótesis nula de ninguna diferencia es verdadera.

¿ 68+75+57+79100+120+90+110

¿ 279420

¿0.6643

Obviamente, si el valor 0.6643 estima la proporción de población esperada que prefiere el método presente de evolución, entonces 0.3357 ( = 1 – 0.6643) es la estimación de la proporción esperada de la población que

Page 10: Distribución Chi Cuadrada

prefiere el método propuesto. Utilizando 0.6643 como la estimación de la proporción de la población que prefiere el actual método de evaluación del trabajo, y 0.3357 como la estimación de la proporción de la población que prefiere l nuevo método, podemos estimar el número de empleados muestreados en cada región de los cuales podríamos esperar que prefieran cada uno de los métodos de evaluación.

NORESTE SURESTE CENTRAL COSTA OCCIDENTAL

Numero total muestreadoProporcion estimada que prefiere el método actual

100

×0.6643❑

120

×0.6643❑

90

×0.6643❑

110

×0.6643❑

Numero que se espera que prefiera el método actual.

66.43 79.72 59.79 73.07

Numero total muestreadoProporcion estimada que prefiere el nuevo método.

100

×0.3357❑

120

×0.3357❑

90

×0.3357❑

110

×0.3357❑

Numero que se espera que prefiera el nuevo metodo

33.57 40.28 30.21 36.93

Comparación de frecuencias esperada y observada.

En la siguiente tabla se combina toda la información contenida en las tablas anteriores. En ella se ilustran tanto la frecuencia real, u observada, como la

Page 11: Distribución Chi Cuadrada

teórica, o esperada, de trabajadores muestreados que prefieren cada uno de los métodos de evaluación. Recuerde que las frecuencias esperadas, fueron estimadas a partir de nuestra estimación combinada de proporción.

NORESTE SURESTE CENTRAL COSTA OCCIDENTAL

FRECUENCIA DE PREFERENCIA DEL METODO ACTUALFrecuencia observada (real)

68 75 57 79

Frecuencia esperada (teórica)

66.43 79.72 59.79 73.07

FRECUENCIA DE PREFERENCIA DEL NUEVO METODOFrecuencia observada (real)

32 45 33 31

Frecuencia esperada (teórica)

33.57 40.28 30.21 36.93

Para probar la hipótesis nula, px=ps=pc=pw, debemos comparar las frecuencias que fueron observadas con las frecuencias que esperaríamos si la hipótesis nula fuera verdadera. Si los conjuntos de frecuencias observadas y esperadas son casi iguales, podemos razonar de manera intuitiva que aceptaremos la hipótesis nula. Si existe una diferencia grande entre estas frecuencias, podemos intuitivamente rechazar la hipótesis nula y llegar a la conclusión de que existen diferencias significativas en las proporciones de empleados de las cuatro regiones que prefieren el nuevo método.

Page 12: Distribución Chi Cuadrada

La estadística chi cuadrada

Para ir más allá de nuestros sentimientos intuitivos acerca de las frecuencias observadas y esperadas, podemos hacer uso de la estadística de chi cuadrada, la cual se calcula de la manera siguiente.

Esta fórmula estable que chi cuadrada, o X2, es la suma que obtendremos si:

1. Restamos f ede f o para cada una de las ocho cajas o celdas de la última tabla mostrada

2. Elevamos al cuadrado cada una de las diferencias 3. Dividimos cada diferencia al cuadrado entre f e y 4. Sumamos los ocho resultados

La respuesta obtenida de 2.764 es el valor de chi cuadrada en nuestro problema de comparación de preferencias de métodos de evaluación. Si este valor fuera muy grande, digamos 20, indicaría una diferencia sustantiva entre nuestros valores observados y los valores esperados.

Chi cuadrada como prueba de bondad de ajuste.

La prueba chi cuadrada puede utilizarse también para decidir si una distribución de probabilidad en particular, como la binominal, la de Poisson o la normal, es la distribución apropiada. Esta es una habilidad importante, ya que se necesitara recoger una cierta distribución de probabilidad para representar la distribución de los datos que tengamos que trabajar. Necesitaremos la habilidad de cuestionar que tan lejos podemos avanzar a partir de las suposiciones que subyacen en una distribución particular antes de que debamos concluir que tal distribución ya no se puede aplicar. La prueba chi cuadrada nos permite hacernos esta pregunta y probar si existe una diferencia significativa entre una distribución

Page 13: Distribución Chi Cuadrada

de frecuencias observada y una distribución de frecuencias teóricas. De esta manera, podemos determinar la bondad de ajuste de una distribución teórica (es decir, que tan bien se ajusta la distribución de datos que observamos en realidad). Así pues, podemos determinar si debemos creer que los datos observados constituyen una muestra obtenida de la distribución teórica hipotetizada.

Suponga que la compañía Gordon requiere que los recién graduados de la universidad que buscan una colocación en la empresa sean entrevistados por tres ejecutivos diferentes. Esto permite a la compañía obtener una evaluación condensada de los candidatos. Cada uno de los ejecutivos califica al candidato en forma positiva o negativa. En la tabla se muestran los resultados de las entrevistas de los últimos 100 candidatos.

POSIBLES CALIFICACIONE POSITIVAS EN TRES

ENTREVISTAS

NUMERO DE CANDIDATOS QUE OBTIENEN CADA UNA DE LAS

CALIFICACIONES0 181 472 243 11

100

Con el propósito de planificar su fuerza de trabajo, el director de contratación de personal de la compañía piensa que el proceso de entrevistas puede ser aproximado por una distribución binominal con p=0.40, es decir, con una posibilidad de 40% de que cualquier candidato obtenga una calificación positiva en cualquiera de las entrevistas. Si el director desea probar esta hipótesis a un nivel de significancia de 0.20, ¿de que manera debe proceder?

H o :Unadistribucionbinomial con p=0.40 es una buena descripción del proceso de entrevistas.

H 1:Unadistribucionbinominal con p=0.40 no es una buena descripción del proceso de entrevistas

Para determinar este problema, debemos determinar si las discrepancias entre las frecuencias observadas y aquellas que esperaríamos (si la

Page 14: Distribución Chi Cuadrada

distribución binominal fuera el método apropiado a utilizarse) deberán atribuirse al azar. Podemos empezar por determinar cuáles serían las probabilidades binominales para esta situación en particular. Para las tres entrevistas, encontraríamos la probabilidad de éxitos en la tabla de distribución normal.