Xi Cuadrada

ESTADISTICA

INFERENCIA ESTADÍSTICA

.

TITULO: Una corta introducción teórica de inferencia estadística

Test o Pruebas de hipótesis CHI-CUADRADO.

Ejercicios resueltos y propuestos

AUTOR: JUAN VICENTE GONZÁLEZ OVANDO

Inferencia Estadística

La inferencia estadística es la forma de tomar decisiones basadas en probabilidades y presenta dos aspectos:

1. Estimación de parámetros: - Puntual - Por intervalos

2. Prueba de Hipótesis con respecto a una función elegida como modelo.

Estimación Puntual • Una estimación puntual del valor de un parámetro poblacional desconocido (como puede ser la media , µ, o la desviación estándar , σ), es un número que se utiliza para aproximar el verdadero valor de dicho parámetro poblacional. • Una estimación puntual es el valor de la estadística de la muestra correspondiente.

Estimación por intervalos Nos proponemos determinar dos números entre los cuales se halla el parámetro estudiado con cierta certeza.

El procedimiento para obtener un intervalo (de confianza) para un parámetro, la media , por ejemplo, requiere de la determinación de un estimador del parámetro y de la distribución del estimador.

Nos ocuparemos del 2º. aspecto: Prueba de hipótesis con respecto a una función elegida como modelo.

¿Qué es una Hipótesis? Hipótesis: Es un suposición acerca del valor de un parámetro de una población con el propósito de discutir su validez. Ejemplo de hipótesis acerca de un parámetro de una población son: - El sueldo promedio de un profesional asciende a $2,625.

- El veinte por ciento de los consumidores utiliza aceite de oliva

¿Qué es una prueba, test o contraste de hipótesis? Prueba de hipótesis: es un procedimiento, basado en la evidencia de la muestra y en la teoría de las probabilidades, usado para determinar si la hipótesis es una afirmación razonable y debería no ser rechazada o si no es razonable debería ser rechazada

Prueba de Hipótesis

Paso 1: Establecer la hipótesis nula y la alternativa

↓

Paso 2: Seleccionar el nivel de significación

↓

Paso 3: Identificar el estadístico de prueba

↓

Paso 4: Formular una regla de decisión

↓

Paso 5: Tomar una muestra, llegar a una decisión

↓ ↓

No realizar la hipótesis Rechazar la nula y aceptar

la alternativa

¿ Cuáles son algunos de los contrastes de hipótesi s?

1) Contraste de hipótesis para la media 2) Contraste de hipótesis para la varianza 3) Contraste de hipótesis para la diferencia de medias de dos poblaciones 4) Contraste de hipótesis para muestras relacionadas.

Algunas Definiciones

Hipótesis nula H0: Una afirmación acerca del valor de un parámetro de la población. Zona de aceptación. Hipótesis Alternativa H1: Una afirmación que es aceptada si la muestra provee la evidencia de que la hipótesis nula es falsa. Zona de rechazo. Nivel de significación: La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera. Error tipo I: Rechazar la nula cuando en realida es verdadera Error tipo II: Aceptar la hipótesis nula cuando en realidad es falsa. Estadístico de prueba: Es un valor, determinado a partir de la información de la muestra, usado para decidir si rechazar o no la hipótesis nula. Valor crítico: El punto que divide la región entre el lugar en el que la hipótesis nula es rechazada y y la región donde la hipótesis nula es no rechazada.

En este trabajo concentraremos nuestro estudio en

la prueba o test Chi-cuadrado χ2

TEST o PRUEBA CHI-CUADRADO χ2 Consideraciones generales: La prueba o test chi-cuadrado es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y una observación teórica (bondad de ajuste), indicando en que medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hipótesis. También se utiliza el test chi-cuadrado para probar la homogeneidad entre dos poblaciones o independencia de dos variables entre si, mediante la presentación de datos dados en tablas de contingencia. Es decir:

a) Chi-cuadrado de bondad de ajuste o significancia: para comprobar si los datos se ajustan a una distribución concreta.

b) Chi-cuadrado de homogeneidad: para ver si dos muestras provienen de una misma población o una población con una misma familia de distribución (los datos vienen dado en una tabla de contingencia).

c) Chi cuadrado de independencia: para comprobar si dos muestras son independientes ( los datos vienen en una tabla de contingencia).

Para resolver estos problemas utilizaremos la distribución χ²-cuadrado .

La aplicaremos básicamente:

Bondad de Ajuste

Pruebas con probabilidades de cada categoría completamente especificada

Bondad de ajuste a una variable discreta Bondad de ajuste a una variable continua

χ²-cuadrado

Tablas de contingencia

Pruebas de Homogeneidad Pruebas de Independencia

Estadístico y Estimador: La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente:

χ2 = ∑ (observado – esperado )

2

esperado Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla

χ2 = χ2

(1-α);(i – 1)*(j-1) K Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución, es igual también al No. de sumandos menos 1, en el cálculo del estadístico. i: número de filas, j: número de columnas

Criterio de decisión:

Se acepta Ho cuando χ2 < χ2

(1-α);(i – 1)*(j-1)

estadístico < estimador : se acepta Ho y se rechaza la hipótesis alternativa H1

O caso contrario, se rechaza Ho si : χ2 > χ2

(1-α);(i – 1)*(j-1)

estadístico > estimador : se rechaza la hipótesis nula Ho y se acepta la alternativa H1

Ejercicios resueltos (Debes tener la tabla de distribución Chi-cuadrada)

1) ¿ Cúal es la distribución de probabilidad de chi-cuadrado de 4 grados de libertad de X<10,64?

P ( χ2 < 10,64 ) = 0,90 � χ2 = 10,64

6 0,90; 6

2) Calcula la distribución de probabilidad de χ2 con 14 grados de libertad de X < 6,57

P ( χ2 < 6,57 ) = 0,050 � χ2 = 6,57

14 0,05; 14

3) ¿ Para que valor de X se cumple P ( χ2 < X ) = 0,975? 7

X = χ2 = 16,01 0,975; 7

4) ¿ Cuál es el valor de X que cumple P (χ2 < X ) = 0,995? 15

X = χ2 = 32,80 0,995;15

5) Halla a) P ( χ2 > 0,58 ) b) P ( 2,18 < χ2 < 21.95 )

0,975; 7 8

P ( χ2 > 0,58 ) = 1– P ( χ2 < 0,58 ) = 1 – 0,10 = 0,90 3 3

P ( 2,18 < χ2 < 21.95 ) =P ( χ2 < 21.95 ) - P(χ2 < 2.18 ) = 8 8 8

= 0,995 – 0,025 = 0,97

6) Por interpolación lineal, halla P ( χ2 < 1,90 ) 6

Sustituyendo X = 1,90 en la expresión Y = ( X – X1) * ( Y2 – Y1) + Y1 ( X2 – X1) Buscamos en la tabla de chi-cuadrado los valores más próximos a X = 1,90 en la fila de grados de libertad igual a 6, y encontramos que 1,64 < 1,90 < 2,20

Tenemos asi: P (χ2 < 1,64 ) = 0,05 � (1,64 ; 0,05 ) 6

P (χ2 < 2,20 ) = 0,10 � (2,20 ; 0,10 ) 6 Sustituimos en la ecuación Y = ( X – 1,64 ) * (0,10 – 0,05) + 0,05 ( 2,20 – 1,64 ) Y = ( X – 1,64 ) * 0,05 + 0,05 0,56

Para X = 1,90 � Y = ( 1,90 – 1,64 ) * 0,05 + 0,05 = 0,073 0,56

Por lo tanto P ( χ2 < 1,90 ) = 0,073

6

7) En una investigación sociológica se efectúa una determinada pregunta a 5000 personas, respondiendo todas ellas ¨si¨ o ¨no¨. De estas respuestas, 2449 son afirmativas y 2551 negativas. ¿Puede afirmarse, al nivel de significación del 5 % que la población se halla igualmente repartida en orden a su opinión sobre la pregunta formulada? Análisis Decir que la población se halla igualmente repartida en cuanto a su opinión es equivalente a establecer la hipótesis de que la proporción de respuestas afirmativas es igual a la proporción de respuesta negativas. Ho: la población se halla igualmente repartida en orden a la pregunta formulada. H1: la población no se halla igualmente repartida ….. La frecuencia teórica establecida para la población según Ho es entonces mitad / mitad: es decir respuesta afirmativa: 2500, y respuesta negativa 2500.

Establecemos la tabla de contingencia:

TIPO DE RESPUESTA FRECUENCIAS FRECUENCIAS

OBSERVADAS ESPERADAS foi fei foi - fei ( foi - fei ) 2

AFIRMATIVAS 2449 2500 51 2601 NEGATIVAS 2551 2500 51 2601

∑ 5000 5000 5202

La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente:


2 = 2601 + 2601 = 2,0808 Esperado 2500 2500 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla

χ2 = χ2 = χ2 = 3.841

(1-α);(i – 1)*(j-1) (1-0,05); (2-1)*( 2-1) 0,95: 1 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas, j: número de columnas Criterio de decisión:


(1-α);(i – 1)*(j-1)


En nuestro caso : 2,0808 = χ2 < χ2 = 3,841

0,95: 1 La desviación de los valores de la encuesta es debida al azar, y por ello, aceptamos la hipótesis de que la población se halla igualmente repartida en orden a la pregunta formulada. 8) Al nivel de significación del 5 %, contrastar la hipótesis de que una moneda está bien construida, sabiendo que los resultados obtenidos en 5000 lanzamientos fueron: ¨cara¨ 1820 veces, ¨cruz¨ 3180 veces.

Análisis Al decir que la moneda está bien construida, quiere expresarse que los dos sucesos, cara y cruz, son igualmente probables. Por ello, la frecuencia esperada de cara y cruz en 5000 lanzamiento seria de 2500 y 2500 respectivamente.

Ho: las monedas están bien construidas, los dos sucesos son igualmente probables. H1: las monedas están defectuosas o no bien construidas. Establecemos la tabla de contingencia:

RESULTADOS FRECUENCIAS FRECUENCIAS

OBSERVADAS No.de

lanzamientos

ESPERADAS No.de

lanzamientos foi fei foi - fei ( foi - fei ) 2

CARA 1820 2500 680 462400 CRUZ 3180 2500 680 462400 ∑ 5000 5000



2 = 462400 + 462400 = 369,92 Esperado 2500 2500 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla

χ2 = χ2 = χ2 = 3.841

(1-α);(i – 1)*(j-1) (1-0,05); (2-1)*( 2-1) 0,95: 1 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas, j: número de columnas Criterio de decisión:


(1-α);(i – 1)*(j-1)


En nuestro caso : 369,92 = χ2 > χ2 = 3,841

0,95: 1 Al nivel de significación del 5 %, la desviación NO es debida sólo al azar, y por ello, RECHAZAMOS la hipótesis de que la moneda estén bien construida.

9) Con objeto de estudiar la demanda de un producto durante los cuatro trimestres de un año se dispone de la siguiente información: Trimestre: 1º. 2º. 3º. 4º . No. unidades demandadas: 1000 950 1100 950 . Establecer una hipótesis sobre el carácter de la distribución de la demanda, verificando la bondad de ajuste (para comprobar si los datos se ajustan a una distribución concreta) al nivel de significación del 1 %.

Análisis

El análisis de la información que proporciona la distribución uniforme de la demanda, esto es que la misma (la demanda) se distribuye por igual a lo largo de los cuatro trimestres, por lo que la frecuencia de demanda esperada o teórica para cada trimestre es de 4000/4 = 1000 unidades c/ trimestre.

Ho: la demanda se distribuye uniformemente a lo largo de los 4 trimestres. H1: la demanda no se distribuye uniformemente.


TRIMESTRE FRECUENCIAS FRECUENCIAS

OBSERVADAS Unidades

demandadas

ESPERADAS Unidades

demandadas foi fei foi - fei ( foi - fei ) 2

1º 1000 1000 0 0 2º 950 1000 50 2500 3º 1100 1000 100 10000 4º 950 1000 50 2500 ∑ 4000 4000



2 = Esperado

χ2 = 0 . + 2500 + 10000 + 2500 = 15000 = 15

1000 1000 1000 1000 1000

Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla

χ2 = χ2 = χ2 = 11,34

(1-α);(i – 1)*(j-1) (1-0,01); (4-1)*( 2-1) 0,99: 3 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 4, j: número de columnas = 2 Criterio de decisión:


(1-α);(i – 1)*(j-1)


En nuestro caso : 15 = χ2 > χ2 = 11,34

0,99: 3 Al nivel de significación del 1 %, la desviación obtenida entre lo que establece la hipótesis y la información obtenida NO es debida sólo al azar, y por ello, RECHAZAMOS la hipótesis de que la demanda se distribuya por igual a lo largo de los cuatro trimestres.

10) Para conseguir determinada calificación profesional, 100 personas se someten a dos tipos de tests independientes entre si; el resultado de cada test puede ser favorable (F) o desfavorable (D) para cada individuo. A la vista de los resultados que figuran en la tabla, los calificadores determinan 3 grupos, resultando indiferente, a efectos de la inclusión en el segundo, el test donde se obtuvo la calificación favorable. Contrastar, al nivel de significación del 5 %, la hipótesis de que la proporción teórica de individuos calificados con F o con D en cada tests es la que se señala. Grupo/Calificación: 1º. F.F. 2º.F.D. 3º.D.D. . No. De individuos 30 40 30 . Proporciones teóricas: ¼ ½ ¼ .

Análisis

Ho: la proporción teórica es de ¼, ½, ¼ para cada grupo respectivamente. H1: la proporción teórica es distinta a ¼, ½, ¼ respectivamente.


GRUPOS FRECUENCIAS FRECUENCIAS

OBSERVADAS No. de

individuos

ESPERADAS No.de individuos

según proporcion.

foi fei foi - fei ( foi - fei ) 2

1º 30 25 (1/4 de 100) 5 25 2º 40 50 (1/2 de 100) 10 100 3º 30 25 (1/4 de 100) 5 25 ∑ 100 100



2 = Esperado

χ2 = 25 . + 100 + 25 = 4,0

25 50 25 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla

χ2 = χ2 = χ2 = 5,991

(1-α);(i – 1)*(j-1) (1-0,05); (3-1)*( 2-1) 0,95: 2

Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 3, j: número de columnas = 2



(1-α);(i – 1)*(j-1)


En nuestro caso : 4.0 = χ2 < χ2 = 5,99

0,95: 2 Al nivel de significación del 5 %, la desviación obtenida entre lo que establece la hipótesis y la información obtenida no es significativa. Dicha desviación es debida sólo al azar, y por ello, aceptaremos la hipótesis de que la proporción de los tres grupos es ¼, ½, ¼, respectivamente.

11) Méndel tenía arvejas con dos tipos de tegumento, rugoso y liso y, según su hipótesis, en cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en la descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso en la proporción 3:1. Supongamos que en un experimento en el cual se obtiene una descendencia compuesta por 400 semillas, un genetista encuentra 285 semillas de tegumento liso y 115, de tegumento rugoso. ¿Sería razonable, con α = 0.05, pensar que esa proporción observada no está demasiado alejada de la proporción 3:1 dictada por la ley de Méndel? Análisis Según hipótesis de Méndel la frecuencia esperada o teórica de los dos tipos de tegumentos era 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento rugoso. Calculando dicha proporción para las 400 semillas serán: ¾ *400 = 300 (teg. liso), y ¼ * 400 = 100 (teg. rug.). Se trata de comprobar si los datos se ajustan a una distribución concreta, por lo cual utilizamos el método de Test o prueba de bondad de ajuste o significancia). Hipótesis. H0: la proporción es 3:1;

H1: la proporción no es 3:1. Nivel de significación. α = 0.05.

Establecemos una tabla : TEGUMENTOS FRECUENCIAS FRECUENCIAS

OBSERVADAS No.de semillas

obtenidas

ESPERADAS No. de semillas

según proporción

foi fei foi - fei ( foi - fei ) 2 LISO 285 300 (3/4 de 400) 15 225

RUGOSO 115 100 (1/4 de 100) 15 225 ∑ 400 400



2 = Esperado

χ2 = 225 . + 225 = 0,75 + 2,25 = 3.00

300 100 Que debe ser comparado con el estimador (estadístico teórico ) dado en una tabla

χ2 = χ2 = χ2 = 3,84

(1-α);(i – 1)*(j-1) (1-0,05); (2-1)*( 2-1) 0,95: 1 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 2, j: número de columnas = 2 (de datos en la tabla de contingencia, no de cálculos)



(1-α);(i – 1)*(j-1)


En nuestro caso : 3,00 = χ2 < χ2 = 3.84

0,95: 1

Conclusión: Al nivel de significación del 5 %, la desviación obtenida entre lo que establece la hipótesis de Méndel y la información obtenida no es significativa. Dicha desviación es debida sólo al azar, y por ello, aceptaremos la hipótesis de que la proporción entre los tegumentos lisos y rugosos es 3:1 respectivamente.

12) En un estudio del mercado, se tiene como objetivo establecer si las preferencias acerca del envase de dulce de leche son similares para hombres y mujeres. Se ha hecho una encuesta a 200 personas y se han obtenido los siguientes datos:

Envase lata plastico carton vidrio Total

varones mujeres

27 12

30 29

19 26

24 33

100 100

Total 39 59 45 57 200

Establecer un contraste de hipótesis entre las preferencias de envase entre hombres y mujeres con nivel de significación del 5%.

Análisis Como podemos observar, se trata de una prueba de homogeneidad entre la población hombres y mujeres. Según hipótesis podemos establecer que las preferencias no difieren según el sexo por lo cual optamos que la frecuencia esperada de preferencia para cada tipo de envase es del 50 % del total para hombres y mujeres.

H0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres y mujeres H1: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y mujeres Establecemos la tabla de contingencia:

FRECUENCIAS OBSERVADAS

No de PREFERENCIAS DE ENVASES

Envase lata plastico carton vidrio Total varones 27 30 19 24 100

mujeres 12 29 26 33 100

Total 39 59 45 57 200

FRECUENCIAS ESPERADAS O TEÓRICAS No de PREFERENCIAS DE ENVASES IGUAL PROPORCIÓN

Envase lata plastico carton vidrio Total varones 19,5 29,5 22,5 28,5 100

mujeres 19,5 29,5 22,5 28,5 100

Total 39 59 45 57 200



2 = lo calculamos paso a paso en la tabla siguiente

Esperado

foi - fei

Envase lata plastico carton vidrio varones 7,5 0,5 -3,5 -4,5 mujeres -7,5 -0,5 3,5 4,5

( foi - fei ) 2

Envase lata plastico carton vidrio varones 56,25 0,25 12,25 20,25 mujeres 56,25 0,25 12,25 20,25

( foi - fei ) 2 / fei

Envase lata plastico carton vidrio Total varones 2,88 0,01 0,54 0,71 4,15 mujeres 2,88 0,01 0,54 0,71 4,15 Total 5,77 0,02 1,09 1,42 8,30

Finalmente, el estadístico χ2 = 8,30

Que debe ser comparado con el estimador (estadístico teórico ) dado en la tabla χ2

χ2 = χ2 = χ2 = 7,81

(1-α);(i – 1)*(j-1) (1-0,05); (2-1)*( 4-1) 0,95: 3

Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 2, j: número de columnas = 4 (de datos en la tabla de contingencia, no incluir la columna de cálculos)



(1-α);(i – 1)*(j-1)


En nuestro caso : 8,30 = χ2 > χ2 = 7,81

0,95: 3

Conclusión: se rechaza Ho, las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres.

Ejercicios propuestos (Debes tener la tabla de distribución Chi-cuadrada)

1) Una compañía de seguros registra los accidentes de automóvil, en una ciudad, durante 100 dias, obteniendo la siguiente información:

Número de accidentes: 0 1 2 3 o más

Número de días: 40 34 16 10

Según el cálculo de distribución de probabilidad para los sucesos mencionados, las frecuencias teóricas para cada uno de ellos son:

Número de días: 36.79 ; 36.79 ; 18.39 y 7.71 respectivamente.

Establecer una hipótesis acerca de la distribución de probabilidad que corresponda, y contrastarla al nivel de significación del 5 %.

Resp.: (estadístico) χ2 = 1,481

2) El nivel de ingresos anual de 100 familias consultadas de una población se distribuye en la forma siguiente:

NIVEL DE INGRESOS NÚMERO EN EUROS DE ANUAL FAMILIAS

ENTRE 4000 6000 10 6000 8000 25 8000 10000 25 10000 12000 20 12000 14000 20 Establecer una hipótesis sobre el modelo de distribución uniforme de los sueldos, esto es que el número de familias por nivel de ingresos es la misma, y contrastarlo al nivel de significación del 1 %.

Resp. (estadístico) χ2 = 7,5 : Estimador: 13,28

--------------------------------------------------------

Biobliografía: Materiales del presente curso, Pagina web de consulta: www.fisicanet.com.ar, Libro ¨Problemas de Estadística¨, autor J.López de la Manzanara Barbero.

Xi Cuadrada

Documents

Transcript of Xi Cuadrada