chi cuadrada

27
INTRODUCCIÓN Con mucha frecuencia no se conoce la distribución de probabilidad de la variable aleatoria en estudio, digamos X, y se desea probar la hipótesis de que X sigue una distribución de probabilidad particular. Por ejemplo, podría ser de interés probar la hipótesis de que X sigue una distribución normal, una exponencial, etc. Existen dos procedimientos para realizar pruebas de bondad de ajuste que son los más conocidos. El primero se basa en una técnica gráfica muy útil llamada gráfica de probabilidad y el segundo procedimiento se basa en la distribución Chi- cuadrada.

Transcript of chi cuadrada

Page 1: chi cuadrada

INTRODUCCIÓN

Con mucha frecuencia no se conoce la distribución de probabilidad de la

variable aleatoria en estudio, digamos X, y se desea probar la hipótesis

de que X sigue una distribución de probabilidad particular. Por ejemplo,

podría ser de interés probar la hipótesis de que X sigue una distribución

normal, una exponencial, etc.

Existen dos procedimientos para realizar pruebas de bondad de ajuste

que son los más conocidos. El primero se basa en una técnica gráfica

muy útil llamada gráfica de probabilidad y el segundo procedimiento se

basa en la distribución Chi-cuadrada.

Page 2: chi cuadrada

PRUEBAS DE BONDAD Y AJUSTE x2

El test de chi-cuadrado se emplea con frecuencia para hacer un test de la bondad de ajuste a una familia particular de leyes que dependen de uno o más parámetros. En este caso, se debe estimar el parámetro a partir de los datos. El teorema siguiente no es ya del todo válido:

Bajo la hipótesis la ley de la variable aleatoria converge,

cuando tiende a infinito, a la ley de chi-cuadrado de parámetro . Si

la hipótesis es falsa, entonces la variable tiende a infinito. Por tanto aplicaremos un test unilateral a la derecha (rechazo de los valores muy grandes).

Si se han estimado parámetros por el método de máximo de verosimilitud, a partir de las frecuencias de las diferentes clases, se

debe remplazar la ley por la ley .

Retomemos el ejemplo del número de varones en una familia de hijos, pero esta vez para probar la hipótesis nula:

el número de varones sigue una ley binomial

El parámetro es desconocido y debe ser estimado. El estimador de máximo de verosimilitud (el cual maximiza la probabilidad de los datos observados) es en este caso la proporción total de varones entre los

niños. Encontramos:

Ahora aplicamos el test, pero con la distribución teórica calculada

teniendo en cuenta el valor estimado del parámetro: la ley .

Page 3: chi cuadrada

Varones 0 1 2 3 4

0.0572

0.2329

0.3758

0.2632

0.0709

0.0556

0.2356

0.3744

0.2644

0.0700

El valor que toma el estadígrafo es ahora de . Debe ser comparado con los valores de la ley chi-cuadrado de parámetro 5 – 1 – 1 = 3. El p-valor de es , lo cual muestra que el resultado es perfectamente compatible con la hipótesis .

Al comparar los resultados de los dos tests precedentes, se puede aceptar la idea que los nacimientos son independientes, pero la proporción de los varones es significativamente superior a . 

Con frecuencia hay que estimar parámetros a partir de datos no agrupados, o por otro método diferente al de máximo de verosimilitud. En ese caso no se dispone de un resultado teórico claro. El valor límite a

partir del cual se debe rechazar la hipótesis al umbral está

comprendido entre y . En la práctica, después de haber calculado el valor que toma teniendo en

cuenta los parámetros estimados, es prudente tomar la siguiente actitud:

Rechazar si ,

No rechazar si ,

No llegar a una conclusión si

Page 4: chi cuadrada

.

EJEMPLOS

1.- Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.

Número de caras

Número de series

(frecuencia observada)

0 38

1 144

2 342

3 287

4 164

5 25

Total 1000

Ajustar una distribución binomial a los datos con un = 0.05.

Solución:

H0; Los datos se ajustan a una distribución binomial. H1; Los datos no se ajustan a una distribución binomial.

Para obtener los valores esperados se tiene que utilizar la formula de la

distribución binomial: , donde n en este ejercicio vale 5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Para calcular el valor de p, se sabe que =np en una distribución binomial, por lo que = 5p.

Page 5: chi cuadrada

Para la distribución de frecuencias observada, la media del número de caras es:

Por lo tanto . Así pues, la distribución binomial

ajustada viene dada por p(x) = .

Al seguir esta fórmula se calcula la probabilidad de obtener caras, según el valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dará el valor esperado. Se resumen los resultados en la tabla siguiente:

Número de caras (x)

P(x caras)Frecuencia esperada

Frecuencia observada

0 0.0332 33.2 38

1 0.1619 161.9 144

2 0.3162 316.2 342

3 0.3087 308.7 287

4 0.1507 150.7 164

5 0.0294 29.4 25

Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados.

Grados de libertad: k-1-m = 6-1-1 = 4

Page 6: chi cuadrada

Regla de decisión:

Si X2R 9.49 no se rechaza Ho.

Si X2R >9.49 se rechaza Ho.

Cálculos:

Justificación y decisión:

Como el 7.54 no es mayor a 9.49, no se rechaza H0 y se concluye con un = 0.05 que el ajuste de los datos a una distribución binomial es bueno.

2.- Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el número de defectos. Los resultados obtenidos son los siguientes:

Número de defectos

Frecuencia observada

0 32

1 15

2 9

3 ó más 4

¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?. Haga la prueba de la bondad del ajuste con un

= 0.05.

Solución:

Page 7: chi cuadrada

H0; La forma de la distribución de los defectos es Poisson. H1; La forma de la distribución de los defectos no es Poisson.

La media de la distribución Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.

A partir de la distribución Poisson con parámetro 0.75, pueden calcularse las probabilidades asociadas con el valor de x. Esto es la fórmula de la Poisson es:

Con esta fórmula se calculan las probabilidades, mismas que se multiplican por 60 para obtener los valores esperados.

Número de defectos

Probabilidad

Frecuencia esperada

Frecuencia observada

0 0.472 28.32 32

1 0.354 21.24 15

2 0.133 7.98 9

3 ó más 0.041 2.46 4

Puesto que la frecuencia esperada en la última celda es menor que 5, se combinan las dos últimas celdas.

Número de defectos

Frecuencia esperada

Frecuencia observada

0 28.32 32

1 21.24 15

2 ó más 10.44 13

Page 8: chi cuadrada

Los grados de libertad serían 3-1-1=1, debido a que la media de la distribución Poisson fue estimada a partir de los datos.

Regla de decisión:

Si X2R 3.84 no se rechaza Ho.

Si X2R >3.84 se rechaza Ho.

Cálculos:

Justificación y decisión:

Como el 2.94 no es mayor a 3.84, no se rechaza H0 y se concluye con un = 0.05 que la distribución de defectos en las tarjetas de circuito impreso es Poisson.

Page 9: chi cuadrada

CONCLUSIÓN

Una ventaja que tiene la prueba de bondad de ajuste x2 es que para valores grandes de n, la distribución límite x2 de la estadística, es independiente de la forma que tenga la distribución propuesta en la hipótesis H0. La prueba de bondad se utiliza también para distribuciones de probabilidad continua.

Las pruebas de bondad de x2 se utilizan principalmente para decidir cuando un conjunto de datos se ajusta a una distribución dada.

BIBLIOGRFÍA

Page 10: chi cuadrada

http://www.juntadeandalucia.es/averroes/centros-tic/14002996/ helvia/aula/archivos/repositorio//250/295/html/estadistica/bondad.htm#2.%20%20%20%20Prueba%20de%20bondad%20de%20ajuste%20chi-cuadrado

http://www.google.com/url? sa=t&source=web&cd=4&ved=0CCsQFjAD&url=http%3A%2F%2Fininweb.uprm.edu%2Fcc%2FPRUEBA%2520DE%2520BONDAD%2520Y%2520AJUSTE%2520.doc&rct=j&q=introduccion%20de%20pruebas%20de%20bondad%20de%20chi%20cuadrada&ei=_AY9TcqxJYG8lQeSr7XrBQ&usg=AFQjCNH2uvYvNCCTiv_6IGvE_Pix1TEHyA&cad=rja

http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030006/ lecciones/capitulotres/tema8.html

http://ljk.imag.fr/membres/Bernard.Ycart/emel/cours/ts/ node8.html#loichideux

Page 11: chi cuadrada

Unidad 3Estimación de Parámetros

El gerente de la división de focos de la GE debe determinar el número de hrs que duran los focos fabricados por cada una de las

Page 12: chi cuadrada

máquinas. Fue elegida una muestra de 40 focos de una máquina A y el tiempo promedio de funcionamiento fue de 1416 hrs. Se sabe que la desviación estándar del tiempo de duración de los focos es de 30 hrs. Construye un intervalo de confianza del 90% para la media de la población.

Una revista de investigación informó que la lluvia ácida causada por la reacción de ciertos contaminantes en el aire con el agua de la lluvia parece ser un problema creciente en la parte noroeste de EUA. La lluvia pura que se precipita a través del aire tiene un pH

Page 13: chi cuadrada

de 57. Suponga que se analizan muestras de agua de 40 lluvias con respecto a su pH y que su media y su desviación estándar son iguales a 3.7 y 0.5 respectivamente. Determine un intervalo de confianza del 99% para la media de los pH en la lluvia e interprete el intervalo.

Los tiempos de secado en hrs para partes recién pintadas se distribuyen normalmente. Utiliza los datos muestrales siguientes para encontrar el error máximo de estimación E para que podamos obtener un 95% de confianza en el que la media de población en tiempo de secado difiera menos de E que de la media de la muestra. Los tiempos de secado son 6.4, 7.2 , 5.9, 6.8, 7.1, 5.5.

Page 14: chi cuadrada

Conclusión

La estimación de parámetros nos permite hacer el cálculo aproximado del valor de un parámetro en la población, a partir de los valores observados en la muestra estudiada. Para el cálculo del tamaño de la muestra en una estimación de parámetros es necesario tener conocimiento de conceptos tales como: Intervalo

Page 15: chi cuadrada

de confianza, variabilidad del parámetro, error, nivel de confianza, valor crítico y valor α.

Page 16: chi cuadrada

Unidad 4Prueba de Hipótesis

Un artículo periodístico afirmó que los estudiantes universitarios de una universidad estatal gastan un promedio de 95 dls anuales en cerveza. Un estudiante investigador creía que el promedio establecido era muy alto, e interrogó a una muestra aleatoria de 50 estudiantes hallando que la media era de 92.25 dls y S= 10 dls. Con esos resultados ponga a prueba, en el nievel de significancia de 0.05 la afirmación por el periódico.

Page 17: chi cuadrada

Se afirma que la estatura promedio de los profesores hombres es de 71plg. En una investigación para poner a prueba la afirmación se tomó una muestra aleatoria de 12 profesores hombres y esta muestra produjo una media de 72 plg y una s= 3plg. Suponga que las estaturas de los profesores se distribuyen normalmente, ponga a prueba la afirmación con un nivel de significancia de .05 y proporcione la siguiente información: valor estadístico de prueba, valores críticos y la aceptación.

Page 18: chi cuadrada

Se dice que una medicina en particular tiene una eficacia del 85% para aliviar una alergia. Un grupo consumidores cree que la medicina es efectiva en menos de ese porcentaje. Se obtuvo una muestra de 60 personas que experimentan ese tipo de reacción alérgica, de este grupo que uso la medicina 48 obtuvieron alivio. Ponga a prueba la afirmación con un nivel de significancia de 0.01 y proporcione la siguiente información: planteamiento de la hipótesis, el valor estadístico de la prueba, los valores críticos y la decisión.

Page 19: chi cuadrada

Conclusión

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar una hipótesis sobre algún parámetro, estos problemas pueden ser de toma de decisiones, pruebas o experimentos, por lo que es muy importante contar con un método que sea confiable para garantizar que la hipótesis aceptada es la correcta.

Page 20: chi cuadrada
Page 21: chi cuadrada

Unidad 5Prueba de bondad de x2

Page 22: chi cuadrada

Actividades

Page 23: chi cuadrada

Actividades