Unidad 2

Post on 04-Jul-2015

738 views 0 download

Transcript of Unidad 2

PRUEBAS DE LA BONDAD DEL

AJUSTE Y ANÁLISIS DE LA

VARIANZA.

2.1 ANÁLISIS JI-CUADRADA.

La prueba estadística de X2 para una muestra se emplea frecuentemente como

prueba de bondad de ajuste, sin embargo, en un plan experimental, en el que

se cuenta con un grupo muestral, con diversas subclases y las mediciones

están en escala nominal, resulta muy útil este procedimiento.

La eficacia de la prueba está de acuerdo con el tamaño de la muestra, pues

con un grado de libertad, si hay dos subclases, algunos autores consideran que

la prueba es insensible, no obstante la información que aporta más de dos

categorías es satisfactoria en función de la fórmula:

Donde:

X2 = valor estadístico de ji cuadrada.

F0 = frecuencia observada.

Fe = frecuencia esperada.

La ji cuadrada se utiliza cuando:

Cuando los datos puntualizan a las escalas nominal u ordinal.

Se utiliza solo la frecuencia.

Poblaciones pequeñas.

Cuando se desconocen los parámetros media, moda, etc.

Cuando los datos son independientes.

Cuando se quiere contrastar o comparar hipótesis.

Investigaciones de tipo social - muestras pequeñas no representativas

>5.

Cuando se requiere de establecer el nivel de confianza o significatividad

en las diferencias.

Cuando la muestra es seleccionada no probabilísticamente.

X2 permite establecer diferencias entre f y se utiliza solo en escala

nominal.

Población > a 5 y < a 20.

Pasos:

1. Arreglar las categorías y las frecuencias observadas.

2. Calcular los valores teóricos esperados para el modelo experimental o tipo

de distribución muestral: normal, binomial y de Poisson.

3. Calcular las diferencias de las frecuencias observadas en el experimento con

respecto a las frecuencias esperadas.

4. Elevar al cuadrado las diferencias y dividirlas entre los valores esperados de

cada categoría.

5. Efectuar la sumatoria de los valores calculados.

6. Calcular los grados de libertad (gl) en función de número de categorías

[K]: gl = K - 1.

7. Comparar el estadístico X2 con los valores de la distribución de ji cuadrada

en la tabla.

8. Decidir si se acepta o rechaza la hipótesis X2c ³ X2t se rechaza Ho.

2.1.1 PRUEBA DE INDEPENDENCIA.

El procedimiento de la JI-CUADRADA puede utilizarse para probar la hipótesis

de independencia de dos variables de clasificación.

Las frecuencias observadas que se presentan en una tabla de contingencia

(Tabla de contingencia con r renglones y c columnas se le conoce como una

tabla de r x c), a los totales de los renglones y columnas se les denomina

Frecuencias Marginales.

La decisión de aceptar o rechazar la hipótesis nula H0 de independencia, es

debido a las frecuencias observadas de cada caso y poder encontrar las

frecuencias esperadas.

2.1.2 PRUEBA DE LA BONDAD DEL AJUSTE.

PRUEBA CHI-CUADRADA PARA LA BONDAD DEL AJUSTE

A lo largo de este curso nos ocupamos de la prueba de hipótesis estadísticas acerca de

parámetros de una población como y P. Ahora se considera una prueba para determinar si una población tiene una distribución teórica específica. La prueba se basa en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética.

La formula que se utilizará para calcular el valor de chi-cuadrada es igual a la de la sección anterior, con el mismo concepto de grados de libertad.

Ejemplo:

1. Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.

Número de caras

Número de series

(frecuencia observada)

0 38

1 144

2 342

3 287

4 164

5 25

Total 1000

2. Ajustar una distribución binomial a los datos con un = 0.05. 3. Solución: 4. H0; Los datos se ajustan a una distribución binomial. 5. H1; Los datos no se ajustan a una distribución binomial. 6. Para obtener los valores esperados se tiene que utilizar la formula de la

distribución binomial: , donde n en este ejercicio vale 5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Para calcular el valor de p, se sabe que

=np en una distribución binomial, por lo que = 5p.

7. Para la distribución de frecuencias observada, la media del número de caras es:

8.

9. Por lo tanto . Así pues, la distribución binomial

ajustada viene dada por p(x) = . 10. Al seguir esta fórmula se calcula la probabilidad de obtener caras, según

el valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dará el valor esperado. Se resumen los resultados en la tabla siguiente:

Número de caras (x)

P(x caras) Frecuencia esperada

Frecuencia observada

0 0.0332 33.2 38

1 0.1619 161.9 144

2 0.3162 316.2 342

3 0.3087 308.7 287

4 0.1507 150.7 164

5 0.0294 29.4 25

11. Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados.

12. Grados de libertad: k-1-m = 6-1-1 = 4

13. 14. Regla de decisión:

15. Si X2R 9.49 no se rechaza Ho.

16. Si X2R >9.49 se rechaza Ho.

2.1.3 TABLAS DE CONTIGENCIA.

La tabla de información tendrá I Filas (1≥2) y J Columnas, por lo tanto IJ

Celdas.

1. Hay I poblaciones de interés, cada una correspondiente a una fila

diferente de la tabla, y cada población está dividida en las mismas J

categorías. Se toma una muestra de la i – ésima población (i= 1,…,I) y

las cantidades se introducen en las celdas de la i – ésima fila de la tabla.

2. Hay una sola población de interés, con cada individuo de la población

clasificado con respecto a dos factores diferentes. I Categorías

asociadas con el primer factor, y J categorías asociadas con el segundo

factor; se toma una solo muestra, y el numero de individuos

pertenecientes tanto a la categoría i del factor 1 como la categoría j del

factor 2 se introduce en la celda de la fila i, columna (i= 1,…,I; j= 1,…, J).

Nota:

nij el numero de individuos de la(s) muestra(s) que caen en la (i, j) – ésima

celda (fila i, columna j) de la tabla, es decir, la (i, j) cantidad de celda

nijTabla de contingencia mutua.

1 2 … j … J

1 n 11 n12 … n1j … n1J

2 n21 ⁞

⁞ ⁞

i ni1 … nij …

⁞ ⁞

I n I 1 … n I J

Tipo 1, se desea investigar si las proporciones de las diferentes categorías son

iguales para todas las poblaciones. La hipótesis nula expresa que las

poblaciones son homogéneas con respecto a estas categorías.

Tipo 2, se investiga si las categorías de los factores se presentan

independientemente una de otra en la población.

2.2 ANÁLISIS DE LA VARIANZA.

La inferencia de dos muestras representa el problema de una solo factor,

ejemplo para dos muestras de ratones, los que de una muestra recibió un

tratamiento de suero contra la leucemia y la otra no recibió. En este caso

decimos que hay un factor, llamado tratamiento, y el factor se halla en dos

niveles. Si en el proceso de muestreo se utilizaran varios tratamientos en

competencia, serian necesarias mas muestras de ratón.

En el problema de k>2 muestras, se supone que hay k muestras provenientes

de k poblaciones. Un procedimiento muy común que se utiliza cuando se

prueban medidas poblacionales se denomina Análisis de varianza o ANOVA.

El análisis de varianza no es una técnica, pues se usa el enfoque para hacer

una partición de la suma total de cuadrados en una parte que se deba a la

regresión, y otra que se deba al error.

IDENTIDAD DE LA SUMA DE CUADRADOS: K K__K __ __ K n __

Σ Σ(yij – y…)2 = n Σ (yi – y…)2 + Σ Σ (yij – yi)2.

i=1 j=1 i=j i=1 j=1

2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA).

A veces, los analistas investigan la variabilidad de una población, en lugar de su media o proporción.

Esto es debido a que la uniformidad de la producción muchas veces es crítica en la práctica industrial.

La variabilidad excesiva es el peor enemigo de la alta calidad y la prueba de hipótesis está diseñada para determinar si la varianza de una población es igual a algún valor predeterminado.

La desviación estándar de una colección de datos se usa para describir la variabilidad en esa colección y se puede definir como la diferencia estándar entre los elementos de una colección de datos y su media.

La varianza de un conjunto de datos se define como el cuadrado de su desviación estándar; y la varianza muestral se utiliza para probar la hipótesis nula que se refiere a la variabilidad y es útil para entender el procedimiento de análisis de la varianza.

La hipótesis nula; para la prueba de la varianza, es que la varianza poblacional es igual a algún valor previamente especificado. Como el aspecto de interés, por lo general es si la varianza de la población es mayor que este valor, siempre se aplica una de una cola.

Para probar la hipótesis nula, se toma una muestra aleatoria de elementos de una población que se investiga; y a partir de esos datos, se calcula el estadístico de prueba.

Para este cálculo se utiliza la siguiente ecuación:

(n - 1 ) s2

2 = ----------------

2

Donde:

* n-1 = Grados de libertad para la prueba de tamaño n.

* s2 = Varianza muestral.

* 2 = Varianza poblacional si y solo si suponemos que la hipótesis nula es cierta.

2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES

(ANOVA).

En ocasiones es importante comparar dos poblaciones para ver si una es más variable que la otra en alguna medida específica. La hipótesis nula es que las dos poblaciones tienen la misma varianza, y la hipótesis alternativa es que una tiene mayor varianza que la otra. Se obtienen muestras aleatorias de cada población y se calculan las varianzas muéstrales. Estos valores se usan entonces en la ecuación siguiente para calcular el estadístico de la muestra:

Cociente F

S12

F = ---------

S22

Donde:

S12 = Varianza de la muestra 1

S22 = Varianza de la muestra 2

Nota:

Por convivencia, para encontrar los valores de F, por lo general se pone en el numerador la varianza muestral más grande.

El estadístico de prueba dado por la ecuación anteriormente nombrado,es el cociente F. Si la hipótesis nula de varianzas poblacionales iguales escierta, la razón de las varianzas muéstrales se obtiene de la distribución Fteórica. Al consultar la tabla F se puede evaluar la probabilidad de este suceso.

Si parece probable que el cociente F pueda haberse obtenido de la distribución muestral supuesta, la hipótesis nula no se rechaza. Si es poco probable que el cociente F se haya obtenido de la distribución supuesta, la hipótesis nula se rechaza.

La distribución F específica que se aplica a una prueba en particular queda determinada por dos parámetros: los grados de libertad para el numerador y los grados de libertad para el denominador. Cada uno de estos valores es n-1. Si se conocen estos valores y se elige un valor alfa, al valor crítico de F se puede encontrar en la tabla F.

Probabilidad y Estadística

Para ingeniería y ciencias. (Jay L. Devore)

Séptima Edición, Editorial Pearson

Probabilidad y Estadística (Myers Myers Ye)

Para ingeniería y ciencias

Octava Edición, Editorial Pearson