Anova1A

download Anova1A

of 12

description

Analisis de la varianza. se muestra de manera conceptual los procedimientos para realizar los cálculos

Transcript of Anova1A

ANALISIS DE VARIANZA DE UN CRITERIO (ANOVA)

ANOVA Prof. Mg Ken Matsuda Oteza

ANALISIS DE VARIANZA DE UNA VA o DIRECCIN (ANOVA 1 VIA)

El anlisis de la varianza de un criterio (ANOVA) es una metodologa para analizar la variacin entre muestras y la variacin al interior de las mismas mediante la determinacin de varianzas. Es llamado de un criterio porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un mtodo estadstico til para comparar dos o ms medias poblacionales. El ANOVA de un criterio nos permite poner a prueba hiptesis tales como:

Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son:

1. Ambas poblaciones son normales.

2. Las varianzas poblacionales son iguales, esto es,

Como el ANOVA de un criterio es una generalizacin de la prueba de t para dos muestras, los supuestos para el ANOVA de un criterio son:

1. Todas las poblaciones k son normales.2.

El mtodo de ANOVA con un criterio requiere del clculo de dos estimaciones independientes para , la varianza poblacional comn. Estas dos estimaciones se denotan por . se denomina estimacin de la varianza entre muestras y se denomina estimacin de la varianza al interior de las muestras. El estadstico tiene una distribucin muestral resultando:

El valor crtico para la prueba F es:

Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1), siendo el nivel de significancia.

k = nmero de muestras.

El Procedimiento es el siguiente:

1. Determinar si las muestras provienen de poblaciones normales.

2. Proponer las hiptesis.

3. Encontrar las medias poblacionales y las varianzas.

4. Encontrar la estimacin de la varianza al interior de las muestras y sus grados de libertad asociados glw.5. Calcular la gran media para la muestra de las medias mustrales.

6. Determinar la estimacin de la varianza entre muestras y sus grados de libertad asociados.

7. Hallar el valor del estadstico de la prueba F.

8. Calcular el valor crtico para F basado en glb y glw.9. Decidir si se rechaza H0.Calculo Manual

Se utilizan las frmulas siguientes:

Suma de cuadrados total (SST o SCT)

*** **Xi valores individuales

* *** **

XMedia de medias

** **

***

Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr):

Media X3

*

5

5

4 *

*Media X2

Media X1

Suma de cuadrados del error (SSE o SCE):

** *

XiXi

*

** *** *

****Xmedia 3

X media 1** *

*Xmedia 2Xi*

O tambin SCE = SCT - SCTr

Grados de libertad:

Gl. Totales = n 1

Gl. Tratamientos = c -1

Gl. Error = n c

Cuadrados medios (MS o CM):

CMT = SCT / Gl. SCTCMTr = SCTr / Gl. SCTr

CME = SCE / Gl. SCE

Estadstico calculado Fc:

Fc = CMTr / CME

P value = distr.f (Fc, Gl. CMtr, Gl. CME)

F crtica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME)

Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes niveles del factor tienen efecto significativo en la respuesta.

Distr. F

NO RECHAZARZONA DE RECHAZo

Alfa

La tabla de ANOVA final queda como sigue:

TABLA DE ANOVA

FUENTE DE VARIACIN SUMA DEGRADOS DE CUADRADOVALOR F

CUADRADOSLIBERTADMEDIO

Entre muestras (tratam.)SCTRc-1CMTRCMTR/CME

Dentro de muestras (err.)SCEn-cCME

Variacin totalSCTn-1CMT

Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa

Si las medias son diferentes se puede aplicar la prueba de Tukey o DMS como sigue:

PRUEBA DE TUKEY

Se utiliza para diseos balanceados (todos los tratamientos tienen

asignado el mismo nmero de elementos)

Se utiliza el estadstico T

Se compara T vs la diferencia en valor absoluto de

cada par de medias, si esta dif. Excede a T, las medias son diferentes

o iguales en caso contrario.n = 16 r = 4

c =4Alfa=0.05

Por ejemplo:3.6CME =19.6875T

Mediasq.05,4,12=4.29.31

X1 =145!X1 - X2!=0.25 X1=X2

X2=145.25!X1-X3! =12.75 X1X3

X3=132.25!X1-X4!=15.75 X1X4

X4=129.25!X2-X3!=13 X2X3

!X2-X4!=16 X2X4

!X3-X4!=3 X3=X4

X4 X3 X1 X2 DMS =3.41

129.25 132.25 145 145.2

DMS

MEDIAS

MEDIAS

IGUALESDIFERENTES

9.45

Otro mtodo ms conservador es el la DIFERENCIA MNIMA SIGNIFICATIVA

DMS

r=4

F = DISTR.F.INV(alfa, gl. =1, gl. CME =12)

CME =19.6875

r=4

F.05,1,124.75

187.031346.757816.837968

Para el caso de diseos no balanceados se utiliza el mtodo DMS

para comparar cada par de muestras

r j es el nmero de elementos asignados al tratamiento j

r k es el nmero de elementos asignados al tratamiento k

Verificar si X1 = X2 y si X2 = X3 en el ejemplo de empleados.

DMS 1,2 ?DMS 2,3 ?

Por ejemplo:3.4

F=3.34

Para comparar X1-X2Alfa =.05

r1 = 5r2=4X1=21.74X2=21.5CME=0.02571

DMS =0.1965

X1-X2=0.24

Se concluye que X1 y X2 son diferentes

Utilizando los paquetes de Excel y Minitab se tiene:Ejemplo 1:

Tres tipos distintos de motores de gasolina fueron probados para determinar cunto tiempo son tiles antes de necesitar una reparacin; si los tiempos de vida de los motores de cada tipo se distribuyen normalmente y tienen la misma varianza, haga una prueba usando para determinar si difieren las medias de vida til antes de requerir una reparacin. En la tabla aparecen los tiempos de vida til, en decenas de miles de millas para cada tipo de motor.

ABC

683

272

475

124

761

Mediante Minitab determinamos si las muestras provienen de una poblacin Normal.

Seleccione en el menu para cada muestra:

Stat > Basic statistics > Normality test

Variable Columnas de datos

Test for normality Seleccionar Ryan Joiner OK Hay normalidad si P value es >=0.05.

Analizando las grficas nos damos cuenta de que las muestras provienen de poblaciones normales.

Si denotamos por las medias poblacionales de los tiempos de vida til para los tipos A, B y C, respectivamente, entonces podemos escribir las hiptesis estadsticas como:

H1: Al menos dos medias poblacionales no son iguales.

Procedimiento en Excel: En el men herramientas seleccione la opcin Anlisis de datos, en funciones para anlisis seleccione Anlisis de varianza de un factor. En Rango de entrada seleccionar la matriz de datos.

Alfa = 0.05

En Rango de salida indicar la celda donde se inciar la presentacin de resultados.

En la tabla observamos que el estadstico de prueba Fc es menor al valor crtico para F

2.41 ANOVA > One Way (Unstacked) Response in separate columns A, B, C

Seleccionar ! Store Residuals ! Store Fits Confidence level 95%Graphs

Seleccionar Normal plot of residuals

Comparisons

Seleccionar Tukeys Family error rate OK

Resultados:La grfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el modelo:

Ecuentre los errores en las siguientes pginas:One-way ANOVA: A, B, C

Source DF SS MS F P

Factor 2 23.33 11.67 2.41 0.132

Error 12 58.00 4.83

Total 14 81.33Como este valor P es mayor a 0.05 se acepta la hiptesis nula, es decir, A, B y C (tratamientos) no tienen efecto en la respuesta.S = 2.198 R-Sq = 28.69% R-Sq(adj) = 16.80%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

A 5 4.000 2.550 (----------*----------)

B 5 6.000 2.345 (----------*----------)

C 5 3.000 1.581 (----------*----------)

------+---------+---------+---------+---

2.0 4.0 6.0 8.0

Pooled StDev = 2.198

Los intervalos de confianza de los tres niveles A, B, C del factor se pueden traslapar por tanto sus efectos no son diferentes.

Tukey 95% Simultaneous Confidence Intervals

All Pairwise Comparisons

Individual confidence level = 97.94%

A subtracted from:

Lower Center Upper ---------+---------+---------+---------+

B -1.707 2.000 5.707 (----------*---------)

C -4.707 -1.000 2.707 (---------*----------)

---------+---------+---------+---------+

-3.5 0.0 3.5 7.0

B subtracted from:

Lower Center Upper ---------+---------+---------+---------+

C -6.707 -3.000 0.707 (---------*----------)

---------+---------+---------+---------+

-3.5 0.0 3.5 7.0

Como el cero pertenece al intervalo de confianza de las diferencias entre A y B; A y C y entre B y C no hay diferencia entre el efecto entre estos niveles.A continuacin se muestran los residuos y los valores estimados para la respuesta Y por el modelo:

RESI1RESI2RESI3FITS1FITS2FITS3

220463

-21-1463

012463

-3-41463

30-2463

Donde cada residuo es Eij = Yij observado Yij estimado

Yij estimado es el promedio en cada columna.Ejemplo 2: La tabla adjunta contiene el nmero de palabras escritas por minuto por cuatro secretarias de la universidad en cinco ocasiones diferentes usando la misma mquina.

La grfica de residuos es la siguiente, mostrando que el modelo es vlido:

One-way ANOVA: A, B, C, D

Source DF SS MS F P

Factor 3 52.2 17.4 0.20 0.892Error 16 1367.6 85.5

Total 19 1419.8

Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los niveles del factor A, B, C y D.S = 9.245 R-Sq = 3.68% R-Sq(adj) = 0.00%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

A 5 73.800 7.190 (--------------*--------------)

B 5 70.800 10.918 (--------------*--------------)

C 5 75.200 5.450 (-------------*--------------)

D 5 72.600 11.887 (--------------*--------------)

-------+---------+---------+---------+--

66.0 72.0 78.0 84.0

Pooled StDev = 9.245

Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay diferencia significativa en sus efectos.Tukey 95% Simultaneous Confidence Intervals

All Pairwise Comparisons

Individual confidence level = 98.87%

A subtracted from:

Lower Center Upper --------+---------+---------+---------+-

B -19.745 -3.000 13.745 (-------------*------------)

C -15.345 1.400 18.145 (-------------*-------------)

D -17.945 -1.200 15.545 (-------------*-------------)

--------+---------+---------+---------+-

-12 0 12 24

B subtracted from:

Lower Center Upper --------+---------+---------+---------+-

C -12.345 4.400 21.145 (-------------*-------------)

D -14.945 1.800 18.545 (------------*-------------)

--------+---------+---------+---------+-

-12 0 12 24

C subtracted from:

Lower Center Upper --------+---------+---------+---------+-

D -19.345 -2.600 14.145 (-------------*-------------)

--------+---------+---------+---------+-

-12 0 12 24

En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta. EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

Estadstica. Richard C.Weimer. CECSA. Segunda Edicin.2000

Pgina 11

_1060076065.unknown

_1162353826

_1162358348.unknown

_1162358549.unknown

_1162359168.unknown

_1162359169.unknown

_1162359166.unknown

_1162358391.unknown

_1162355135.xlsHoja1

ABCD

82556987

79677261

75847882

68778361

65717472

_1162355229

_1162354445

_1060084702.unknown

_1162353615

_1162353788

_1078840113.unknown

_1078826301.unknown

_1060077712.unknown

_1060077858.unknown

_1060077081.unknown

_1060077355.unknown

_1060077494.unknown

_1060076163.unknown

_1060075251.unknown

_1060075748.unknown

_1060075872.unknown

_1060075705.unknown

_1060074148.unknown

_1060074324.unknown

_1060074065.unknown