ANALISIS DE VARIANZA
description
Transcript of ANALISIS DE VARIANZA
ANALISIS DE VARIANZA
Mario Briones L.MV, MSc
2005
Herramienta mediante la cual la variación totalpresente en un conjunto de datos se distribuye en
varios componentes. Asociada con cada uno de estoscomponentes hay una fuente específica de variación,de modo que en el análisis es posible averiguar la
magnitud de las contribuciones de cada una deestas fuentes a la variación total.
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
La diferencia entre los promedios
grupo 1 grupo 22 2 63 2 71 2 5
promedio 2 6suma 6 18
suma de cuadrados (x 2i) 2 2
media generalsuma total de cuadrados
428
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
La similitud de la suma de cuadradosal interior de cada grupo
grupo 1 grupo 22 2 63 2 71 2 5
promedio 2 6suma 6 18
suma de cuadrados (x 2i) 2 2
media generalsuma total de cuadrados
428
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
El contraste con la magnitudde la suma total de cuadrados
grupo 1 grupo 22 2 63 2 71 2 5
promedio 2 6suma 6 18
suma de cuadrados (x 2i) 2 2
media generalsuma total de cuadrados
428
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
La diferencia se debe a ladiferencia entre los promedios
grupo 1 grupo 22 2 63 2 71 2 5
promedio 2 6suma 6 18
suma de cuadrados (x 2i) 2 2
media generalsuma total de cuadrados
428
DEP VAR: VALOR N: 6 MULTIPLE R: 0.926 SQUARED MULTIPLE R: 0.857
ANALYSIS OF VARIANCE
SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P
GRUPO 24.000 1 24.000 24.000 0.008
ERROR 4.000 4 1.000
Se observa que la suma total de cuadrados (28) fue divididaen una variabilidad dentro de grupo (2+2=4) y una variabilidad
debida a las diferencias entre promedios (28-(2+2)=24).
Suma de cuadrados del error (SCError) ySuma de cuadrados de efectos (SCEfecto)
La suma de cuadrados dentro de grupos también se lellama Varianza del Error. Denota el hecho de que esuna fracción de la varianza que no podemos explicar
con el diseño elegido.Podemos explicar la fracción de varianza en la SCEfecto.
PRUEBAS DE SIGNIFICANCIA
En el análisis de varianza, la realización de pruebas designificancia se basa en una comparación de la varianzadebida a la variabilidad ENTRE GRUPOS (CMEfecto)y a la variabilidad DENTRO DE GRUPOS (CMError).
Bajo la hipótesis nula, aún puede haber pequeñasfluctuaciones en la media de dos grupos, especialmentesi las muestras son pequeñas, por lo tanto, de acuerdocon esta hipótesis, la variabilidad en ambas fuentes
debería ser más o menos la misma.La prueba de F, evalúa la tasa de las estimaciones de
ambas varianzas para determinar si es significativamentemayor que uno.
1. Modelo. El modelo consiste en una representaciónsimbólica de un valor típico tomado de losdatos que se están analizando.
2. Supuestos. Se especificarán las suposiciones quefundamentan el modelo.
3. Hipótesis. Se indicarán las hipótesis que puedenprobarse de acuerdo al modelo.
4. Cálculos. Cálculos aritméticos apropiados.5. Tabla de ANDEVA. Resumen de los cálculos
aritméticos6. Decisión. Decisión estadística acerca del rechazo
o aceptación de la hipótesis nula.
2
Peso final
YiYi
Yi
YiYi
Yi
Yi
Yi
Yi
Yi
Yi
Yi
Yi
Yi
YijYij
Yij
YijYij
Yij
Yij
Yij
Yij
Yij
Yij
Yij
Yij
Yij
Modelo lineal de explicación de loscomponentes de varianza.
Yij= + i +ij
Yij: observación individual: media generali: efecto del i ésimo grupo (i=1,2): error residual inexplicado
Una representación diagramática del Análisis de varianza
A1
A2
A3Mediageneral
Media delgrupo A2
Desviaciónindividual
Efectos fijos versus efectos aleatorios
Efectos fijos
escogidos específicamentepor el experimentador.
Para probar hipótesis acerca de los promediosde los grupos.
Las conclusiones se aplicansólo a los niveles del factorconsiderado en el análisisy no a tratamientos similaresque no fueron considerados
Efectos aleatorios
En este caso los tratamientosson una muestra al azar deuna población mayor detratamientos posibles.
En esta situación interesaextender las conclusionesa todos los tratamientosposibles, hayan sidoconsiderados explícitamenteo no.
Análisis de varianza de un factor (efectos fijos)Datos: observaciones MediaGrupo 1 Y11 Y12 .... Y1n + A1
Grupo 2 Y21 Y22 .... Y2n + A2
. . . . .Grupo k Yk1 Yk2 .... Ykn + Ak
Modelo Lineal
Yij= Ai + ij
i=1,...k; j=1,...n
dondeYij= observaciones= media generalAi = desviaciones del i-ésimo grupo desde la media general
ij = error residual inexplicado
Yi.=Yij n
j=1= suma de los observaciones individuales j dentro de cada grupo, desde j=1 hasta n (el total de cada grupo)
Y..=Yij = n k
Notación
gran total, suma de observaciones, primerodentro de grupos y luego a través de grupos, desde i=1 hasta k (total de grupos)
j=1 i=1
Hipótesis= H0: no hay diferencia entre las medias, Ai= 0 H1: existen diferencias entre medias de grupos
Calculo de ANDEVA simplificado (efectos fijos)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre grupos k - 1
(Yi.)2
n
k
i=1
(Y..)2
N
dentro degrupos
(residual)N - k por diferencia
Total N - 1 Y2.. - ( (Y..)2
)N
SCG
k - 1
SCRN- k
CMG
CMR
N= nk
SCG= suma de cuadrados de gruposSCR= suma de cuadrados residualCMG/CMR= cuadrado medio grupos/cuadrado medio residual
Suponga que 30 pollitos de un día fueron asignados al azar a tres grupos, en cada uno de ellos se adicionó un antibiótico promotor del crecimiento diferente, A, B, y C. Al termino de la recría los pesos de los pollitos fueron los siguientes (en gramos):
ANTIBIOTICO
A B C72 78 8570 76 8374 73 8073 75 7973 74 8071 74 8273 75 8971 76 7675 70 7970 75 83
Hipótesis nula: no hay diferencias entre los promedios de los grupos, equivalente a: los efectos de los grupos son iguales a cero.
Promedio 72.2 74.6 81.6
A B C72 78 8570 76 8374 73 8073 75 7973 74 8071 74 8273 75 8971 76 7675 70 7970 75 83
Yi. 722 746 816 Y.. = 2284Y2
i. 52154 55692 66706 Y2.. = 174552
(Y..)2
N= 173888.53
Suma de cuadrados Totales= Suma de Cuadrados + Suma de Cuadradosde tratamientos del error
El total de la varianza está representado por la suma de cuadrados totales,que se divide o reparte en las causas de variación identificadas en eldiseño: variación entre tratamientos o grupos y variación dentro de grupos.
Calculo de ANDEVA simplificado (efectos fijos)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre grupos 2
dentro degrupos(residual)
por diferencia
Total 29174552 - 173888.53
477.07
186.6 27
N= nk
SCG= suma de cuadrados de gruposSCR= suma de cuadrados residualCMG/CMR= cuadrado medio grupos/cuadrado medio residual
27
174365.6-173888.53
477.07
663.47
186.4
2
238.5
6.91
238.5
6.91
34.5
Si los promedios son diferentes
Comparaciones pareadas: comprobar H0: A-B 0
BA
BA
nns
xxt
112
Donde A y B son los grupos comparados, dentro del experimentoy s2 es el cuadrado medio residual
La comparación se efectúa con los grados de libertad del términode error o residual en la tabla de t
En el ejemplogrupo promedioA 72,2B 74,6C 81,6
comparación diferencia valor de t calculado significanciaA-B -2,4 -2,042 no significativoA-C -9,4 -7,996 significativoB-C -7 -5,954 significativo
s2 6,91valor crítico t(alfa=0.05) gl= 27 2,05
Otras pruebas Tukey Duncan Scheffé Diferencia mínima significativa (LSD) Bonferroni Student Newman Keuls
ANALISIS DE VARIANZA DE UN FACTOR CON EFECTOSALEATORIOS.
MODELO
Yij= + Ai + iji= 1,... k; j= 1,.....n j= 1,....ni (distinto n)
Donde Yij= observaciones individuales = media general ij= error residual, y ij: NID (0,2)
A diferencia del análisis de varianza con efectos fijos, la hipótesis nula en este caso es:
H0= 2A= 0 además, normalmente k es de gran tamaño
Calculo de ANDEVA simplificado (efectos aleatorios)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre grupos k - 1
(Yi.)2
n
k
i=1
(Y..)2
N
dentro degrupos
(residual)k(n-1) por diferencia
Total nk - 1 Y2.. - ((Y..)2
)N
SCG
k - 1
SCRk(n-1)
CMG
CMR
N= nk
SCG= suma de cuadrados de gruposSCR= suma de cuadrados residualCMG/CMR= cuadrado medio grupos/cuadrado medio residual
Ejemplo: Análisis de Varianza con más de un factor
Dos razas de ovejas, Suffolk y Scottish Blackface, son ubicadas en dosdiferentes ambientes, A: llanura regada y B: montaña. Durante lacrianza de los corderos se controla el peso de destete de un grupo de120 corderos de cada raza (60 en cada ambiente)
1. H0: no hay diferencias en los pesos de destete entre las dos razas HA: existe diferencia en los pesos de destete de las dos razas.2. H0: no hay diferencias entre los dos ambientes para el peso al destete HA: el peso de destete es diferente en los dos ambientes.
Las sumatorias de los datos son las siguientes:
Raza Predio Suffolk SBFace valle montaña X 1962 1970 1899 2033 X2 64680 66526 61115 70091
Calculo de ANDEVA asumiendo sólo efecto de la raza
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre razas 1
dentro derazas(residual)
por diferencia
Total 119131206-128838.5
0.56
2366.8 118
118
128839.1-128838.5
0.56
2367.4
2366.84
1
0.56
20
0.56
20
0.028
Modelo: Yij= + Ri + ij Yij: observación individual: media generalRi: efecto de la iésima razaij: error residual
Calculo de ANDEVA asumiendo sólo efecto del predio
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre predios 1
dentro depredios(residual)
por diferencia
Total 119131206-128838
150
2217.9 118
118
128988.1-128838.5
150
2368
2217.9
1
150
18
150
18
8.3
Modelo: Yij= + Pi + ij Yij: observación individual: media generalPi: efecto del iésimo predioij: error residual
ANALISIS DE VARIANZA DE DOS FACTORES CON EFECTOSFIJOS.
MODELO
Yijk= + Pi + Rj + ijk i= 1,..s; j=1,...t; k= 1,...n
ijk: NID (0,2)
Pi= 0 Ri= 0i=1
s
j=1
t
Ejemplo: dos o más razas de ovejas son evaluadas en su productividaden dos o más predios (o regiones).
Yijk: observación individual: media generalPi: efecto del iésimo predioRj: efecto de la iésima razaijk: error residual inexplicado
Calculo de ANDEVA dos factores (efectos fijos, igualnúmero de observaciones por nivel)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre predios
s - 1
(Yi..)2
tn
s
i=1
(Y...)2
N
entrerazas t -1
Total nst - 1Y2... - (
(Y...)2
)N
SCpredios
s - 1
SCrazas
t - 1
(Y.j.)2
sn
t
j=1
(Y...)2
N
Residual nst-s-t+1 Por diferencia SCresidual
nst-s-t+1
CMpredios
CM res
CMrazas
CM res
Fpredios= Fs-1, nst-s-t+1
Frazas= Ft-1, nst-s-t+1
Calculo de ANDEVA dos factores (efectos fijos, igualnúmero de observaciones por nivel)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre predios
1
entrerazas 1
Total 119
Residual 117 2216.8
Fpredios= Fs-1, nst-s-t+1
Frazas= Ft-1, nst-s-t+1
131206-128838 2368
128988.1-128838.5
150128839.1-128838.5
0.56
16.6150
0.56
9
Según el valor de F para 1 grado de libertad de razas y 117 para errory 95% de probabilidad (aprox 3.92), se acepta la primera hipótesis nula
Según el valor de F para 1 grado de libertad de predios y 117 para error1 95 % de probabilidad (3.92), se rechaza la segunda hipótesis nula.
Estarán identificadas ahora todas las causas de variación en el modelo?
Grados de libertad según fuente de variación:
Total de predios: s= 2 (Yi..)
Total de razas: t= 2 (Y.j.)
Total de observaciones por nivel: n= 60
1 2 Efecto A
Variable
Efecto B Efecto B
1 2 Efecto A
Variable
Efecto B Efecto B
1 2 Efecto A
Variable
Efecto B
Efecto B
INTERACCION
1 2 Efecto A
Variable
Efecto B
Efecto B
INTERACCION
Cálculo de ANDEVA dos factores con interacción (efectos fijos)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre predios
s - 1
entrerazas t -1
Total nst - 1
SCpredios
s - 1
SCrazas
t - 1
Residual resta SCresidual
nst-s-t+1
CMpredios
CM res
CMrazas
CM res
Fpredios= Fs-1, nst-s-t+1
Frazas= Ft-1, nst-s-t+1
interacción(s-1)(t-1) resta
Y2... - (Yij.)2
n
SCinterac
(s-1)(t-1)
CMinterac
CM res
F interacción= F(s-1)(t-1), residual
131206-128838 2368
128988.1-128838.5
150128839.1-128838.5
0.56
1. H0: no hay diferencias en los pesos de destete entre las dos razas HA: existe diferencia en los pesos de destete de las dos razas.2. H0: no hay diferencias entre los dos ambientes para el peso al destete HA: el peso de destete es diferente en los dos ambientes.3. H0: no hay efecto combinado del predio y la raza. HA: existe efecto combinado del predio y la raza
Predio 1 raza 1 1034 34.47Predio 1 raza 2 928 30.93Predio 2 raza 1 865 28.83Predio 2 raza 2 1105 36.83
Yi.. Y
Cálculo de ANDEVA dos factores con interacción (efectos fijos)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre predios 1
(Yi..)2
tn
s
i=1
(Y...)2
N
entrerazas 1
Total 119 Y2... - ((Y...)2
)N
SCpredios
s - 1
SCrazas
t - 1
(Y.j.)2
sn
t
j=1
(Y...)2
N
Residual resta SCresidual
nst-s-t+1
CMpredios
CM res
CMrazas
CM res
Fpredios= Fs-1, nst-s-t+1
Frazas= Ft-1, nst-s-t+1
interacción(s-1)(t-1) resta
Y2... - (Yij.)2
n
SCinterac
(s-1)(t-1)
CMinterac
CM res
F interacción= F(s-1)(t-1), residual
Cálculo de ANDEVA dos factores con interacción (efectos fijos)
Fuente de grados de suma de cuadrado FVariación libertad cuadrados medio
entre predios
s - 1
entrerazas t -1
Total nst - 1
SCpredios
s - 1
SCrazas
t - 1
Residual resta SCresidual
nst-s-t+1
CMpredios
CM res
CMrazas
CM res
Fpredios= Fs-1, nst-s-t+1
Frazas= Ft-1, nst-s-t+1
interacción(s-1)(t-1) resta
Y2... - (Yij.)2
n
SCinterac
(s-1)(t-1)
CMinterac
CM res
F interacción= F(s-1)(t-1), residual
131206-128838 2368
128988.1-128838.5
150128839.1-128838.5
0.56