Tema 2 Anova
-
Upload
jose-antonio-heredia -
Category
Documents
-
view
217 -
download
0
Transcript of Tema 2 Anova
-
7/26/2019 Tema 2 Anova
1/18
Tema 2. El anlisis de la varianza
1
Tema 2. El anlisis de la varianza
1. El mtodo ANOVA para la identificacin de cambios en la media
2. Modelo matemtico del ANOVA3. Anlisis de la varianza con varias variables
1. El mtodo ANOVA para la identificacin de cambios en la media
Con el anlisis de la varianza se trata de comparar la media de los resultados de
diferentes grupos de muestras. Cada grupo de muestras proviene de una situacin
distinta.
El anlisis de la varianza (ANOVA) se utiliza con la finalidad de identificar aquellasvariables que tienen un efecto significativo en la respuesta.
En el mbito del control de proceso, estas variables identificadas mediante el ANOVA
sern las candidatas para actuar sobre ellas con el objetivo de mejorar el proceso o
devolverlo a su estado de control, segn el caso. En el mbito de diseo de productos se
podrn utilizar para mejorar sus propiedades.
Consideremos el siguiente caso para comprender la situacin. Supongamos una
poblacin y i,jde 9 alumnos de tres grupos distintos:
En este caso la media de cada grupo es 5 y la media
global tambin, no hay diferencias entre grupos ni
dentro de los grupos ya que cada valor es tambin
igual a la media y i,j= .
Supongamos que aplicamos un mtodo de enseanza (factor) que afecta subiendo las
notas del grupo 1 en un punto, las del grupo 2 en dos puntos y no modificando las del
grupo 3.
Ahora la nota de un alumno sera y i,j= +i, en los
que ison (1,2 y 0 ) los efectos que produce el factoren cada nivel (grupo). Parece claro que el factortiene influencia en establecer diferencias entre
grupos pero no dentro de cada grupo.
Consideremos otro caso en que debido a razones
aleatorias otras variables no controladas i,j, se obtengan calificaciones distintas en losalumnos, por ejemplo:
Grupo 1 Grupo 2 Grupo 35 5 5
5 5 5
5 5 5
Grupo 1 Grupo 2 Grupo 3
5+1=6 5+2=7 5
5+1=6 5+2=7 5
5+1=6 5+2=7 5
Grupo 1 Grupo 2 Grupo 3
5+1-1=5 5+2+2=9 5+0+3=8
5+1-2=4 5+2+0=7 5+0+4=9
-
7/26/2019 Tema 2 Anova
2/18
Tema 2. El anlisis de la varianza
2
Los efectos aleatorios i,j(-1,-2,0,2,0,1,3,4,0)provocan variabilidad dentro de los grupos.
Entonces para cada valor de las calificaciones (respuesta) tendremos el modelo
y i,j= +i+i,j
Podemos identificar dos tipos de variabilidad. La variabilidad entre grupos (debido a lainfluencia del factor) y la variabilidad dentro de los grupos (debida a causas aleatorias).
Para poder afirmar que el factor produce efectos en la respuesta media de cada grupo la
variabilidad entre grupos ha de ser significativamente grande respecto a la medida
dentro de los grupos.
El objetivo que se persigue es distinguir si el tratamiento provoca que existan
diferencias entre las medias de los grupos, diferenciando esta diferencia de las causas
aleatorias u otros factores.
La tcnica del anlisis de la varianza se basa en comparar la estimacin de la varianza
entre grupos con la estimacin de la varianza dentro de los grupos. Se utilizan estas dos
estimaciones porque la varianza entre grupos es muy sensible a las diferencias entre lasmedias de los grupos, mientras que la varianza dentro de los grupos es completamente
insensible a las diferencias entre las medias de los grupos.
El siguiente conjunto de datos nos servir para ilustrar los diferentes mtodos para
estimar la variacin que se utiliza en el anlisis de la varianza.
Tres subgrupos de tamao n=8 tienen los siguientes valores:
Mtodo 1.-Estimacin de la variacin total. Se utiliza la varianza muestral basndose
en todos los datos: 406,223
33,55
1
)(
)(
2
2 ==
==
i
i
i j
ij
n
yy
sYVEst . Se dice que este
estimador tiene 1)(1
=
a
i
in grados de libertad, es decir el nmero total de datos menos 1
(nies el nmero de datos en cada subgrupo, y a es el nmero de subgrupos, en este caso
3).
Mtodo 2.- Estimacin de la variacin dentro de los subgrupos. Se calcula lavarianza muestral para cada subgrupo y se promedian estas varianzas (promedio de las
varianzas):
[ ]
381,2)429,1856,2856,2(3
11/)(
)(
2
.
2 =++=
==
a
nyy
sYVEst i j
iiij
.
El nmero de grado de libertad para este estimador es la suma de los grados de libertad
de cada subgrupo: )1(1
=
a
i
in
Mtodo 3.- Estimacin de la variacin entre subgrupos. Se calcula la varianzamuestral ponderada de las medias (varianza de los promedios):
subgrupo Medidas media s2
1 4 5 5 4 8 4 3 7 5 2,857
2 2 4 3 7 5 4 2 5 4 2,857
3 3 6 6 4 5 4 6 6 5 1,429
5+1+0=6 5+2+1=8 5+0+0=5
-
7/26/2019 Tema 2 Anova
3/18
Tema 2. El anlisis de la varianza
3
667,2)2
6667.0(8
1
)(
)(
2
.2
==
==
a
yyn
nsyVEst iii
x
El nmero de grados de libertad para este estimador es el nmero de subgrupos menos
1: a-1
Este caso, en el que la variacin dentro de los subgrupos es bastante similar a la
variacin entre subgrupos, sugiere que esta ltima se debe prcticamente a la variacin
aleatoria (ruido) y no tanto a la diferencia entre las medias de los subgrupos.
Cada una de estas estimaciones de la variacin es un cociente que cumple la propiedad
de que la suma del numerador y del denominador de las estimaciones entre y dentro de
los subgrupos es igual al numerador y denominador de la estimacin de la variacin
total.
El anlisis de la varianza hace visible esta relacin especial entre numeradores y
denominadores situando las cantidades en una tabla, llamada tabla ANOVA. A los
numeradores se les denomina genricamente suma de cuadrados, a los denominadoresse les llama grados de libertad y a los cocientes (las estimaciones de las varianzaas) se
les llama cuadrados medios:
Fuente de lavariacin
Suma deCuadrados
Grados delibertad
Cuadradosmedios
Ratio F
Entre Grupos 5,33 2 2,667 1,12
Dentro Grupos 50 21 2,381
Total 55,33 23 2,406
Para comparar con tcnicas estadsticas la variacin entre subgrupos con la variacin
dentro de los subgrupos se utiliza el ratio F, que se calcula como el cuadrado medio
entre grupos dividido por el cuadrado medio dentro los grupos.
Cuando las estimaciones de la variacin sean similares, el estadstico F tomar un valor
prximo a 1. Si el ratio es muy grande ser una indicacin de que las diferencias entre
las medias de los grupos son reales. En trminos estadsticos que el ratio F sea grande se
traduce en que exceda un valor crtico respecto al terico de una distribucin F. Este
valor critico depende de :
La eleccin del nivel de significacin que se desee
De los grados de libertad de las dos estimacionesEl nivel especifica la regla de decisin que el analista define como criterio parainterpretar los datos.
Interpretacin del ratio F
Bajo la hiptesis de que los valores se distribuyen independientemente y siguiendo una
funcin de distribucin normal, podemos utilizar un modelo de probabilidad para
estudiar el comportamiento del ratio F: la funcin de distribucin F. Esta distribucin
nos permitir encontrar un valor crtico con el que comparar el valor del ratio F. Si el
valor del ratio F calculado, F0, es mayor que el valor crtico de la distribucin, Ft, es
razonable decidir que alguna de las medias de los grupos difiere en una cantidad
-
7/26/2019 Tema 2 Anova
4/18
Tema 2. El anlisis de la varianza
4
detectable. En caso contrario concluiramos que la variacin observada entre los grupos
se debe nicamente al error aleatorio.
La funcin de distribucin F tiene dos grados de libertad:
1Grados de libertad del numerador
2Grados de libertad del denominador
Dados estos grados de libertad y el nivel del anlisis, se puede consultar la tabla de ladistribucin F o en Excel obtener el valor critico mediante la funcin:
DISTR.F.INV(;1;2)
Para los datos del ejemplo 1 el ratio F0es 1,12. Los grados de libertad son 2 y 21, con
un alfa de 0,1 el valor critico de la distribucin F tes 2,575 (DISTR.F.INV(0,1;2;21)).
Como el ratio F0es menor que el valor critico, los datos no muestran evidencia de que
las medias sean detectablemente diferentes. Normalmente se dice que el ratio F0no es
significativo.
Ejemplo 2
En un estudio de un aparato de medicin, dos operarios midieron una dimensin de
cinco piezas. Como uno de los objetivos del estudio era determinar la repetibilidad del
aparato, cada operario midi cada pieza dos veces, y estas dos mediciones fueron
agrupadas para formar los subgrupos, de modo que tenemos diez subgrupos de tamao
2.
La funcin de anlisis de la varianza nos da la siguiente tabla ANOVA
El ratio F0es 8,56 y el valor critico con =0,1 es 2,347. Por tanto, concluimos que hayevidencia de que las medias son detectablemente diferentes. Se dice que el ratio F0es
significativo. El para el cual el valor crtico de Ftsera igual al ratio de F0es 0,0012
que aparece en la columna probabilidad, P. Es decir, que si el elegido fuera menor queeste valor la conclusin sera la contraria.
subgrupo 1 2 3 4 5 6 7 8 9 10
operario a a a a a b b b b bPieza 1 2 3 4 5 1 2 3 4 5
Valores 20 20 25 50 45 20 15 15 45 35
15 25 25 50 40 20 10 10 20 40
media 17,5 22,5 25 50 42,5 20 12,5 12,5 32,5 37,5
s 2 12,5 12,5 0 0 12,5 0 12,5 12,5 312,5 12,5
ANLISIS DEVARIANZA
Origen de lasvariaciones
Suma decuadrados
Grados delibertad
Promedio de loscuadrados F Probabilidad
Valor crticopara F
Entre grupos 2986,25 9 331,8055556 8,562724014 0,001202999 2,347306349Dentro de los grupos 387,5 10 38,75
Total 3373,75 19
-
7/26/2019 Tema 2 Anova
5/18
Tema 2. El anlisis de la varianza
5
Un ratio F significativo simplemente indica que existen algunas diferencias entre las
medias de los subgrupos que son suficientemente grandes para ser detectadas a pesar del
ruido presente en los datos.
2. Modelo matemtico del ANOVASupongamos que se desea comparar el efecto de atratamientos distintos o aniveles de
una variable. Para cada nivel de la variable se toman un subgrupo de medidas. Dentro
de los subgrupos se incluiran varias mediciones al mismo nivel de la variable, y entre
subgrupos tendramos los distintos niveles. La respuesta, Y, que se observa con cada
uno de los aniveles es una variable aleatoria. Los datos observados pueden aparecer
como se muestra en la Tabla.2. Una entrada en la Tabla.2, yij, representa la observacin
j tomada bajo el nivel i. Inicialmente consideramos el caso en el cual hay un n igual de
observaciones, n, para cada nivel, es decir subgrupos del mismo tamao (tambin les
llamamos grupos).
Podemos describir las observaciones de la Tabla.2 mediante el modelo lineal
Yi
j nij i ij= + +
=
=
1 2
12
, , .... ,
, , .... ,
a Ec.1
donde yij es una variable aleatoria que denota la observacin (ij), es un parmetro
comn a todos los niveles denominado media global, i es un parmetro asociado alnivel i, llamado efecto del nivelo subgrupo i , y ijes la componente del error aleatorio.Vemos que el modelo poda haber se escrito as
Yi
j n
ij i ij= +=
=
1 2
12
, , .... ,
, , .... ,
a
donde i = + i es la media del nivel i. En esta forma de modelo, vemos que cada
nivel define una poblacin que tiene de media i , compuesta de la media global ms
un efecto i debido a ese tratamiento particular. Asumimos que los errores ij son
normales e independientemente distribuidos con media cero y varianza 2. Por tanto,cada grupo sometido a un tratamiento puede ser considerado como proveniente de una
poblacin normal con media i y varianza 2.
Tabla.2 Datos tpicos para el estudio de una variable
Tratamiento Observaciones Totales Promedio
1 y11 y12 y1n y1 y1 .
2 y21 y22 y2n y2 y2 .
.... ... ... ...
A ya1 ya2 yan ya ya .
y.. y ..
Los efectos de los niveles i se definen como desviaciones de la media global , por
esta razn se cumple que:
-
7/26/2019 Tema 2 Anova
6/18
Tema 2. El anlisis de la varianza
6
ii
a
==
01
Sea yi. el total de las observaciones para el nivel i, e y i . el promedio de las
observaciones para el nivel i. Similarmente, y.. representa la suma total de las
observaciones e y.. la media global de todas las observaciones. Expresadomatemticamente,
yNyy
inyyyy
a
i
n
jij
yy
aiin
j
iji
==
===
=
=
=
=
/....
,....,2,1;/.;.
;..1 1
1
Ec.3
donde N = an es el n total de observaciones. As, en la notacin que utilizamos el
subndice punto significa el sumatorio del subndice que reemplaza.
Estamos interesados en contrastar la igualdad de las medias de los a tratamientos(1, 2, ..., a). Utilizando la Ec.2, vemos que esto es equivalente a contrastar lahiptesis
H0 : 1= 2..... = a= 0
H1 : i0 para al menos una i Ec.4
Si la hiptesis nula es verdadera, cada observacin se compone de la media global
ms una realizacin del componente de error aleatorio ij. Esto equivale a decir que las
N observaciones se toman de una distribucin normal con media y varianza 2. Portanto, si la hiptesis nula es verdadera, cambiar los niveles de la variable no tiene
influencia en la respuesta media.
En el anlisis de la varianza se divide la variabilidad total observada en los datos de la
muestra en dos componentes:
( ) ( ) ( )2
1 1.
2
1
.
2
1 1
.... = === =
+=a
i
n
j
iij
a
i
ii
a
i
n
j
ij
ii
yyyynyy
Para el caso en que todos los subgrupos tengan el mismo tamao n, la descomposicin
se simplifica un poco:
( ) ( ) ( )y y n y y y yijj
n
i
a
i
i
a
ij i
j
n
i
a
= + == = ==
.. . .. ..11
2
1
2
11
2
La comprobacin de esta identidad es inmediata. Podemos escribir
( ) ( ) ( )[ ]= == =
+=a
i
n
j
iiji
a
i
n
j
ij yyyyyy1 1
2
.
2
1 1
......
o
( ) ( ) ( ) ( )( )y y n y y y y y y y yijj
n
i
a
i
i
a
ij i
j
n
i
a
i ij i
j
n
i
a
= + + == = == == .. . .. . . .. .. .11
2
1
2
11
2
112
-
7/26/2019 Tema 2 Anova
7/18
Tema 2. El anlisis de la varianza
7
Vemos que el trmino del producto cruzado en la ecuacin anterior es cero, ya que
( ) ( )y y y ny y n y nij ij
n
i i i i = = ==
. . .. . . . ./ 1
0
Es inmediato comprobar la identidad para el caso de grupos con distinto tamao, grupos
desequilibrados.
Esta identidad muestra que la variabilidad total en los datos, medida por la suma total de
cuadrados, se puede dividir en la suma de cuadrados de diferencias entre la media de los
tratamientos y la media global y la suma de cuadrados de las diferencias entre las
observaciones dentro de un tratamiento con respecto a su media. Las diferencias entre
las medias observadas de los tratamientos y la media global miden las diferencias entre
tratamientos, mientras que las diferencias de las observaciones con respecto a la media
del tratamiento se deben solamente al error aleatorio. Podemos escribir la
descomposicin de la suma de cuadrados como:
SST= SSTratamientos+ SSE donde
( )
( )
( ) =
=
=
2
1=i 1j=
ijE
2
1=i
iosTratamient
2
1=i 1j=
ijT
.y=SS
...y=SS
..y=SS
a n
i
a
i
a n
i
i
y
yn
y
Podemos discernir mejor como acta el anlisis de la varianza examinando el valor
esperado de SSTratamientos y SSE. Esto nos llevar a un estadstico apropiado para
contrastar la hiptesis de que no hay diferencias entre las medias de los tratamientos ( o
que i = 0). Por simplicidad, en los prximos desarrollo consideraremos el casoequilibrado, el desequilibrado sera anlogo.
El valor esperado de la suma de cuadrados del tratamiento es
( ) ( )E SS = a -1 + nTratamientos2
i=1
i
a
2
La demostracin de esta expresin es fcil. Tomando la esperanza de SS Tratamientos
( ) ( )E SS = E n yTratamientos ii=1
. ..
ya 2
Del modelo Yij i ij= + + tenemos que
Y
y
Y
i i i = + +
= +
.. ..
Suma de cuadrados total
Suma de cuadrados del error
Suma de cuadrados de los tratamientos
-
7/26/2019 Tema 2 Anova
8/18
Tema 2. El anlisis de la varianza
8
ya que ii
a
=
=1
0 . Sustituyendo Yi . e Y. . en la expresin para SSTratamientos
( ) ( )E SS = E n E nTratamientosi=1 i=1
i i
a
i i
i
aa
i i
i
a
i i
i
a
i
a
n an n n n+
= + + +
=
= ==
.. . .. .. .. .2
2 2
1
2
1 11
2 2 2
Como los ij son variables aleatorias independientes con media cero y varianza 2,
tenemos que
( ) ( ) ( )En
Ean
Ei i
= = =2
22
2
0, .. (Teniendo en cuenta que V(x)=E[x2]+E
2[x] )
De modo que,
( ) ( ) ==
+=+++=a
i
i
a
i
iosTratamient naanSSE1
22222
1
21200
Ahora, si la hiptesis nula de la Ec.4 es verdadera, cada ies igual a cero y
ESS
a
Tratamientos
=
1
2
Si la hiptesis alternativa es cierta, entonces
ESS
a
n
a
Tratamientos
i
i
a
= +
=
1 1
2
2
2
El cociente MSTratamientos=SSTratamientos /(a-1) se llama cuadrado medio para los
tratamientos. As, si H0 es verdadero, MSTratamientos es un estimador insesgado de 2
,mientras que si H1 es verdadero, MSTratamientosestima 2 ms un trmino positivo que
incorpora la variacin debido a diferencias sistemticas en las medias de los
tratamientos.
Siguiendo un procedimiento similar, se puede demostrar que el valor esperado de la
suma de cuadrados del error es E(SSE)=a(n-1) 2. Por tanto, el error cuadrtico medio
MSE=SSE/a(n-1) es un estimador insesgado de 2, independientemente de si H0es o no
verdad.
Tambin hay una divisin del n de grados de libertad que corresponden a la suma de
cuadrados de la identidad de la Ec.5. Hay un total de an = N observaciones; de modo
que SSTtiene an - 1 grados de libertad. Hay aniveles del factor, por lo que SSTratamientostiene a- 1 grados de libertad. Finalmente, dentro de cualquier tratamiento hay n replicas
proporcionando n - 1 grados de libertad con los que estimar el error experimental. Como
hay atratamientos, tenemos a(n - 1) grados de libertad para el error. Por consiguiente, la
divisin de los grados de libertad es an - 1= a - 1 + a(n - 1).
Asumamos ahora que cada una de las a poblaciones puede ser moldeada como una
distribucin normal. En este caso, si la hiptesis nula H0es verdadera, el estadstico
( )
( )[ ]F
SS a
SS a n
MS
MS
Tratamientos
E
Tratamientos
E
0
1
1=
=
/
/ Ec.8
tiene una distribucin F con a - 1 y a(n - 1) grados de libertad. Adems, sabemos queMSEes un estimador insesgado de
2. Tambin, bajo la hiptesis nula, MSTratamientoses
-
7/26/2019 Tema 2 Anova
9/18
Tema 2. El anlisis de la varianza
9
un estimador insesgado de 2. Sin embargo, si la hiptesis nula es falsa, entonces el
valor esperado para MSTratamientoses mayor que 2. Cmo, bajo la hiptesis alternativa,
el valor esperado del numerador del estadstico (Ec.8) es mayor que el valor esperado
del denominador debemos rechazar H0 si el estadstico es grande. Esto implica una
regin crtica de una cola. Por tanto, rechazaremos la H0si 0> ( ) , ,a a n1 1 donde 0se
calcula de la Ec.8.
Los clculos para estos procedimientos de anlisis se resumen de forma tabular como se
muestra en la Tabla.3.
Tabla.3 Anlisis de la varianza para una variable
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
F0
Tratamientos SSTratamientos a - 1 MSTratamientos MS
MS
Tratamientos
E
Error SSE a(n - 1) MSETotal SST an - 1
Ejemplo 3
Un fabricante de papel para bolsas est interesado en aumentar la resistencia a la
traccin del producto. El ingeniero de fabricacin piensa que la resistencia depende de
la concentracin de madera en bruto en la pulpa y que el rango de concentraciones de
inters est entre el 5 y el 20%. Se encarga a un equipo de ingenieros efectuar un
estudio. Este equipo decide investigar cuatro niveles de concentracin: 5%, 10%, 15% y
20%. Deciden analizar seis muestras de cada nivel de concentracin. Las 24 muestras seensayan utilizando un extensmetro piezoelctrico en un laboratorio, siguiendo un
orden aleatorio. En la tabla siguiente se recogen los resultados de las pruebas
Concentracin
%
Observaciones
1 2 3 4 5 6
Medias
5
10
15
20
7
12
14
19
8
17
18
25
15
13
19
22
11
18
17
23
9
19
16
18
10
15
18
20
10
15.67
17
21.17
15.96
El papel de la aleatorizacin en este experimento es muy importante. Aleatorizando el
orden de las 24 pruebas se anula el efecto que pudiera tener alguna variable de ruido en
la prueba de traccin. Por ejemplo, supongamos que en la mquina de traccin se crea
un efecto de recalentamiento, de modo que se obtiene mayores tensiones con el aumento
de la temperatura. Si se ensayaran las muestras por orden creciente de concentracin,
tendramos que las diferencias entre concentraciones tambin incluiran el efecto de la
temperatura.
-
7/26/2019 Tema 2 Anova
10/18
Tema 2. El anlisis de la varianza
10
La tabla del anlisis de la varianza para el experimento de la resistencia del papel,
muestra que podemos rechazar la hiptesis nula y concluir que la concentracin de
madera en bruto en la pulpa afecta significativamente a la resistencia del papel.
Anlisis de residuos
El mtodo del Anlisis de la Varianza asume que las observaciones son normales e
independientemente distribuidas con la misma varianza para cada tratamiento o nivel de
factor. Estas asumciones se deberan comprobar examinando los residuos. Un residuo es
la diferencia entre una observacin yij y su valor estimado a partir del modelo
estadstico que esta siendo estudiado, $y ij . Para el diseo completamente aleatorio $ .yij=yi
y cada residuo es e =yij ij yi., es decir, la diferencia entre una observacin y la media
observada del correspondiente tratamiento. Los residuos contienen informacin acerca
de la variabilidad inexplicada.
La hiptesis de normalidad se puede comprobar construyendo un diagrama de
probabilidades normales de los residuos. Para comprobar la asumcin de igualdad de
varianzas, se pueden dibujar los residuos frente a los niveles de factor y comparar la
dispersin de los residuos. Tambin es til dibujar los residuos frente a y i . ; la
variabilidad de los residuos no debe depender en ninguna manera del valor de y i . .Lapresencia de algn patrn en estos diagramas, sugiere normalmente la necesidad de una
transformacin, es decir, analizar los datos en una mtrica diferente. Por ejemplo, si la
variabilidad en los residuos aumenta con y i . , entonces se puede considerar una
transformacin como log y o y . En algunos problemas, la relacin de los residuos con
la media observada y i . es una informacin muy importante. Puede que sea deseable
seleccionar el nivel que resulta en una respuesta mxima; sin embargo, este nivel puede
tambin causar mas variacin en la respuesta .
La asumcin de independencia puede ser comprobada dibujando los residuos frente al
tiempo u orden en que el experimento fue realizado. Un patrn en este grfico, tal como
secuencias de residuos positivas y negativas, indica que las observaciones no son
independientes. Esto sugiere que el tiempo u orden es importante u otras variables que
cambian a travs del tiempo y no han sido incluidas en el diseo del experimento.
En el ejemplo que estamos considerando estos grficos no muestran ninguna desviacin
considerable respecto a las hiptesis asumidas.
En temas posteriores abordaremos el estudio de los residuos con mayor profundidad.
3. ANLISIS DE LA VARIANZA CON VARIAS VARIABLES
El mtodo que hemos desarrollado para una sola variable o factor se puede
generalizar para dos o ms variables. Sin prdida de generalidad, y para facilitar la
comprensin, consideraremos el caso de dos variables. Para ms variables el
AN LISIS DE VARIANZA
Origen de las
variaciones
Suma de
cuadrados
Grados de
libertad
Promedio de los
cuadrados F Probabilidad
Valor
crtico
para F
Entre grupos 382,7916667 3 127,5972222 19,60521 3,59258E-06 3,098391Dentro de los grupos 130,1666667 20 6,508333333
Total 512,9583333 23
-
7/26/2019 Tema 2 Anova
11/18
Tema 2. El anlisis de la varianza
11
procedimiento sera anlogo. Cuando tenemos varias variables en el caso desequilibrado
la descomposicin bsica del anlisis de la varianza no se cumple, por lo que este caso
requiere un desarrollo especifico.
3.1 Anlisis de la varianza para caso de grupos equilibrados
Sean A y B dos variables. En este modelo, se definen los efectos i,j , y ()ij,como desviaciones de la media, de modo que
( ) ( ) i j iji
a
j
b
i
a
ijj
b
y= = = ==== =
0 0 0 0111 1
; ;
El anlisis de la varianza se utiliza para analizar la hiptesis acerca de los efectos
de las variables A y B y su interaccin AB. Se dice que dos variables interactan
cuando el efecto de una de ellas difiere a diferentes niveles de la otra variable. Esto es,
que el efecto de la variable A para un nivel de la B no es el mismoque para otro nivel de
la variable B. Cuando una interaccin es significativa, las variables implicadas en la
interaccin son importantes incluso si su efecto principal no lo fuera.
Para presentar el anlisis de la varianza con detalle, necesitaremos algunos
smbolos: y... indica el total de todas las observaciones. Definimos y y y e yi j ij.. , . . , . . . .
como las correspondientes medias de las fila, columna, y media total. Es decir,
y y yy
bni a
y y yy
anj b
y y yy
n
i a
j b
y y yy
abn
i ijk
k
n
j
b
ii
j ijk
k
n
i
a
ii
ij ijk
k
n
ij
ij
ijk
k
n
j
b
i
a
. . . ...
, , . .. ,
. . . .. .
, , .. . ,
. .. , , ... ,
, , . .. ,
... . .....
= = =
= = =
= ==
=
= =
==
==
=
===
11
11
1
111
1 2
1 2
1 2
1 2
La hiptesis que queremos analizar son las siguientes:
1. H0: 1= 2= .... = a= 0 (no hay efecto principal de la variable A)
H1: al menos un i0
2. H0: 1= 2= .... = a= 0 (no hay efecto principal de la variable B)H1: al menos un i0
3. H0: ()11= ()12= .... = ()ab= 0 (no hay interaccin)
H1: al menos un ()ij0
El anlisis de la varianza contrasta estas hiptesis mediante la descomposicin de
la variabilidad total de los datos en partes y comparando los diversos elementos de esta
descomposicin. La variabilidad total de las observaciones se mide mediante
( )SS y yT ijk
k
n
j
b
i
a
= === ...2
111 y la descomposicin es la siguiente:
-
7/26/2019 Tema 2 Anova
12/18
Tema 2. El anlisis de la varianza
12
( ) ( ) ( ) ( )
( )
= = =
= ==== = =
+
+++==
a
i
b
j
n
k
ijijk
a
i
b
j
jiij
b
j
j
a
i
i
a
i
b
j
n
k
ijkT
yy
yyyynyyanyybnyySS
1 1 1
2
1 1
2
1
2
1
2
1 1 1
2
.
.....................
Ec.9Se prueba la identidad de esta suma de cuadrados escribiendo la suma total de
cuadrados como
( ) ( ) ( ) ( ) ( )[ ]
( ) ( ) ( )
( ) cruzadoproductodeosteryy
yyyynyyanyybn
yyyyyyyyyyyy
a
i
b
j
n
k
ijijk
a
i
b
j
jiij
a
i
j
a
i
i
a
i
b
j
n
k
ijijkjiijji
a
i
b
j
n
k
ijk
min6.
..................
......................
1 1 1
2
1 1
2
1
2
1
2
2
1 1 11 1 1
2
++
+++=
=++++=
= = =
= ===
= = == = =
Debido a que todos los trminos de productos cruzados son cero, esta ltima ecuacin
se reduce a la ecuacin (identidad) de la suma de cuadrados dada en la Ec.9. La suma
total de cuadrados se divide en una suma de cuadrados debida a la variable A (SSA), una
suma de cuadrados debida a la variable B (SSB), y a una suma de cuadrados debida al
error (SSE). Debe haber al menos dos rplicas para obtener una suma de cuadrados del
error diferente de cero. La identidad de la suma de cuadrados se escribe simblicamente
como:
SS SS SS SS SST A B AB E= + + + Ec.10
Existen abn - 1 grados de libertad totales. Los efectos principales A y B tienen a -
1 y b - 1 grados de libertad, mientras que el efecto de la interaccin AB tiene (a - 1)(b -
1) grados de libertad. Dentro de cada celda ab de la tabla.3, hay n - 1 grados de libertadentre las n rplicas, y las observaciones en las mismas casillas difieren solamente debido
al error aleatorio. Adems, hay ab(n - 1) grados de libertad para el error. As pues, los
grados de libertad se dividen de la siguiente forma:
abn - 1 = (a - 1) + (b - 1) + (a - 1) (b - 1) + ab(n - 1)
Si dividimos cada una de las sumas de cuadrados de la parte derecha de la Ec.10
por su correspondiente n de grados de libertad, obtendremos los cuadrados medios para
A, B, la interaccin, y el error:
( )( ) ( )
MS MS
MS MS
A B
AB E
=
=
=
=
SS
a
SS
b
SS
a b
SS
ab n
A B
AB E
1 1
1 1 1
No es difcil comprobar que los valores esperados de estos cuadrados medios son
los que se muestran a continuacin:
-
7/26/2019 Tema 2 Anova
13/18
Tema 2. El anlisis de la varianza
13
( )
( )
( )( )( )
( )
( )( )
( )( )
E MS
E MS
E MS
E MS
A
B
AB
E
=
= +
=
= +
=
= +
=
=
=
=
=
ESSa
bn
a
E
SS
b
an
b
ESS
a b
n
a b
ESS
ab n
Ai
i
a
Bj
j
b
ABij
j
b
i
a
E
1 1
1 1
1 1 1 1
1
2
2
1
2
2
1
2
2
11
2
Del examen de estos cuadrados medios esperados, es claro que si las hiptesis
nulas sobre los efectos principales H0 : i= 0, H0 : i= 0, y sobre la interaccin H0:
()ij= 0 son ciertas, los cuatro cuadrados medios son estimadores insesgados de 2.
Para contrastar que los efectos del factor A son todos igual a cero, debemos
utilizar el estadstico
FMSMS
A
E0=
que tiene una distribucin F con a -1 y ab(n - 1) grados de libertad si H0 : i = 0 es
verdad. Esta hiptesis nula se rechaza al nivel de significacin si 0 > ,a-1,ab(n-1).Anlogamente para la variable B. Finalmente para analizar la hiptesis de que todos los
efectos de las interacciones son cero, H0: ()ij= 0, utilizamos el estadstico
F
MS
MSAB
E0=
que tiene una distribucin F con (a - 1)(b - 1) y ab(n - 1) grados de libertad si la
hiptesis nula H0: ()ij= 0. Esta hiptesis nula se rechaza al nivel de significacin si
0> ,(a-1)(b-1),ab(n-1) .
Normalmente, es mejor efectuar primero el anlisis para la interaccin y evaluar
entonces los efectos principales. Si la interaccin no es significativa, la interpretacin de
los contrastes de los efectos principales es inmediata. Cuando la interaccin es
significativa los efectos principales de los factores pueden no tener ningn valor a
efectos prcticos.
-
7/26/2019 Tema 2 Anova
14/18
Tema 2. El anlisis de la varianza
14
La tabla del anlisis de la varianza presenta el siguiente formato,
Tabla.4 Tabla del anlisis de la varianza para un factorial de dos factores, Modelo de efectos fijos.
Tipos de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado medio F0
Tratamiento A SSA a - 1
MS =
SS
a -1AA
MS
MS
A
E
Tratamiento B SSB b - 1MS =
SS
b -1B
B MS
MS
B
E
Interaccin SSAB (a - 1)( b - 1)
( )(MS =
SS
a -1 bAB
AB
MS
MS
AB
E
Error SSE ab(n - 1)
( )MS =
SS
n -1E
E
ab
Total SST abn - 1
Ejemplo 4
Un ingeniero est diseando una batera para su uso en un dispositivo que ser sometido
a ciertas variaciones extremas de temperaturas. El nico parmetro de diseo que l
puede seleccionar en este momento es el material de recubrimiento de la batera, y tiene
tres alternativas. Cuando el dispositivo se fabrique y se encuentre en uso, el ingeniero
no tendr control sobre los extremos de temperatura a que ser expuesto el dispositivo,
y sabe por experiencia que es probable que la temperatura influya en la duracin
efectiva de la batera. Sin embargo, s es posible controlar la temperatura en el
laboratorio de desarrollo de productos para los fines del ensayo.
El ingeniero decide probar los tres materiales de recubrimiento a tres niveles de
temperatura (15, 70 y 125 C). Se prueban cuatro bateras con cada combinacin de
material y temperatura. Las 36 pruebas se ejecutan al azar. En la tabla siguiente se
presentan los datos resultantes de la duracin observada de las bateras.
tipo de material Temperatura
15 70 150
1 130 155
74 180
34 40
80 75
20 70
82 582 150 188
159 126
136 122
106 115
25 70
58 45
3 138 110
168 160
174 120
150 139
96 104
82 60
En este problema el ingeniero desea contestar las siguientes preguntas:
1. Qu efecto tiene el tipo de material y la temperatura sobre la duracin de la batera?
2. Existe un material que d por resultado una duracin uniformemente larga sin
importar la temperatura?
Esta ltima pregunta reviste particular importancia. Existe la posibilidad de hallar unmaterial que no se vea muy afectado por la temperatura. De ser as, el ingeniero puede
-
7/26/2019 Tema 2 Anova
15/18
-
7/26/2019 Tema 2 Anova
16/18
Tema 2. El anlisis de la varianza
16
( ) ( ) ( ) ( )
( ) PC
a
i
b
j
n
k
ijijk
a
i
b
j
jiijij
b
j
jj
a
i
ii
a
i
b
j
n
k
ijkT
Syy
yyyynyynyynyySS
ij
ij
++
+++==
= = =
= ==== = =
1 1 1
2
1 1
2
1
2
.
1
2
.
1 1 1
2
.
.....................
Y simblicamente, escribiremos:
SST=SSA+SSB+SSAB+SSE+SPC
Por tanto, el procedimiento de clculo es similar al caso equilibrado, salvo que por una
parte hay que considerar el tamao de cada grupo y por otra que el trmino debido al
error dentro de los grupos lo calcularemos explcitamente, no siendo en este caso de
inters el clculo de la suma de cuadrados total ni la suma de los productos cruzados
(esta suma puede dar tambin valores negativos).
Ejemplo 5.
Un ingeniero de fabricacin est estudiando la durabilidad de dos tipos de materiales a
diferentes temperaturas. Algunos de los ensayos realizados han sido defectuosos y no se
pueden incluir en el anlisis por lo que los tamaos de los subgrupos a analizar son 2, 3
y 4.
15 25 452 9 11 12 14
10 12 13 1515 18 17 15
3 16 1517 16
Calculamos la suma de cuadrados correspondientes a los variables, su interaccin y al
error.
Fuente SS gl CM Fo FtMaterial 68,0625 1 68,0625 46,40625 4,9646027Temp 3,20416667 2 1,60208333 1,09232955 4,10282102MaterialxTemp 15,4291667 2 7,71458333 5,25994318 4,10282102Error 14,6667 10 1,46666667
-
7/26/2019 Tema 2 Anova
17/18
Tema 2. El anlisis de la varianza
17
EjerciciosEjercicio1
Las 20 observaciones siguientes se refieren a la diferencia de peso en cientos de gramos
de un azulejo cocido con cinco tratamientos diferentes.
Analizad el efecto del tratamiento con un nivel de significacin del 0.05
Ejercicio 2
Se ha medido el tamao de los azulejos a la salida del horno segn la posicin por la
que avanzaban. Para cada una de las posiciones se han tomado tres muestras.
Construye la tabla del ANOVA. Existe diferencia significativa entre las posiciones?
Ejercicio 3
Se compara la habilidad de cuatro laboratorios para realizar una prueba. Se preparan 20
muestras de un mismo lote y se envan de forma aleatoria 5 a cada laboratorio. Se trata
de medir el porcentaje de potasio disuelto.
Analizad el efecto del laboratorio con un nivel de significacin de 0.05
Ejercicio 4
Los datos de la siguiente tabla son la desviacin en gramos de cinco tipos de piezas, las
piezas del tipo 1,2 3 fueron cocidas en el horno d en dos turnos diferentes, y las piezas 4
y 5 fueron producidas en el horno e en dos turnos distintos.
Subgrupo 1 2 3 4 5 6 7 8 9 10Turno a a a a a b b b b bPieza 1 2 3 4 5 1 2 3 4 5Horno d d d e e d d d e e
Valores 20 20 25 50 45 20 15 15 45 3515 25 25 50 40 20 10 10 20 40
subgrupo 1 2 3 4 525 31 25 34 2526 33 23 27 2423 28 22 30 2727 36 26 32 29
Lab A B C D55,9 58,7 60,7 62,756,1 61,4 60,3 64,557,3 60,9 60,9 63,155,2 59,1 61,4 59,258,1 58,2 62,3 60,3
-
7/26/2019 Tema 2 Anova
18/18
Tema 2. El anlisis de la varianza
18
Estudiad el efecto del turno y del tipo de pieza con un nivel de significacin de 0.05
Ejercicio 5
Estudiad el efecto de un factor con cinco niveles de los que se disponen las siguientes
mediciones (ANOVA):
1 2 3 4 5250 310 250 340 250260 330 230 270 240
280 300 270360 290
Ejercicio 6 (tres factores)
Un Ingeniero de Fabricacin est estudiando la rugosidad superficial de una pieza
obtenida mediante una operacin de cilindrado en un torno. Se consideran de inters lavelocidad de avance (A), la profundidad de pasada (B) y el ngulo de desprendimiento
(C). Se asignan a todos los factores dos niveles y se mecanizan dos rplicas.
Profundidad de pasada (B)
0.2 mm 0.4 mm
Angulo de desprendimiento Angulo de desprendimiento
Avance 15 25 15 25
2 mm/s 9
7
11
10
9
11
10
8
3 mm/s 10
12
10
13
12
15
16
14