Tema 2 Anova

download Tema 2 Anova

of 18

Transcript of Tema 2 Anova

  • 7/26/2019 Tema 2 Anova

    1/18

    Tema 2. El anlisis de la varianza

    1

    Tema 2. El anlisis de la varianza

    1. El mtodo ANOVA para la identificacin de cambios en la media

    2. Modelo matemtico del ANOVA3. Anlisis de la varianza con varias variables

    1. El mtodo ANOVA para la identificacin de cambios en la media

    Con el anlisis de la varianza se trata de comparar la media de los resultados de

    diferentes grupos de muestras. Cada grupo de muestras proviene de una situacin

    distinta.

    El anlisis de la varianza (ANOVA) se utiliza con la finalidad de identificar aquellasvariables que tienen un efecto significativo en la respuesta.

    En el mbito del control de proceso, estas variables identificadas mediante el ANOVA

    sern las candidatas para actuar sobre ellas con el objetivo de mejorar el proceso o

    devolverlo a su estado de control, segn el caso. En el mbito de diseo de productos se

    podrn utilizar para mejorar sus propiedades.

    Consideremos el siguiente caso para comprender la situacin. Supongamos una

    poblacin y i,jde 9 alumnos de tres grupos distintos:

    En este caso la media de cada grupo es 5 y la media

    global tambin, no hay diferencias entre grupos ni

    dentro de los grupos ya que cada valor es tambin

    igual a la media y i,j= .

    Supongamos que aplicamos un mtodo de enseanza (factor) que afecta subiendo las

    notas del grupo 1 en un punto, las del grupo 2 en dos puntos y no modificando las del

    grupo 3.

    Ahora la nota de un alumno sera y i,j= +i, en los

    que ison (1,2 y 0 ) los efectos que produce el factoren cada nivel (grupo). Parece claro que el factortiene influencia en establecer diferencias entre

    grupos pero no dentro de cada grupo.

    Consideremos otro caso en que debido a razones

    aleatorias otras variables no controladas i,j, se obtengan calificaciones distintas en losalumnos, por ejemplo:

    Grupo 1 Grupo 2 Grupo 35 5 5

    5 5 5

    5 5 5

    Grupo 1 Grupo 2 Grupo 3

    5+1=6 5+2=7 5

    5+1=6 5+2=7 5

    5+1=6 5+2=7 5

    Grupo 1 Grupo 2 Grupo 3

    5+1-1=5 5+2+2=9 5+0+3=8

    5+1-2=4 5+2+0=7 5+0+4=9

  • 7/26/2019 Tema 2 Anova

    2/18

    Tema 2. El anlisis de la varianza

    2

    Los efectos aleatorios i,j(-1,-2,0,2,0,1,3,4,0)provocan variabilidad dentro de los grupos.

    Entonces para cada valor de las calificaciones (respuesta) tendremos el modelo

    y i,j= +i+i,j

    Podemos identificar dos tipos de variabilidad. La variabilidad entre grupos (debido a lainfluencia del factor) y la variabilidad dentro de los grupos (debida a causas aleatorias).

    Para poder afirmar que el factor produce efectos en la respuesta media de cada grupo la

    variabilidad entre grupos ha de ser significativamente grande respecto a la medida

    dentro de los grupos.

    El objetivo que se persigue es distinguir si el tratamiento provoca que existan

    diferencias entre las medias de los grupos, diferenciando esta diferencia de las causas

    aleatorias u otros factores.

    La tcnica del anlisis de la varianza se basa en comparar la estimacin de la varianza

    entre grupos con la estimacin de la varianza dentro de los grupos. Se utilizan estas dos

    estimaciones porque la varianza entre grupos es muy sensible a las diferencias entre lasmedias de los grupos, mientras que la varianza dentro de los grupos es completamente

    insensible a las diferencias entre las medias de los grupos.

    El siguiente conjunto de datos nos servir para ilustrar los diferentes mtodos para

    estimar la variacin que se utiliza en el anlisis de la varianza.

    Tres subgrupos de tamao n=8 tienen los siguientes valores:

    Mtodo 1.-Estimacin de la variacin total. Se utiliza la varianza muestral basndose

    en todos los datos: 406,223

    33,55

    1

    )(

    )(

    2

    2 ==

    ==

    i

    i

    i j

    ij

    n

    yy

    sYVEst . Se dice que este

    estimador tiene 1)(1

    =

    a

    i

    in grados de libertad, es decir el nmero total de datos menos 1

    (nies el nmero de datos en cada subgrupo, y a es el nmero de subgrupos, en este caso

    3).

    Mtodo 2.- Estimacin de la variacin dentro de los subgrupos. Se calcula lavarianza muestral para cada subgrupo y se promedian estas varianzas (promedio de las

    varianzas):

    [ ]

    381,2)429,1856,2856,2(3

    11/)(

    )(

    2

    .

    2 =++=

    ==

    a

    nyy

    sYVEst i j

    iiij

    .

    El nmero de grado de libertad para este estimador es la suma de los grados de libertad

    de cada subgrupo: )1(1

    =

    a

    i

    in

    Mtodo 3.- Estimacin de la variacin entre subgrupos. Se calcula la varianzamuestral ponderada de las medias (varianza de los promedios):

    subgrupo Medidas media s2

    1 4 5 5 4 8 4 3 7 5 2,857

    2 2 4 3 7 5 4 2 5 4 2,857

    3 3 6 6 4 5 4 6 6 5 1,429

    5+1+0=6 5+2+1=8 5+0+0=5

  • 7/26/2019 Tema 2 Anova

    3/18

    Tema 2. El anlisis de la varianza

    3

    667,2)2

    6667.0(8

    1

    )(

    )(

    2

    .2

    ==

    ==

    a

    yyn

    nsyVEst iii

    x

    El nmero de grados de libertad para este estimador es el nmero de subgrupos menos

    1: a-1

    Este caso, en el que la variacin dentro de los subgrupos es bastante similar a la

    variacin entre subgrupos, sugiere que esta ltima se debe prcticamente a la variacin

    aleatoria (ruido) y no tanto a la diferencia entre las medias de los subgrupos.

    Cada una de estas estimaciones de la variacin es un cociente que cumple la propiedad

    de que la suma del numerador y del denominador de las estimaciones entre y dentro de

    los subgrupos es igual al numerador y denominador de la estimacin de la variacin

    total.

    El anlisis de la varianza hace visible esta relacin especial entre numeradores y

    denominadores situando las cantidades en una tabla, llamada tabla ANOVA. A los

    numeradores se les denomina genricamente suma de cuadrados, a los denominadoresse les llama grados de libertad y a los cocientes (las estimaciones de las varianzaas) se

    les llama cuadrados medios:

    Fuente de lavariacin

    Suma deCuadrados

    Grados delibertad

    Cuadradosmedios

    Ratio F

    Entre Grupos 5,33 2 2,667 1,12

    Dentro Grupos 50 21 2,381

    Total 55,33 23 2,406

    Para comparar con tcnicas estadsticas la variacin entre subgrupos con la variacin

    dentro de los subgrupos se utiliza el ratio F, que se calcula como el cuadrado medio

    entre grupos dividido por el cuadrado medio dentro los grupos.

    Cuando las estimaciones de la variacin sean similares, el estadstico F tomar un valor

    prximo a 1. Si el ratio es muy grande ser una indicacin de que las diferencias entre

    las medias de los grupos son reales. En trminos estadsticos que el ratio F sea grande se

    traduce en que exceda un valor crtico respecto al terico de una distribucin F. Este

    valor critico depende de :

    La eleccin del nivel de significacin que se desee

    De los grados de libertad de las dos estimacionesEl nivel especifica la regla de decisin que el analista define como criterio parainterpretar los datos.

    Interpretacin del ratio F

    Bajo la hiptesis de que los valores se distribuyen independientemente y siguiendo una

    funcin de distribucin normal, podemos utilizar un modelo de probabilidad para

    estudiar el comportamiento del ratio F: la funcin de distribucin F. Esta distribucin

    nos permitir encontrar un valor crtico con el que comparar el valor del ratio F. Si el

    valor del ratio F calculado, F0, es mayor que el valor crtico de la distribucin, Ft, es

    razonable decidir que alguna de las medias de los grupos difiere en una cantidad

  • 7/26/2019 Tema 2 Anova

    4/18

    Tema 2. El anlisis de la varianza

    4

    detectable. En caso contrario concluiramos que la variacin observada entre los grupos

    se debe nicamente al error aleatorio.

    La funcin de distribucin F tiene dos grados de libertad:

    1Grados de libertad del numerador

    2Grados de libertad del denominador

    Dados estos grados de libertad y el nivel del anlisis, se puede consultar la tabla de ladistribucin F o en Excel obtener el valor critico mediante la funcin:

    DISTR.F.INV(;1;2)

    Para los datos del ejemplo 1 el ratio F0es 1,12. Los grados de libertad son 2 y 21, con

    un alfa de 0,1 el valor critico de la distribucin F tes 2,575 (DISTR.F.INV(0,1;2;21)).

    Como el ratio F0es menor que el valor critico, los datos no muestran evidencia de que

    las medias sean detectablemente diferentes. Normalmente se dice que el ratio F0no es

    significativo.

    Ejemplo 2

    En un estudio de un aparato de medicin, dos operarios midieron una dimensin de

    cinco piezas. Como uno de los objetivos del estudio era determinar la repetibilidad del

    aparato, cada operario midi cada pieza dos veces, y estas dos mediciones fueron

    agrupadas para formar los subgrupos, de modo que tenemos diez subgrupos de tamao

    2.

    La funcin de anlisis de la varianza nos da la siguiente tabla ANOVA

    El ratio F0es 8,56 y el valor critico con =0,1 es 2,347. Por tanto, concluimos que hayevidencia de que las medias son detectablemente diferentes. Se dice que el ratio F0es

    significativo. El para el cual el valor crtico de Ftsera igual al ratio de F0es 0,0012

    que aparece en la columna probabilidad, P. Es decir, que si el elegido fuera menor queeste valor la conclusin sera la contraria.

    subgrupo 1 2 3 4 5 6 7 8 9 10

    operario a a a a a b b b b bPieza 1 2 3 4 5 1 2 3 4 5

    Valores 20 20 25 50 45 20 15 15 45 35

    15 25 25 50 40 20 10 10 20 40

    media 17,5 22,5 25 50 42,5 20 12,5 12,5 32,5 37,5

    s 2 12,5 12,5 0 0 12,5 0 12,5 12,5 312,5 12,5

    ANLISIS DEVARIANZA

    Origen de lasvariaciones

    Suma decuadrados

    Grados delibertad

    Promedio de loscuadrados F Probabilidad

    Valor crticopara F

    Entre grupos 2986,25 9 331,8055556 8,562724014 0,001202999 2,347306349Dentro de los grupos 387,5 10 38,75

    Total 3373,75 19

  • 7/26/2019 Tema 2 Anova

    5/18

    Tema 2. El anlisis de la varianza

    5

    Un ratio F significativo simplemente indica que existen algunas diferencias entre las

    medias de los subgrupos que son suficientemente grandes para ser detectadas a pesar del

    ruido presente en los datos.

    2. Modelo matemtico del ANOVASupongamos que se desea comparar el efecto de atratamientos distintos o aniveles de

    una variable. Para cada nivel de la variable se toman un subgrupo de medidas. Dentro

    de los subgrupos se incluiran varias mediciones al mismo nivel de la variable, y entre

    subgrupos tendramos los distintos niveles. La respuesta, Y, que se observa con cada

    uno de los aniveles es una variable aleatoria. Los datos observados pueden aparecer

    como se muestra en la Tabla.2. Una entrada en la Tabla.2, yij, representa la observacin

    j tomada bajo el nivel i. Inicialmente consideramos el caso en el cual hay un n igual de

    observaciones, n, para cada nivel, es decir subgrupos del mismo tamao (tambin les

    llamamos grupos).

    Podemos describir las observaciones de la Tabla.2 mediante el modelo lineal

    Yi

    j nij i ij= + +

    =

    =

    1 2

    12

    , , .... ,

    , , .... ,

    a Ec.1

    donde yij es una variable aleatoria que denota la observacin (ij), es un parmetro

    comn a todos los niveles denominado media global, i es un parmetro asociado alnivel i, llamado efecto del nivelo subgrupo i , y ijes la componente del error aleatorio.Vemos que el modelo poda haber se escrito as

    Yi

    j n

    ij i ij= +=

    =

    1 2

    12

    , , .... ,

    , , .... ,

    a

    donde i = + i es la media del nivel i. En esta forma de modelo, vemos que cada

    nivel define una poblacin que tiene de media i , compuesta de la media global ms

    un efecto i debido a ese tratamiento particular. Asumimos que los errores ij son

    normales e independientemente distribuidos con media cero y varianza 2. Por tanto,cada grupo sometido a un tratamiento puede ser considerado como proveniente de una

    poblacin normal con media i y varianza 2.

    Tabla.2 Datos tpicos para el estudio de una variable

    Tratamiento Observaciones Totales Promedio

    1 y11 y12 y1n y1 y1 .

    2 y21 y22 y2n y2 y2 .

    .... ... ... ...

    A ya1 ya2 yan ya ya .

    y.. y ..

    Los efectos de los niveles i se definen como desviaciones de la media global , por

    esta razn se cumple que:

  • 7/26/2019 Tema 2 Anova

    6/18

    Tema 2. El anlisis de la varianza

    6

    ii

    a

    ==

    01

    Sea yi. el total de las observaciones para el nivel i, e y i . el promedio de las

    observaciones para el nivel i. Similarmente, y.. representa la suma total de las

    observaciones e y.. la media global de todas las observaciones. Expresadomatemticamente,

    yNyy

    inyyyy

    a

    i

    n

    jij

    yy

    aiin

    j

    iji

    ==

    ===

    =

    =

    =

    =

    /....

    ,....,2,1;/.;.

    ;..1 1

    1

    Ec.3

    donde N = an es el n total de observaciones. As, en la notacin que utilizamos el

    subndice punto significa el sumatorio del subndice que reemplaza.

    Estamos interesados en contrastar la igualdad de las medias de los a tratamientos(1, 2, ..., a). Utilizando la Ec.2, vemos que esto es equivalente a contrastar lahiptesis

    H0 : 1= 2..... = a= 0

    H1 : i0 para al menos una i Ec.4

    Si la hiptesis nula es verdadera, cada observacin se compone de la media global

    ms una realizacin del componente de error aleatorio ij. Esto equivale a decir que las

    N observaciones se toman de una distribucin normal con media y varianza 2. Portanto, si la hiptesis nula es verdadera, cambiar los niveles de la variable no tiene

    influencia en la respuesta media.

    En el anlisis de la varianza se divide la variabilidad total observada en los datos de la

    muestra en dos componentes:

    ( ) ( ) ( )2

    1 1.

    2

    1

    .

    2

    1 1

    .... = === =

    +=a

    i

    n

    j

    iij

    a

    i

    ii

    a

    i

    n

    j

    ij

    ii

    yyyynyy

    Para el caso en que todos los subgrupos tengan el mismo tamao n, la descomposicin

    se simplifica un poco:

    ( ) ( ) ( )y y n y y y yijj

    n

    i

    a

    i

    i

    a

    ij i

    j

    n

    i

    a

    = + == = ==

    .. . .. ..11

    2

    1

    2

    11

    2

    La comprobacin de esta identidad es inmediata. Podemos escribir

    ( ) ( ) ( )[ ]= == =

    +=a

    i

    n

    j

    iiji

    a

    i

    n

    j

    ij yyyyyy1 1

    2

    .

    2

    1 1

    ......

    o

    ( ) ( ) ( ) ( )( )y y n y y y y y y y yijj

    n

    i

    a

    i

    i

    a

    ij i

    j

    n

    i

    a

    i ij i

    j

    n

    i

    a

    = + + == = == == .. . .. . . .. .. .11

    2

    1

    2

    11

    2

    112

  • 7/26/2019 Tema 2 Anova

    7/18

    Tema 2. El anlisis de la varianza

    7

    Vemos que el trmino del producto cruzado en la ecuacin anterior es cero, ya que

    ( ) ( )y y y ny y n y nij ij

    n

    i i i i = = ==

    . . .. . . . ./ 1

    0

    Es inmediato comprobar la identidad para el caso de grupos con distinto tamao, grupos

    desequilibrados.

    Esta identidad muestra que la variabilidad total en los datos, medida por la suma total de

    cuadrados, se puede dividir en la suma de cuadrados de diferencias entre la media de los

    tratamientos y la media global y la suma de cuadrados de las diferencias entre las

    observaciones dentro de un tratamiento con respecto a su media. Las diferencias entre

    las medias observadas de los tratamientos y la media global miden las diferencias entre

    tratamientos, mientras que las diferencias de las observaciones con respecto a la media

    del tratamiento se deben solamente al error aleatorio. Podemos escribir la

    descomposicin de la suma de cuadrados como:

    SST= SSTratamientos+ SSE donde

    ( )

    ( )

    ( ) =

    =

    =

    2

    1=i 1j=

    ijE

    2

    1=i

    iosTratamient

    2

    1=i 1j=

    ijT

    .y=SS

    ...y=SS

    ..y=SS

    a n

    i

    a

    i

    a n

    i

    i

    y

    yn

    y

    Podemos discernir mejor como acta el anlisis de la varianza examinando el valor

    esperado de SSTratamientos y SSE. Esto nos llevar a un estadstico apropiado para

    contrastar la hiptesis de que no hay diferencias entre las medias de los tratamientos ( o

    que i = 0). Por simplicidad, en los prximos desarrollo consideraremos el casoequilibrado, el desequilibrado sera anlogo.

    El valor esperado de la suma de cuadrados del tratamiento es

    ( ) ( )E SS = a -1 + nTratamientos2

    i=1

    i

    a

    2

    La demostracin de esta expresin es fcil. Tomando la esperanza de SS Tratamientos

    ( ) ( )E SS = E n yTratamientos ii=1

    . ..

    ya 2

    Del modelo Yij i ij= + + tenemos que

    Y

    y

    Y

    i i i = + +

    = +

    .. ..

    Suma de cuadrados total

    Suma de cuadrados del error

    Suma de cuadrados de los tratamientos

  • 7/26/2019 Tema 2 Anova

    8/18

    Tema 2. El anlisis de la varianza

    8

    ya que ii

    a

    =

    =1

    0 . Sustituyendo Yi . e Y. . en la expresin para SSTratamientos

    ( ) ( )E SS = E n E nTratamientosi=1 i=1

    i i

    a

    i i

    i

    aa

    i i

    i

    a

    i i

    i

    a

    i

    a

    n an n n n+

    = + + +

    =

    = ==

    .. . .. .. .. .2

    2 2

    1

    2

    1 11

    2 2 2

    Como los ij son variables aleatorias independientes con media cero y varianza 2,

    tenemos que

    ( ) ( ) ( )En

    Ean

    Ei i

    = = =2

    22

    2

    0, .. (Teniendo en cuenta que V(x)=E[x2]+E

    2[x] )

    De modo que,

    ( ) ( ) ==

    +=+++=a

    i

    i

    a

    i

    iosTratamient naanSSE1

    22222

    1

    21200

    Ahora, si la hiptesis nula de la Ec.4 es verdadera, cada ies igual a cero y

    ESS

    a

    Tratamientos

    =

    1

    2

    Si la hiptesis alternativa es cierta, entonces

    ESS

    a

    n

    a

    Tratamientos

    i

    i

    a

    = +

    =

    1 1

    2

    2

    2

    El cociente MSTratamientos=SSTratamientos /(a-1) se llama cuadrado medio para los

    tratamientos. As, si H0 es verdadero, MSTratamientos es un estimador insesgado de 2

    ,mientras que si H1 es verdadero, MSTratamientosestima 2 ms un trmino positivo que

    incorpora la variacin debido a diferencias sistemticas en las medias de los

    tratamientos.

    Siguiendo un procedimiento similar, se puede demostrar que el valor esperado de la

    suma de cuadrados del error es E(SSE)=a(n-1) 2. Por tanto, el error cuadrtico medio

    MSE=SSE/a(n-1) es un estimador insesgado de 2, independientemente de si H0es o no

    verdad.

    Tambin hay una divisin del n de grados de libertad que corresponden a la suma de

    cuadrados de la identidad de la Ec.5. Hay un total de an = N observaciones; de modo

    que SSTtiene an - 1 grados de libertad. Hay aniveles del factor, por lo que SSTratamientostiene a- 1 grados de libertad. Finalmente, dentro de cualquier tratamiento hay n replicas

    proporcionando n - 1 grados de libertad con los que estimar el error experimental. Como

    hay atratamientos, tenemos a(n - 1) grados de libertad para el error. Por consiguiente, la

    divisin de los grados de libertad es an - 1= a - 1 + a(n - 1).

    Asumamos ahora que cada una de las a poblaciones puede ser moldeada como una

    distribucin normal. En este caso, si la hiptesis nula H0es verdadera, el estadstico

    ( )

    ( )[ ]F

    SS a

    SS a n

    MS

    MS

    Tratamientos

    E

    Tratamientos

    E

    0

    1

    1=

    =

    /

    / Ec.8

    tiene una distribucin F con a - 1 y a(n - 1) grados de libertad. Adems, sabemos queMSEes un estimador insesgado de

    2. Tambin, bajo la hiptesis nula, MSTratamientoses

  • 7/26/2019 Tema 2 Anova

    9/18

    Tema 2. El anlisis de la varianza

    9

    un estimador insesgado de 2. Sin embargo, si la hiptesis nula es falsa, entonces el

    valor esperado para MSTratamientoses mayor que 2. Cmo, bajo la hiptesis alternativa,

    el valor esperado del numerador del estadstico (Ec.8) es mayor que el valor esperado

    del denominador debemos rechazar H0 si el estadstico es grande. Esto implica una

    regin crtica de una cola. Por tanto, rechazaremos la H0si 0> ( ) , ,a a n1 1 donde 0se

    calcula de la Ec.8.

    Los clculos para estos procedimientos de anlisis se resumen de forma tabular como se

    muestra en la Tabla.3.

    Tabla.3 Anlisis de la varianza para una variable

    Fuente de

    variacin

    Suma de

    cuadrados

    Grados de

    libertad

    Cuadrado

    medio

    F0

    Tratamientos SSTratamientos a - 1 MSTratamientos MS

    MS

    Tratamientos

    E

    Error SSE a(n - 1) MSETotal SST an - 1

    Ejemplo 3

    Un fabricante de papel para bolsas est interesado en aumentar la resistencia a la

    traccin del producto. El ingeniero de fabricacin piensa que la resistencia depende de

    la concentracin de madera en bruto en la pulpa y que el rango de concentraciones de

    inters est entre el 5 y el 20%. Se encarga a un equipo de ingenieros efectuar un

    estudio. Este equipo decide investigar cuatro niveles de concentracin: 5%, 10%, 15% y

    20%. Deciden analizar seis muestras de cada nivel de concentracin. Las 24 muestras seensayan utilizando un extensmetro piezoelctrico en un laboratorio, siguiendo un

    orden aleatorio. En la tabla siguiente se recogen los resultados de las pruebas

    Concentracin

    %

    Observaciones

    1 2 3 4 5 6

    Medias

    5

    10

    15

    20

    7

    12

    14

    19

    8

    17

    18

    25

    15

    13

    19

    22

    11

    18

    17

    23

    9

    19

    16

    18

    10

    15

    18

    20

    10

    15.67

    17

    21.17

    15.96

    El papel de la aleatorizacin en este experimento es muy importante. Aleatorizando el

    orden de las 24 pruebas se anula el efecto que pudiera tener alguna variable de ruido en

    la prueba de traccin. Por ejemplo, supongamos que en la mquina de traccin se crea

    un efecto de recalentamiento, de modo que se obtiene mayores tensiones con el aumento

    de la temperatura. Si se ensayaran las muestras por orden creciente de concentracin,

    tendramos que las diferencias entre concentraciones tambin incluiran el efecto de la

    temperatura.

  • 7/26/2019 Tema 2 Anova

    10/18

    Tema 2. El anlisis de la varianza

    10

    La tabla del anlisis de la varianza para el experimento de la resistencia del papel,

    muestra que podemos rechazar la hiptesis nula y concluir que la concentracin de

    madera en bruto en la pulpa afecta significativamente a la resistencia del papel.

    Anlisis de residuos

    El mtodo del Anlisis de la Varianza asume que las observaciones son normales e

    independientemente distribuidas con la misma varianza para cada tratamiento o nivel de

    factor. Estas asumciones se deberan comprobar examinando los residuos. Un residuo es

    la diferencia entre una observacin yij y su valor estimado a partir del modelo

    estadstico que esta siendo estudiado, $y ij . Para el diseo completamente aleatorio $ .yij=yi

    y cada residuo es e =yij ij yi., es decir, la diferencia entre una observacin y la media

    observada del correspondiente tratamiento. Los residuos contienen informacin acerca

    de la variabilidad inexplicada.

    La hiptesis de normalidad se puede comprobar construyendo un diagrama de

    probabilidades normales de los residuos. Para comprobar la asumcin de igualdad de

    varianzas, se pueden dibujar los residuos frente a los niveles de factor y comparar la

    dispersin de los residuos. Tambin es til dibujar los residuos frente a y i . ; la

    variabilidad de los residuos no debe depender en ninguna manera del valor de y i . .Lapresencia de algn patrn en estos diagramas, sugiere normalmente la necesidad de una

    transformacin, es decir, analizar los datos en una mtrica diferente. Por ejemplo, si la

    variabilidad en los residuos aumenta con y i . , entonces se puede considerar una

    transformacin como log y o y . En algunos problemas, la relacin de los residuos con

    la media observada y i . es una informacin muy importante. Puede que sea deseable

    seleccionar el nivel que resulta en una respuesta mxima; sin embargo, este nivel puede

    tambin causar mas variacin en la respuesta .

    La asumcin de independencia puede ser comprobada dibujando los residuos frente al

    tiempo u orden en que el experimento fue realizado. Un patrn en este grfico, tal como

    secuencias de residuos positivas y negativas, indica que las observaciones no son

    independientes. Esto sugiere que el tiempo u orden es importante u otras variables que

    cambian a travs del tiempo y no han sido incluidas en el diseo del experimento.

    En el ejemplo que estamos considerando estos grficos no muestran ninguna desviacin

    considerable respecto a las hiptesis asumidas.

    En temas posteriores abordaremos el estudio de los residuos con mayor profundidad.

    3. ANLISIS DE LA VARIANZA CON VARIAS VARIABLES

    El mtodo que hemos desarrollado para una sola variable o factor se puede

    generalizar para dos o ms variables. Sin prdida de generalidad, y para facilitar la

    comprensin, consideraremos el caso de dos variables. Para ms variables el

    AN LISIS DE VARIANZA

    Origen de las

    variaciones

    Suma de

    cuadrados

    Grados de

    libertad

    Promedio de los

    cuadrados F Probabilidad

    Valor

    crtico

    para F

    Entre grupos 382,7916667 3 127,5972222 19,60521 3,59258E-06 3,098391Dentro de los grupos 130,1666667 20 6,508333333

    Total 512,9583333 23

  • 7/26/2019 Tema 2 Anova

    11/18

    Tema 2. El anlisis de la varianza

    11

    procedimiento sera anlogo. Cuando tenemos varias variables en el caso desequilibrado

    la descomposicin bsica del anlisis de la varianza no se cumple, por lo que este caso

    requiere un desarrollo especifico.

    3.1 Anlisis de la varianza para caso de grupos equilibrados

    Sean A y B dos variables. En este modelo, se definen los efectos i,j , y ()ij,como desviaciones de la media, de modo que

    ( ) ( ) i j iji

    a

    j

    b

    i

    a

    ijj

    b

    y= = = ==== =

    0 0 0 0111 1

    ; ;

    El anlisis de la varianza se utiliza para analizar la hiptesis acerca de los efectos

    de las variables A y B y su interaccin AB. Se dice que dos variables interactan

    cuando el efecto de una de ellas difiere a diferentes niveles de la otra variable. Esto es,

    que el efecto de la variable A para un nivel de la B no es el mismoque para otro nivel de

    la variable B. Cuando una interaccin es significativa, las variables implicadas en la

    interaccin son importantes incluso si su efecto principal no lo fuera.

    Para presentar el anlisis de la varianza con detalle, necesitaremos algunos

    smbolos: y... indica el total de todas las observaciones. Definimos y y y e yi j ij.. , . . , . . . .

    como las correspondientes medias de las fila, columna, y media total. Es decir,

    y y yy

    bni a

    y y yy

    anj b

    y y yy

    n

    i a

    j b

    y y yy

    abn

    i ijk

    k

    n

    j

    b

    ii

    j ijk

    k

    n

    i

    a

    ii

    ij ijk

    k

    n

    ij

    ij

    ijk

    k

    n

    j

    b

    i

    a

    . . . ...

    , , . .. ,

    . . . .. .

    , , .. . ,

    . .. , , ... ,

    , , . .. ,

    ... . .....

    = = =

    = = =

    = ==

    =

    = =

    ==

    ==

    =

    ===

    11

    11

    1

    111

    1 2

    1 2

    1 2

    1 2

    La hiptesis que queremos analizar son las siguientes:

    1. H0: 1= 2= .... = a= 0 (no hay efecto principal de la variable A)

    H1: al menos un i0

    2. H0: 1= 2= .... = a= 0 (no hay efecto principal de la variable B)H1: al menos un i0

    3. H0: ()11= ()12= .... = ()ab= 0 (no hay interaccin)

    H1: al menos un ()ij0

    El anlisis de la varianza contrasta estas hiptesis mediante la descomposicin de

    la variabilidad total de los datos en partes y comparando los diversos elementos de esta

    descomposicin. La variabilidad total de las observaciones se mide mediante

    ( )SS y yT ijk

    k

    n

    j

    b

    i

    a

    = === ...2

    111 y la descomposicin es la siguiente:

  • 7/26/2019 Tema 2 Anova

    12/18

    Tema 2. El anlisis de la varianza

    12

    ( ) ( ) ( ) ( )

    ( )

    = = =

    = ==== = =

    +

    +++==

    a

    i

    b

    j

    n

    k

    ijijk

    a

    i

    b

    j

    jiij

    b

    j

    j

    a

    i

    i

    a

    i

    b

    j

    n

    k

    ijkT

    yy

    yyyynyyanyybnyySS

    1 1 1

    2

    1 1

    2

    1

    2

    1

    2

    1 1 1

    2

    .

    .....................

    Ec.9Se prueba la identidad de esta suma de cuadrados escribiendo la suma total de

    cuadrados como

    ( ) ( ) ( ) ( ) ( )[ ]

    ( ) ( ) ( )

    ( ) cruzadoproductodeosteryy

    yyyynyyanyybn

    yyyyyyyyyyyy

    a

    i

    b

    j

    n

    k

    ijijk

    a

    i

    b

    j

    jiij

    a

    i

    j

    a

    i

    i

    a

    i

    b

    j

    n

    k

    ijijkjiijji

    a

    i

    b

    j

    n

    k

    ijk

    min6.

    ..................

    ......................

    1 1 1

    2

    1 1

    2

    1

    2

    1

    2

    2

    1 1 11 1 1

    2

    ++

    +++=

    =++++=

    = = =

    = ===

    = = == = =

    Debido a que todos los trminos de productos cruzados son cero, esta ltima ecuacin

    se reduce a la ecuacin (identidad) de la suma de cuadrados dada en la Ec.9. La suma

    total de cuadrados se divide en una suma de cuadrados debida a la variable A (SSA), una

    suma de cuadrados debida a la variable B (SSB), y a una suma de cuadrados debida al

    error (SSE). Debe haber al menos dos rplicas para obtener una suma de cuadrados del

    error diferente de cero. La identidad de la suma de cuadrados se escribe simblicamente

    como:

    SS SS SS SS SST A B AB E= + + + Ec.10

    Existen abn - 1 grados de libertad totales. Los efectos principales A y B tienen a -

    1 y b - 1 grados de libertad, mientras que el efecto de la interaccin AB tiene (a - 1)(b -

    1) grados de libertad. Dentro de cada celda ab de la tabla.3, hay n - 1 grados de libertadentre las n rplicas, y las observaciones en las mismas casillas difieren solamente debido

    al error aleatorio. Adems, hay ab(n - 1) grados de libertad para el error. As pues, los

    grados de libertad se dividen de la siguiente forma:

    abn - 1 = (a - 1) + (b - 1) + (a - 1) (b - 1) + ab(n - 1)

    Si dividimos cada una de las sumas de cuadrados de la parte derecha de la Ec.10

    por su correspondiente n de grados de libertad, obtendremos los cuadrados medios para

    A, B, la interaccin, y el error:

    ( )( ) ( )

    MS MS

    MS MS

    A B

    AB E

    =

    =

    =

    =

    SS

    a

    SS

    b

    SS

    a b

    SS

    ab n

    A B

    AB E

    1 1

    1 1 1

    No es difcil comprobar que los valores esperados de estos cuadrados medios son

    los que se muestran a continuacin:

  • 7/26/2019 Tema 2 Anova

    13/18

    Tema 2. El anlisis de la varianza

    13

    ( )

    ( )

    ( )( )( )

    ( )

    ( )( )

    ( )( )

    E MS

    E MS

    E MS

    E MS

    A

    B

    AB

    E

    =

    = +

    =

    = +

    =

    = +

    =

    =

    =

    =

    =

    ESSa

    bn

    a

    E

    SS

    b

    an

    b

    ESS

    a b

    n

    a b

    ESS

    ab n

    Ai

    i

    a

    Bj

    j

    b

    ABij

    j

    b

    i

    a

    E

    1 1

    1 1

    1 1 1 1

    1

    2

    2

    1

    2

    2

    1

    2

    2

    11

    2

    Del examen de estos cuadrados medios esperados, es claro que si las hiptesis

    nulas sobre los efectos principales H0 : i= 0, H0 : i= 0, y sobre la interaccin H0:

    ()ij= 0 son ciertas, los cuatro cuadrados medios son estimadores insesgados de 2.

    Para contrastar que los efectos del factor A son todos igual a cero, debemos

    utilizar el estadstico

    FMSMS

    A

    E0=

    que tiene una distribucin F con a -1 y ab(n - 1) grados de libertad si H0 : i = 0 es

    verdad. Esta hiptesis nula se rechaza al nivel de significacin si 0 > ,a-1,ab(n-1).Anlogamente para la variable B. Finalmente para analizar la hiptesis de que todos los

    efectos de las interacciones son cero, H0: ()ij= 0, utilizamos el estadstico

    F

    MS

    MSAB

    E0=

    que tiene una distribucin F con (a - 1)(b - 1) y ab(n - 1) grados de libertad si la

    hiptesis nula H0: ()ij= 0. Esta hiptesis nula se rechaza al nivel de significacin si

    0> ,(a-1)(b-1),ab(n-1) .

    Normalmente, es mejor efectuar primero el anlisis para la interaccin y evaluar

    entonces los efectos principales. Si la interaccin no es significativa, la interpretacin de

    los contrastes de los efectos principales es inmediata. Cuando la interaccin es

    significativa los efectos principales de los factores pueden no tener ningn valor a

    efectos prcticos.

  • 7/26/2019 Tema 2 Anova

    14/18

    Tema 2. El anlisis de la varianza

    14

    La tabla del anlisis de la varianza presenta el siguiente formato,

    Tabla.4 Tabla del anlisis de la varianza para un factorial de dos factores, Modelo de efectos fijos.

    Tipos de

    variacin

    Suma de

    cuadrados

    Grados de

    libertad

    Cuadrado medio F0

    Tratamiento A SSA a - 1

    MS =

    SS

    a -1AA

    MS

    MS

    A

    E

    Tratamiento B SSB b - 1MS =

    SS

    b -1B

    B MS

    MS

    B

    E

    Interaccin SSAB (a - 1)( b - 1)

    ( )(MS =

    SS

    a -1 bAB

    AB

    MS

    MS

    AB

    E

    Error SSE ab(n - 1)

    ( )MS =

    SS

    n -1E

    E

    ab

    Total SST abn - 1

    Ejemplo 4

    Un ingeniero est diseando una batera para su uso en un dispositivo que ser sometido

    a ciertas variaciones extremas de temperaturas. El nico parmetro de diseo que l

    puede seleccionar en este momento es el material de recubrimiento de la batera, y tiene

    tres alternativas. Cuando el dispositivo se fabrique y se encuentre en uso, el ingeniero

    no tendr control sobre los extremos de temperatura a que ser expuesto el dispositivo,

    y sabe por experiencia que es probable que la temperatura influya en la duracin

    efectiva de la batera. Sin embargo, s es posible controlar la temperatura en el

    laboratorio de desarrollo de productos para los fines del ensayo.

    El ingeniero decide probar los tres materiales de recubrimiento a tres niveles de

    temperatura (15, 70 y 125 C). Se prueban cuatro bateras con cada combinacin de

    material y temperatura. Las 36 pruebas se ejecutan al azar. En la tabla siguiente se

    presentan los datos resultantes de la duracin observada de las bateras.

    tipo de material Temperatura

    15 70 150

    1 130 155

    74 180

    34 40

    80 75

    20 70

    82 582 150 188

    159 126

    136 122

    106 115

    25 70

    58 45

    3 138 110

    168 160

    174 120

    150 139

    96 104

    82 60

    En este problema el ingeniero desea contestar las siguientes preguntas:

    1. Qu efecto tiene el tipo de material y la temperatura sobre la duracin de la batera?

    2. Existe un material que d por resultado una duracin uniformemente larga sin

    importar la temperatura?

    Esta ltima pregunta reviste particular importancia. Existe la posibilidad de hallar unmaterial que no se vea muy afectado por la temperatura. De ser as, el ingeniero puede

  • 7/26/2019 Tema 2 Anova

    15/18

  • 7/26/2019 Tema 2 Anova

    16/18

    Tema 2. El anlisis de la varianza

    16

    ( ) ( ) ( ) ( )

    ( ) PC

    a

    i

    b

    j

    n

    k

    ijijk

    a

    i

    b

    j

    jiijij

    b

    j

    jj

    a

    i

    ii

    a

    i

    b

    j

    n

    k

    ijkT

    Syy

    yyyynyynyynyySS

    ij

    ij

    ++

    +++==

    = = =

    = ==== = =

    1 1 1

    2

    1 1

    2

    1

    2

    .

    1

    2

    .

    1 1 1

    2

    .

    .....................

    Y simblicamente, escribiremos:

    SST=SSA+SSB+SSAB+SSE+SPC

    Por tanto, el procedimiento de clculo es similar al caso equilibrado, salvo que por una

    parte hay que considerar el tamao de cada grupo y por otra que el trmino debido al

    error dentro de los grupos lo calcularemos explcitamente, no siendo en este caso de

    inters el clculo de la suma de cuadrados total ni la suma de los productos cruzados

    (esta suma puede dar tambin valores negativos).

    Ejemplo 5.

    Un ingeniero de fabricacin est estudiando la durabilidad de dos tipos de materiales a

    diferentes temperaturas. Algunos de los ensayos realizados han sido defectuosos y no se

    pueden incluir en el anlisis por lo que los tamaos de los subgrupos a analizar son 2, 3

    y 4.

    15 25 452 9 11 12 14

    10 12 13 1515 18 17 15

    3 16 1517 16

    Calculamos la suma de cuadrados correspondientes a los variables, su interaccin y al

    error.

    Fuente SS gl CM Fo FtMaterial 68,0625 1 68,0625 46,40625 4,9646027Temp 3,20416667 2 1,60208333 1,09232955 4,10282102MaterialxTemp 15,4291667 2 7,71458333 5,25994318 4,10282102Error 14,6667 10 1,46666667

  • 7/26/2019 Tema 2 Anova

    17/18

    Tema 2. El anlisis de la varianza

    17

    EjerciciosEjercicio1

    Las 20 observaciones siguientes se refieren a la diferencia de peso en cientos de gramos

    de un azulejo cocido con cinco tratamientos diferentes.

    Analizad el efecto del tratamiento con un nivel de significacin del 0.05

    Ejercicio 2

    Se ha medido el tamao de los azulejos a la salida del horno segn la posicin por la

    que avanzaban. Para cada una de las posiciones se han tomado tres muestras.

    Construye la tabla del ANOVA. Existe diferencia significativa entre las posiciones?

    Ejercicio 3

    Se compara la habilidad de cuatro laboratorios para realizar una prueba. Se preparan 20

    muestras de un mismo lote y se envan de forma aleatoria 5 a cada laboratorio. Se trata

    de medir el porcentaje de potasio disuelto.

    Analizad el efecto del laboratorio con un nivel de significacin de 0.05

    Ejercicio 4

    Los datos de la siguiente tabla son la desviacin en gramos de cinco tipos de piezas, las

    piezas del tipo 1,2 3 fueron cocidas en el horno d en dos turnos diferentes, y las piezas 4

    y 5 fueron producidas en el horno e en dos turnos distintos.

    Subgrupo 1 2 3 4 5 6 7 8 9 10Turno a a a a a b b b b bPieza 1 2 3 4 5 1 2 3 4 5Horno d d d e e d d d e e

    Valores 20 20 25 50 45 20 15 15 45 3515 25 25 50 40 20 10 10 20 40

    subgrupo 1 2 3 4 525 31 25 34 2526 33 23 27 2423 28 22 30 2727 36 26 32 29

    Lab A B C D55,9 58,7 60,7 62,756,1 61,4 60,3 64,557,3 60,9 60,9 63,155,2 59,1 61,4 59,258,1 58,2 62,3 60,3

  • 7/26/2019 Tema 2 Anova

    18/18

    Tema 2. El anlisis de la varianza

    18

    Estudiad el efecto del turno y del tipo de pieza con un nivel de significacin de 0.05

    Ejercicio 5

    Estudiad el efecto de un factor con cinco niveles de los que se disponen las siguientes

    mediciones (ANOVA):

    1 2 3 4 5250 310 250 340 250260 330 230 270 240

    280 300 270360 290

    Ejercicio 6 (tres factores)

    Un Ingeniero de Fabricacin est estudiando la rugosidad superficial de una pieza

    obtenida mediante una operacin de cilindrado en un torno. Se consideran de inters lavelocidad de avance (A), la profundidad de pasada (B) y el ngulo de desprendimiento

    (C). Se asignan a todos los factores dos niveles y se mecanizan dos rplicas.

    Profundidad de pasada (B)

    0.2 mm 0.4 mm

    Angulo de desprendimiento Angulo de desprendimiento

    Avance 15 25 15 25

    2 mm/s 9

    7

    11

    10

    9

    11

    10

    8

    3 mm/s 10

    12

    10

    13

    12

    15

    16

    14