ANALISIS VARIANZA 2009

74
1 ANALISIS DE LA VARIANZA 1.0 Introducción El análisis de la varianza se utiliza para probar las diferencias entre diversas medias. Se supone que las diversas medias muestrales se obtienen a partir de poblaciones con distribución normal y con la misma varianza. Como la hipótesis nula consiste en que las medias poblacionales son iguales, la suposición de igualdad de varianzas (homogeneidad de la varianza), también implica que, para propósitos prácticos, la prueba se ocupa de la hipótesis de que las medias provienen de la misma población Las hipótesis son: k H µ µ µ µ = = = = ... : 3 2 1 0 k H µ µ µ µ ,..., , , : 3 2 1 No son todas iguales El análisis de la varianza ANOVA (Análisis of Variance) permite contrastar simultáneamente la igualdad de las k medias µ 1 ,...,µ κ o que supone una gran ventaja para reducir las operaciones y los posibles errores acumulativos que cometeríamos realizando contrastes para todas las parejas posibles de medias con el modelo de la “t” de Student. La terminología empleada será la siguiente: - Factor es cada una de las causas que influyen en la heterogeneidad de las poblaciones. Ejemplo 0: El uso de analgésicos en el bienestar de unos enfermos. Si hay un solo factor lo representamos por A. - Tratamiento o niveles del factor son cada uno de los valores posibles del factor A, y los representamos por A i para i = 1,…, k. En el ejemplo 0, los tratamientos serían las distintas marcas de analgésicos. Las variables poblacionales están asociadas a los conjuntos (grupos) de valores que se obtienen aplicando los tratamientos A i . Por ello podemos hablar de variables de tratamiento o grupos de tratamiento. Nótese que la media del tratamiento A i es µ ι El análisis de la varianza supone mantener la independencia de las variables de tratamiento

Transcript of ANALISIS VARIANZA 2009

Page 1: ANALISIS  VARIANZA 2009

1ANALISIS DE LA VARIANZA

1.0 Introducción El análisis de la varianza se utiliza para probar las diferencias entre diversas medias. Se supone que las diversas medias muestrales se obtienen a partir de poblaciones con distribución normal y con la misma varianza. Como la hipótesis nula consiste en que las medias poblacionales son iguales, la suposición de igualdad de varianzas (homogeneidad de la varianza), también implica que, para propósitos prácticos, la prueba se ocupa de la hipótesis de que las medias provienen de la misma población Las hipótesis son:

kH µµµµ ==== ...: 3210

kH µµµµ ,...,,,: 321 No son todas iguales El análisis de la varianza ANOVA (Análisis of Variance) permite contrastar

simultáneamente la igualdad de las k medias µ1,...,µκ o que supone una gran ventaja para reducir las operaciones y los posibles errores acumulativos que cometeríamos realizando contrastes para todas las parejas posibles de medias con el modelo de la “t” de Student. La terminología empleada será la siguiente: - Factor es cada una de las causas que influyen en la heterogeneidad de las poblaciones. Ejemplo 0: El uso de analgésicos en el bienestar de unos enfermos. Si hay un solo factor lo representamos por A. - Tratamiento o niveles del factor son cada uno de los valores posibles del factor A, y los representamos por A i para i = 1,…, k. En el ejemplo 0, los tratamientos serían las distintas marcas de analgésicos. Las variables poblacionales están asociadas a los conjuntos (grupos) de valores que se obtienen aplicando los tratamientos A i. Por ello podemos hablar de variables de

tratamiento o grupos de tratamiento. Nótese que la media del tratamiento A i es µ ι El análisis de la varianza supone mantener la independencia de las variables de tratamiento

Page 2: ANALISIS  VARIANZA 2009

2- Efectos son la medida de la influencia del factor en la heterogeneidad.

Concretamente el efecto αι es la medida de la influencia del tratamiento Ai del factor A

en la heterogeneidad. Esto es αi sería la diferencia que la media µι del tratamiento A i

presenta respecto a la media general µ de todos los tratamientos:

αι = µι − µ - Error muestral (o residuo) es el error debido a la aleatoriedad muestral, es decir a que sea ese elemento y no otro el observado. Por tanto, será la diferencia que el elemento muestral presenta respecto a la media de la población de la que proceda:

,ij ij ix ijε µ= − ∀ Siendo xij el elemento muestral j-ésimo del la población i-ésima La técnica del análisis de la varianza se inicia descomponiendo la varianza total de las observaciones xij como la media de la heterogeneidad total. Esta descomposición la hacemos teniendo encuenta que si los tratamientos Ai fueran homogéneos y la aleatoriedad muestral no produjera heterogeneidad, las observaciones xij serían homogéneas y la varianza de las xij sería cero. Ahora bien, sí la varianza de los elementos xij no es cero, es porque no son homogéneos los elementos xij lo que significa que hay una posible heterogeneidad de las poblaciones de las que proceden; o bien la causa de la heterogeneidad es la aleatoriedad muestral. Por ello descomponemos la varianza total de los xij en una suma de diferencias al cuadrado en dos términos

1) Suma de cuadrados que mide la heterogeneidad debida a la influencia de los tratamientos o variabilidad explicada por el factor

2) Suma de cuadrados que mide la heterogeneidad debida al error muestral, es

decir, la variabilidad no explicada por el factor o residual. Conviene aclarar que la variable independiente (cualitativa) es el factor con k niveles independientes, es decir los tratamientos Ai, que el caso del ANOVA actúa sobre una variable dependiente (cuantitativa).

Page 3: ANALISIS  VARIANZA 2009

3En el ejemplo 0: - el factor será el uso de analgésicos - los tratamientos o niveles del factor son las distintas marcas de analgésicos - y las variables los valores que sobre la variable dependiente, o variable respuesta, se obtienen aplicando los tratamientos. Si tenemos una sola variable respuesta trabajaremos con un ANOVA. En ejemplo 0 la variable respuesta sería el número de horas de bienestar de los enfermos a los que se han aplicado los tratamientos Ai. Esta variable se concreta para los tratamientos Ai (i = 1,…,k) en las variables. Si tenemos dos o más variables respuestas utilizaremos la técnica MANOVA (multivariante Análisis of Variance). En este caso queremos medir varias variables dependientes en cada unidad experimental, por ejemplo, si al aplicar los tratamientos analgésicos nos interesa medir el número de horas de bienestar de los enfermos con esos tratamientos y el número de horas de sueño. En la tabla siguiente recogemos todas las variables dependientes con cada tratamiento.

Variables dependientes Niveles del factor 1............... pε ε

A1 11 1.......... pε ε Ai 1..........i ipε ε

Ak 1..........k kpε ε

En caso de tener una variable dependiente 1ε , las variables 11 1,..., ,...,l klε ε ε que corresponden a las respuestas de la variable dependiente con cada uno de los

tratamientos equivalen a las 1,..., kε ε . Estas variables son independientes entre sí puesto que los tratamientos lo son. Con esta notación, una observación muestral sería: xijr = observación muestral j-ésima de la población (o grupo de tratamiento) i-ésima para la variable dependiente r-ésima. Estas variables dependientes se suponen relacionadas entre sí, pues, si no es así, no habría interés en aplicar un análisis multivariado, sino un análisis univariante de la varianza para cada una de las variables estudiadas. Siempre hay que tener en cuenta los supuestos de partida que han de cumplirse para aplicar correctamente el ANOVA. Estos supuestos son:

Page 4: ANALISIS  VARIANZA 2009

41) Normalidad de las poblaciones, que probaremos con el test de Kolmogorov –

Smirnov u otra prueba. Sin embargo, la falta de normalidad de las observaciones, si las poblaciones son normales las observaciones también lo son, no tiene consecuencia graves en el contraste de la F si el tamaño de la muestra es suficiente grande (teorema del limite central). En este sentido podemos decir que el ANOVA es una técnica robusta frente a las desviaciones de la normalidad.

2) Independencia de las observaciones muestrales. Esta condición debe

asegurarse inicialmente en la recogida de la información. Si no se cumpliera este supuesto las consecuencias pueden ser muy graves ya que las distribuciones muestrales de los estadísticos no serían correctas. Se consigue mayor aleatoriedad transformando los datos mediante el logaritmo y haciendo el ANOVA con los datos transformados.

3) Homocedasticidad, esto es, las varianzas poblaciones han de ser homogéneas.

Se contrasta con cualquier test de igualdad de varianzas, por ejemplo Bartlett, Cochran, Harley o Levene

La falta de normalidad o heterocedasticidad (que suelen ir asociadas) se corrige aplicando una transformación conveniente. Uno de los casos más comunes de heterocedasticidad es cuando la varianza crece con la media. En estos casos las transformaciones más utilizadas para estabilizar las varianzas son el logaritmo y la función inversa. Posteriormente, se repetirá el análisis con los datos transformados y las conclusiones del análisis se referirían a los nuevos datos Con este supuesto ocurre como con el de normalidad, que si no se cumple no tiene consecuencias graves, pues al aplicar el test de la F el que es robusto frente a la heterogeneidad. “Si todos los grupos tienen el mismo número de observaciones, el contraste de la F es igualmente exacto. El efecto de varianzas desiguales en los grupos depende de la heterogeneidad entre el número de observaciones de cada grupo”. Por tanto, conviene utilizar muestras del mismo tamaño (o aproximadamente iguales), sobre todo cuando hay diferencias grandes entre las varianzas.

Page 5: ANALISIS  VARIANZA 2009

52.0 Razonamiento conceptual 1) Se debe calcular la media para cada grupo muestral, y después determinar el error estándar de la media xS con base sólo en las diversas medias muestrales 2) Se sabe que:

22 · xx SnS

nSS =⇒=

Esto es, el error estándar de la media. Puede utilizarse para estimar la varianza de la población. A esta estimación de la varianza poblacional se le denomina: Cuadrado medio entre tratamientos y se denotará por CMET 3) Calcular la varianza de cada grupo muestral por separado con respecto a la media de cada uno. Después se combinan estas varianzas ponderándolas con (n –1) correspondiente a cada muestra. La estimación resultante de la varianza poblacional se denomina: Cuadrado medio del error y se denota por CME y se basa sólo en las diferencias intergrupales. La nueva cuenta, se le denomina Cuadrado medio. Por que es una estimación de varianza. Se le denomina Error por que las desviaciones dentro de cada uno de los grupos muestrales pueden deberse solamente a errores de muestreo aleatorio, y no pueden deberse a diferencias entre medias de los diferentes grupos de la población 4) Si la hipótesis nula kH µµµµ ==== ...: 3210 es cierta, entonces, se sigue que cada uno de los dos cuadrados medios que se obtienen en (2) y (3) son un

estimador insesgado e independiente de la misma varianza poblacional σ2. Sin embargo, si la hipótesis nula es falsa, entonces el valor esperado del cuadrado medio entre tratamientos CMET es mayor que el cuadrado medio del error CME > CMET CME En esencia, cualquiera diferencia entre las medias poblacionales, incrementarían el cuadrado medio entre tratamiento CMET, al tiempo que no tendrían ningún efecto

Page 6: ANALISIS  VARIANZA 2009

6sobre el cuadrado medio del error CME, que se basa sólo en las diferencias intergrupales. 5) Se puede utilizar la distribución F para probar la diferencia entre las dos varianzas. Se trata de una prueba de un solo extremo, y la forma general de la prueba F en análisis de varianza es

CMECMETF glgl =2,1

Si el cuociente F se encuentra en la región de rechazo para el nivel de significancia especificado, entonces, se rechaza la hipótesis nula de que las diversas medias muestrales provienen de la misma población Ejemplo 1: 15 estudiantes son asignados aleatoriamente a tres métodos de instrucción. En la tabla siguiente se presentan las calificaciones al término de la unidad de instrucción. Probar la hipótesis nula de que las tres medias muestrales se obtienen de la misma población, Utilizando α = 0,05

Métodos de instrucción

Calificaciones de las pruebas

A1 86 79 81 70 84 A2 90 76 88 82 89 A3 82 68 73 71 81

Solución:

3210 : µµµ ==H

3211 ,,: µµµH No todas iguales

Métodos de instrucción

Calificaciones de las pruebas

CalificacionesTotales

Calificaciones promedio

A1 86 79 81 70 84 400 80 A2 90 76 88 82 89 425 85 A3 82 68 73 71 81 375 75

1200=∑

Page 7: ANALISIS  VARIANZA 2009

71) La media global de las 15 calificaciones es:

8015

120015

8171...7986==

++++=TX

El error estándar de las medias, con base en las tres medias es:

( ) ( ) ( ) ( )2

2 2 280 80 85 80 75 805,0

1 3 1T

X

X XS

n

− − + − + −= = =

− −∑

Donde n es el número de medias (métodos de instrucción) 2) Se sabe que S2 = CMET (Cuadrado medio entre tratamientos)

( )22· 5· 5 125XCMET n S= = = 3) Cálculo del cuadrado medio del error: CME

Como ( )

1

2

2

−= ∑

nxx

S

Entonces la varianza para cada método de instrucción es:

Page 8: ANALISIS  VARIANZA 2009

82 2 2 2 2

21

2 2 2 2 22

2

2 2 2 2 22

3

(86 80) (79 80) (81 80) (70 80) (84 80) 38,55 1

(90 85) (76 85) (88 85) (85 85) (89 85) 35,05 1

(82 75) (68 75) (73 75) (71 75) (81 75) 38,55 1

S

S

S

− + − + − + − + −= =

− + − + − + − + −= =

− + − + − + − + −= =

Entonces, el cuadrado medio del error (CME) es:

3,373555

5,38·435·45,38·43

)1()1()1(

321

233

222

211 =

−++++

=−++

−+−+−=

nnnSnSnSn

CME

4) Como CMET > CME (125 > 37,3) resulta apropiada la prueba de H0 La estadística de prueba es:

, 1, ·p k k n kF − − Donde: k = 3 (métodos instrucción, nº de filas) n = 5 (nº calificaciones por método) Por lo tanto: F .95, (3-1), (3·5-3) = 3,89 Valor crítico

5) .125 3,3537,3Obs

CMETF FCME

= ⇒ = =

Page 9: ANALISIS  VARIANZA 2009

9Por lo tanto, como F observado no es mayor que el valor crítico no es posible rechazar H0, es decir, no se puede rechazar que las calificaciones promedio para los tres métodos de instrucción de la población son iguales entre sí 3.0 Análisis de la varianza con un factor e información completamente aleatoria: Modelos I y II 3.1 Modelo I: Anova de un factor, completamente aleatorio y efectos fijos En el ANOVA con un factor tenemos una variable dependiente cuantitativa, en ejemplo 0 es el “número de horas de bienestar de los enfermos”, determinada por un factor como variable independiente cualitativa, que en el ejemplo es el “uso de analgésicos” con k niveles de tratamientos A1,…,Ak (marcas de analgésicos) a los que corresponden los valores de las variables; estos valores de las variables se obtienen aplicando el tratamiento Ai Este procedimiento se ocupa de probar la diferencia entre k medias muestrales, cuando se asignan los elementos en forma aleatoria a cada uno de los diversos grupo de tratamiento. La ecuación lineal que representa este diseño es:

ikkikX εαµ ++= Donde: µ: Media global de todas las poblaciones sometidas al tratamiento k αk : Efecto del tratamiento de un grupo k de donde el valor se obtuvo por muestreo εik : Error asociado al proceso de muestreo.

Tabla resumen para el análisis de varianza con un criterio de clasificación Fuente de Variación

Grados de Libertad (gl)

Suma de cuadrado (SC)

Cuadrado Medio (CM)

Coeficiente F

Entre grupos de Tratamientos (A)

k –1 SCA CMA CMAFCME

=

Error de Muestreo (E)

N – k SCE CME

Total (T) N -1 SCT Donde:

Page 10: ANALISIS  VARIANZA 2009

10

2 2

1

22

1 1

1

1

kk

k k

n k

i k

T TSCAn N

SCE SCT SCA

TSCT xN

SCACMAk

SCECMEN

CMAFCME

=

= =

⎛ ⎞= −⎜ ⎟

⎝ ⎠

= −

⎛ ⎞= −⎜ ⎟

⎝ ⎠

=−

=−

=

∑∑

N: Tamaño total de la muestra para la totalidad de los grupos de tratamientos juntos Tk: Suma total de los valores en un determinado grupo de tratamiento T: Suma de los valores muestreados en todos los grupos combinados k : Nº de grupos de tratamiento SCA: Suma de cuadrados entre grupos de tratamiento CMA: Cuadrado medio entre grupos de tratamientos SCE: Suma de cuadrados de error de muestreo SCT: Suma de cuadrados de los valores muestreados en todos los grupos combinados CME: Cuadrado medio de error de muestreo x : valor de la variable

Page 11: ANALISIS  VARIANZA 2009

11Planteamiento de hipótesis nula y alternativa

0 1 2 3

1 1 2

: ...

: , ,..., No todas iguales

k

k

H

H

µ µ µ µ

µ µ µ

= = = =

Otra forma de escribir las hipótesis es 0:0 =kH α . Para todos los tratamientos (niveles de factor) 0:1 ≠kH α . Para algunos tratamientos

Cuando se rechaza la hipótesis nula significa que r sµ µ∃ ≠ ; esto es, al meno existe una pareja de medias que son distintas. Lo que rechazamos es la igualdad simultánea de medias 1 ,..., kµ µ= = Para averiguar que parejas de medias son distintas hacemos contrastes dos a dos con la "t" de Student. Ejemplo 2: Resolver el ejemplo 1 utilizando la tabla de análisis de la varianza con un solo factor Solución:

Métodos de Instrucción

Calificaciones de Las pruebas

CalificacionesTotales

Calificaciones promedio

A1 86 79 81 70 84 T1 = 400 80 A2 90 76 88 82 89 T2 = 425 85 A3 82 68 73 71 81 T3 = 375 75

De la tabla anterior tenemos n1 = 5 n2 = 5 n3 = 5 N = 15 T1 = 400 T2 = 425 T3 = 375 T = 400 + 425 + 375 = 1200 T12 = 160000 T22 = 180625 T32 = 140625 T2 = 1440000

Page 12: ANALISIS  VARIANZA 2009

12

SCA = 2 23

1

160000 180625 140625 1440000 2505 5 5 15

k

k k

T T SCAn N=

⎛ ⎞− ⇒ = + + − =⎜ ⎟⎝ ⎠

∑∑= =

=++++=5

1

3

1

22222 966988171...7986i k

x

25 32

1 1

144000096698 69815i k

TSCT xN= =

⎛ ⎞= − = − =⎜ ⎟⎝ ⎠∑∑

SCE = SCT –SCA = 698 – 250 = 448

Por lo tanto la tabla de la Anova es Fuente Variación

Grados de Libertad (gl)

Suma de Cuadrados (SC)

Cuadrado Medio (CM)

Coeficiente F

Entre grupos de Tratamientos (A)

k = 3 k –1 = 3 – 1 = 2

SCA = 250 CMA =

1252

250=

Error de Muestreo (E)

k = 3 y N = 15 N-k = 15-3 =12

SCE = SCT-SCA SCE = 698-250=448 CME=

kNSCE

= 33,3712448

=

Total N = 15 N-1 = 15-1=14

NTxSCT

i k

25

1

3

1

2 −⎟⎠

⎞⎜⎝

⎛= ∑∑

= =

SCT = 698

125 3,3537,33

CMAFCME

= = =

Como el valor critico es F.95, 2, 12 = 3,89 y el observado F = 3,35, entonces se concluye que existe efecto entre los niveles de tratamientos (métodos de instrucción). Por lo tanto, las diferencias entre las medias no son significativas al 5% de significancia, es decir, no se rechaza la hipótesis nula 3.1.1 Clasificación con grupos desiguales Recordemos que es conveniente utilizar muestras del mismo tamaño o aproximadamente iguales, sobre todo cuando las varianzas tienen diferencias grandes Ejemplo 3: En la tabla se reportan los puntajes obtenidos en tres test, las personas fueron asignadas aleatoriamente. Probar:

Page 13: ANALISIS  VARIANZA 2009

13H0: de que el promedio de los puntajes no es distinto, utilizando el 5% como nivel de significancia Test Puntajes Total

puntajes Promedio puntajes

A1 79 83 62 51 77 T1=352 70.4 A2 74 85 72 T2=231 77.0 A3 81 65 79 55 T3=280 70.0

Total 234 233 213 106 77 863=∑

0 1 2 3

1 1 2

: ...

: , ,..., No todas iguales

k

k

H

H

µ µ µ µ

µ µ µ

= = = =

De otra forma 0:0 =kH α . Para todos los tratamientos (niveles de factor) 0:1 ≠kH α : Para algunos tratamientos n1 = 5 n2 = 3 n3 = 4 N = 12 T1 = 352 T2 = 231 T3 = 280 T = 863 T12 = 123904 T22 = 53361 T32 = 78400 T2 = 744769

SCA = 7.10312

7447694

784003

533615

12390423

1

2

=−⎟⎠⎞

⎜⎝⎛ ++=−∑

= NT

nT

k k

k

∑∑= =

=++++=5

1

3

1

22222 634415579...8379i k

x

25 3

2

1 1

74476963441 1376.912i k

TSCT x SCTN= =

⎛ ⎞= − ⇒ = − =⎜ ⎟

⎝ ⎠∑∑

SCE = SCT – SCA = 1376.9 – 103.7 = 1273.2

Page 14: ANALISIS  VARIANZA 2009

14

La tabla de la Anova es Fuente variación

Grados de Libertad

Suma de Cuadrados (SC)

Cuadrado Medio (CM)

Coeficiente F

Entre grupos (A) Procesadores

k = 3 k –1 = 3 – 1 = 2 SCA = 103.7 CMA = 2.51

27.103

=

Error de Muestreo (E)

K = 3 y N = 12 N-k = 12 -3 = 9

SCE = 1273.2 CME= 5.141

92.1273

=

Total N = 12 N-1 = 12-1=11

SCT = 1376.2

51.8 0.37141.5

CMAFCME

= = =

Como:

.95;2,9 4,26 y 0,37ObsF F= =

Es decir, el F (calculado) se encuentra en la región de no rechazo de H0 y se concluye que no existe diferencia entre las tres test.

2.1.2 Relación del diseño completamente aleatorio de un factor con la prueba “t” para probar la diferencia entre las medias de dos muestras independientes

Se debe suponer que las dos muestras se obtienen de la misma población con distribución normal, y que se desconoce la varianza 2σ poblacional

Ejemplo 4: Retomemos el ejercicio nº 3 Test Puntajes Total

puntajes Promedio puntajes

A1 79 83 62 51 77 T1=352 70.4 A2 74 85 72 T2=231 77.0

0 1 2 0 1 2

1 1 2 1 1 2

: 0 ó H :

: 0 ó H :

H

H

µ µ µ µ

µ µ µ µ

− = =

− ≠ ≠

Page 15: ANALISIS  VARIANZA 2009

15

1 2

1 2

70, 4; 77

5; 3

x x

n n

= =

= =

v = n1 + n2 –2 => v = 5 + 3 –2 = 6

447,26,05,0 ±==αt

( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

22 2 2 2 2

121

1

22 2 2

22

22

2 21 1 2 22

1 2

2 2

1 2

79 70, 4 83 70, 4 62 70, 4 51 70, 4 77 70, 4180,8

1 5 1

74 77 85 77 72 7749

1 3 1

1 1 4·180,8 2·49ˆ 136,86672 5 3 2

ˆ ˆ 136,8667 136,8667ˆ5x x

x xS

n

x xS

n

n S n Sn n

n n

σ

σ σσ−

− − + − + − + − + −= = =

− −

− − + − + −= = =

− −

− + − += = =

+ − + −

= + = +

1 2

1 2

8,543

70, 4 77 0,77ˆ 8,54x x

x xtσ

=

− −= = = −

Como tObs. = -0,77 y t (critica) ±= 2,447, entonces, no se rechaza la hipótesis nula. 3.1.3 Modelo II: Anova con un factor, completamente aleatorio y efectos aleatorios Supongamos ahora que las poblaciones correspondientes a los tratamientos A1,…,Ak son parte de un colectivo de poblaciones más amplio. Si tenemos que contrastar la homogeneidad de un número de poblaciones grande y queremos hacer menos costosa la experimentación, elegiremos al azar una muestra de poblaciones de ese colectivo y las conclusiones de la experimentación se inducen sobre el total de poblaciones. Las medias de las poblaciones con las que vamos hacer la experimentación son

1,..., kµ µ por tanto:

Page 16: ANALISIS  VARIANZA 2009

16

0 1: ...µ µ= = kH Ahora bien, como las poblaciones se han elegido de un colectivo mayor de manera

aleatoria, las medias iµ son aleatorias y, por lo tanto, los efectos

i iα µ µ= −

Definidos en función de las medias iµ también serían aleatorios.

Como las iµ son variables, entonces

( ) ( ) ( ) ( ), 0i i i iE E E Eµ µ α µ µ µ µ µ µ= = − = − = − =

La dispersión de las medias iµ se medirá con su varianza:

( ) ( ) ( ) ( )( ) ( )22 2 2i i i i i iV E E E E V αµ µ µ α α α α σ= − = = − = =

El esquema aditivo de trabajo sería:

ij i ijx µ α ε= + +

Pero 2ασ mide la dispersión de los efectos iα y la dispersión de las medias iµ

respecto de µ , es decir la variabilidad de las iµ , esto significa que cuanto menor sea 2ασ más homogénea son las medias iµ

( ) 2iSí i V 0i αµ µ µ σ= ∀ ⇒ = =

Por tanto, en este caso de efectos variables, las hipótesis a contrastar sería:

Page 17: ANALISIS  VARIANZA 2009

17

2 2

0 1: 0 frente a : 0H Hα ασ σ= ≠ La igualdad del análisis de varianza es la misma que para el modelo I, por tanto, los cálculos abreviados son iguales

1

2 2

2 2

A

22

22

ó

S ; con

n

ijj

Ai

i

E ij

T ij

xx

n

S n x knx

n x N x N k n

S x n x

S x N x

==

= −

= − = ⋅

= −

= −

∑∑ ∑

Si los tamaños muestrales fuesen distintos:

Page 18: ANALISIS  VARIANZA 2009

182 2

2

1

; con A i ii

k n

E ij i ii j

T A E

S n x N x N n

S x n x

S S S

⋅= =

= − =

= −

= +

∑ ∑

∑∑ ∑

Teniendo en cuenta que

Suma de cuadradosCuadrados medios =Grados de libertad

y que g.l (SA) = k – 1 g.l (SE) = N – k g.l (ST) = N – 1 Los cuadrados medios serían:

"1

"

"1

AA

EE

TT

SSk

SSN k

SSN

=−

=−

=−

Los cuadrados medios esperados serían

Page 19: ANALISIS  VARIANZA 2009

19

( )" 2 2

" 2

( )A

E

E S n

E Sασ σ

σ

= +

=

Por lo tanto, la tabla de la anova es:

Fuente de variación

Sumas de Cuadrados

g.l Cuadrado Medio : CM

Cuadrado medio esperado : CME

Estadístico : F

Factor : A SA k-1 "

1A

ASS

k=

− ( )" 2 2

AE S n ασ σ= + "

1, "A

k N kE

S FS − −=

Si H0 cierta Error :E SE N-k " E

ESS

N k=

−( )" 2

EE S σ=

Total ST N-1 Si los tamaños muestrales son distintos sería:

( ) ( )

2 2

" 2 21

1

k

i

A

N nE S

N k ασ σ−

= +−

La regla de decisión para contrastar H0 sería análoga a la del modelo I

"2 2

0"

"2A

0"E

se rechaza H : 0 0

S :

S

A

E

SSi F

S

Si F H

α α α

α α

σ σ

σ

> ⇒ = ⇒ ≠

≤ ⇒

Page 20: ANALISIS  VARIANZA 2009

20

Si se rechaza H0, entonces, 2 0ασ ≠ , lo que significa que las medias iµ son

heterogéneas. En este caso no tiene sentido hacer contrastes dos a dos para detectar cuales son las parejas de medias distintas, porque estos contrastes sólo valdrían para las poblaciones observadas, pero como no son fijas, nos interesa medir la dispersión que presentan las medias en su totalidad.

Ahora bien, como 2ασ es un valor poblacional que hay que estimarlo. Un estimador

insesgado de 2ασ

Para tamaños muestrales iguales sería:

( )2* " "1A ES S

nασ = −

Para tamaños muestrales distintos:

( ) ( )2* " "

2 2

1

1A Ek

i

N kS S

N nασ

−= −

− ∑

En este caso

2* 2* 2 2* "

ESα α ασ σ σ σ= + = +

Y que 2*

ασ es estimador insesgado de 2ασ y S”E es estimador insesgado de αα

Entonces cada uno de estos términos 2* " y S Eασ representa un porcentaje de

influencia respecto de la medida de variación total 2*

Tσ Por tanto, tenemos:

Page 21: ANALISIS  VARIANZA 2009

21

2*

2*

"

2*

% de influencia del factor "A" en la variación total = 100

% de influencia del error muestral "E" en la variación total = 100

T

E

T

S

ασσ

σ

Ejemplo 5: Supongamos que queremos contrastar si el número promedio de artículos vendidos diariamente de un producto es homogéneo dependiendo del supermercado en que se vende. Para ello elegimos al azar cuatro supermercados entre un colectivo de supermercados. A continuación, observamos el número de artículos vendidos en esos supermercados en cinco días, elegidos aleatoriamente, obteniendo los siguientes resultados:

Tratamientos Observaciones (días) (Supermercados) 1 2 3 4 5

A1 8 9 10 7 6 A2 4 5 6 2 3 A3 7 9 6 4 4 A4 5 9 10 6 5

Solución: Tenemos que utilizar un modelo de clasificación simple, completamente aleatorio y efectos variables, ya que el número de poblaciones (los supermercados) observadas es una muestra del número total de poblaciones. Las conclusiones del contraste realizado para los cuatro supermercados observados, se inducirán sobre todos los supermercados. El cuadro de datos para elaborar el estadístico del contraste sería el siguiente:

Tratamientos Observaciones (días) (Supermercados) 1 2 3 4 5

.ix

2.ix

A1 8 9 10 7 6 8 64 A2 4 5 6 2 3 4 16 A3 7 9 6 4 4 6 36 A4 5 9 10 6 5 7 49

. 25ix =∑ .

2165=∑ ix

Por lo tanto:

Page 22: ANALISIS  VARIANZA 2009

22

.1 25 6,254 4

125 6,2520 20

i

ij

xx x

xx x

= ⇒ = =

= ⇒ = =

∑∑

2

2 2.1

22.

"

Obs "

39,0625

825 781,25 43,75

885 825 60

Siendo N = 20 4 y n =5

43,753 F 3,88896016

El valor de la F para determin

ij

iA

iE

A

E

x

S n x Nx

S x n x

n kk

SS

=

= − = − =

= − = − =

⋅ ==

⎛ ⎞⎜ ⎟⎝ ⎠= = =

⎛ ⎞⎜ ⎟⎝ ⎠

∑∑ ∑

p; k-1, N-k .95;3,16

ar la región crítica es:

F 3,2389F= =

Por lo tanto: 3,8889 (F0bs.) > 3,2389 Entonces, se rechaza la hipótesis de homogeneidad de la venta diaria en el colectivo de supermercados:

Page 23: ANALISIS  VARIANZA 2009

23Como no tiene sentido realizar contrastes por parejas de las medias elegidas, puesto que son variables, veamos la variabilidad de estas medias µi con σ2

α ya que

( )2ivασ µ= mide la dispersión de las µi, por tanto, su homogeneidad. Pero σ2

α es un valor poblacional que hemos de estimar con valores muestrales. Este estimador sería:

( ) ( )2* " "1 1 14,5833 3,75 2,16675A ES S

nασ = − = − =

Veamos la influencia porcentual que tienen el factor y error aleatorio en la heterogeneidad total Como:

2 2* " 2,1667 3,75 5,9167T ESασ σ= + = + =

La influencia porcentual del factor A (el supermercado donde se realiza la venta) en la variación total es:

2*

2*

2,1667100 36,62%5,9167T

ασσ

= =

De la misma forma, la influencia porcentual del error aleatorio en la heterogeneidad total es:

"

2*

3,75100 100 63,38%5,9167

E

T

SS

= =

Por tanto, en la heterogeneidad total influye sobre todo el error aleatorio en un 63,38%, es decir la aleatoriedad muestral, esto es, los días elegidos para tomar las observaciones y no tanto el supermercado de venta (en un 36,62%).

Page 24: ANALISIS  VARIANZA 2009

243.2 Análisis de la varianza con un factor e información aleatoria en Bloques: Modelos III (con efectos fijos) y IV (con efectos aleatorio) 3.2.1 Modelo III: Anova con un factor, aleatorio en bloques y efectos fijos En el modelo III se supondrá la existencia de un segundo factor implícito, que no se plantea como factor principal, pero que puede influir en la heterogeneidad de las poblaciones. Este caso trataremos de explicarlo con el siguiente ejemplo Ejemplo 6: Queremos contrastar si el consumo medio de combustible de tres modelos de vehículos A1, A2 y A3 es homogéneo. Para ello se realizan pruebas con cuatro conductores B1, B2, B3 y B4

de los que sospechamos que pueden influir en la heterogeneidad de los consumos. El objeto del estudio es el factor A, pero se debe tener encuenta el bloque B, para eliminar la influencia que sobre las conclusiones de la homogeneidad de los factores A pudiera tener. En el siguiente cuadro figuran los consumos de litros de gasolina por cada cien kilómetros

Conductores Vehículos B1 B2 B3 B4

.ixA1 7,0 7,0 7,5 10,5 8,0 A2 6,0 6,5 7,0 6,5 A3 6,5 7,0 7,5 7,0

Como el conductor B4 sólo ha realizado la prueba con el automóvil A1 y este conductor es el que produce mayor consumo, esto podría llevarnos a conclusiones erróneas sobre el consumo de A1 respecto de A2 y A3. Para evitarlo, el conductor B4 debería realizar pruebas con A2 y A3. Es decir, la tabla de datos con factor de bloqueo sería de la forma:

B1 B2 B3 B4 A1 x x x x A2 x x x x A3 x x x x

Es decir, todas las muestras de las poblaciones correspondientes a cada nivel Ai han de tener b elementos

Page 25: ANALISIS  VARIANZA 2009

25También se podría hacer la experimentación con los mismos sujetos (conductores) tomando medidas repetidas. Tendríamos, por lo tanto, la siguiente tabla de medias:

Conductores Vehículos B1 B2 B3 B4

.iµ

A1 µ11 µ12 µ13 µ14 µ1.

A2 µ21 µ22 µ23 µ24 µ2. A3 µ31 µ32 µ33 µ34 µ3.

µ.j µ.1 µ.2 µ.3 µ.4 µ Siendo:

µ µ

µ µ

µ µ

µµ

µµ

=

=

= =

⋅=

⋅=

=

=

=

=

=

∑∑

.1

.1

1 1

1

1

1 ; media de la fila i

1 ; media de la columna j

1 media global

media global

media global

b

i ijj

a

j iji

a b

iji j

a

ii

b

jj

b

a

ab

a

b

Los efectos de los Ai serían . . y los efectos de los B son i i j j jBα µ µ µ µ= − = − Las hipótesis a contrastar para el factor A sería:

( ) ( ). . .0 1: contra :i r sA AH i Hµ µ µ µ= ∀ ∃ ≠

Page 26: ANALISIS  VARIANZA 2009

26 Las hipótesis a contrastar para el bloque B sería:

( ) ( ). . .0 1: contra :j r sB BH j Hµ µ µ µ= ∀ ∃ ≠ Si no rechazamos H0(A) quiere decir que no hay diferencias significativas entre los tratamientos Ai. Si no rechazamos H0(B) quiere decir que no hay diferencias significativas entre los bloques Bj. La hipótesis global sería:

0 1: contra :ij rs rsH ij Hµ µ µ µ= ∀ ∃ ≠ Por lo tanto:

i) Si no rechazamos H0(A) y no rechazamos H0(B), entonces no rechazamos H0 ii) Si rechazamos H0(A) o rechazamos H0(B), entonces rechazamos H0

Las observaciones muestrales xij se pueden descomponer aditivamente así:

Siendo

ij i j ij

ij ij ij

x

x

µ α β ε

ε µ

= + + +

= −

El cálculo abreviado de las sumas de cuadrados es:

2 2.

2 2.

2 2 22. .

iA

jB

i jE ij

S b x ab x

S a x ab x

S x b x a x ab x

= −

= −

= − − +

∑ ∑ ∑ ∑

Page 27: ANALISIS  VARIANZA 2009

27 Siendo: N (número total de datos) = a·b a = número de filas y b = número de columnas

22

T A B E

T ij

S S S S

S x abx

= + +

= −∑∑

SA mide la influencia de αi en la heterogeneidad total SB mide la influencia de βj en la heterogeneidad total SE mide la influencia del error muestral en la heterogeneidad total Donde:

..

..

. .

ii i

jj j

ij i jij ijij

x x

x x

x x x x x

α µ µ

β µ µ

ε µ

= − = −

= − = −

= − = − − +

Page 28: ANALISIS  VARIANZA 2009

28La tabla del análisis de la varianza para los modelos III y IV es:

Fuentes

SC g.l Cuadrado medio:

CM Cuadrado medio error: CME

Estadístico: F

A

SA

a - 1

"

1A

ASS

a=

− ( )" 2 2

1A ibE S

aσ α= +

− ∑ "

"A

AE

SFS

=

F(a-1),(a-1)(b-1) Si H0(A) es cierta

B

SB

b – 1 "

1B

BSS

b=

− ( )" 2 2

1B jaE S

bσ β= +

− ∑ "

"B

BE

SFS

=

F(b-1),(a-1)(b-1) Si H0(B) es cierta

E

SE

(a – 1)(b -1)

( )( )"

1 1E

ESS

a b=

− −

( )" 2EE S σ=

Total ST a·b - 1 Finalmente, dado α, entonces:

( ) ( )( )α − − −( ); 1 , 1 1a a bF

Si i)

( )"

0(A)"

"

0(A)"

se rechaza H

( ) no se rechaza H

AA

E

AA

E

SF FS

SF FS

α

α

= ⟩

= ≤

iii) Siendo

( ) ( ) ( )( )1 , 1 1b a bF Fα − − −=

Page 29: ANALISIS  VARIANZA 2009

29

( )"

0(B)"

"

0(B)"

> se rechaza H

( ) no se rechaza H

BB

E

BB

E

SF FS

SF FS

α

α

=

= ≤

Ejercicio 7: Supongamos que queremos contrastar si los consumos medios de combustible de cuatro modelos de automóviles son homogéneos. Para ello realizamos pruebas con tres conductores que podrían influir en la heterogeneidad de los consumos por cada 100 kilómetros, por lo que se recoge la información en bloques

Contrastar con un nivel de significancia de 0.05, las siguientes hipótesis

a) La hipótesis de igualdad de consumos medios con los cuatro automóviles b) La hipótesis de igualdad de consumos medios de los tres conductores.

Solución: Completando la tabla de datos

Conductores Automóviles B1 B2 B3

.ix 2.ix

A1 8 6 7 7 49 A2 7 5 6 6 36 A3 6 6 5 5,6667 32,1115 A4 8 5,5 6 6,5 42,25

. jx 7,25 5,625 6,0 x =6,2917 2

.ix∑ =159,3615

2. jx 52,5625 31,6406 36 2

. jx∑ =120,2031

Conductores Automóviles B1 B2 B3

A1 8 6 7 A2 7 5 6 A3 6 6 5 A4 8 5,5 6

Page 30: ANALISIS  VARIANZA 2009

30Siendo:

1.

1.

. .

2

, media de la fila

, media de la columna

1 1 1 6.2917, media global

39,5855

=

=

=

=

= = = =

=

∑ ∑ ∑∑

b

ijj

i

a

iji

j

i j ij

xx

b

xx

a

x x x xa b ab

x

a (nº de filas) = 4 b (nº de columnas) = 3 N(nº total de elementos muestrales) = a · b = 12 Suma de cuadrados

2 2

.

2 2.

22 22. .

478,0845 475,026 3,0585

480,8124 475,026 5,7864

486,25 478,0845 480,8124 475,026 2,3791

= − = − =

= − = − =

= − − + = − − + =

∑∑ ∑ ∑

A i

jB

i jE ij

S b x abx

S a x abx

S x b x a x abx

Page 31: ANALISIS  VARIANZA 2009

31 La tabla de análisis de la Anova es: Fuente SC g.l CM F(observada) A SA =3,0585 a-1=3 " 3,0585 1,0195

3AS = =

3,6,0.05

1,0195 2,57120,3965

4.76 <

A

A Crit

F

FF F

= =

=

B SB =5,7864 b-1=2 " 5,7864 2,89322BS = =

2,6,0.05

2,8932 7, 29680,3965

5,14 >

B

B Crit

F

FF F

= =

=

E SE =2,3791 (a-1)(b-1)=6 " 2,3791 0,39656ES = =

Total ST =11,224 N-1=11 Por lo tanto:

a) No rechazamos que los consumos medios de los automóviles sean iguales b) Rechazamos que los consumos medios con los distintos conductores sean

homogéneos. Esto indica que era necesario repartir la información por bloques para evitar la influencia de los conductores en la valoración de la homogeneidad de los consumos de los automóviles Para detectar que conductores tienen conducción heterogénea, deberíamos realizar contrastes dos a dos utilizando la distribución “t” 3.2.2 Modelo IV: Anova con un factor, aleatorio en bloques y efectos aleatorios El planteamiento de este modelo es inicialmente como el del modelo anterior en el que los niveles Ai observados son parte de un colectivo mayor y los bloques Bj de la experimentación son también parte de un colectivo mayor. Por lo tanto, las medias de esos niveles µi. y µ.j son aleatorias y los efectos y i jα β también son aleatorios, ya que . . y i i j jα µ µ β µ µ= − = − La descomposición aditiva es:

ij i j ijx µ α β ε= + + + La formulación del contraste, por lo tanto, quedaría así:

Page 32: ANALISIS  VARIANZA 2009

32 Contraste para H0(A)

En este caso decir que .i iµ µ= ∀ , equivale a decir que 2 0ασ = . Es decir, las

hipótesis a contrastar serían:

( ) ( )2 2

0 1: 0 contra : 0A AH Hα ασ σ= ≠ Y el estadístico del contraste sería:

( ) ( ) ( )( ) ( )

"

1 , 1 1 0" , si es ciertaAA a a b A

E

SF F HS − − −= =

Si α es el nivel de significancia, ( ) ( )( ) ( )1 , 1 1 valor criticoa a bF α− − − = , entonces:

( ) ( )

( ) ( )

"2

0"

"2

0"

) Si se rechaza : 0

) Si no se rechaza : 0

AA

E

AA

E

Si F HS

Sii F HS

α

α

α σ

α σ

⟩ ⇒ =

≤ ⇒ =

Contraste para H0(B) De forma análoga contrastamos:

( ) ( )2 2

0 1: 0 contra : 0B BH Hβ βσ σ= ≠ El estadístico de contraste sería:

Page 33: ANALISIS  VARIANZA 2009

33

( ) ( )( ) B1 , 1 1"

" , si H es ciertaBB b a b

E

SF FS − − −= =

Por lo tanto, dado α , entonces:

( ) ( )

( ) ( )

"2

.0"

"2

.j0"

) Si se rechaza : 0 las medias son heterogeneas

) Si no se rechaza : 0 consideramos las medias homogéneas

BB jB

E

BB B

E

Si F F HS

Sii F F HS

β

β

α σ µ

α σ µ

= ⟩ ⇒ = ⇒

= ≤ ⇒ = ⇒

La tabla del ANOVA para el modelo IV sería Fuentes SC g.l CM CME Estadístico F

A SA a-1 "

1A

ASS

a=

− ( )" 2 2

AE S b ασ σ= +

( ) ( )( )

"

1 , 1 1"A

A a a bE

SF FS − − −= =

Si H0(A) es cierta B SB b-1 "

1B

BSS

b=

− ( )" 2 2

BE S a βσ σ= +

( ) ( )( )

"

1 , 1 1"B

B b a bE

SF FS − − −= =

Si H 0(B) es cierta E SE (a-1)(b-1)

( )( )"

1 1E

ESS

a b=

− −

( )" 2EE S σ=

Total ST La hipótesis global sería:

2 20 1

2 20 1

: 0 contra : 0

: 0 contra : 0

H H

H H

α α

β β

σ σ

σ σ

= ≠

= ≠

Por lo tanto:

i) Si se rechaza H0(A) o se rechaza H0(B), entonces se rechaza H0 ii) Si no se rechaza H0(A) y no se rechaza H0(B), entonces no se rechaza H0

iii) Si se rechaza H0(A) medimos la heterogeneidad de las .iµ con el estimador

insesgado

Page 34: ANALISIS  VARIANZA 2009

34

( )2* " "1A ES S

bασ = −

iv) Si se rechaza H0(B) medimos la heterogeneidad de la . jµ con el estimador

insesgado

( )2* " "1B ES S

aβσ = −

Y, tendiendo encuenta que:

2* 2* 2* 2*

2* 2* 2* "

T

T ES

α β

α β

σ σ σ σ

σ σ σ

= + +

= + +

Cada una de las componentes tiene su porcentaje de influencia en la heterogeneidad total medida por 2

Tσ . Estos serían:

i) % de influencia del factor A en la variación total =2*

2* 100T

ασσ

ii) % de influencia del factor B en la variación total =2*

2* 100T

σ βσ

iii) % de influencia del error aleatorio E en la variación total = "

2* 100E

T

Page 35: ANALISIS  VARIANZA 2009

35Ejemplo 8: Se quiere contrastar si el consumo medio de combustible de los vehículos de un determinado segmento es homogéneo. Para ello se eligen cuatro vehículos al azar y se realizan pruebas experimentales con tres conductores distintos, elegidos también al azar de un colectivo mayor de conductores. En la tabla siguiente se recoge dicha información

Conductores Vehículos B1 B2 B3

A1 8 7 6 A2 7 6 5 A3 5 6 4 A4 6 7 5

Contrastar con un nivel de significancia del 0,05

a) la hipótesis de homogeneidad de consumo de los automóviles del segmento considerado

b) la hipótesis de homogeneidad de los consumos del conjunto de conductores

c) ordenar la influencia de los factores en la homogeneidad de los consumos

Solución: La experimentación del modelo IV (con efectos aleatorios) es igual que el modelo III (con efectos fijos), lo que cambia es que las conclusiones se proyectan a las poblaciones de automóviles y conductores

Conductores Vehículos B1 B2 B3

.ix 2.ix

A1 8 7 6 7 49 A2 7 6 5 6 36 A3 5 6 4 5 25 A4 6 7 5 6 36

. jx 6,5 6,5 5 x = 6 2.ix =∑ 146

2. jx 42,25 42,5 25 2

. jx =∑ 109,5 Como

Page 36: ANALISIS  VARIANZA 2009

36

2 2 2.

2 2 2.

2 22 2. .

3 146 3 4 6 6

4 109,5 3 4 6 6

446 4 109,5 3 146 3 4 6 2

= − ⇒ = ⋅ − ⋅ ⋅ =

= − ⇒ = ⋅ − ⋅ ⋅ =

= − − + = − ⋅ − ⋅ + ⋅ ⋅ =

∑∑ ∑ ∑

A Ai

jB B

i jE ij

S b x abx S

S a x abx S

S x b x a x abx

Por lo tanto, la tabla de la ANOVA sería: Fuentes SC g.l CM Estadístico F

A SA = 6 a-1 =3 " 6 23AS = = .95;3,6

2 6 4,757113

= = > =⎛ ⎞⎜ ⎟⎝ ⎠

AF F

B SB = 6 b-1 =2 " 6 32BS = = .95;3,6

2 6 4,757113

= = > =⎛ ⎞⎜ ⎟⎝ ⎠

AF F

E SE = 2 (a-1)(b-1) " 2 16 3ES = =

Por lo tanto:

a) Como FA es mayor que F3,6(0,05), entonces se rechaza H0(A): 2 0ασ = , lo que significa que las medias .iµ son heterogéneas. Los consumos medios de los vehículos del segmento considerado son heterogéneos

b) Como FB es mayor F2,6 (0,05), entonces se rechaza H0(B) : 2 0βσ = , lo que significa

que las medias . jµ son heterogéneas. Los consumos medios del conjunto de conductores son heterogéneos

c) Se mide la heterogeneidad de las . .j i yµ µ con su varianza ( ) 2

.iV αµ σ= y la de

las . jµ con su varianza ( ) 2. jV βµ σ=

Puesto que 2 2 y α βσ σ son valores poblacionales, calculamos sus

estimaciones muestrales:

Page 37: ANALISIS  VARIANZA 2009

37

( )

( )

2*

2*

2* 2* 2*

1 1 1" " 2 0,55563 3

1 1 1" " 3 0,66674 3

" 0,5556 0,6667 0,3333 1,5556

A E

B E

T E

S Sb

S Sa

S

α

β

α β

σ

σ

σ σ σ

⎛ ⎞= − = − =⎜ ⎟⎝ ⎠

⎛ ⎞= − = − =⎜ ⎟⎝ ⎠

= + + = + + =

Por lo tanto, tenemos que:

i) % de influencia del factor A en la variación total =2*

2* 100 35,7%T

ασσ

=

ii) % de influencia del factor B en la variación total = 2*

2* 100 42,8%T

βσσ

=

iii) % de influencia del error aleatorio E en la variación total = 2*

" 100 21,5%E

T

=

Se concluye que con estos datos lo que más influye en la heterogeneidad de los consumos es, en primer lugar, la conducción realizada, en segundo lugar, el modelo de automóviles de ese segmento, y, finalmente, la aleatoriedad, es decir el que sean esos elementos muestrales y no otros los elegidos.

3.3 Varianza con dos criterios de clasificación Este análisis de varianza esta basada en dos dimensiones de clasificación o tratamientos. Supongamos que al analizar el nivel de aprovechamiento en un programa de capacitación, podría considerarse tanto el efecto de un método de instrucción como el efecto de la escolaridad previa. La interacción en un experimento de dos factores significa que los tratamientos no son independientes, y que el efecto de un tratamiento determinado sobre otro difiere según niveles del otro factor.

Page 38: ANALISIS  VARIANZA 2009

38Por ejemplo, puede diferir la efectividad de diversos métodos de instrucción según los niveles de habilidad de los estudiantes. Para probar la interacción, debe incluirse en cada una de las celdas de una tabla de datos de dos sentidos más de una observación o medición muestreada (Replicas)

Cuando se utiliza este tipo de diseño, pueden probarse, con análisis de varianza, tres hipótesis nulas distintas:

1) Que no existen efectos por columna, es decir, los promedios por columna no difieren en forma significativa.

2) Que no existen efectos por reglón, es decir, las medias por reglón no difieren en forma significativa

3) Que no existe interacción entre los factores, es decir, los dos factores son independientes

Un efecto de interacción significativo indica que el efecto de los tratamientos de un factor varía de acuerdo con los niveles del otro factor

3.3.1 Análisis de la varianza con dos factores e información completamente aleatoria Modelo V: Análisis de la varianza con dos factores, información completamente aleatoria y efectos fijos

El modelo lineal para el análisis de varianza con dos criterios de clasificación, con replicas, es:

ijkjkkjijkX εταβµ ++++=

A continuación, presentamos una tabla de datos muestrales simplificada con

n = 3 elementos por casilla

a = 3 (numero de niveles del factor A)

b = 3 (número de niveles del factor B), sería:

Page 39: ANALISIS  VARIANZA 2009

39

B1 B2 B3

A1 X111

X112

X113

X121

X122

X123

X131

X132

X133

A2 X211

X212

X213

X221

X222

X223

X231

X232

X233

A3 X311

X312

X313

X321

X322

X323

X331

X332

X333

Xijk procede de la población (Ai, Bj) que es N ( ),ijµ σ , por lo tanto, el error aleatorio es:

.ijk ijk ijxε µ= −

No se cumple la aditividad, es decir ij i jµ µ α β= + + , donde además entre los factores puede existir interacción:

( )ij ij i jI µ µ α β= − + +

Siendo:

i: media real de la población (A , )

: valor teórico del número poblacional si los efectos son aditivos

ij j

i j

µ α β+ +

El esquema de trabajo para las observaciones xijk sería:

Page 40: ANALISIS  VARIANZA 2009

40

.ijk ijk ijk i j ij ijkx Iµ ε µ α β ε= + = + + + +

Las hipótesis a contrastar serían:

2 2

.

2 2.

22 22. .

478,0845 475,026 3,0585

480,8124 475,026 5,7864

486,25 478,0845 480,8124 475,026 2,3791

= − = − =

= − = − =

= − − + = − − + =

∑∑ ∑ ∑

A i

jB

i jE ij

S b x abx

S a x abx

S x b x a x abx

Si no se rechazan H 0(A), H 0(B) y H 0(AB), entonces no se rechaza H0: ij ijµ µ= ∀

Si se rechaza H 0(A) o H 0(B) o H 0(AB), entonces se rechaza H0: ij ijµ µ= ∀

Para realizar este contraste necesitamos formular el estadístico que define la región crítica, es decir la descomposición es la siguiente:

Igualdad fundamental del análisis de la varianza para el modelo V

Los valores que aparecen en ella son los de la tabla siguiente:

B1 B2 B3 ..ix

A1

11.x 12.x 13.x 1..x

A2 21.x 22.x 23.x 2..x

. .jx .1.x .2.x .3.x ...x

Siendo:

.. . . . .. . ., , iji i j ij i jjx x x x I x x x xα β= − = − = − − +

Page 41: ANALISIS  VARIANZA 2009

41

( ) ( ) ( )

( ) ( )

2 2 2.. . .

2 2. .. . . .

T

T

+

S = ó

S

i jT ijk

ij i j ijijk

A B AB E

TR E

S x x x x x x

x x x x x x

S S S S

S S

= − = − + − +

− − + + −

+ + +

= +

∑∑∑ ∑∑∑ ∑∑∑

∑∑∑ ∑∑∑

Siendo

STR = SA + SB + SAB

Suma de cuadrados debida a todos los tratamientos.

El cálculo abreviado de estas sumas de cuadrados sería:

Page 42: ANALISIS  VARIANZA 2009

42

2...=

TCabn

2

2.

2. .

2. .

1

1

1

T i j ki j k

T R i ji j

E T T R

A ii

B jj

A B T R A B

S x C

S T Cn

S S S

S T Cn b

S T Cn a

S S S S

= −

= −

= −

= −

= −

= − −

Siendo:

Tij.= Total muestral de la casilla ij

Ti.. = Total de la fila i-ésima

T.j.= Total de la columna j-ésima

T… = Total de todos los datos ijkx

Page 43: ANALISIS  VARIANZA 2009

43

Que quedarían así en una tabla

B1 B2 B3 Ti..

A1 T11. T12. T13. T1..

A2 T21. T22. T23. T2..

A3 T31. T32. T33. T3..

T.j. T.1. T.2. T.3. T…

El cuadro de la anova para el modelo V sería:

Fuentes g.l SC CM CME Estadístico: F

A a-1 SA S”A ( )" 2 2

1A ii

nbE Sa

σ α= +− ∑ ( ) ( )1 , 1"

"AA a ab n

E

SF FS − −= =

Si H0(A) es cierta

B b-1 SB S”B ( ) 2 2"

1B jj

naE Sb

σ β= +− ∑ ( ) ( )1 , 1

""

BB b ab n

E

SF FS − −= =

Si H0(B) es cierta

AB (a-1)(b-1) SAB S”AB ( ) ( )( )

2 2"1 1AB ij

ij

nE S Ia b

σ= +− − ∑ ( )( ) ( )1 1 , 1

""AB

AB a b ab nE

SF FS − − −= =

Si H0(AB) es cierta

E ab(n-1) SE S”E ( ) 2"EE S σ=

Total abn-1 ST

Los contrastes se resuelven así:

Page 44: ANALISIS  VARIANZA 2009

44

( ) ( ) ( )

( ) ( ) ( )

( )( ) ( ) ( )

0(A)1 , 1

0(B)1 , 1

AB0(AB)1 1 , 1

E

"1. se rechaza H"

"2. se rechaza H"

S"3. se rechaza HS"

α

α

α

− −

− −

− − −

Aa ab n

E

Bb ab n

E

a b ab n

SSí FS

SSí FS

Sí F

Los contrastes posteriores para el caso en que se rechace H0 son similares a los de los modelos anteriores

Ejercicio 10:

Supongamos que deseamos contrastar si el promedio de horas de sueño de unos pacientes que están sometidos a un tratamiento conjunto de dos factores, A: uso de analgésicos y B: uso de somníferos, es homogéneo para todos los tratamientos. Para ello obtenemos las siguientes observaciones

B1 B2 B3

A1

5

6

6

6

6

7

6

7

7

A2

7

6

6

8

7

6

6

7

6

A3

7

5

6

6

7

7

7

8

5

Contrastar con 1%α = las siguientes hipótesis

Page 45: ANALISIS  VARIANZA 2009

45a) Si el promedio de horas de sueño es homogéneo con los distintos tratamientos

Ai de analgésicos

b) Si el promedio de horas de sueño es homogéneo con los distintos tratamientos Bj de somníferos.

c) Si existe interacción entre ellos

d) Sí el promedio de horas de sueño es homogéneo con los distintos tratamientos conjuntos (Ai, Bj)

nº de niveles del factor A: a = 3

nº de niveles del factor B: b = 3

nº de elementos muestrales por casilla: n = 3

La tabla siguiente contiene los datos que se necesitan para calcular las sumas de cuadrados

Tij. Ti..

17 19 20 56

19 21 19 59

18 20 20 58

T.j. 54 60 59 T… = 173

Por lo tanto, las sumas de cuadrados son las siguientes

2 2... 173 1.108,4815

27TC Cabn

= ⇒ = =

2 1.125 1.108, 4815 16,5185T ijkijk

S x C= − = − =∑

Page 46: ANALISIS  VARIANZA 2009

46

2.

2..

2. .

1 1 3.337 1.108, 4815 3,85183

1 1 9.981 1.108, 4815 0,51859

1 1 9.997 1.108, 4815 2, 29639

3,8518 0,5185 2, 2963 1,0370

TR ij TRij

A i Ai

B j Bj

AB TR A B

S T C Sn

S T C Snb

S T C Sna

S S S S

= − ⇒ = − =

= − ⇒ = − =

= − ⇒ = − =

= − − ⇒ − − =

16,5185 3,8518 12,6667E T TR ES S S S= − ⇒ = − =

El cuadro de la anova sería:

Fuente SC g.l CM Estadística F

A SA = 0,5185 2 S”A=0,2593 " 0,3685 observada"

AA

E

SFS

= =

F.99;2,18=6,01

B SB = 2,2963 2 S”B=1,1482 " 1,6317"

BB

E

SFS

= =

F.99;2,18=6,01

AB SAB=1,0370 4 S”AB=0,2593 " 0,3685"AB

ABE

SFS

= =

F.99;4,18=4,58

E SE =1,6667 18 S”E=0,7037

Total ST=16,5185

Por tanto:

Page 47: ANALISIS  VARIANZA 2009

47a) El promedio de horas de sueño es homogéneo con los distintos tratamientos

de analgésicos

b) El promedio de horas de sueño es homogéneo con los distintos tratamientos de somníferos

c) No existe interacción entre los tratamientos de analgésicos y los somníferos

d) El promedio de horas de sueño es homogéneo con los tratamientos combinados, (Ai, Bj), puesto que sí no se rechazan H0(A), H0(B) y H0(AB), entonces no se rechaza

0 : ij ijH µ µ= ∀

Modelo VI: Análisis de la varianza con dos criterios, información completamente aleatoria y efectos aleatorios

Este modelo es similar, en cuanto a los términos de las sumas de cuadrados, al modelo V, y a los modelos II y IV de efectos aleatorios, en cuanto al tratamiento.

El esquema de trabajo aditivo para las observaciones, ijkx , la igualdad fundamental y el calculo abreviado es igual que en el modelo V

Los contrastes serían:

2 20( ) 1( )

2 20( ) 1( )

2 20( ) 1( )

1. : 0 contra : 0

2. : 0 contra : 0

3. : 0 contra : 0

A A

B B B

AB AB

H H

H H

H H

α α

β

αβ αβ

σ σ

σ σ

σ σ

= ≠

= ≠

= ≠

El contraste global sería:

2 2 20

2 2 21

: 0 0 0

: 0 0 0

α β αβ

α β αβ

σ σ σ

σ σ σ

= ∨ = ∨ =

≠ ∨ ≠ ∨ ≠

H

H

Page 48: ANALISIS  VARIANZA 2009

48El cuadro de la anova sería:

Fuente SC g.l CM CME Estadístico F

A SA a-1 "

1A

ASS

a=

− ( ) 2 2 2"AE S n nbαβ ασ σ σ= + + "

"A

AAB

SFS

=

F(a-1),(a-1)(b-1)

B SB b-1 "

1B

BSS

b=

− ( ) 2 2 2"BE S n naαβ βσ σ σ= + + "

"B

BAB

SFS

=

F(b-1),(a-1)(b-1)

AB SAB (a-1)(b-1)

( )( )"

1 1AB

ABSS

a b=

− − ( ) 2 2"ABE S n αβσ σ= + "

"AB

ABE

SFS

=

F(a-1)(b-1),ab(b-1)

E SE ab(n-1)

( )"

1E

ESS

ab n=

− ( ) 2"EE S σ=

Los contrastes serían:

1) Para contrastar H0(A)

( ) ( )( ) ( ) ( )1 , 1 1 0"Sí se rechaza "

AA a a b A

E

SF F HS

α− − −= ⟩ ⇒

2) Para contrastar H 0(B)

( ) ( )( ) ( ) 0( )1 , 1 1"Sí se rechaza "

BB Bb a b

E

SF F HS

α− − −= ⟩ ⇒

3) Para contrastar H 0(AB)

( )( ) ( ) ( ) 0( )1 1 , 1"Sí se rechaza "AB

AB ABa b ab nE

SF F HS

α− − −= ⟩ ⇒

Los estimadores insesgados de las varianzas que miden la heterogeneidad de los ,i j ijIα β ∨ serían:

Page 49: ANALISIS  VARIANZA 2009

49

( )

( )

( )

2*

2*

2*

1 " "

1 " "

1 " "

A AB

B AB

AB E

S Snb

S Sna

S Sn

α

β

αβ

σ

σ

σ

= −

= −

= −

Y como

2* 2* 2* 2* "T ESα β αβσ σ σ σ= + + +

Los porcentajes de influencia de cada factor en la variación total, estimada por 2*Tσ ,

serían:

% de influencia del factor A en la heterogeneidad total = 2*

2* 100T

ασσ

% de influencia del factor B en la heterogeneidad total =

2*

2* 100T

βσσ

% de influencia de la interacción AB en la heterogeneidad total =

2*

2* 100T

αβσσ

% de influencia del error aleatorio E en la heterogeneidad total = 2*

" 100E

T

Page 50: ANALISIS  VARIANZA 2009

50Ejercicio 11

Supongamos que deseamos contrastar si el promedio de horas de sueño de unos pacientes que están sometidos a un tratamiento conjunto de dos factores, A: uso de analgésicos y B: uso de somníferos, es homogéneo para todos los tratamientos. Donde los nivele Ai de A son parte de una población y los niveles Bj son también parte de una población

Para ello obtenemos las siguientes observaciones:

Contrastar con un nivel de significancia del 5% sí:

a) El promedio de horas de sueño es homogéneo con todos los tratamientos de analgésicos

b) El promedio de horas de sueño es homogéneo con todos los tratamientos de somníferos

c) Si existe interacción significativa de los factores

d) Si el promedio de horas de sueño es homogéneo con todos los tratamientos combinados (Ai, Bj)

e) Si se rechazan algunas hipótesis, ordenar la influencia de los factores en la heterogeneidad total.

La tabla de los totales muestrales (Tij.), totales por fila (Ti..), totales por columnas

(T.j.) y sus correspondientes cuadrados es:

B1 B2 B3

A1 8

7

7

6

7

7

6

7

7

A2 8

9

10

8

7

6

6

7

6

A3 7

5

6

6

7

7

7

8

5

Page 51: ANALISIS  VARIANZA 2009

51

Tij. B1 B2 B3 Ti.. T2i..

A1

A2

A3

22 20 20

27 21 19

18 20 20

62

67

58

3.844

4.489

3.364

T.j. 67 61 59 T…=187 2.. 11.697iT =∑

T2.j. 4.489 3.721 3.481 2

. . 11.691jT =∑

El cuadro de los T2ij. Es:

T2ij.

484 400 400

729 441 361

324 400 400

2. 3.939ijT =∑

Y las sumas de los cuadrados de las observaciones muestrales ijkx

2 1.327ijk

ijkx =∑

La suma de cuadrados sería:

Page 52: ANALISIS  VARIANZA 2009

52

2

2

2..

2. .

... 34.969 1.295,148127

1.327 1.295,1481 31,8519

1 111.697 1.295,1481 4,51869

1 111.691 1.295,1481 3,85199

17,8519 4,5186 3,8519 9, 4814

T ijkijk

A i

B jj

AB TR A B

TCabn

S x C

S T Cnb

S T Cna

S S S S

= = =

= − = − =

= − = − =

= − = − =

= − − = − − =

21 1 3.939 1.295,1481 17,8519

3TR ijij

S T Cn

= − = − =∑

El cuadro de la anova sería:

Fuente SC g.l CM Estadístico F

A SA = 4,5186 2 S”A=2,2593 " 0,9531"

AA

AB

SFS

= =

F.95;2,4 = 6,94

B SB = 3,8519 2 S”B=1,926 " 0,8126"

BB

AB

SFS

= =

F.95;2,4=6,94

AB SAP=9,4814 4 S”AB=2,3704 " 3,0476"AB

ABE

SFS

= =

F.95;4,18 = 2,93

E SE =14 18 S”E=0,7778

Page 53: ANALISIS  VARIANZA 2009

53

Como:

FA < Fcrit, entonces No se rechaza H0(A)

es decir, no se rechaza 2

0( ) : 0AH ασ =

FB < Fcrit, entonces No se rechaza H0(B)

es decir, no se rechaza 2

0( ) : 0BH βσ =

FAB > Fcrit, entonces se rechaza H0(AB),

es decir, se rechaza 2

0( ) : 0ABH αβσ =

Entonces:

a) No rechazamos que el promedio de horas de sueños con los distintos analgésicos sea homogéneo

b) No rechazamos que el promedio de horas de sueño con los distintos somníferos sea homogéneo.

c) Existe una interacción significativa entre los dos factores

d) El promedio de horas de sueño no son homogéneas con todos los tratamientos combinados debido a la interacción.

e) Para calcular la influencia en la variación total medimos la heterogeneidad de cada uno de los factores y del error aleatorio muestral con sus correspondientes:

2 2 2 2, , ,α β αβσ σ σ σ

Como las varianzas son poblacionales y, por ello, no las podemos calcular vamos a estimarlas.

( )2* 1 " " 0A ABS Snbασ = − ⟨

ya que no rechazamos que 2 20, tomamos 0α ασ σ= =

Page 54: ANALISIS  VARIANZA 2009

54

( )2* 1 " " 0B ABS Snaβσ = − ⟨

ya que no rechazamos que 2 20, tomamos 0β βσ σ= =

Como rechazamos H0 (AB), entonces:

( ) ( )2*

2*

1 1" " 2,3704 0,7778 0,5309, entonces3

" 0,7778

AB E

E

S Sn

S

αβσ

σ

= − = − =

= =

La heterogeneidad total estimada es:

2* 2* 2* 2* " 0 0 0,5309 0,7778 1,3087T ESα β αβσ σ σ σ= + + + = + + + =

% de influencia de la interacción AB en la heterogeneidad total = 2*

2* 100 40,57%T

αβσσ

=

% de influencia del error aleatorio E en la heterogeneidad tota = "

2* 100 59,43%E

T

=

En conclusión, la heterogeneidad del número de horas de sueño, depende, en primer lugar, del error aleatorio en un 59,43%, y luego de la interacción entre los dos tratamientos en un 40,57%. La influencia en la heterogeneidad total del error muestral es debida a los elementos elegidos para las observaciones.

3.3.2 Análisis de la varianza con dos factores e información aleatoria en bloques

En este punto se trataran dos modelos similares a los modelos V y VI, pero incluidas un tercer factor de bloqueo que puede influir en la heterogeneidad, aunque no sea un factor principal.

Page 55: ANALISIS  VARIANZA 2009

55Modelo VII: Anova con dos factores, información aleatoria en bloques y factores fijos

En a siguiente tabla se expresan sus promedios

Este modelo se explicará con un ejemplo.

Consideremos la venta de refrescos como variable dependiente y como factores el sabor (A) y la zona de venta (B). Si tenemos la sospecha de que el mes de la observación puede influir en la heterogeneidad de las ventas, entonces recogemos la información por bloques, de tal manera que en cada mes de observación se recojan datos de todas las combinaciones posibles (Ai, Bj). Si dejáramos de recoger información para una combinación determinada (Ai, Bj) en un mes de más ventas de refrescos, puede parecer que las otras combinaciones (Ai, Bj) tienen mayores ventas por término medio, y en esto ha influido que la combinación mencionada no se ha observado en ese mes. Para evitar estas conclusiones falsas, todas las parejas (Ai, Bj) han de ser observadas en cada bloque Ck siendo i =1,…,a; j = 1,…,b y k = 1,…, n.

La siguiente tabla (abreviada) contiene todas las medias poblacionales de todas las combinaciones posibles para i = 1, 2; j = 1, 2, 3 y k = 1, 2, 3

C1 C2 C3 .ijµ

A1B1

A1B2

A1B3

111µ 112µ 113µ

121µ 122µ 123µ

131µ 132µ 133µ

11.µ

12.µ

13.µ

A2B1

A2B2

A2B3

211µ 212µ 213µ

221µ 222µ 223µ

231µ 232µ 233µ

21.µ

22.µ

23.µ

..kµ ..1µ ..2µ ..3µ µ

Page 56: ANALISIS  VARIANZA 2009

56

Las variables poblacionales corresponden a cada combinación (Ai, Bj, Ck), y sus variables representan al número de refrescos vendidos por sabor, zona y mes. Estas

variables son ( ),ijkN µ σ . Las observaciones muestrales ijkx son ( ),ijkN µ σ , y el

error aleatorio ijk ijk ijkxε µ= − . Las medias de cada bloque son:

..

ijki j

k ab

µµ =

∑∑

El cuadro de datos muestrales, abreviado es:

C1 C2 C3 .ijx

A1B1

A1B2

A1B3

x111 x112 x113

x121 x122 x123

x131 x132 x133

11.x

12.x

13.x

A2B1

A2B2

A2B3

x211 x212 x213

x221 x222 x223

x231 x232 x233

21.x

22.x

23.x

..kx ..1x ..2x ..3x ...x

Page 57: ANALISIS  VARIANZA 2009

57

Las medias por casilla ( ).ijµ , por filas ( )..iµ y por columnas ( ). .jµ serían:

B1 B2 B3 ..iµ A1 A2

11. 12. 13. µ µ µ

21. 22. 23. µ µ µ

1..µ

2..µ

. .jµ .1. .2. .3. µ µ µ µ

Los efectos de los niveles Ai, Bj y Ck se definen de la siguiente manera, y sus estimadores serían:

( )

.. i..

. . j. .

.. k..

. .. . .

Para A

Para B

Para C

i ii

jj j

kk k

ij ij i j

x x

x x

x x

I x x x x

α µ µ

β µ µ

γ µ µ

= − = −

= − = −

= − = −

= − + −

Las observaciones muestrales se pueden descomponer así:

ijk i j ij k ijkx Iµ α β γ ε= + + + + +

Page 58: ANALISIS  VARIANZA 2009

58Las hipótesis a contrastar serían:

0( ) .. 0( )

0( ) . . 0( )

0( ) 0( ) . .

0( ) . 0( )

1. : : 0 .

2. : : 0 .

3. : 0 :

4. : : 0 .

A i A i

B j B j

AB ij AB ij i j ij

BL k BL k

H i H i

H j H j

H I ij H

H k H k

µ µ α

µ µ β

µ µ α β

µ µ γ

= ∀ ∨ = ∀

= ∀ ∨ = ∀

= ∀ ∨ = + + ∀

= ∀ ∨ = ∀

La igualdad fundamental para el análisis de la varianza para los modelos VII y VIII consiste en descomponer la suma total de cuadrados ST en suma de términos, de tal manera que, cada uno mide la heterogeneidad debida a los j ij ijk, , I , y i kα β γ ε . Esto es:

( ) ( ) ( )

( ) ( )

( )

22 2.. . . . .. . .

2 2. . .

T

2.

+

S =

Siendo

i j ij i jTijk ijk ijk

k ijk ij kijk ijk

A B AB BL E

ijTR A B ABijk

S x x x x x x x x

x x x x x x

S S S S S

S x x S S S

= − + − + − − + +

− + − − +

+ + + +

= − = + +

∑ ∑ ∑

∑ ∑

Los cálculos abreviados de las sumas de cuadrados son:

Page 59: ANALISIS  VARIANZA 2009

59

2...TC

abn=

2

2.

2..

2. .

2.

1

1

1

1

T ijkijk

T R ijij

A ii

B jj

A B T R A B

B L kk

S x C

S T Cn

S T Cn b

S T Cn a

S S S S

S T Ca b

= −

= −

= −

= −

= − −

= −

Los totales Tij., Ti.. y T.j. ya están definidos en los modelos V y VI, y los totales

( ).k ijkijk

T x= ∑

Page 60: ANALISIS  VARIANZA 2009

60Figuran en la tabla siguiente SE = ST – STR – SBL Teniendo en cuenta que ST = STR + SBL + SE El cuadro de análisis de la anova sería el siguiente

C1 C2 C3

A1B1

A1B2

A1B3

x111 x112 x113

x121 x122 x123

x131 x132 x133

A2B1

A2B2

A2B3

x211 x212 x213

x221 x222 x223

x231 x232 x233

T..1 T...2 T…3

Page 61: ANALISIS  VARIANZA 2009

61

Para comparar las cuatro hipótesis se compran los valores empíricos de los estadísticos FA, FB, FAB y FBL con los valores críticos de F(α ), cada uno con sus grados de libertad. Por lo tanto, si esα el nivel de significación, entonces se tiene:

1) Sí FA > F(a-1),(ab-1)(n-1) (α ) se rechaza H0(A) 2) Si FB > F(b-1),(ab-1)(n-1) (α ) se rechaza H0(B)

3) Sí FAB > F(a-1)(b-1), (ab-1)(n-1) se rechaza H0(AB)

4) Sí FBL > F(n-1), (ab-1)(n-1) se rechaza Ho(BL)

SC g.l CM CME Estadístico F

SA

a-1 "

1A

ASS

a=

− ( ) 2 2"

1A ii

bnE Sa

σ α= +− ∑

""

AA

E

SFS

=

F(a-1), (ab-1)(n-1) Si H0(A) es cierta

SB

b-1 "

1B

BSS

b=

− ( ) 2 2"

1B jj

anE Sb

σ β= +− ∑ "

"B

BE

SFS

=

F(b-1), (ab-1)(n-1)

Si H0(B) es cierta

SAB

(a-1)(b-1) ( )"

1 ( 1)AB

ABSS

a b=

− − ( ) ( )( )

2 2"1 1AB ij

i j

nE S Ia b

σ= +− − ∑∑

"""AB

ABE

SSS

=

F(a-1)(b-1), (ab-1)(n-1)

Si H0(AB) es cierta

SBL

n-1 "

1BL

BLSSn

=−

2 2( " )1BL k

k

abE Sn

σ γ= +− ∑ "

"B L

E

SS

F(n-1), (ab- 1)(n-1) si H0(BL) es cierta

SE

(ab-1)(n-1) ( )( )"

1 1E

ESS

ab n=

− −

( ) 2"ES S σ=

ST

Abn-1

Page 62: ANALISIS  VARIANZA 2009

62Si no se rechazan H0(A), H0 (B), H0 (AB) y H0(BL), entonces no se rechaza 0 : ijkH µ µ= H0 es la hipótesis global sobre la homogeneidad de todas las poblaciones correspondientes a los niveles (Ai, Bj, Ck). Si se rechaza H0(A) o H0 (B) o H0(AB) o H0(BL), entonces se rechaza H0 Ejercicio 12 Supongamos que deseamos contrastar si la venta de refrescos es homogéneo como variable dependiente de dos factores (A: el sabor; B: el tipo de punto de venta). Recogemos la información en dos meses que pueden influir en la heterogeneidad de las ventas. Los datos observados de las ventas en millones de pesos son los siguientes:

C1 C2A1B1 A1B2 A1B3

8 4 5

106

10A2B1 A2B2 A2B3

8 6 5

7 89

A3B1 A3B2 A3B3

7 7 6

8 9 8

Siendo: A1: sabor cola A2: sabor naranja A3: sabor limón B1: cafeterías; B2: bares; B3: supermercados C1: mes de junio C2: mes de julio Contrastar con un nivel de significancia de 5%

a) Sí el promedio de ventas de refrescos de los tres sabores es homogéneo b) Sí el promedio de ventas de refrescos en los tres tipos de puntos de venta es

homogéneo

c) Sí existe interacción entre ellos

d) Sí el promedio de ventas en los dos meses en los que se realizan las observaciones presentas diferencias significativas

Page 63: ANALISIS  VARIANZA 2009

63e) Sí el promedio de refrescos vendidos por (sabor, punto de venta, mes) es

homogéneo para todas las combinaciones posibles. La siguiente tabla indica el tratamiento de los datos por filas y columnas

B1 B2 B3 A1 (8)

[10] (4)[6]

(5) [10]

A2 (8) [7]

(6)[8]

(5) [9]

A3 (7) [8]

(7)[9]

(6) [8]

Donde: ( ) Son datos del bloque C1 (mes de junio) [ ] Son los datos del bloque C2 (mes de julio) Los totales de las casillas Tij, para cada (Ai, Bj), los totales de las filas Ti.. y los totales de las columnas T.j. figuran en la siguiente tabla:

B1 B2 B3 Ti.. T2i..

A1 A2 A3

18 10 15 15 14 14 15 16 14

43 43 45

1.849 1.849 2.025

T.j. 48 40 43 T…=131 2.. 5.723iT =∑

T2.j. 2.304 1.600 1.849 2

. . 5.753jT =∑

2

2 2 ... 17.161... 131 17.161 953,38893 3 2

TT Cabn

= = ⇒ = = =⋅ ⋅

2

1.003; 3; 3; 2ijkx a b n= = = =∑ Las sumas de cuadrados serían:

Page 64: ANALISIS  VARIANZA 2009

64

( )

( )

( )

( )

2

2.

2..

2. .

.

1.003 953,3889 49,611

1 11.943 953,3889 18,11112

1 1 5.723 953,3889 0,44446

1 1 5.753 953,3889 5,44446

18,1111 0,4444 5,4444 12,2223

T ijkijk

TR ijij

A ii

B jj

AB TR A B

S x C

S T Cn

S T Cnb

S T Cna

S S S S

T

= − = − =

= − = − =

= − = − =

= − = − =

= − − = − − =

( )

( )

( ) ( ) ( )

.1 1

..2 2

2 2 2 2 2. ..1 ..2

8 4 5 8 6 5 7 7 6 = 56 Datos del bloque (mes de junio)

10 6 10 7 8 9 8 9 8 75 Datos del bloque (mes de julio)

1 1 1 56 75 953,3889 20,05559BL k

k

C

T C

S T C T T Cab ab

= + + + + + + + +

= + + + + + + + + =

= − = + − = + − =∑ SE = ST – SBL- STR = 49,6111 - 20,055 – 18,1111= 11, 4445 Por lo tanto la tabla de la anova es:

Page 65: ANALISIS  VARIANZA 2009

65 SC g.l CM FObs A SA = 0,4444 2 S”A = 0,2222 " 0,1553

"A

AE

SFS

= =

F.95,2,18=3,55 B SB = 5,4444 2 S”B = 2,7222 " 1,9028

"B

BE

SFS

= =

F.95,2,18=3,55 AB SAB=12,2223 4 S”AB =3,0556 " 2,1359

"AB

ABE

SFS

= =

F.95,4,8=3,84 BL SBL =20,055 1 S”BL=20,0555 " 14,0189

"BL

BLE

SFS

= =

F.95,1,8=5,32 Error SE =11,4445 8 S”E =1,4306 Total ST = 49,6111 17 Por tanto:

a) No se rechaza H0(A), esto es, el promedio de refrescos de los tres sabores es homogéneo

b) No se rechaza H0(B), esto es, que el promedio de refrescos vendidos en los tres

puntos de venta es homogéneo c) No se rechaza H0(AB), es decir, que no existe interacción

d) Se rechaza H0(BL), es decir, que la ventas promedios de los dos meses son

heterogéneas

e) Se rechaza la hipótesis global, lo que indica que las ventas medias de las combinaciones (sabor, punto de venta, mes) son heterogéneas, siendo la heterogeneidad debida a la influencia del mes en que se realizan las observaciones.

Modelo VIII: Anova con dos factores, información aleatoria en bloques y efectos aleatorios El esquema de trabajo y la igualdad fundamental del análisis de la varianza es como en el modelo VII. La diferencia radica en que k, , y i j ijIα β γ son variables. Esto ocurre por que los niveles Ai, Bj y Ck (bloques) son parte de un colectivo mayor. La experimentación se realiza de la misma forma que en el modelo de efectos fijos, por lo tanto la tabla de datos es la misma, pero las conclusiones se extensivas a la población

Page 66: ANALISIS  VARIANZA 2009

66Las hipótesis a contrastar serían:

2 20( ) 1( )

2 20( ) 0( )

2 20( ) 0( )

2 20( ) 0( )

1. : 0 frente a : 0

2. : 0 frente a : 0

3. : 0 frente a : 0

4. : 0 frentae a : 0

A A

B B

AB AB

BL C BL C

H H

H H

H H

H H

α α

β β

αβ αβ

σ σ

σ σ

σ σ

σ σ

= ≠

= ≠

= ≠

= ≠

La tabla de la anova es: SC g.l CM CME F SA a-1

"1

AA

SSa

=−

( ) 2 2 2"AE S n nbαβ βσ σ σ= + +

( ) ( )( )1 , 1 1

""

AA

AB

a a b

SFS

F − − −

= =

SB b-1 "

1B

BSS

b=

− ( ) 2 2 2"BE S n naαβ βσ σ σ= + +

( ) ( )( )1 , 1 1

""

BB

AB

b a b

SFS

F − − −

= =

SAB (a-1)(b-1)

( )( )"

1 1AB

ABSS

a b=

− − ( ) 2 2"ABE S n αβσ σ= +

( )( ) ( )( )1 1 , 1 1

""AB

ABE

a b ab b

SFS

F − − − −

= =

SBL (n-1) "

1BL

BLSSn

=−

( ) 2 2 2"BL CE S n abαβσ σ σ= + +

( ) ( )( )1 , 1 1

""

BLBL

AB

n a b

SFS

F − − −

= =

SE (ab-1)(n-1)

( )( )""

1 1E

ESS

ab n=

− −( ) 2"EE S σ=

Los contrastes son:

Page 67: ANALISIS  VARIANZA 2009

671 Para contrastar H0(A

Sí ( ) ( )( ) ( ) 0(A)1 , 1 1 no se rechaza HA a a bF F α− − −≤ ⇒ 2 Para contrastar H0(B)

( ) ( )( ) ( ) ( )1 , 1 1 0 B no se rechaza HB b a bSí F F α− − −≤ ⇒ 3. Para contrastar H0(AB)

( )( ) ( )( ) ( ) 0(AB)1 1 , 1 1 no se rechaza HAB a b ab nSí F F α− − − −≤ ⇒ 4. Para contrastar H0(BL)

( ) ( )( ) ( ) 0(BL)1 , 1 1 No se rechaza HBL n a bSí F F α− − −≤ ⇒ La hipótesis global es:

2 2 2 20 0 0 0: 0 : 0 : 0 : 0CH H H Hα β αβσ σ σ σ= ∨ = ∨ = ∨ =

Frente a:

2 2 2 21 1 1 1: 0 : 0 : 0 : 0CH H H Hα β αβσ σ σ σ≠ ∨ ≠ ∨ ≠ ∨ ≠

Si se rechazan H0(A) o H 0(B) o H0 (AB) o H0(BL), entonces se rechaza H0 Sí no se rechaza H0 (A), H0 (B), H0 (AB) y H0(BL), entonces no se rechaza H0 Si se rechaza H0, mediremos la variabilidad o heterogeneidad de los efectos correspondientes estimando las varianzas 2 2 2 2, , Cα β αβσ σ σ σ∨ . Estos estimadores, teniendo encuenta las expresiones de los cuadrados medios esperados, serían:

Page 68: ANALISIS  VARIANZA 2009

68

( )

( )

( )

( )

2 *

2 * "

2 *

2 *

1 " "

1 "

1 " "

1 " "

A A B

B A B

A B E

C B L A B

S Sn b

S Sn a

S Sn

S Sa b

α

β

α β

σ

σ

σ

σ

= −

= −

= −

= −

Y, como 2* 2* 2* 2* 2* "T C ESα β αβσ σ σ σ σ= + + + +

Por lo tanto, se tiene:

% de influencia del factor A =2*

2* 100T

ασσ

% de influencia del factor B =

2*

2* 100T

βσσ

% de influencia de la interacción AB =

2*

2* 100T

αβσσ

Page 69: ANALISIS  VARIANZA 2009

69

% de influencia del bloque C =

2*

2* 100C

T

σσ

% de influencia del error aleatorio E = 2*

" 100E

T

Ejercicio 13: Supongamos que queremos contrastar si el promedio de pantalones confeccionados, por jornada de trabajo, es homogéneo dependiendo de la máquina que realiza la confección y del tejido empleado. Para realizar la experimentación se responsabilizan del proceso operarios distintos de los que sospecha que también pueden influir en la heterogeneidad de la producción. Se toman tres máquinas de un población, tres tipos de tejido de una población y dos operarios de una población. Tenemos el siguiente conjunto de datos

C1 C2 A1B1 A1B2 A1B3

8 6 5

106 10

A2B1 A2B2 A2B3

5 4 3

7 6 5

A3B1 A3B2 A3B3

109 8

151214

Contrastar con un nivel de significancia del 1%

a) Si el promedio de pantalones confeccionados por jornada es homogéneo con todas las máquinas

b) Sí el promedio de pantalones confeccionados por jornada es homogéneo para

todos los tejidos

c) Sí el promedio de pantalones confeccionados es homogéneo para todos los operarios

d) Si existe interacción entre los factores máquina y tejido empleados

e) Si son homogéneas las producciones medias para cada combinación (máquina,

tejido, operario) de manera conjunta

Page 70: ANALISIS  VARIANZA 2009

70f) Si se rechazan algunas de las hipótesis, ordenar la influencia de éstas en la

heterogeneidad total. Al reordenar los datos de la tabla anterior en una tabla de doble entrada para (Ai, Bj) y los datos de los bloques, así: ( ): Los datos del primer bloque [ ]: Los datos del segundo bloque

B1 B2 B3 A1 (8)

[10] (6)[6]

(5) [10]

A2 (5) [7]

(4)[6]

(3) [5]

A3 (10) [15]

(9)[8]

(8) [14]

La tabla de los totales es.

B1 B2 B3 Ti.. T2i..

A1 A2 A3

18 12 1512 10 825 17 22

45 30 64

2.025 900

4.096 T.j. 55 39 45 T…=139 2

... 7.021T =∑ T2

.j. 3.025 1.521 2.025 2. . 6.571jT =∑

22 ...

...

2

19.321193.211 1.073,38893 3 2

1.331, 3, 3, 2ijk

TT Cabn

x a b n

= ⇒ = = =⋅ ⋅

= = = =∑

La suma de cuadrados es:

Page 71: ANALISIS  VARIANZA 2009

712

2..

2. .

2.

1.331 1037,3889 257,611

1 1 7.021 1073,3889 96,77786

1 1 6.571 1.073,3889 21,77786

1 1 2.399 1.073,3889 126,11112

126,1111 96,7778 21,7

T ijkijk

A ii

B jj

TR ijij

AB TR A B

S x C

S T Cnb

S T Cna

S T Cn

S S S S

= − = − =

= − = − =

= − = − =

= − = − =

= − − = − −

( ) ( )2 2 2 2 2. ..1 ..2

778 7,5555

1 1 1 58 85 1.073,3889 103,16679

257,6111 103,1667 126,1111 28,3333

BL kk

E T BL TR

S T C T T Cab ab

S S S S

=

= − = + − = + − =

= − − = − − =

Page 72: ANALISIS  VARIANZA 2009

72Por lo tanto la tabla de la anova es: SC g.l CM FObs SA = 96,7778 2 S”A=48,3889 " 25,6175

"A

AAB

SFS

= =

F0.99,2,4=18,00 SB = 21,7778 2 S”B=10,8889 " 5,7647

"B

BAB

SFS

= =

F0.99,2,4=18,00 SAB = 7,5555 4 S”AB=1,8889 " 0,5333

"AB

ABE

SFS

= =

F0.99,4,8=7,01 SBL = 103,1667 1 S”BL=103,1667 " 54.6173

"BL

BLAB

SFS

= =

F0.99,1,8=11,3 SE = 28,3333 8 S”E=3,5417 ST =257,1111 17 Por lo tanto:

a) Se rechaza H0(A), esto es, las diferencias entre los valores medios del número de pantalones producidos por las distintas máquinas son significativas. Las máquinas influyen en la producción

b) No se rechaza H0 (B), esto es, las diferencias entre el número medio de

pantalones confeccionados por jornada con distinto tipos de tejidos son no significativas. Los tejidos no influyen en la producción

c) No existe interacción entre las máquinas y los tejidos

d) Se rechaza H0 (BL), esto es, que los operarios influyen en el número medio de

pantalones producidos en cada jornada.

e) Se rechaza, por tanto, la hipótesis global de que el número medio de pantalones producidos sea homogéneo por máquina, tejido y operario de manera conjunta.

f) La influencia de cada uno de estos factores tiene en la heterogeneidad total es:

Page 73: ANALISIS  VARIANZA 2009

73

( ) ( )

( ) ( )

( )

0(AB)

2*

2*

2*

2*

2*

1 1" " 48,3889 1,8889 7,752 3

1 1" " 10,8889 1,8889 1,52 3

Como no hemos rechazado H , es decir, 0 (no existe interacción)

por lo tanto, 0

1 1" " 103,1669

A AB

B AB

C BL AB

S Snb

S Sna

S Sab

α

β

αβ

αβ

σ

σ

σ

σ

σ

= − = − =⋅

= − = − =⋅

=

=

= − = ( )

2* 2* 2* 2* 2*

7 1,8889 11, 2539

" 7,75 1,5 0 11, 2531 3,5417 24,0448T C ESα β αβσ σ σ σ σ

− =

= + + + + = + + + + =

Por lo tanto:

% de influencia del factor A 2*

2* 100 32, 23%T

ασσ

= =

% de influencia del bloque C = 2*

2* 100 46,80%C

T

σσ

=

% de influencia del error aleatorio E = 2*

" 100 14,73%E

T

=

Por lo que son los operarios los que en mayor medida influyen en la heterogeneidad, en segundo lugar las máquinas, en tercer lugar la aleatoriedad muestral, es decir, que sean esas las observaciones y no otras las tomadas, y por último los tejidos.

Page 74: ANALISIS  VARIANZA 2009

74