Diseño 1 Inter

21
CAPITULO 5 DISEÑOS FACTORIALES En los diseños estudiados anteriormente solo se contaba con un factor de interés y, el objetivo del diseño era determinar si los tratamientos (niveles del factor) conducían a resultados estadísticamente diferentes. Es decir, si el factor tenia influencia o no sobre la variable respuesta. En este capítulo se estudia el caso más general en el que se estudia la forma como influyen varios factores (más de dos) sobre la variable repuesta. En general, los diseños factoriales combinan todos los niveles de todos los factores de interés para determinar si existen diferencias significativas entre los diferentes tratamientos. Aquí, un tratamiento es un experimento en el cual se fijan los niveles de los factores en un valor particular y se realiza el experimento. Por ejemplo, si un ingeniero químico está interesado en investigar los efectos del tiempo de reacción y de la temperatura de reacción sobre el rendimiento de un proceso, y se consideran importantes los dos niveles de tiempo (1 y 1.5 horas) y los dos niveles de temperatura (125 ºF y 150 ºF), entonces el experimento factorial consiste en hacer corridas experimentales para cada una de las cuatro combinaciones posibles de los niveles de tiempo y temperatura de reacción. 5.1 Definiciones básicas 5.1.1 Diseño Factorial Un diseño factorial es el conjunto de experimentales o tratamientos que se forman considerando todas las posibles combinaciones de los niveles de los factores. Por ejemplo si se desean estudiar la forma como influyen dos factores sobre la variable de interés y se consideran importantes tres niveles para el primer factor y dos para el segundo, se forma el diseño 3x2, para un total de 6 corridas o tratamientos. El nombre de diseño factorial establece de manera implícita el número de corridas que se deben realizar de acuerdo a la cantidad de niveles de cada factor que se combinan. Como un segundo ejemplo suponga que se desea estudiar el efecto de tres factores sobre la variable respuesta y que se tiene interés en tres niveles para el primer factor, cuatro para el segundo y cinco para el tercero. Esto da origen a un diseño 3x4x5, es decir, un total de 60 corridas o tratamientos que resultan de todas las posibles combinaciones de los niveles de cada factor

Transcript of Diseño 1 Inter

Page 1: Diseño 1 Inter

CAPITULO 5 DISEÑOS FACTORIALES

En los diseños estudiados anteriormente solo se contaba con un factor de interés y, el

objetivo del diseño era determinar si los tratamientos (niveles del factor) conducían a

resultados estadísticamente diferentes. Es decir, si el factor tenia influencia o no sobre

la variable respuesta. En este capítulo se estudia el caso más general en el que se

estudia la forma como influyen varios factores (más de dos) sobre la variable repuesta.

En general, los diseños factoriales combinan todos los niveles de todos los factores de

interés para determinar si existen diferencias significativas entre los diferentes

tratamientos. Aquí, un tratamiento es un experimento en el cual se fijan los niveles de

los factores en un valor particular y se realiza el experimento. Por ejemplo, si un

ingeniero químico está interesado en investigar los efectos del tiempo de reacción y de

la temperatura de reacción sobre el rendimiento de un proceso, y se consideran

importantes los dos niveles de tiempo (1 y 1.5 horas) y los dos niveles de temperatura

(125 ºF y 150 ºF), entonces el experimento factorial consiste en hacer corridas

experimentales para cada una de las cuatro combinaciones posibles de los niveles de

tiempo y temperatura de reacción.

5.1 Definiciones básicas

5.1.1 Diseño Factorial

Un diseño factorial es el conjunto de experimentales o tratamientos que se forman

considerando todas las posibles combinaciones de los niveles de los factores. Por

ejemplo si se desean estudiar la forma como influyen dos factores sobre la variable de

interés y se consideran importantes tres niveles para el primer factor y dos para el

segundo, se forma el diseño 3x2, para un total de 6 corridas o tratamientos. El nombre

de diseño factorial establece de manera implícita el número de corridas que se deben

realizar de acuerdo a la cantidad de niveles de cada factor que se combinan.

Como un segundo ejemplo suponga que se desea estudiar el efecto de tres factores

sobre la variable respuesta y que se tiene interés en tres niveles para el primer factor,

cuatro para el segundo y cinco para el tercero. Esto da origen a un diseño 3x4x5, es

decir, un total de 60 corridas o tratamientos que resultan de todas las posibles

combinaciones de los niveles de cada factor

Page 2: Diseño 1 Inter

5.1.2 Efecto principal y efecto de interacción

El efecto de un factor se define como el cambio observado en la variable de respuesta

debido a un cambio de nivel de tal factor. En particular los efectos principales son los

cambios en la medida de la variable de respuesta debidos a la acción individual de

cada factor. Matemáticamente el efecto principal de un factor es la diferencia entre la

respuesta media observada cuando tal factor estuvo en su nivel alto y la respuesta

media observada cuando el factor estuvo en su nivel bajo.

Vemos esto con un ejemplo sencillo

5.1.2.1 Ejemplo de un diseño sin interacción entre factores

Suponga que se estudia el efecto de la presión y la temperatura sobre el rendimiento

de un proceso químico y que resultan importantes dos niveles de cada factor. Los

resultados se muestran en la siguiente tabla

A: Temperatura

Baja Alta

Baja 50 70 B: Presión

Alta 60 80

Tabla 5.1 Ejemplo de un diseño factorial a dos niveles sin interacción entre factores

Observe que el cambio en la variable respuesta (el rendimiento) debido a la

temperatura (A) es

202

6050

2

8070 =+−+=A (5-1)

Es decir que hay un cambio de 20 unidades en el rendimiento promedio al pasar de la

temperatura baja a la temperatura alta. De la misma forma:

102

7050

2

8060 =+−+=B (5-2)

Que indica que el rendimiento cambia, en promedio, 10 unidades cuando cambia la

presión del nivel bajo al nivel alto.

Page 3: Diseño 1 Inter

Note que, en este ejemplo, el efecto de A no depende de B ni el del B depende de A.

Es decir, el rendimiento siempre cambiar 10 unidades al pasar de la presión baja a la

presión alta independientemente de cual sea la presión y que el cambio será de 20

unidades al pasar de la temperatura baja a la alta independientemente de cual sea la

presión. Siempre que ocurre esto decimos que no existe interacción entre los dos

factores.

Así, el efecto de A en el nivel bajo de B es 205070 =−=A y en el nivel alto

206080 =−=A que concuerda con el valor promedio obtenido en la ecuación (5-1)

De igual forma, el efecto de B sobre la variable respuesta en el nivel bajo de A es

105060 =−=B y en el nivel alto de A 107080 =−=B que concuerda con el valor

medio encontrado en la ecuación (5-2)

Esto es típico cuando no existe interacción entre los factores de interés: su efecto

sobre la variable respuesta es el mismo independientemente del nivel de los otros

factores y por lo tanto es igual al efecto promedio.

En la siguiente figura se muestra esquemáticamente el efecto de la temperatura y la

presión sobre el rendimiento.

Figura 5.1 Diseño factorial con dos factores sin interacción

Las dos figuras dan la misma información y en ambas se puede apreciar que no existe

interacción entre los dos factores de interés. Note que el efecto de la temperatura

sobre el rendimiento siempre es de 20 unidades independientemente de la presión y

que el efecto de la presión siempre es de 10.unidades independientemente de la

temperatura

Una regla que resulta de utilidad a la hora de identificar si existe o no interacción entre

los factores estudiados en un diseño experimental es observar si en la gráfica de los

factores (como la Figura 5.1) las líneas son casi paralelas. Si las líneas se cruzan

entonces es porque existe una interacción entre los dos factores de interés

Efecto de la presión, B sobre el rendimiento

40

45

50

55

60

65

70

75

80

85

T Baja T Alta

P Baja

P Alta

10 unidades

Efecto de la Temperatura, A sobre el rendimiento

40

45

50

55

60

65

70

75

80

85

P Baja P Alta

T Baja

T Alta

20 unidades

Page 4: Diseño 1 Inter

5.1.2.2 Ejemplo de un diseño con interacción entre factores

En algunos experimentos, la diferencia en la respuesta entre los niveles de un factor

no es la misma para todos los niveles de los otros factores. Cuando esto sucede,

existe una interacción entre los factores. Por ejemplo, considérense los datos del

mismo problema explicado anteriormente en la sesión 5.1.2.1 pero con los siguientes

datos:

A: Temperatura

Baja Alta

Baja 50 70 B: Presión

Alta 60 40

Tabla 5.2 Ejemplo de un diseño factorial a dos niveles con interacción entre factores

El efecto de la temperatura se calcula igual que en caso anterior

02

6050

2

4070 =+−+=A (5-3)

Lo que lleva, de manera tentativa, a concluir que el factor A no tiene ningún efecto. Sin

embargo, cuando se examinan los efectos de A para diferentes niveles del factor B, se

observa que éste no es el caso. Observe que el efecto de A en el nivel bajo de B es de

205070 =−=A

y en el nivel alto es de

206040 −=−=A

lo que lleva a un valor promedio de cero.

En este ejemplo se aprecia que el efecto del factor A depende de los niveles del factor

B. Por tanto, el conocimiento de la interacción AB es más útil que el conocimiento del

efecto principal. Una interacción significativa puede enmascarar la significancia de los

efectos principales. En consecuencia, cuando la interacción está presente, los efectos

principales de los factores involucrados en ella tal vez no tengan mucho significado.

Es fácil estimar el efecto de interacción en experimentos factoriales tales como los

ilustrados en los ejemplos anteriores (Tabla 5.1 y Tabla 5.2). En este tipo de

experimento, cuando ambos factores tienen dos niveles, el efecto de la interacción AB

es la diferencia entre los promedios de las diagonales. Esto representa la mitad de la

Page 5: Diseño 1 Inter

diferencia entre los efectos de A para los dos niveles de B. Por ejemplo, en Tabla 5.1

se tiene que el efecto de la interacción AB es

02

7060

2

8050 =+−+=AB (5-4)

Por tanto, no hay interacción entre A y B. En la Tabla 5.2, el efecto de la interacción

AB es

202

7060

2

4050 −=+−+=AB (5-5)

Tal como se mencionó, el efecto de interacción en estos datos es muy grande.

El concepto de interacción puede ilustrarse de manera gráfica en varias formas. La

Figura 5.2 es una gráfica de los datos de la Tabla 5.2 contra los niveles de A para los

dos niveles de B.

Figura 5.2 Diseño factorial con dos factores sin interacción

Nótese que las rectas Pbajo y Palto (o Tbajo y Talto) no son paralelas, lo que indica que

existe interacción entre los factores Temperatura (A) y Presión (B). Estas gráficas

reciben el nombre de gráficas de interacción de dos factores , y a menudo son útiles

para presentar los resultados de los experimentos. Muchos de los paquetes

estadísticos utilizados para el análisis de datos construyen estas gráficas de manera

automática.

Los experimentos factoriales son la única manera de descubrir la interacción

entre las variables.

Efecto de la presión, B sobre el rendimiento

40

45

50

55

60

65

70

75

T Baja T Alta

P Baja

P Alta

Efecto de la Temperatura, A sobre el rendimiento

40

45

50

55

60

65

70

75

P Baja P Alta

T Baja

T Alta

Page 6: Diseño 1 Inter

5.2 Experimento factorial Vs mover un factor a la v ez.

Uno de los errores comunes en la investigación es evaluar el efecto de los factores de

manera individual cambiando uno a la vez (y manteniendo los demás constantes) y

observar así el efecto sobre la variable respuesta. Consideremos nuevamente el

ejemplo de rendimiento y suponga que se desean encontrar las condiciones óptimas

(de mayor rendimiento)

En la Figura 5.3 se muestran las curvas de nivel para el rendimiento como una función

de la temperatura y la presión.

Figura 5.3 Optimización de un proceso moviendo un factor a la vez

La Figura 5.3 cada punto representa una corrida que se realiza en busca del óptimo.

La figura muestra claramente que la dirección del óptimo no concuerda con la

dirección que se obtiene al mover un factor a la vez y que, en general, mover un factor

a la vez no necesariamente lleva al óptimo del proceso.

El enfoque de mover un factor a la vez ha fallado porque no puede detectar la

interacción entre los dos factores de interés (la temperatura y la presión). Los

experimentos factoriales son la única manera de det ectar las interacciones . Por

otra parte, el método de un factor a la vez es insuficiente, requiere más

experimentación que un experimento factorial, y no existe garantía de que produzca

los resultados correctos.

Si no existiera interacción entre los factores de interés en el experimento, el diseño

factorial y el enfoque de mover un factor a la vez nos llevaran al mismo valor óptimo.

Temperatura

60%

70%

80%

85%

90%

95%

600 500 400 300 200 700 100

10

20

30

40

50

60

70

Presión

Región del óptimo

Condiciones

Actuales

Dirección del óptimo

Page 7: Diseño 1 Inter

Sin embargo, como esto no esta garantizado, y lo usual es que exista interacción entre

los factores considerados (sobretodo en fenómenos complejos) el procedimiento de

mover un factor a la vez no conduce a resultados correctos.

5.3 Diseños factoriales con dos factores.

Dentro de los diseños factoriales, es el diseño más sencillo y con el que debemos

empezar para entender los diseños factoriales generales que se verán más adelante.

En este tipo de experimentos se tienen solo dos factores de interés y se desea

comprobar si éstos influyen o no sobre la variable respuesta.

5.3.1 Modelo de efectos fijos

Suponga que se tienen los factores A y B. El factor A tiene a niveles, mientras que el

factor B tiene b niveles. La Tabla 5.3 contiene este experimento factorial con dos

factores. El experimento tiene n réplicas , y cada uno contiene ab combinaciones de

tratamientos. La observación en la ij-ésima celda para la k-ésima réplica está denotada

por yijk. Al realizar el experimento, las observaciones abn deben obtenerse con un

orden aleatorio. Por tanto, el experimento factorial con dos factores es un diseño

completamente aleatorizado.

Factor B 1 2 … b Totales Promedios

y111 y112 y121 y122 y1b1 y1b2 1 … y11n … y12n

… … y1bn ••1y ••1y

y211 y212 y221 y222 y2b1 y2b2 2 … y21n … y22n

… … y2bn ••2y ••2y

.

.

.

.

.

.

.

.

. O

.

.

.

.

.

.

.

.

. ya11 ya12 ya21 ya22 yab1 yab2

Factor A

a … ya1n … ya2n

… … yabn ••ay ••ay

Totales ••1y ••2y … ••by

Promedios ••1y ••2y … ••by •••y •••y

Tabla 5.3 Arreglo de datos para el diseño factorial con dos factores

En la tabla anterior se ha hecho uso de la notación de subíndice “punto”. Recuerde

que con esta notación, cuando aparece un punto en lugar de una letra en el subíndice

de la variable respuesta se debe realizar la sumatoria a lo largo de esta letra. Así, por

Page 8: Diseño 1 Inter

ejemplo ∑=

• =n

kijkij yy

1

. Además, la barra en la parte superior indica promedio, como por

ejemplo en, n

yy

n

kijk

ij

∑=

• = 1

Las observaciones pueden describirse con el modelo estadístico lineal

( )

===

++++=nk

bj

ai

Y ijkijjiijk

,...,2,1

,...,2,1

,...,2,1

ετββτµ (5-6)

donde µ es la media global o la gran media, τi es el efecto del i-ésimo nivel del factor

A, βj es el efecto del j-ésimo nivel del factor B, (τβ)ij es el efecto de la interacción entre

A y B y εijk es un componente de error aleatorio que tiene una distribución normal con

media cero y varianza σ2.

El objetivo es determinar si no existe efecto de principal de A, B y no hay interacción

entre ellos.

5.3.2 Hipótesis a evaluar y análisis de varianza

Cuando existen dos factores de interés las hipótesis estadísticas a probar son las

siguientes:

0...: 210 ==== aH τττ ( A no influye)

0:1 ≠iH τ al menos para un i (5-7)

0...: 210 ==== bH βββ (B no influye)

0:1 ≠jH β al menos para un j (5-8)

( ) ( ) ( ) 0...: 12110 === abH τβτβτβ (No hay interacción)

0)(:1 ≠ijH τβ al menos para algún ij (5-9)

La primeras dos hipótesis [(5-7) y (5-8)] evalúan los efectos principales (A y B) y la

última [(5-9)] los efectos de interacción entre los dos factores.

En este caso, se pretende explicar la variabilidad observada en la variable respuesta

en términos de 4 fuentes posibles de variabilidad: dos factores principales (A y B), su

interacción y el error aleatorio. Este hecho también se ilustra en identidad (5-10):

Page 9: Diseño 1 Inter

( )2

1 1 1

...∑∑∑= = =

−a

i

b

j

n

kijk yy

Medida de

variabilidad

total

=

( )2

1

.....∑=

−a

ii yybn

Medida de

variabilidad

debida al factor A

+

( )2

1

.....∑=

−b

jj yyan

Medida de

variabilidad

debida al factor B

+

( )2

1 1

........∑∑= =

+−−a

i

b

jjiij yyyyn

Medida de variabilidad

debida a la interacción

entre A y B

+

( )2

1 1 1

.∑∑∑= = =

−a

i

b

j

n

kijijk yy

Medida de

variabilidad debida

al error aleatorio

(5-10)

La identidad (5-10) muestra la forma como se puede descomponer la variabilidad total

de la variable respuesta en términos de los dos factores principales, la interacción y el

error aleatorio.

El sentido de esta identidad se comprende mejor si se analizan las cantidades

involucrados en cada término. Por ejemplo, ( )2

1

.....∑=

−a

ii yybn involucra la suma de los

cuadrados de las diferencias entre los promedios del primer factor, ••iy y la gran

media, •••y ; si esta sumatoria es diferente de cero es precisamente debido al efecto del

primer factor, A. De igual forma, si B no influyera sobre la variable respuesta, entonces

todos los sus promedios serian iguales a la gran media y por lo tanto la cantidad

( )2

1

.....∑=

−b

jj yyan seria igual a cero.

En la en la Tabla 5.4 se destacan en color verde y azul las calidades involucradas en

el cálculo de la suma de cuadrados debida al factor A y B respectivamente. Si todos

los valores en verde son aproximadamente iguales entonces la cantidad

( )2

1

.....∑=

−a

ii yybn es cercana a cero y como consecuencia A no influye sobre la variable

respuesta; si todos los valores en azul son aproximadamente iguales entonces la

Page 10: Diseño 1 Inter

cantidad ( )2

1

.....∑=

−b

jj yyan es cercana a cero y por lo tanto B no influye sobre la

variable respuesta.

Factor B 1 2 … b Totales Promedios

y111 y112 y121 y122 y1b1 y1b2 1 … y11n … y12n

… … y1bn ••1y ••1y

y211 y212 y221 y222 y2b1 y2b2 2 … y21n … y22n

… … y2bn ••2y ••2y

.

.

.

.

.

.

.

.

. O

.

.

.

.

.

.

.

.

. ya11 ya12 ya21 ya22 yab1 yab2

Factor A

a … ya1n … ya2n

… … yabn ••ay ••ay

Totales ••1y ••2y … ••by

Promedios ••1y ••2y … ••by •••y •••y

Tabla 5.4 Términos involucrados en la valuación de los efectos principales en un diseño con dos factores. En

verde el factor A y en azul B

Para comprender mejor porqué el termino ( )2

1 1

........∑∑= =

+−−a

i

b

jjiij yyyyn en la ecuación

(5-10) mide la interacción entre A y B considere los datos en la celda correspondiente

al nivel i del factor A y el nivel j del factor B en la Tabla 5.3. El resumen de los datos

involucrados en el efecto de interacción se muestra en la

Tabla 5.5

Factor B

•ijy … ••iy

.

.

. O

.

.

.

Factor A

•• jy … •••y

Tabla 5.5 Términos involucrados en la evaluación de los efectos de interacción en un diseño con dos factores.

Observe que la cantidad dentro de paréntesis en la suma de los cuadrados debido a la

interacción se puede escribir en la forma ( ) ( )................ yyyyyyyy jiijjiij −−−=+−−

Page 11: Diseño 1 Inter

La cantidad, ... iij yy − es una medida del efecto de B en el nivel i-ésimo de A y

..... yy j − es una medida del efecto promedio de B para cualquier nivel de A. Si estas

dos cantidades son diferentes es porque el cambio en la variable respuesta debido a B

depende de nivel escogido de A, lo cual indica que existe interacción entre A y B.

La identidad de la suma de los cuadrados de la ecuación (5-10) se puede escribir de

manera simbólica de la forma:

SCT

=

SCA

+

SCB

+

SCAB

+

SCE

Suma de

Cuadrados

totales

=

Suma de

Cuadrados

Factor A

+

Suma de

Cuadrados

Factor B

+

Suma de

Cuadrados

interacción

+

Suma de

Cuadrados

Error

(5-11)

Además, también se puede demostrar que existen en total abn – 1 grados de libertad.

Los efectos principales A y B tienen a – b y b – 1 grados de libertad, mientras que el

efecto de interacción AB tiene (a – 1) (b – 1) grados de libertad. Dentro de cada una de

las ab celdas de la Tabla 5.3 existen n – 1 grados de libertad entre las n réplicas, y las

observaciones en la misma celda sólo pueden diferir debido al error aleatorio.

Por lo tanto los grados de libertad también quedan divididos de acuerdo a la expresión:

SCT

=

SCA

+

SCB

+

SCAB

+

SCE

abn-1

= (a – 1) + (b – 1) + (a-1)(b-1) + ab(n-1)

(5-12)

Dividiendo cada suma de cuadrados entre sus respectivos grados de libertad se

obtienen las respectivas medias de cuadrados. Si las hipótesis dadas anteriormente

para los efectos principales así como la hipótesis del efecto de interacción [Hipótesis

(5-9)] son todas verdaderas, se puede demostrar que todas las medias de cuadrados

estiman la misma varianza común, σ2. Por lo tanto, se puede utilizar la distribución F

para verificar las hipótesis estadísticas en el diseño factorial con dos factores

[Hipótesis de (5-7) y (5-9)].

Page 12: Diseño 1 Inter

Los resultados se suelen escribir en una tabla como la siguiente

Fuente de

Variación Suma de Cuadrados

Grados

de

libertad

Media de

cuadrados F0 Valor P

Factor A abn

y

bn

ySC

a

i

iA

⋅⋅⋅−⋅⋅=∑=

2

1

2

a-1 1−

=a

SCMC A

A E

A

MC

MCF =0

Probabilidad

Factor B abn

y

an

ySC

b

j

jB

⋅⋅⋅−⋅⋅

=∑=

2

1

2

b-1 1−

=b

SCMC B

B E

B

MC

MCF =0

Probabilidad

Interacción

AB BA

a

i

b

j

ijAB SSSS

abn

y

n

ySC −−⋅⋅⋅−

⋅=∑∑

= =

2

1 1

2

(a-1)(b-1) )1)(1( −−

=ba

SCMC AB

AB

E

AB

MC

MCF =0

Probabilidad

Error BAABTE SCSCSCSCSC −−−= ab(n-1) )1( −

=nab

SCMC E

E

Total ∑∑∑= = =

⋅⋅⋅−=a

i

b

j

n

kijkT abn

yySC

1 1 1

22

abn-1

Tabla 5.6 Tabla ANOVA para un diseño factorial con dos factores

5.3.3 Comparación de medias

Cuando ambos factores son fijos, las comparaciones entre las medias de cualquier

factor pueden efectuarse mediante el empleo de métodos de comparación múltiple,

tales como el método gráfico o la prueba de rango múltiple de Duncan. Cuando no hay

interacción, estas comparaciones pueden realizarse con el empleo de los promedios

por renglón, ••iy o por columna, •• jy . Sin embargo, cuando la interacción es

significativa, las comparaciones entre las medias de un factor (por ejemplo, A) pueden

verse oscurecidas por la interacción AB. En este caso, puede aplicarse a las medias

del factor A un procedimiento tal como la prueba de rangos múltiples de Duncan, con

el valor del factor B ubicado en un nivel en particular.

Page 13: Diseño 1 Inter

5.3.4 Verificación de la adecuación del modelo y de los

supuestos hechos.

Al igual que en los experimentos de un solo factor, los residuos de un experimento

factorial juegan un papel importante en la evaluación de la adecuación de un modelo.

Los residuos de un experimento factorial de dos factores son

eijk = yijk - y ij· (5-13)

Esto es, los residuos son precisamente la diferencia entre las observaciones y los

promedios de celda correspondientes.

5.3.5 Una observación por celda

En algunos casos donde se tiene un experimento factorial con dos factores, se tiene

sólo una réplica –esto es, sólo una observación por celda-. En esta situación, existen

tantos parámetros en el modelo del análisis de la varianza como observaciones, y en

los grados de libertad del error son cero. Por tanto, no es posible probar hipótesis con

respecto a los efectos principales y a las interacciones, a menos que se hagan

suposiciones con adicionales. Un a de éstas es suponer que el efecto de interacción

es despreciable y utilizar la media de cuadrados de ésta como error cuadrático medio.

De este modo, el análisis es equivalente al utilizado en el diseño aleatorizado por

bloques. Esta suposición de no interacción puede ser peligrosa, y el experimentador

debe examinar con cuidado los datos y los residuos para determinar si existen o no

indicios de interacción.

5.4 Diseños factoriales con tres factores.

En este diseño se tienen tres factores de interés denotados como A, B y C. Suponga

que se tienen a niveles del factor A, b niveles del factor B, c niveles del factor C y n

replicas. Esto da un total de a×b×c×n observaciones, las cuales resultan de todas las

posibles combinaciones de los niveles de cada factor. Por ejemplo, si se tiene 3

niveles de A, 2 niveles de B y 4 niveles de C se obtienen 3×2×4 combinaciones

posibles; y si se decide realizar 3 replicas, el total de observaciones será de 3×2×4×3 =

72.

En el diseño factorial con tres factores, la variable respuesta, Y se pretende explicar a

partir del modelo:

Page 14: Diseño 1 Inter

( ) ( ) ( ) ( )

====

++++++++=

nl

ck

bj

ai

Y ijklijkjkikijkjiijkl

,...,2,1

,...,2,1

,...,2,1

,...,2,1

ετβγβγτγτβγβτµ (5-14)

Este modelo incluye, en total, 8 fuentes de variabilidad: tres efectos principales, tres

efectos de interacción entre dos factores, un efecto de interacción entre tres factores y

el termino de error aleatorio. El término de error aleatorio incluye el efecto de aquellas

variables o factores distintos a los tres factores considerados en el diseño, que

también pueden influir sobre la variable respuesta, pero que se espera que su efecto

sea pequeño y aleatorio.

La Tabla 5.7 muestra la tabla del Análisis de Varianza para los diseños factoriales con

tres factores.

Fuente de

Variación Suma de Cuadrados

Grados

de

libertad

Media de

cuadrados F0 Valor P

Factor A abcn

y

bcn

ySC

a

i

iA

2

1

2••••

=

••• −=∑ a-1 1−

=a

SCMC A

A E

A

MC

MCF =0

Probabilidad

Factor B abcn

y

acn

ySC

b

j

jB

2

1

2••••

=

••• −=∑ b-1 1−

=b

SCMC B

B E

B

MC

MCF =0

Probabilidad

Factor C abcn

y

abn

ySC

b

k

kC

2

1

2••••

=

••• −=∑ c-1 1−

=c

SCMC B

C E

C

MC

MCF =0

Probabilidad

Interacción

AB BA

a

i

b

j

ijAB SSSS

abn

y

cn

ySC −−−

⋅= ••••

= =

••∑∑2

1 1

2

(a-1)(b-1) )1)(1( −−

=ba

SCMC AB

AB

E

AB

MC

MCF =0

Probabilidad

Interacción

AC CA

a

i

c

k

kiAC SSSS

abn

y

bn

ySC −−−

⋅= ••••

= =

••∑∑2

1 1

2

(a-1)(c-1) )1)(1( −−=

ca

SCMC AC

AC

E

AC

MC

MCF =0

Probabilidad

Interacción

BC CB

b

j

c

k

jkBC SSSS

abn

y

an

ySC −−−

⋅= ••••

= =

••∑∑2

1 1

2

(b-1)(c-1) )1)(1( −−=

cb

SCMC BC

BC

E

BC

MC

MCF =0

Probabilidad

Interacción

ABC BCACABCB

A

a

i

b

j

c

k

ijkAB

SSSSSSSSSS

SSabn

y

n

ySC

−−−−−

−−⋅

= ••••

= = =

•∑∑∑

2

1 1 1

2

(a-1)(b-1)(c-1)

)1)(1)(1( −−−

=

cba

SC

MC

ABC

ABC

E

ABC

MC

MCF =0

Probabilidad

Error BAABTE SCSCSCSCSC −−−= abc(n-1) )1( −=

nabc

SCMC E

E

Total ∑∑∑= = =

⋅⋅⋅−=a

i

b

j

n

kijkT abn

yySC

1 1 1

22

abcn-1

Page 15: Diseño 1 Inter

Tabla 5.7 Tabla ANOVA para un diseño factorial con tres factores

En la tabla de Análisis de Varianza (Tabla 5.7) se puede apreciar las 7 hipótesis nulas

en tela de juicio: las que evalúan los tres efectos principales, los tres de interacción

binarias y la interacción entre tres factores. Cada una de estas hipótesis establece que

el efecto correspondiente no es significativo, y se deben rechazar, a favor de la

hipótesis alternativa correspondiente, si su valor P en la tabla ANOVA (Tabla 5.7) es

menor que el nivel de significancia establecido para la prueba (usualmente del 5%).

5.5 Diseños factoriales generales.

Para estudiar el caso general, considere f factores A, B, C,…, K con niveles a, b, c,…,

k, respectivamente, donde la letra K denota al f-ésimo o último factor del conjunto a

estudiar, no necesariamente al decimoprimero, que es el lugar de esta letra en el

alfabeto. Con estos niveles y factores se puede construir el diseño factorial general a x

b x… x k, que consiste de a x b x k tratamientos o puntos de prueba. Con este diseño

se pueden estudiar f efectos principales, f (f - 1) /2 interacciones dobles, f (f – 1)(f –

2)/(3 x 2) interacciones triples, y así sucesivamente hasta la única interacción de los f

factores (ABC …K). El cálculo del número de interacciones de cierta cantidad m de

factores se hace mediante la operación “combinaciones de f en m” ( ) ( )!!

!

mfm

ffm −

=

que cuenta el número de maneras diferentes de seleccionar m factores de los f, donde

f! = f x (f – 1) x…x 2 x 1.

En resumen, con el diseño factorial general descrito se pueden estudiar los siguientes

2f – 1 efectos:

ff

=

1 efectos principales (A, B, … K)

2

)1(2

−=

fff interacción entre dos factores (AB, AC, …)

M

ff

f=

−1 interacción entre f-1 factores (ABC…K-1,…)

11

=

f interacción con todos los factores (ABC…K)

(5-15)

Page 16: Diseño 1 Inter

Por ejemplo, el diseño factorial 25 tiene cinco efectos principales, 10 interacciones

dobles, 10 interacciones triples, cinco interacciones cuádruples y una interacción

quíntuple, lo que da un total de 5 +10 +10 +5 +1= 31 efectos. Por su parte, el factorial

35 tiene también estos 31 efectos, pero al contar con tres niveles en cada factor, cada

efecto principal se puede descomponer en su parte lineal y cuadrática, y cada

interacción doble en cuatro componentes, las triples en ocho componentes, así

sucesivamente, las interacciones se parten según los grados de libertad que tienen

sus sumas de cuadrados. Cabe hacer notar que mientras el diseño factorial 25 tiene 32

tratamientos, el factorial 35 tiene 243, una cantidad de tratamientos difícil de manejar.

Aun si pudiera correrse, representa una opción muy ineficaz; además de que existen

arreglos experimentales más pequeños y eficientes.

Una fracción de la tabla de Análisis de Varianza con la columna de fuente de variación,

Suma de cuadrados y grados de libertad se muestra en Tabla 5.8

Fuente Variación Suma de cuadrados Grados de liberta

Efecto A SCA a-1

M M M

Efecto k SCK k-1

Interacción AB SCAB (a-1) (b-1)

M M M

Interacción K(k-1) SC(K-1)K (l-1) (k-1)

Interacción ABC SCABC (a-1)(b-1)(c-1)

M M M

Interacción (K-2)(K-1)K SC(K-2)(K-1)K (m-1)(l-1)(k-1)

M M M

Interacción AB…K SCAB…K (a-1)(b-1)…(k-1)

Error SCE abc…j(n-1)

Total SCT (abc…kn)-1

Tabla 5.8 ANOVA para el diseño factorial general

La columna de la media de cuadrados, el valor F y el valor P de la tabla ANOVA, se

obtienen de manera análoga a como se vio en los diseños con dos o tres factores.

De acuerdo a lo antes dicho, en el factorial general a x b x…x k, se pueden plantear

Page 17: Diseño 1 Inter

2f – 1 hipótesis que se prueban mediante el análisis de varianza. Las primeras tres

columnas de este ANOVA se muestran en la Tabla 5.8.

La suma de cuadrados totales está dada por

∑∑ ∑∑= = = =

•••••−=a

i

b

j

k

m

n

rmrijT N

yySC

1 1 1 1

22 ,L

LL (5-16)

donde N= abc… kn es el total de observaciones en el experimento; los subíndices k y

m representan al tercero y último factor, respectivamente. Las sumas de cuadrados de

efectos son

N

y

lknbc

ySC

a

i

iA

2

1

2••••••

=

••• −=∑ LL

L (5-17)

N

y

lknac

ySC

b

j

jB

2

1

2••••••

=

••••• −=∑ LL

L (5-18)

N

y

lknab

ySC

a

i

kC

2

1

2••••••

=

••••• −=∑ LL

L (5-19)

M

N

y

abc

ySC

k

m

mK

2

1

2

ln••••••

=

••••• −=∑ LL

L (5-20)

BA

a

i

b

j

ijAB SCSC

N

y

lknc

ySC −−−= ••••••

= =

••••∑∑2

1 1

2LL

L (5-21)

M

( ) ( ) Kk

l

p

k

m

pmKk SCSC

N

y

nabc

ySC −−−= −

••••••

= =

••••− ∑∑ 1

2

1 1

2

1LL

L (5-22)

BCACBA

a

i

b

j

c

k

ijkABC SCSCSCSC

N

y

lkn

ySC −−−−−= ••••••

= = =

•••∑∑∑ LLL

2

1 1 1

2

(5-23)

M

.1

2

1 1 1 1

2

−••••••

= = = =

• −−−−−−=∑∑ ∑∑ KABABA

a

i

b

j

l

p

k

m

pmijKAB SCSCSC

N

y

n

ySC

L

LL

LLLL (5-24)

( ) .1 KABABCKkABKATE SCSCSCSCSCSCSCSCL

LLL −−−−−−−−−= − (5-25)

Page 18: Diseño 1 Inter

En el ANOVA de la Tabla 5.8 para el factorial general a x b x…x k se observa la

necesidad de contar con al menos dos réplicas del experimento para poder calcular la

suma de cuadrados del error (SCE), y poder completar toda la tabla de ANOVA. Sin

embargo, esta necesidad de réplicas (n≥2) es para el caso irreal de que interesan los

2f – 1 efectos. Pero resulta que, con excepción del factorial 22, prácticamente nunca en

un factorial completo interesan todos sus posibles efectos, puesto que en general sólo

algunos de ellos están activos. El principio de Pareto, que en este contexto se llama

también principio de esparcidad de efectos, dice que la mayoría de la variabilidad

observada se debe a unos pocos de los efectos posibles; por lo común se debe a

algunos efectos principales e interacciones dobles. En general no influyen las

interacciones de tres o más factores, por lo que es innecesario gastar recursos

experimentales para estudiar estos efectos.

En resumen, sólo en el caso irreal de que todos los posibles efectos en el diseño

factorial general estén activos, es necesario realizar al menos dos réplicas del

experimento. En las situaciones reales se replican al menos dos veces (y no siempre)

sólo los diseños factoriales consistentes de 16 o menos puntos de prueba.

5.6 Ejercicios propuestos.

1. A continuación se muestra parte del ANOVA para un diseño factorial 3 x 5 con dos

réplicas, el factor A con tres niveles y el B con cinco.

F. de variación Suma de

cuadrados

Grados de

libertad

Cuadrado

medio Razón F

A 800

B 900

AB 300

Error 400

Total

a. Suponga efectos fijos, anote el modelo estadístico apropiado y formule las

hipótesis a probar para este experimento.

b. Agregue en esta tabla los grados de libertad, el cuadrado medio y la razón F

para cada una de las fuentes de variación.

Page 19: Diseño 1 Inter

c. Explique de manera esquemática cómo calcularía el p-value para A, por

ejemplo.

d. ¿Con la información disponible se pueden hacer conjeturas sobre cuáles de las

fuentes de variación son significativas estadísticamente? Argumente.

2. En una fábrica de aceites vegetales comestibles la calidad se ve afectada por la

cantidad de impurezas dentro del aceite, ya que éstas causan oxidación, y por ello

repercute a su vez en las características de sabor y color del producto final. El

proceso de “blanqueo” que consiste básicamente en elevar la temperatura del

aceite, agregar cierta cantidad de arcilla (arena), y agitar durante cierto tiempo

para que las impurezas se adhieran a la arcilla; de esta manera al bajar la

temperatura del aceite y dejarlo en reposo, la arcilla junto con las impurezas se

depositen en el fondo del tanque de aceite. Una forma de medir la eficacia del

proceso de blanqueo es midiendo el color del aceite. De acuerdo al método de

medición que se aplica en esta planta, consideran que a un aceite se le eliminó las

suficientes impurezas si el color es mayor a 4.8 (a mayores valores más claro el

aceite). Cuando los lotes del proceso de blanqueo no cumplen con los

requerimientos de blancura, la solución del problema implica reprocesos, aumento

del tiempo de ciclo, entre otras cosas. Para generar una primera aproximación a la

solución del problema se decide estudiar la temperatura y el porcentaje de arcilla a

nivel laboratorio inicialmente. El diseño y los datos de las pruebas experimentales

se muestran a continuación.

Porcentaje de arcilla

Temperatura 0.8 0.9 1.0 1.1

90 5.8 5.9 5.4 5.5 4.9 5.1 4.5 4.4

100 5.0 4.9 4.8 4.7 4.6 4.4 4.1 4.3

110 4.7 4.6 4.4 4.4 4.1 4.0 3.7 3.6

a. Construya el modelo estadístico y formule las hipótesis pertinentes.

b. ¿Cuál es el nombre del diseño utilizado?

c. Normalmente, a condiciones reales se utiliza 1.1% de arcilla y 100 grados de

temperatura. ¿Por qué cree que se han elegido precisamente los niveles de

prueba para el experimento?

d. Realice un análisis de varianza para probar las hipótesis y obtenga

conclusiones.

Page 20: Diseño 1 Inter

e. Apoyándose en las gráficas de efectos, ¿cuál es la relación general entre el

color y los factores controlados en su rango de experimentación?

f. A partir de la gráfica de interacciones, ¿cree que haya un efecto no lineal?

Apoye su respuesta con el análisis de varianza apropiado.

g. Considerando que el nivel mínimo aceptable de blancura es de 4.8, ¿qué

tratamiento utilizaría?

h. ¿Vale la pena ahora plantear el estudio a condiciones reales?

i. ¿Qué cambio le haría al experimento si lo corre a condiciones reales?

3. En un laboratorio de microbiología se realiza un experimento para investigar si

influye el tipo de verdura (lechuga-L, cilantro-C, zanahoria-Z) y la temperatura (8 y

20ºC) de almacenamiento en la sobrevivencia del vidrio colerae. Se hicieron varias

réplicas. El porcentaje de sobrevivencia obtenido después de 24 horas de

inoculado el alimento se muestra a continuación.

Temperatura

Alimento 20 8

L 13.1 15.0 33.6 35.5 42.0 11.1 12.8 6.2 28.5 41.0 35.9 25.0 23.8 79.0 41.6

C 19.0 19.0 66.6 66.6 11.0 11.0 49.0 49.0 84.3 68.7 68.7 30.5 30.5 11.0 11.0 20.0

Z 1.2 1.2 0.2 0.1 0.3 0.2 0.1 0.4 0.2 0.3 25.8 21.8 16.0 16-0 20.1 15.4 13.3 25.2

a. Señale el nombre del diseño que se ha empleado y formule las hipótesis que

pueden ser apropiadas.

b. Haga un análisis de varianza e interprételo con detalle.

c. Verifique el supuesto de igual varianza entre los tratamientos (varianza

constante). ¿Si se cumplen satisfactoriamente?

d. En caso de que no se cumpla el supuesto anterior, ¿cómo afecta esto a sus

conclusiones?

4. Para el caso del problema anterior:

a. Transforme los datos con logaritmos, haga el análisis de varianza.

b. Verifique supuestos.

c. ¿Cuáles son las diferencias más importantes que encontró en los dos análisis?

¿Por qué?

d. Con los datos transformados, y en caso de que haya alguna interacción

relevante, interprétela con detalle.

Page 21: Diseño 1 Inter

5. En una empresa alimenticia se desean evaluar cuatro antioxidantes, a través de su

efecto en un aceite vegetal. El propósito es seleccionar el producto que retrase

más la oxidación. Las pruebas se hacen a condiciones de estrés, midiendo como

variable respuesta el índice de peróxidos. Diferentes unidades experimentales se

evalúan a diferentes tiempos. Los datos obtenidos se muestran a continuación (en

el control no se agrega ningún antioxidante)

Tiempo

Producto 4 horas 8 horas 12 horas

Control 3.84, 3.72 27.63, 27.58 39.95, 39.00

A 4.00, 3.91 22.00, 21.83 46.20, 45.60

B 3.61, 3.61 21.94, 21.85 43.58, 42.98

C 3.57, 3.50 20.50, 20.32 45.14, 44.89

D 3.64, 3.61 20.30, 20.19 44.36, 44.02

a. Señale los factores controlados y la variable de respuesta.

b. Formule el modelo estadístico apropiado al problema y la hipótesis estadística

que se pueden probar.

c. Haga un análisis de varianza y observe los aspectos más relevantes.

d. ¿Los supuestos del modelo se cumplen?

e. Considerando que a menor índice de peróxidos mejor es el producto, ¿hay

algún producto que sea mejor estadísticamente?