teo es23 1 -  · Î Estimación por mínimos cuadrados (justificado en clase): se presentan como...

80
ESTADÍSTICA FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 7: ANÀLISI DE LA VARIANÇA I COVARIANÇA AUTORA: Lídia Montero Mercadé Departament d’Estadística i Investigació Operativa Versió 1.0 Setembre del 2.004

Transcript of teo es23 1 -  · Î Estimación por mínimos cuadrados (justificado en clase): se presentan como...

ESTADÍSTICA

FACULTAT D’INFORMÀTICA

APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 7: ANÀLISI DE LA VARIANÇA I COVARIANÇA

AUTORA: Lídia Montero Mercadé

Departament d’Estadística i Investigació Operativa Versió 1.0

Setembre del 2.004

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-2

TABLA DE CONTENIDOS

INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR

CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2

EL MODELO ANOVA DE DOS FACTORES

CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5

MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA

CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN

CONCLUSIONES BIBLIOGRAFÍA

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-3

INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR

CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2

EL MODELO ANOVA DE DOS FACTORES

CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5

MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA

CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN

CONCLUSIONES BIBLIOGRAFÍA

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-4

INTRODUCCIÓN

El Modelo Lineal General es el tratamiento de los modelos ANOVA y ANCOVA por técnicas de regresión lineal.

Formulación, estimación y contrastes de significación habituales: modelos ANOVA con uno y dos factores por regresión

Formulación, estimación de los modelos ANCOVA por regresión lineal a partir de un caso de estudio

Desarrollo de 6 Casos de Estudio e interpretación de los resultados del paquete MINITAB para Windows; paquete estadístico de soporte de la docencia en el Departamento.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-5

INTRODUCCIÓN (CONT.)

El Tema 6 de Regresión Normal Clásica ha presentado:

El modelo de regresión permite medir el efecto relativo de cada variable explicativa sobre la respuesta y hacer predicciones sobre la respuesta conocido el valor de las variables explicativas

Estimación por mínimos cuadrados (justificado en clase): se presentan como aquellos que satisfacen las ecuaciones normales. Aspectos geométricos y estadísticos.

Se conoce el principio de la varianza incremental para contrastación, la interpretación de la tabla ANOVA y la diagnosis y validación del modelo vía el análisis de los residuos.

La notación a emplear y un breve resumen de lo expuesto durante el Tema 2 es...

Sea Y la variable de respuesta representada por un vector de n observaciones nyy K1 . Se va a suponer la existencia de un término independiente asociado al parámetro 0β .

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-6

INTRODUCCIÓN (CONT.)

La notación empleada y un breve resumen de lo expuesto... Sean pXX K1 las variables explicativas o regresores, vectores de observaciones de dimensión n>p. El modelo de regresión múltiple presentado es el siguiente:

ipipii xxy εβββ ++++= L110 para ni ,,1K= o εβ += XY

=

ny

yM1

Y ,

=

pnn

p

p

xx

xxxx

L

MMMM

L

L

1

212

111

1

11

X ,

=

βM

0

β y

=

εM1

ε .

Las hipótesis clásicas ligadas al término de error ε : • Errores mutuamente independientes con [ ] [ ] niii K1V,0E 2 === σεε . • Errores distribuidos normalmente, ésto es, ( )I0N 2,σn≈ε . La estimación se resume en b solución de las ecuaciones normales: YXXbX TT = ó

( ) ( ) ( )YHIeXXXXHYXXXb T1TT1T −====−− ,, β

) y

12

−−=

pns eeT

.

La distribución de los estimadores responde a ( )1T X)(XN −

+≈ 21 ,ˆ σββ p y 1

22 −−≈ pnχσ

eeT .

El test de regresión mediante el estadístico de Fisher es 12 −−≈ pnpFspSCM

, , ( )∑=

−=−=n

ii

T yyynYYSCM1

22 ˆˆˆ

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-7

INTRODUCCIÓN (CONT.)

La extensión de los modelos de regresión lineal para el tratamiento del análisis de la varianza y de la covarianza se denomina Modelo Lineal General. El análisis de la varianza es un método para el análisis de datos procedentes del diseño experimental frecuentemente empleado ...

Resulta desconocido por muchos ingenieros e investigadores que los modelos de análisis de varianza pueden tratarse a través de los procedimientos generales de regresión lineal (múltiple) tomando determinadas precauciones: ya que los modelos ANOVA resultan sobreparametrizados

El tratamiento del análisis de la varianza mediante regresión lineal enfatiza la existencia de un

modelo subyacente: el modelo de análisis de la varianza

La diagnosis y validación de los modelos ANOVA (y ANCOVA) puede remitirse a los procedimientos generales de análisis de los residuos empleados en regresión múltiple, con la ventaja de ser procedimientos gráficos y que entran por los ojos

Además, la formulación por regresión hace más llevadero el trabajo con experimentos con un

número de réplicas distintas (diseños no balanceados, o balanceados inicialmente, pero con problemas posteriores) o diseños complejos

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-8

INTRODUCCIÓN (CONT.)

Sin embargo, no hay que confundir el diseño de experimentos y la regresión...

La clave en el diseño de experimentos radica en cómo diseñar X (la decisión de cómo recoger la información); por el contrario, en regresión, la matriz X viene dada

El tratamiento por regresión de los problemas ANOVA involucra la definición de un conjunto de

variables mudas (dummies), pero hay muchas maneras de efectuar la definición, algunas más convenientes que otras, en la práctica, para la extensión a modelos complejos.

La exposición trata modelos de regresión lineal de la forma,

εβ += XY con ( )I0N 2,σn≈ε ,

donde la matriz de diseño X puede contener variables mudas para el análisis de la varianza (ANOVA) o variables mudas más variables continuas (covariantes) para el análisis de la covarianza (ANCOVA). Modelos de efectos fijos.

La presentación formal del modelo lineal general se puede consultar en Fox (1.997).

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-9

INTRODUCCIÓN: ESQUEMA DE LA PRESENTACIÓN

Caso de Estudio 1 : Análisis de la Varianza de un factor (One-Way ANOVA)

Se presenta la tabla ANOVA y el proceder del contraste de homogeneidad de medias. ... para posteriormente formular, interpretar y discutir diversos modelos de regresión lineal

equivalentes ... y mostrar preferencia por la propuesta de suma cero. Diagnosis del Modelo: análisis de los residuos.

Caso de Estudio 3: Análisis de la Varianza con dos factores (Two-Way ANOVA)

Se presentan los modelos aditivos e interactivos y los contrastes habituales (Tema 4) ... para posteriormente formular, a partir de variables dummies, los modelos de regresión lineal

equivalentes y detallar el procedimiento de los contrastes de significación habituales . Caso de estudio con factores anidados donde se ilustra la potencia de la metodología de análisis

expuesta: Caso de Estudio 5.

Caso de Estudio 6: Introducción al Análisis de la Covarianza (ANCOVA)

Tratamiento y formulación por regresión lineal ... se detallan algunas pautas de análisis de modelos ANCOVA.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-10

INTRODUCCIÓN

EL MODELO ANOVA DE UN FACTOR

CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2

EL MODELO ANOVA DE DOS FACTORES

CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5

MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA

CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN

CONCLUSIONES BIBLIOGRAFÍA

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-11

CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (1)

1.1.1 Caso de Estudio 1 (Ejemplo de MINITAB v1.1) Una consultora de Ingeniería e Informática quiere evaluar la reducción de horas-hombre que supone la introducción de una nueva herramienta de cálculo, un programa nuevo con mayores requerimientos de hardware, pero con unas prestaciones superiores según los artículos aparecidos en revistas especializadas de software. La empresa dispone de 6 ingenieros senior y se diseña un experimento aleatorizado que asigna a cada ingeniero 4 problemas, de dos tipos (Factor B), 2 de sistemas lineales y 2 de modelización estadística, a resolver aleatoriamente, uno de cada, con la nueva herramienta y con la habitual (Factor A). Se contabiliza el tiempo de resolución en minutos y se introducen los datos en el programa estadístico MINITAB.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-12

Adams Dixon EricksonJones Maynes Williams

2

3

4

5

6

7

8

FACTOR A

TIEM

PO

NEW OLD

INGENIERO

CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (2)

Datos y Resultados MINITAB ... Worksheet size: 100000 cells MTB > Retrieve "G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas1.mtw". Retrieving worksheet from file: G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas1.mtw Current worksheet: Cas1.mtw MTB > Plot 'TIEMPO'*'FACTOR A'; SUBC> Symbol 'INGENIERO'; SUBC> ScFrame; SUBC> ScAnnotation. MTB > Oneway 'TIEMPO' 'FACTOR A'. One-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,11 72,11 70,78 0,000 Error 22 22,41 1,02 Total 23 94,52 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -----+---------+---------+---------+- New 12 2,925 0,538 (----*---) Old 12 6,392 1,322 (---*---) -----+---------+---------+---------+- Pooled StDev = 1,009 3,0 4,5 6,0 7,5 MTB > PRINT C1-C7

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-13

2,51,50,5

95% Confidence Intervals for Sigmas

OLD

NEW

8765432

TIEMPO

P-Value : 0,000

Test Statistic: 32,248

t Levene's Test

P-Value : 0,006

Test Statistic: 6,042

F-Test

Factor Levels

1

0

Homogeneity of Variance Test for TIEMPO

Data Display Row TIEMPO INGENIERO FACTOR B FACTOR A D1B D1A D2A 1 3,1 Jones Stat New 1 1 0 2 7,5 Jones Stat Old 1 0 1 3 2,5 Jones Eng New 0 1 0

... 24 4,8 Maynes Eng Old 0 0 1 MTB>%Vartest 'TIEMPO''FACTOR A' SUBC> Confidence 95,0. Homogeneity of Variance Response TIEMPO Factors FACTOR A ConfLvl 95,0000 F-Test (normal distribution) Test Statistic: 6,042 P-Value : 0,006 Levene's Test (any continuous distribution) Test Statistic: 32,248 P-Value : 0,000

MTB > TwoT 95,0 'TIEMPO' 'FACTOR A'; SUBC> Alternative 0. Two Sample T-Test and Confidence Interval Two sample T for TIEMPO FACTOR A N Mean StDev SE Mean New 12 2,925 0,538 0,16 Old 12 6,39 1,32 0,38 95% CI for mu (New) - mu (Old): ( -4,35; -2,58) T-Test mu (New) = mu (Old) (vs not =): T = -8,41 P = 0,0000 DF = 14

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-14

MTB > TwoT 95,0 'TIEMPO' 'FACTOR A'; SUBC> Alternative -1. Two Sample T-Test and Confidence Interval Two sample T for TIEMPO FACTOR A N Mean StDev New 12 2,925 0,538 Old 12 6,39 1,32 95% CI for mu (New) - mu (Old): ( -4,35; -2,58) T-Test mu (New) = mu (Old) (vs <): T = -8,41 P = 0,0000 DF = 14 MTB > TwoT 95,0 'TIEMPO' 'FACTOR A'; SUBC> Alternative 0; SUBC> Pooled. Two Sample T-Test and Confidence Interval Two sample T for TIEMPO FACTOR A N Mean StDev New 12 2,925 0,538 Old 12 6,39 1,32 95% CI for mu (New) - mu (Old): ( -4,32; -2,61) T-Test mu (New) = mu (Old) (vs not =): T = -8,41 P = 0,0000 DF = 22 Both use Pooled StDev = 1,01 MTB > ANOVA 'TIEMPO' = 'FACTOR A'. Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 2 New Old Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 70,78 0,000 Error 22 22,412 1,019 Total 23 94,518

210-1-2

2

1

0

-1

-2

Nor

mal

Sco

re

Residual

Normal Probability Plot of the Residuals(response is TIEMPO)

101100 :: µµµµ ≠= HH

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-15

CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (5)

Comentarios ... El diagrama bivariante, tiempo de resolución (Y) frente al Factor A sugiere que el nuevo

programa reduce el tiempo de resolución.

ONEWAY, la tabla ANOVA muestra un valor del estadístico F de 70,78 que contrastado con un nivel de confianza del 95% facilita el nivel de significación de la hipótesis nula 10: µµ =0H ,

frente a la hipótesis alternativa 101 : µµ ≠H p=0 ( 05.0=α y F1,22) .

BasicStatistics → 2-Sample t... de MINITAB, t=8,41 con 14 grados de libertad, pero son 22: la opción Assume equal variances y contraste bilateral de 2-Sample t de MINITAB facilita el mismo contraste que ONEWAY.

La hipótesis de homogeinidad de la varianzas no se satisface: 21

200 : σσ =H , frente a la hipótesis

alternativa 21

201 : σσ ≠H muestra un nivel de significación inferior al 1% a un nivel 05.0=α

(ANOVA → Homogeniety of Variance).

En general, los diseños experimentales suelen contar con más de un factor y se abordan con los procedimientos MINITAB: ANOVA (Balanced Designs), Two-Way ANOVA y GLM.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-16

CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (6)

Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 2 New Old Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 70,78 0,000 Error 22 22,412 1,019 Total 23 94,518 Means FACTOR 1 N TIEMPO New 12 2,9250 Old 12 6,3917

La tabla ANOVA es idéntica a la obtenida con el

procedimiento ONEWAY: existen diferencias significativas entre el tiempo empleado con el programa nuevo y el habitual a un nivel 05.0=α . Sin embargo, no se sabe si es apropiado el modelo ANOVA: falta su diagnosis y validación.

El análisis de los residuos para la diagnosis y validación del modelo puede efectuarse

almacenando los residuos y procediendo como se conoce del análisis de los residuos en regresión múltiple (normal P-P plot, diagramas bivariantes de los residuos, etc.)

Adams Dixon EricksonJones Maynes Williams

-2

-1

0

1

2

FACTOR A

TRES

1

NEW OLD

INGENIERO

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-17

FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (1)

El modelo ANOVA de un factor (genéricamente con I niveles). Se fijan las ideas en el Caso de Estudio 2: formulación y construcción de los modelos de regresión, interpretación de sus parámetros y discusión de su empleo en inferencia.

Grupo 1 111211 ,,, nyyy L Media 1y Grupo 2 222221 ,,, nyyy L Media 2y ... ... ... Grupo I IInII yyy ,,, 21 L Media Iy

(1) ijiijY εµ += , I parámetros y ( )I0N 2,σn≈ε .

(2) ijiijY εαµ ++= , µ es la esperanza del efecto para todos los niveles, I+1 parámetros.

La hipótesis nula habitual es que no hay diferencias entre las medias de los grupos:

(1) µµµ === IL1:0H frente :1H Alguna iµ distinta. (2) 0: 1 === Iαα L0H frente 0: ≠∃ iα1H .

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-18

FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (2)

(R 1) Sea ijiijY εµ += , la formulación por regresión resultante es,

=

IJ

I

J

y

y

y

y

IM

M

M

M

1

1

11

_

1

Y,

} } }

{

{

=

10000010001

X

I21

OMM

L

L

,

=

µM1

β ,

=

IJ

I

J

ε

ε

ε

ε

M

M

M

1

1

11

de manera que el estimador de los parámetros tiene es la media de los grupos, suponiendo el número de réplicas por clase idéntico e igual a J ( IiJni ,,1K== ).

La desventaja de esta formulación es que no puede extenderse a más de un factor y por tanto,

la generalización de la formulación ANOVA a partir de (2).

( )

=

==

=

=

IJ

j Ij

J

j j

y

y

y

y

J

JMMO1

1

1 11

0

0YXXXb T1T

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-19

FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (3)

(R 2) ijiijY εαµ ++= El modelo de regresión correspondiente tiene I+1 parámetros y XXT es singular,

=

IJ

I

J

y

y

y

y

IM

M

M

M

1

1

11

_

1

Y,

} } } } }

=

===

100101

001010100011

X

Ii2i1i1

L

MLM

MM

M

L

,

=

αµ

M1β ,

=

IJ

I

J

ε

ε

ε

ε

M

M

M

1

1

11

,

=

JJ

JJJJn

0000

0OM

L

XXT

No existe una solución única a las ecuaciones normales, sinó infinitas y todas ellas facilitan una suma de cuadrados de los residuos de igual valor.

Técnicamente, existen infinitas posibilidades de formular un modelo de regresión equivalente,

pero con solución única, basta añadir cualquier restricción del tipo 010 =+∑ =

I

i iiαωµω . Se van a ver dos posibilidades ...

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-20

FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (4)

(R 3) ijiijY εαµ ++= más la restricción 0=Iα . Si el número de réplicas por clase es idéntico e igual a J el modelo de regresión equivalente es,

=

IJ

I

J

y

y

y

y

IM

M

M

M

1

1

11

_

1

Y,

In×

=

0011

1010011

X R

L

OMM

M

,

=

−1

1R

αµ

Mβ ,

I parámetros. El efecto del nivel I viene expresado por µ y el efecto aditivo debido al nivel i por iα .

Sin embargo, la formulación más habitual contempla µ como la media global y iα como el efecto diferencial (positivo o negativo) debido al nivel i-ésimo sobre la media global.

( )

−==

II

I

I

yy

yyy

1

1

MYXXXb T

R

1

RT

R

=

IJ

I

J

ε

ε

ε

ε

M

M

M

1

1

11

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-21

FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (5)

(R 4) ijiijY εαµ ++= más la restricción 01

=∑ =

I

i iα (o ∑ −

=−=

1

1

I

i iI αα ): el efecto medio viene

expresado por µ y el efecto aditivo debido al nivel i por iα ,

=

IJ

I

J

y

y

y

y

IM

M

M

M

1

1

11

_

1

Y,

Inx

−−

=

1111

1010011

XR

L

OMM

M

,

=

−1

1R

αµ

,

=

IJ

I

J

ε

ε

ε

ε

M

M

M

1

1

11

( )

−===

yy

yyy

I

RRR

1

1R

MYXXXb T1T

El número de parámetros es I . La matriz RR XX T es no singular de dimensiones IxI . Las

columnas de la matriz de diseño o variables mudas (dummies) se notan como 11 ,, −IDD L .

La última de la propuesta produce una estimación de los parámetros tales que,

I

I

i i∑ == 1ˆ

ˆµ

µ , µµα ˆˆ −= ii y ∑ −

=−=

1

1

I

i iI αα de donde iiij yyy =+= αˆ .

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-22

FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (6)

La contrastación de la hipótesis nula 0: 1 === Iαα L0H frente a la hipótesis alternativa

0: ≠∃ iα1H en (R 4) ijiijY εαµ ++= más la restricción de suma cero es, Si H1 es correcta la suma de cuadrados de los residuos correspondiente al modelo completo SCR1,

satisface 2

21

InSCR

−≈ χσ .

Si además 0: 1 === Iαα L0H es correcta entonces ( )∑∑ −== 2yySCTSCR ijo , 212

0−≈ n

SCR χσ y

de ahí, 212

10−≈−I

SCRSCR χσ y

InIInSCR

ISCRSCR

f −−≈−−

−= ,1

110

1F

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-23

CONTINUACIÓN DEL CASO DE ESTUDIO 1 (1)

Se definen las variables mudas de las propuestas (R1) a (R4) y se comparan los resultados del procedimiento Stat Regression Regression de MINITAB. Códigos: I=2 i=1 ‘Old’ e i=2 ‘New’.

D1A 1 si Old y 0 de otro modo (New). D2A 0 si Old y 1 si New. Regression Analysis The regression equation is TIEMPO = 6,39 D1A + 2,93 D2A Predictor Coef StDev T P Noconstant D1A 6,3917 0,2914 21,94 0,000 D2A 2,9250 0,2914 10,04 0,000 S = 1,009 Analysis of Variance Source DF SS MS F P Regression 2 592,91 296,45 291,01 0,000 Residual Error 22 22,41 1,02 Total 24 615,32 Source DF Seq SS D1A 1 490,24 D2A 1 102,67

(R 1)

93,2ˆˆ39,6ˆˆ

222

111

======

αα

yyyy

j

j

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-24

CONTINUACIÓN DEL CASO DE ESTUDIO 1 (2)

Definición del modelo de regresión estándar (R2), sin considerar la dependencia lineal de las columnas de la matriz de diseño: MINITAB detecta la singularidad y toma la decisión de eliminar una de las columnas, la del nivel 2, lo que facilita el modelo de regresión restringido (R3). Códigos: I=2 i=1 ‘Old’ e i=2 ‘New’.

D1A 1 si Old y 0 de otro modo (New). D2A 0 si Old y 1 si New.

Regression Analysis * D2A is highly correlated with other X variables * D2A has been removed from the equation The regression equation is TIEMPO = 2,93 + 3,47 D1A Predictor Coef StDev T P Constant 2,9250 0,2914 10,04 0,000 D1A 3,4667 0,4121 8,41 0,000 S = 1,009 R-Sq = 76,3% R-Sq(adj) = 75,2% Analysis of Variance Source DF SS MS F P Regression 1 72,107 72,107 70,78 0,000 Residual Error 22 22,412 1,019 Total 23 94,518

(R 3)

93,2ˆˆ39,6ˆˆˆˆ

22

12111

====+=+==

µααµ

yyyyy

j

j

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-25

CONTINUACIÓN DEL CASO DE ESTUDIO 1 (3)

Modelo de regresión restringido (R4): D1A 1 si Old y –1 de otro modo (New).

El término independiente estimado proporciona el valor medio del efecto que debe incrementarse en 1,73 minutos para estimar la media del programa habitual y decrementarse en la misma cantidad para reflejar la media estimada para el programa nuevo.

La varianza estimada del modelo coincide con el valor facilitado por los procedimientos ONEWAY y Balanced ANOVA y el coeficiente de determinación del modelo es del 76,3%.

MTB > LET ‘D1A’= ‘D1A’ – ‘D2A’ MTB > REGRESS ‘TIEMPO’ 1 ‘D1A’; SUBC > Constant. MTB > Regression Analysis The regression equation is TIEMPO = 4,66 + 1,73 D1A Predictor Coef StDev T P Constant 4,6583 0,2060 22,61 0,000 D1A 1,7333 0,2060 8,41 0,000 S = 1,009 R-Sq = 76,3% R-Sq(adj) = 75,2% Analysis of Variance Source DF SS MS F P Regression 1 72,107 72,107 70,78 0,000 Residual Error 22 22,412 1,019 Total 23 94,518

(R 4)

93,2ˆˆˆˆˆ39,673,166,4ˆˆˆ

1222

111

=−=+===+=+==

αµαµαµ

yyyy

j

j

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-26

CASO DE ESTUDIO 2 (DRAPER Y SMITH, 81)

Modelo ANOVA con un factor de 3 niveles que va a tratarse por regresión. En la misma empresa, se desea evaluar el efecto del consumo de café, 0, 1 y 2 tazas, en el número de pulsaciones por minuto de las 30 personas de personal de soporte que tiene en plantilla. Inicialmente se quiere dar respuesta a la cuestión de si el consumo de café tiene algún efecto significativo sobre el número de pulsaciones (y de ahí, la actividad del personal de soporte).

Datos y Resultados MINITAB MTB > PRINT C1-C2 Data Display Row PULSACS FACTOR1 1 242 0 2 245 0 3 244 0 4 248 0 ... 30 250 2

210

252

247

242

FACTOR A

PULS

ACS

MTB > ANOVA 'PULSACS' = 'FACTOR A'. Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 3 0 1 2 Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 2 61,400 30,700 6,18 0,006 Error 27 134,100 4,967 Total 29 195,500 MTB > Oneway ' PULSACS' 'FACTOR A'; SUBC> Tukey 5; SUBC> GNormalplot; SUBC> GFits.

One-way Analysis of Variance Analysis of Variance for PULSACS Source DF SS MS F P FACTOR A 2 61,40 30,70 6,18 0,006 Error 27 134,10 4,97 Total 29 195,50

Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ---+---------+---------+---------+-- 0 10 244,80 2,39 (------*------) 1 10 246,40 2,07 (------*------) 2 10 248,30 2,21 (-------*------) ----+---------+---------+--------- Pooled StDev =2,23 244,0 246,0 248,0 250,0

MTB > Code (0) 1 (1) 0 (2) 0 'FACTOR A' ‘D01A’ MTB > Code (0) 0 (1) 1 (2) 0 'FACTOR A' ‘D02A’ MTB > Code (0) 0 (1) 0 (2) 1 'FACTOR A' ‘D03A’ MTB > Regress ' PULSACS' 3 'D01A' 'D02A' 'D03A'; SUBC> Constant. Regression Analysis * D03A is highly correlated with other X variables * D03A has been removed from the equation The regression equation is PULSACS = 248 - 3,50 D01A - 1,90 D02A Predictor Coef StDev T P Constant 248,300 0,705 352,33 0,000 D01A -3,5000 0,9967 -3,51 0,002 D02A -1,9000 0,9967 -1,91 0,067 S = 2,229 R-Sq = 31,4% R-Sq(adj) = 26,3% Analysis of Variance Source DF SS MS F P Regression 2 61,400 30,700 6,18 0,006 Residual Error 27 134,100 4,967 Total 29 195,500

(R 3)

3,248ˆˆ4,2469,13,248ˆˆ8,2445,33,248ˆˆ

33

2322

1311

====−=+===−=+==

µαα

yyyyyyyy

j

j

j

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-28

210

2

1

0

-1

-2

FACTOR A

TRES

3

MTB > LET ‘D1A’ = ‘D01A’-‘D03A’ MTB > LET ‘D1B’ = ‘D02A’-‘D03A’ MTB > Name c8 = 'TRES3' MTB > Regress ' PULSACS' 2 'D1A' 'D2A'; SUBC> Tresiduals 'TRES3'; SUBC> Constant. Regression Analysis The regression equation is PULSACS = 247 - 1,70 D1A - 0,100 D2A Predictor Coef StDev T P Constant 246,500 0,407 605,82 0,000 D1A -1,7000 0,5754 -2,95 0,006 D2A -0,1000 0,5754 -0,17 0,863 S = 2,229 R-Sq = 31,4% R-Sq(adj) = 26,3% Analysis of Variance Source DF SS MS F P Regression 2 61,400 30,700 6,18 0,006 Residual Error 27 134,100 4,967 Total 29 195,500 Source DF Seq SS D1A 1 61,250 D2A 1 0,150 MTB > Plot 'TRES3'*'FACTOR A'; 3,248ˆˆˆˆˆˆ

4,2461,05,246ˆˆˆ8,2447,15,246ˆˆˆ

21333

222

111

=−−=+===−=+===−=+==

ααµαµαµαµ

yyyyyy

j

j

j

(R 4)

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-29

INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR

CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2

EL MODELO ANOVA DE DOS FACTORES

CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5

MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA

CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN

CONCLUSIONES BIBLIOGRAFÍA

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-30

CASO DE ESTUDIO 3: EL MODELO ANOVA DE DOS FACTORES

1.1.2 Caso de Estudio 1 (Ejemplo de MINITAB v1.1) Una consultora de Ingeniería e Informática quiere evaluar la reducción de horas-hombre que supone la introducción de una nueva herramienta de cálculo, un programa nuevo con mayores requerimientos de hardware, pero con unas prestaciones superiores según los artículos aparecidos en revistas especializadas de software. La empresa dispone de 6 ingenieros senior y se diseña un experimento aleatorizado que asigna a cada ingeniero 4 problemas, de dos tipos (Factor B), 2 de sistemas lineales y 2 de modelización estadística, a resolver aleatoriamente, uno de cada, con la nueva herramienta y con la habitual (Factor A). Se contabiliza el tiempo de resolución en minutos y se introducen los datos en el programa estadístico MINITAB.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-31

EL MODELO ANOVA CON 2 FACTORES: CASO DE ESTUDIO 3

Se considera la existencia de 2 tipos de problemas (Factor B) en el Caso de Estudio 1

Worksheet size: 100000 cells MTB > Retrieve "G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas3.mtw". Retrieving worksheet from file: G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas3.mtw Worksheet was saved on 09/03/98 18:08:46 Current worksheet: Cas3.mtw MTB > ANOVA 'TIEMPO' = 'FACTOR A' 'FACTOR B'; SUBC> Residuals 'RESI2'. Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 2 New Old FACTOR B fixed 2 Eng Stat Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 263,58 0,000 FACTOR B 1 16,667 16,667 60,92 0,000 Error 21 5,745 0,274 Total 23 94,518 Two-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 698,93 0,000 FACTOR B 1 16,667 16,667 161,55 0,000 Interaction 1 3,682 3,682 35,69 0,000 Error 20 2,063 0,103 Total 23 94,518

No trata interacciones Ni diseños no balanceados

Si trata interacciones No diseños no balanceados

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-32

Individual 95% CI FACTOR A Mean ---+---------+---------+---------+-------- New 2,925 (-*-) Old 6,392 (-*-) ---+---------+---------+---------+-------- 3,000 4,000 5,000 6,000 Individual 95% CI FACTOR B Mean --------+---------+---------+---------+--- Eng 3,825 (---*--) Stat 5,492 (---*---) --------+---------+---------+---------+--- 4,000 4,500 5,000 5,500 MTB > Code ( "Stat" ) -1 ( "Eng" ) 1 'FACTOR B' 'D1B' MTB > Code ( "New" ) -1 ( "Old" ) 1 'FACTOR A' 'D1A' MTB > Plot 'TIEMPOMED'*'D1B'...

-1 NEW1 OLD

ENG10

STAT-1

7

6

5

4

3

2

D1B

TIEM

POM

EDD1A

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-33

DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (1)

El análisis de la varianza de 2 factores examina la relación entre una variable de respuesta

cuantitativa y dos variables explicativas cualitativas.

La inclusión del segundo factor permite la modelización y contraste de relaciones de dependencia parciales e introducir interacciones.

Al suponer en Two-way ANOVA que se dispone de las medias poblacionales de cada celda de las combinaciones de los niveles de los factores: JjIiij ,,1,,1, KK ==µ , se pueden establecer patrones de relación habituales claramente.

1 .... J

1 11µ .... J1µ •1µ M M M M M I 1Iµ .... IJµ •Iµ

1•µ .... J•

µ

Si A y B no interaccionan, entonces la relación parcial entre cada factor y la variable de respuesta no depende del nivel del otro factor, es decir, la diferencia entre niveles es constante. Se supone I = 4 y J = 2 en los diagramas bivariantes siguientes.

A B

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-34

DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (2)

1 2

543210

8

7

6

5

4

3

FACTOR A

mu_

ij

FACTOR B

Factores A y B son significativos. No hay efectos interactivos entre A y B.

Factor A es significativo.

Factor B no es

significativo.

No hay efectos interactivos entre A y B.

1 2

0 1 2 3 4 5

3

4

5

6

7

8

mu_

ij

FACTOR A

FACTOR B

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-35

DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (3)

Factor A no es significativo. Factor B es significativo. No hay efectos interactivos entre A y B.

1 2

1 2 3 4

2

3

4

5

6

mu_

ij

FACTOR A

FACTOR B

1 2

543210

8

7

6

5

4

3

mu_

ij

FACTOR A

FACTOR B

Factor A es significativo.

Factor B es significativo.

Hay efectos interactivos entre A y B.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-36

DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (4)

Los posibles modelos ANOVA de 2 factores son, en función de la existencia de efectos principales de alguno de los factores, o de ambos, y de interacciones adicionales: (M 0) El modelo básico de ausencia de efectos: ijkijkY εµ +=

(M 1) El modelo ANOVA completo: ijkijjiijkY εγβαµ ++++=

(M 2) El modelo ANOVA aditivo es: ijkjiijkY εβαµ +++=

(M 3) El modelo ANOVA del factor A: ijkiijkY εαµ ++=

(M 4) El modelo ANOVA del factor B: ijkjijkY εβµ ++= Las hipótesis que suelen contrastarse más habitualmente son: • H1: No existen efectos interactivos o equivalentemente, los efectos de los factores A y B son

aditivos. • H2: No existen diferencias en la variable de respuesta asociadas a los distintos niveles del

factor A. • H3: No existen diferencias en la variable de respuesta asociadas a los distintos niveles del

factor B.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-37

DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (5)

La hipótesis anteriores se contrastan a partir la suma de cuadrados residual y el test de Fisher:

• H1: Se compara el modelo completo con el modelo aditivo. • H2: Se compara el modelo completo (aditivo, a veces) con el modelo ANOVA de B. • H3: Se compara el modelo completo (aditivo, a veces) con el modelo ANOVA de A.

Pero para disponer de las sumas de cuadrados residuales de los modelos implicados (M0) a (M3), es necesario hacer la estimación de los parámetros del modelo: ( ) yXbyy TTT −=−= ∑ =

n

1l2ˆ ll yySCR .

MODELO # Parám. (ν ) S.C.Residual Hipótesis Estad. Fisher

(M1) ijkijjiijkY εγβαµ ++++= IJ n-IJ SCR1

(M2) ijkjiijkY εβαµ +++= I+J-1 n-I-J+1 SCR2 H1 (M2) (M1) 1

1

12

21

νννSCRSCR

−∆

(M3) ijkiijkY εαµ ++= I n-I SCR3 H2

(M3) (M2) 1

1

23

32

νννSCRSCR

−∆

(M4) ijkjijkY εβµ ++= J n-J SCR4 H3

(M4) (M2) 1

1

24

42

νννSCRSCR

−∆

(M0) ijkijkY εµ += 1 n-1 SCR0

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-38

DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (6)

Caso de Estudio 3: Mecánica de la inferencia en ANOVA 2 factores

MODELO # Parám.

(ν ) S.C.Residual Hipótesis Estad. Fisher

(M1) ijkijjiijkY εγβαµ ++++= IJ=4 n-IJ=20 2,063

(M2) ijkjiijkY εβαµ +++= I+J-1=3 n-I-J+1=21

¿? (5,745)

H1 (M2) (M1) 20

063,21683,3

(M3) ijkiijkY εαµ ++= I=2 n-I=22 ¿? (22,412)

H2

(M3) (M2) 20063,2

1667,16

(M4) ijkjijkY εβµ ++= J=2 n-J=22 ¿? (77,852)

H3

(M4) (M2) 20063,2

1107,72

(M0) ijkijkY εµ += 1 n-1=23 94,518

La ortogonalidad de las distintas componentes permite una inferencia sencilla:

( ) ( ) ( ) 1SCRSCMSCMSCMSCT +++= γβα ( ) ( ) ( ) 11 1

21

21

2 SCRyyyyKyyKIyyKJ I

i

J

j jiijJ

j jI

i i ++−−+−+−= ∑ ∑∑∑ = === y

( ) ( ) ( )ααα 321 SCMSCMSCM == , así como ( ) ( ) ( )βββ 321 SCMSCMSCM == .

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-39

DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (7)

Caso de Estudio 3: Mecánica de la inferencia en ANOVA 2 factores (Cont.) MTB > Twoway 'TIEMPO' 'FACTOR A' 'FACTOR B'; Two-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 698,93 0,000 FACTOR B 1 16,667 16,667 161,55 0,000 Interaction 1 3,682 3,682 35,69 0,000 Error 20 2,063 0,103 Total 23 94,518 MTB > Twoway 'TIEMPO' 'FACTOR A' 'FACTOR B'. SUBC> Additive. Two-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 263,58 0,000 FACTOR B 1 16,667 16,667 60,92 0,000 Error 21 5,745 0,274 Total 23 94,518 MTB > Oneway 'TIEMPO' 'FACTOR A'. One-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,11 72,11 70,78 0,000 Error 22 22,41 1,02 Total 23 94,52 MTB > Oneway 'TIEMPO' 'FACTOR B'. One-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR B 1 16,67 16,67 4,71 0,041 Error 22 77,85 3,54 Total 23 94,52

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-40

TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (1)

El modelo aditivo

ijkjiijkY εβαµ +++= del factor A y del factor B tiene un total de parámetros de 1 + I + J ⇒ matriz de diseño con columnas linealmente dependientes.

Las dos restricciones de suma cero a

añadir son 01

=∑ =

I

i iα y 01

=∑ =

J

j jβ ⇒ matriz de diseño restringida con un número de columnas independientes 1 + (I-1) + (J-1) = I+J-1.

Se pueden dar reglas mecánicas

fáciles para la construcción del modelo εβ += RRXY .

}

}

ε

β

+

−+

−−−−

−−−−

−−

−−

−−−−−−−−−

−−

=

IJK

IJ

KI

I

JK

J

K

J

I

IJK

IJ

KI

I

JK

J

K

JIn

y

y

y

y

y

y

y

y

IJ

I

J

ε

ε

ε

ε

ε

ε

ε

ε

β

βα

αµ

M

M

M

M

M

M

M

M

M

LL

MMMMM

LL

MMMMM

LL

MMMMM

LL

MMMMMMM

LL

MMMM

LL

MM

LL

MMMM

LL

M

M

M

M

M

M

M

M

M

M

M

1

1

11

1

11

11

111

R

1

1

1

1

1

1

11

1

11

11

111

)1(x11111

1111110

0

01111

01111_______

11001

1100110

0

01011

01011

_

1

1

11

RX

00

Y

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-41

TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (2)

… Se pueden dar reglas mecánicas fáciles para la construcción del modelo εβ += RRXY . Más

sintéticamente, respetando la ordenación de los datos ilustrada anteriormente para I=J=3 …

1 1 1 1 1 1 1 1 1 -1 -1 1 1 X= 1 1 1 XR = 1 1 1 1 -1 -1 1 1 1 1 1 1 -1 -1 1 1 -1 -1 µ 1α … Iα

1β … Jβ µ 1α 1−Iα

1β 1−Jβ

00

1

1

=++=++

J

I

ββαα

K

K

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-42

TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (3)

El modelo de regresión ANOVA interactivo ijkijjiijkY εγβαµ ++++= .

Total de parámetros del modelo completo es 1 + I + J + IJ = (I+1)(J+1).

El número de parámetros independientes es: 1 + (I-1) + (J-1) + (I-1)(J-1) = IJ.

Restricciones de suma-cero 01

=∑ =

I

i iα y 01

=∑ =

J

j jβ (las anteriores) más,

IiJj J

j ijI

i ij LK 10,1011

=∀==∀= ∑∑ ==γγ , que son I+J restricciones, pero una es redundante, y

sin pérdida de generalidad se elimina la suma de la última columna de los parámetros 01

=∑ =

I

i iJγ :

γ 11 ... γ 1,1 −J

γ J1 0

1 1 =∑ =

J

j jγ

γ 21 ... γ 1,2 −J

γ J2 0

1 2 =∑ =

J

j jγ

... ... ... ... ... γ 11

... γ 1, −JI γ IJ

01

=∑ =

J

j Ijγ

0

1 1 =∑ =

I

i iγ

... 0

1 1, =∑ = −I

i Jiγ

0

1=∑ =

I

i iJγ

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-43

TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (4)

El modelo de regresión ANOVA con interacciones ijkijjiijkY εγβαµ ++++= resulta de lógica de construcción muy automatizable.

… Se pueden dar reglas mecánicas fáciles para la construcción del modelo εβ += RRXY . Sintéticamente, respetando la ordenación de los datos ilustrada anteriormente para I=J=3 …

1 1 1 1 1 1 -1 -1 -1 -1 1 1 XR = 1 1 1 1 -1 -1 -1 -1 1 -1 -1 1 -1 -1 1 -1 -1 -1 -1 1 1 1 1 µ 1α 1−Iα

1β 1−Jβ

11γ 11 −J,γ

11,−Iγ

11 −− JI ,γ

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-44

CASO DE ESTUDIO 4: TWO-WAY ANOVA (1)

Construcción del modelo de regresión para la estimación de un modelo ANOVA de 2 factores, a partir de datos ficticios correspondientes a un Factor A con I=3 niveles, un Factor B con J=2 niveles y un número de réplicas constante K=2, en total n=12 .Se detalla la construcción del modelo ANOVA completo por regresión, para a continuación estimar el modelo con el procedimiento Regression de MINITAB .

Niveles Factor B Niveles

Factor A B1 B2 Total

A1 6,8 6,6 5,3 6,1 24,8 A2 7,5 7,4 7,2 6,5 28,6 A3 7,8 9,1 8,8 9,1 34,8

Total 45,2 43,0 88,2

El modelo ANOVA completo ijkijjiijkY εγβαµ ++++= tiene 12 (=1+3+2+6) parámetros lo que da un modelo inicial al que deben añadirse los constricciones...

000000

312111

3231

2221

1211

21

321

=++=+=+=+=+=++

γγγγγγγγγββ

ααα

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-45

CASO DE ESTUDIO 4: TWO-WAY ANOVA (2)

La formulación por regresión del modelo con 1+2+1+2x1=6 variables mudas resultante de la reparametrización con las constricciones de suma cero da una matriz de diseño restringida,

ε

β

+

−−−−−−

−−−−−−−−−−−−

−−−−

=

322

321

311

311

222

221

212

211

122

121

112

111

R

21

11

1

2

1

12x6111111111111111111111111101101101101

101101101101011011011011011011011011

1,98,81,98,75,62,74,75,71,63,56,68,6

2

εεεεεεεεεεεε

γγβααµ

RXY32232131231122222121211122121112111

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-46

CASO DE ESTUDIO 4: TWO-WAY ANOVA (3)

( )

−−

=

=

==⇔= −−

−−

117,0317,0183,0

2,015,135,7

2,232,22,6

102,88

610000

610000

000000006

10

000610

00000

2,232,22,6

102,88

1

84000048000000120000008400004800000012

121

121

121

121

121

121

YXXXbYXbXX TR

1R

TRR

TRRR

TR

La suma de cuadrados explicada por

el modelo vale 14,35 y los estimadores de los parámetros del modelo ANOVA completo ...

La suma de cuadrados explicada por

el modelo se descompone en la suma de cuadrados explicada por cada uno de los términos...

183,0ˆˆ183,0ˆ35,1ˆˆˆ2,0ˆ15,1ˆ

35,7ˆ

1241

2133221

1

−=−====−−=−==−==

==

βββααααα

µ

bbb

b

434,0ˆˆ0ˆˆ434,0117,0317,0ˆˆˆ0ˆˆˆ

117,0ˆˆ0ˆˆ117,0ˆ317,0ˆˆ0ˆˆ317,0ˆ

31323231

211131312111

21222221621

11121211511

=−==+−=−−=−−==++

−=−=→=+==−=−=→=+==

γγγγγγγγγγ

γγγγγγγγγγ

bb

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-47

CASO DE ESTUDIO 4: TWO-WAY ANOVA (4)

( ) =−=−=−= ∑∑ ==22

12

12 ˆˆˆ µnynyyySCM n

i in

i i RRTR

TR bXXb

( )

( ) ( ) 35,142067,14033,074,12ˆ12ˆˆ

8448

ˆˆˆ12ˆˆ

8448

ˆˆˆ12

ˆ12

2

21

112111

21

2

121

2

2

84000048000000120000008400004800000012

21ˆ11ˆ1ˆ

2ˆ1ˆˆ

21

11

1

2

1

=++=−

++

+=

=−

=

µγγ

γγβαα

ααµ

µ

γγβααµ

γγβααµ

Puede notarse que las predicciones en el modelo reducido son coherentes con el modelo inicial

completo, por ejemplo:

3223211112132

2222211222

1221111112

3113211112131

ˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆ

γβαµγγβααµγβαµγβαµγβαµγβαµγβαµγγβααµ

+++=++−−−=+++=−−+=+++=−−+=+++=−−+−−=

yyyy

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-48

CASO DE ESTUDIO 4: TWO-WAY ANOVA (5)

El modelo ANOVA aditivo ijkjiijkY εβαµ +++= tiene 6 (=1+3+2) parámetros lo que da un modelo inicial reparametrizable con las constricciones de suma cero en un modelo de regresión con 1+2+1=4 variables mudas independientes,

Los estimadores de los parámetros se

calculan resolviendo las ecuaciones normales.

La suma de cuadrados explicada por el

modelo es 13,14. Los estimadores de los parámetros del modelo ANOVA aditivo son:

00

21

321

=+=++

ββααα

ε

β

+

−−−−−−

−−−−

−−

−−

=

322

321

311

311

222

221

212

211

122

121

112

111

1

2

1

11111111

1111111111011101

1101110110111011

10111011

1,98,81,98,75,62,74,75,71,63,56,68,6

2

εεεεεεεεεεεε

βααµ

R

RXY32232131231122222121211122121112111

183,0ˆˆ183,0ˆ35,1ˆˆˆ2,0ˆ15,1ˆ

35,7ˆ

1241

2133221

1

−=−====−−=−==−==

==

βββααααα

µ

bbb

b

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-49

CASO DE ESTUDIO 4: TWO-WAY ANOVA (6)

Resultados del análisis GLM del MINITAB y tratamiento por regresión. Data Display Row Y FACTOR A FACTOR B D1A D2A D1B D1A*D1B D2A*D1B 1 6,8 1 1 1 0 1 1 0 2 6,6 1 1 1 0 1 1 0 3 5,3 1 2 1 0 -1 -1 0 4 6,1 1 2 1 0 -1 -1 0 5 7,5 2 1 0 1 1 0 1 6 7,4 2 1 0 1 1 0 1 7 7,2 2 2 0 1 -1 0 -1 8 6,5 2 2 0 1 -1 0 -1 9 7,8 3 1 -1 -1 1 -1 -1 10 9,1 3 1 -1 -1 1 -1 -1 11 8,8 3 2 -1 -1 -1 1 1 12 9,1 3 2 -1 -1 -1 1 1 MTB > GLM 'Y' = 'FACTOR A' 'FACTOR B' 'FACTOR A'* 'FACTOR B' General Linear Model Factor Type Levels Values FACTOR A fixed 3 1 2 3 FACTOR B fixed 2 1 2 Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P FACTOR A 2 12,7400 12,7400 6,3700 25,82 0,001 FACTOR B 1 0,4033 0,4033 0,4033 1,64 0,248 FACTOR A*FACTOR B 2 1,2067 1,2067 0,6033 2,45 0,167 Error 6 1,4800 1,4800 0,2467 Total 11 15,8300 MTB > Regress 'Y' 5 'D1A' 'D2A' 'D1B' 'D1A*D1B' 'D2A*D1B'; SUBC> Constant. Regression Analysis The regression equation is Y = 7,35 - 1,15 D1A - 0,200 D2A + 0,183 D1B + 0,317 D1A*D1B + 0,117 D2A*D1B Predictor Coef StDev T P

1 2

321

9

8

7

6

FACTOR A

Y M

EDIA

FACTOR B

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-50

1 2 3

1 2

6

7

8

9

FACTOR B

Y M

EDIA

FACTOR A

Constant 7,3500 0,1434 51,27 0,000 D1A -1,1500 0,2028 -5,67 0,001 D2A -0,2000 0,2028 -0,99 0,362 D1B 0,1833 0,1434 1,28 0,248 D1A*D1B 0,3167 0,2028 1,56 0,169 D2A*D1B 0,1167 0,2028 0,58 0,586 S = 0,4967 R-Sq = 90,7% R-Sq(adj) = 82,9% Analysis of Variance Source DF SS MS F P Regression 5 14,3500 2,8700 11,64 0,005 Residual Error 6 1,4800 0,2467 Total 11 15,8300 Source DF Seq SS D1A 1 12,5000 … MTB > Regress 'Y' 3 'D1A' 'D2A' 'D1B' ; SUBC> Constant. Regression Analysis The regression equation is Y = 7,35 - 1,15 D1A - 0,200 D2A + 0,183 D1B Predictor Coef StDev T P Constant 7,3500 0,1673 43,94 0,000 D1A -1,1500 0,2366 -4,86 0,001 D2A -0,2000 0,2366 -0,85 0,422 D1B 0,1833 0,1673 1,10 0,305 S = 0,5795 R-Sq = 83,0% R-Sq(adj) = 76,7% Analysis of Variance Source DF SS MS F P Regression 3 13,1433 4,3811 13,05 0,002 Residual Error 8 2,6867 0,3358 Total 11 15,8300 Source DF Seq SS D1A 1 12,5000 … MTB > Regress 'Y' 2 'D1A' 'D2A' ... Regression Analysis The regression equation is Y = 7,35 - 1,15 D1A - 0,200 D2A

95,8434,0183,035,135,7ˆˆˆˆˆ45,8434,0183,035,135,7ˆˆˆˆˆ85,6117,0183,02,035,7ˆˆˆˆˆ45,7117,0183,02,035,7ˆˆˆˆˆ7,5317,0183,015,135,7ˆˆˆˆˆ7,6317,0183,015,135,7ˆˆˆˆˆ

322332

311331

222222

211221

122212

111111

=+−+=+++==−++=+++==−−−=+++==++−=+++==−−−=+++==++−=+++=

γβαµγβαµγβαµγβαµγβαµγβαµ

yyyyyy

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-51

1 1 1 2 2 1 2 2 3 1 3 2

6 7 8 9

-0,5

0,0

0,5

FITS1

RES

I1

FACTORES (A,B)

Predictor Coef StDev T P Constant 7,3500 0,1691 43,45 0,000 D1A -1,1500 0,2392 -4,81 0,001 D2A -0,2000 0,2392 -0,84 0,425 S = 0,5859 R-Sq = 80,5% R-Sq(adj) = 76,1% Analysis of Variance Source DF SS MS F P Regression 2 12,7400 6,3700 18,55 0,001 Residual Error 9 3,0900 0,3433 Total 11 15,8300 MTB > Regress 'Y' 1 'D1B' ... Regression Analysis The regression equation is Y = 7,35 + 0,183 D1B Predictor Coef StDev T P Constant 7,3500 0,3585 20,50 0,000 D1B 0,1833 0,3585 0,51 0,620 S = 1,242 R-Sq = 2,5% R-Sq(adj) = 0,0% Analysis of Variance Source DF SS MS F P Regression 1 0,403 0,403 0,26 0,620 Residual Error 10 15,427 1,543 Total 11 15,830 MTB > Plot 'RESI1'*'FITS1'...

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-52

CASO DE ESTUDIO 5: FACTORES CRUZADOS VERSUS ANIDADOS (1)

Construcción del modelo de regresión para la estimación de un modelo ANOVA de 2 factores anidado que representa un experimento para comparar 2 drogas, A1 y A2 (Factor A), una de las cuales se ha empleado en K pacientes de 3 hospitales (B1 a B3) y la otra en K pacientes de 2 hospitales distintos (B4 y B5); los hospitales constituyen el Factor B.

Los factores no están cruzados: en este diseño anidado tiene sentido comparar los efectos de las 2 drogas (Factor A) y las posibles diferencias en la respuesta entre los hospitales que hayan empleado la misma droga (Factor B).

Se detalla la construcción del modelo ANOVA completo por regresión, para a continuación estimar el modelo con el procedimiento Regression de MINITAB .

Factor A

Respuesta A1 A2

K=1 6,8 6,6 5,3 6,8 6,1 K=2 7,5 7,4 7,2 7,5 6,5 K=3 7,8 9,1 8,8 7,8 9,1

Factor B B1 B2 B3 B4 B5 El modelo completo es [ ] 252413121121 γγγγγααµ +++++++=YE tiene 8 (=1+2+5) parámetros que se reparametriza con las constricciones de suma cero ...

000

2524

131211

21

=+=++=+

γγγγγ

αα

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-53

ε

β

+

−−−

−−−−−−

−−−−−−−

=

R

24

12

11

1

100111001110011100111001110011

011110111101111010110101101011001110011100111

1,95,61,68,75,78,68,82,73,51,94,76,68,75,78,6

γγγαµ

RXY253252251243242241133132131123122121113112111

CASO DE ESTUDIO 5: FACTORES CRUZADOS VERSUS ANIDADOS (2)

Los estimadores de los 5 (1+1+3) parámetros

se calculan resolviendo las ecuaciones normales:

( )

−=

==⇔=

500,1311,0022,0

361,0028,7

98,18,05,265,106

1

600000630003600000153000315

YXXXbYXbXX TR

1R

TRR

TRRR

TR

Los estimadores de los parámetros del

modelo ANOVA anidado completo son:

5,1ˆˆ0ˆˆ5,1ˆ289,0ˆˆˆ0ˆˆˆ311,0ˆ022,0ˆ

361,0ˆˆ361,0ˆ028,7ˆ

24252524524

121113131211412311

1221

1

=−==+−==−=−−=→=++==−==

−=−=====

γγγγγγγγγγγγγ

αααµ

bbb

bb

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-54

CASO DE ESTUDIO 5: FACTORES CRUZADOS VERSUS ANIDADOS (3)

El modelo ANOVA anidado para contrastar la hipótesis nula “No hay diferencias entre las

drogas, pero sí entre los hospitales, H0: 021 ==αα ” , sería

ijkjijkY εβµ ++= tiene 4 (=1+2+1) parámetros independientes, que al añadirse las constricciones de suma cero ...

Resultados de General Linear Model primero y después con Regression de MINITAB. Se

ilustra la definición de variables mudas.

La contrastación de la hipótesis nula mediante el estadístico de Fisher a partir de los resultados de la regresión muestra que no hay evidencia para rechazar la hipótesis nula:

96,46302,110520,11

1520,11398,13

515105,0

10,1110 ==

−=

−−

= < FSCRSCRSCRf

0ˆˆ0ˆˆˆ

54

321

=+=++

βββββ

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-55

MTB > PRINT C1-C10 Data Display Row Y FACTOR A FACTOR B D1A D1A*D1B D1A*D2B D1A*D4B D1B D2B D4B 1 6,8 1 1 1 1 0 0 1 0 0 2 7,5 1 1 1 1 0 0 1 0 0 3 7,8 1 1 1 1 0 0 1 0 0 4 6,6 1 2 1 0 1 0 0 1 0 5 7,4 1 2 1 0 1 0 0 1 0 6 9,1 1 2 1 0 1 0 0 1 0 7 5,3 1 3 1 -1 -1 0 -1 -1 0 8 7,2 1 3 1 -1 -1 0 -1 -1 0 9 8,8 1 3 1 -1 -1 0 -1 -1 0 10 8,8 2 4 -1 0 0 -1 0 0 1 11 7,9 2 4 -1 0 0 -1 0 0 1 12 7,8 2 4 -1 0 0 -1 0 0 1 13 5,9 2 5 -1 0 0 1 0 0 -1 14 4,5 2 5 -1 0 0 1 0 0 -1 15 5,1 2 5 -1 0 0 1 0 0 -1 MTB > GLM 'Y' = 'FACTOR A' 'FACTOR B'( 'FACTOR A')... General Linear Model Factor Type Levels Values FACTOR A fixed 2 1 2 FACTOR B(FACTOR A) fixed 5 1 2 3 4 5 Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P FACTOR A 1 1,878 1,878 1,878 1,63 0,231 FACTOR B(FACTOR A) 3 14,042 14,042 4,681 4,06 0,040 Error 10 11,520 11,520 1,152 Total 14 27,440 MTB > Regress 'Y' 4 'D1A'-'D1A*D4B'.. Regression Analysis The regression equation is Y = 7,03 + 0,361 D1A - 0,022 D1A*D1B + 0,311 D1A*D2B - 1,50 D1A*D4B Predictor Coef StDev T P Constant 7,0278 0,2828 24,85 0,000 D1A 0,3611 0,2828 1,28 0,231 D1A*D1B -0,0222 0,5060 -0,04 0,966 D1A*D2B 0,3111 0,5060 0,61 0,552 D1A*D4B -1,5000 0,4382 -3,42 0,007 S = 1,073 R-Sq = 58,0% R-Sq(adj) = 41,2%

42,715,1361,028,70ˆˆˆˆ42,685,1361,028,70ˆˆˆˆ36,70281,0361,028,70ˆˆˆˆ95,70311,0361,028,70ˆˆˆˆ62,70022,0361,028,70ˆˆˆˆ

25225

24224

13113

12112

11111

=+−=++==−−=++==−+=++==++=++==−+=++=

γαµγαµ

γαµγαµγαµ

yyyyy

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-56

Analysis of Variance Source DF SS MS F P Regression 4 15,920 3,980 3,45 0,051 Residual Error 10 11,520 1,152 Total 14 27,440 Source DF Seq SS D1A 1 1,878 D1A*D1B 1 0,107 D1A*D2B 1 0,436 D1A*D4B 1 13,500 MTB > Regress 'Y' 3 'D1B'-'D4B'. Regression Analysis The regression equation is Y = 7,10 - 0,022 D1B + 0,311 D2B + 1,50 D4B Predictor Coef StDev T P Constant 7,1000 0,2850 24,92 0,000 D1B -0,0222 0,5203 -0,04 0,967 D2B 0,3111 0,5203 0,60 0,562 D4B 1,5000 0,4506 3,33 0,007 S = 1,104 R-Sq = 51,2% R-Sq(adj) = 37,9% Analysis of Variance Source DF SS MS F P Regression 3 14,042 4,681 3,84 0,042 Residual Error 11 13,398 1,218 Total 14 27,440 Source DF Seq SS D1B 1 0,107 D2B 1 0,436 D4B 1 13,500 MTB >

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-57

INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR

CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2

EL MODELO ANOVA DE DOS FACTORES

CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5

MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA

CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN

CONCLUSIONES BIBLIOGRAFÍA

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-58

MODELOS ANOVA MÁS COMPLEJOS

La extensión de la formulación por regresión a modelos ANOVA más complejos, por ejemplo al

aumentar el número de factores en los diseños experimentales o contrastar hipótesis más complicadas.

En los diseños de experimentos reales los factores pueden estar cruzados o anidados o una

mezcla de ambos: todos ellos pueden tratarse con el procedimiento General Linear Model de MINITAB o formularse mediante variable mudas por modelos de regresión.

Al aumentar el número de factores (A, B, C, ...) también deben formularse modelos que incluyan

términos de interacción de orden superior (AB, BC, AC, ABC,...), no supone diferencias esenciales en el proceder, aunque sin lugar a dudas se complica grandemente la interpretación de los resultados.

Las interacciones de orden elevado pueden conducir a pérdida de robustez por la presencia de

valores aberrantes y a contrastes en cadena escabrosos, AB significativo, BC no significativo, ABC significativo, etc.

Las hipótesis a contrastar surgen del conocimiento externo del problema.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-59

INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR

CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2

EL MODELO ANOVA DE DOS FACTORES

CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5

MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA

CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN

CONCLUSIONES BIBLIOGRAFÍA

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-60

EL MODELO ANCOVA

Los modelos ANCOVA o modelos de análisis de la covarianza son modelos mixtos en los que

aparecen tanto variables mudas que representan niveles de factores o interacciones como variables continuas o covariantes.

Se pretende analizar las medias definidas por los niveles de los factores (y sus interacciones),

después de incluir el efecto de las covariantes en la variable de respuesta.

Se presenta un Caso de Estudio con una única covariante, pero el método de análisis propuesto se puede extender directamente a situaciones más generales.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-61

CASO DE ESTUDIO 6: “LOS VELOCISTAS”

Los datos muestran las prestaciones obtenidas por unos velocistas según los tres niveles de un factor que representan tres métodos de entrenamiento distintos, y una variable explicativa, covariante, que representa las prestaciones obtenidas antes de iniciar el entrenamiento. Se desea comparar los métodos de entrenamiento teniendo en cuenta las diferencias en las aptitudes iniciales en las tres clases de sujetos de estudio (Dobson, 1990). Factor A Réplica A1 A2 A3 k=1 6 3 8 4 6 3 k=2 4 1 9 5 7 2 k=3 5 3 7 5 7 2 k=4 3 1 9 4 7 3 k=5 4 2 8 3 8 4 k=6 3 1 5 1 5 1 k=7 6 4 7 2 7 4

(y, x) y x y x y x

El gráfico indica que las prestaciones finales se

incrementan linealmente con las aptitudes iniciales y que las prestaciones finales son generalmente superiores para los métodos de entrenamiento 2 y 3 que para el 1.

1 2 3

54321

9

8

7

6

5

4

3

XY

FACTOR A

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-62

FORMULACIÓN DEL MODELO ANCOVA (1)

Ejemplo sin datos, de carácter sociológico y muy intuitivo, inspirado en la propuesta de Fox (84): relación entre los ingresos (Y) y el nivel de educación (X) entre la población blanca, oriental y negra de los EEUU (Factor A, I=3 ).

Modelo (M1) Interacción factor – covariante: sin correlación entre

1 2 3

1 2 3 4 5 6 7 8

1

2

3

4

5

6

7

8

9

X

Y

Bl

Bl

Bl

Bl

OrOr

OrOr

Ne Ne Ne Ne

FACTOR A

1 2 3

0 1 2 3 4 5 6 7 8 9

0

1

2

3

4

5

6

7

8

9

X

Y

Bl

Bl

Bl

Bl

OrOr

OrOr

Ne Ne Ne Ne

FACTOR A

Modelo (M1) Interacción factor

– covariante: con correlación entre raza y educación

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-63

FORMULACIÓN DEL MODELO ANCOVA (2)

Modelo (M2): Sin interacción factor –covariante, sin correlación entre raza y educación

Modelo (M2): Sin Interacción factor –

covariante, con correlación entre raza y

educación

1 2 3

9876543210

9

8

7

6

5

4

3

2

1

0

X

Y

NeNe

NeNe

OrOr

OrOr

BlBl

BlBl

FACTOR A

1 2 3

87654321

7

6

5

4

3

2

X

Y

Ne

Ne

Ne

Ne

Or

Or

Or

Or

Bl

Bl

Bl

Bl

FACTOR A

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-64

FORMULACIÓN DEL MODELO ANCOVA (3)

Modelo (M3) sin efecto aditivo de raza

Modelo (M4) ingresos y

educación sin efecto de raza

Modelo (M5) sin relación

con educación o raza

1 2 3

3 4 5 6

3

4

5

6

X

Y

Bl

Bl

Bl

Bl

Or Or Or Or

Ne

Ne

Ne

Ne

FACTOR A

1 2 3

3 4 5 6

3

4

5

6

X

Y

Bl

Bl

Bl

Bl

Or

Or

Or

Or

Ne

Ne

Ne

NeFACTOR A

1 2 3

3 4 5 6

3

4

5

6

X

Y

Bl

Bl

Bl

BlOr

Or

Or

Or

Ne

Ne

Ne

Ne

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-65

FORMULACIÓN DEL MODELO ANCOVA (4)

(M 1) El modelo ANCOVA completo se formula ikikiiik xY εθηαµ ++++= )( tiene 8 (=1+3+4) parámetros al reparametrizarse con las constricciones de suma cero, se configura una matriz de diseño restringida con 6 (=1+2+1+2) columnas independientes:

1 1 x1 x1 1 1 x1 x1 X= 1 1 x2 x2 XR = 1 1 x2 x2 1 1 x3 x3 1 -1 -1 x3 -x3 -x3 µ 1α 2α

η 1θ 2θ 3θ µ 1α 2α η 1θ 2θ

00

321

321

=++=++

θθθααα

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-66

FORMULACIÓN DEL MODELO ANCOVA (5)

El modelo ANCOVA de pendientes paralelas se formula ikikiik xY εηαµ +++= , tiene

5 (=1+3+1) parámetros que al añadirse la constricción 0321 =++ ααα da un modelo de regresión equivalente con 1+2+1=4 variables independientes.

1 1 x1 1 1 x1 X= 1 1 x2 XR = 1 1 x2 1 1 x3 1 -1 -1 x3 µ 1α 2α

η µ 1α 2α η

1 x1 X= XR = 1 x2 1 x3 µ η

El modelo de regresión simple ikikik xY εηα ++= tiene 2 (=1+1) parámetros independientes.

(M 2)

(M 4)

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-67

FORMULACIÓN DEL MODELO ANCOVA (6)

El modelo ANCOVA de centro de gravedad común se formula ( ) ikikiik xY εθηµ +++=

tiene 5 (=1+1+1) parámetros y la constricción 0321 =++ θθθ configura un modelo de regresión equivalente con 1+1+2=4 variables independientes.

1 x1 x1 1 x1 x1 X= 1 x2 x2 XR = 1 x2 x2 1 x3 x3 1 x3 -x3 -x3 µ η 1θ 2θ 3θ µ η 1θ 2θ

1 XR = 1 1 µ

Un caso extremo es el modelo ikikY εµ += de perturbación aleaotoria que tiene 1 parámetro.

(M 3)

(M 5)

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-68

FORMULACIÓN DEL MODELO ANCOVA (7)

Continuación del Caso de Estudio 6 ...

Se detalla el proceso de estimación de los modelos (M1) y (M2) por regresión, así como el contraste de significación de la interacción factor-covariante.

Los resultados calculados a mano se comparan con los resultados de los procedimientos GLM y Regression de MINITAB.

El proceso de definición de variables mudas y adición de constricciones al modelo de regresión

inicial puede generalizarse al caso de más de un regresor y más de un factor con facilidad.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-69

CASO DE ESTUDIO 6: Los Velocistas (CONT.)

La formulación del modelo ANCOVA completo por regresión tiene 8 (=1+3+4) parámetros

ikikiiik xY εθηαµ ++++= )( al que deben añadirse las constricciones de suma cero:

La suma de cuadrados explicada por el modelo es 54,175 y los estimadores de los parámetros del modelo ANCOVA completo son:

00

321

321

=++=++

θθθααα

ε

β

+

=

−−−−−−−−−−−−−−−−−−−−−−−−−−−−

37

36

35

34

33

32

31

27

26

25

24

23

22

21

17

16

15

14

13

12

11

R

2

1

2

1

444111111111444111333111222111222111333111

202101101101303101404101505101505101404101044011011011022011011011023011011011033011

758777675897986343546

εεεεεεεεεεεεεεεεεεεεε

θθηααµ

RXY373635343332312726252423222117161514131211

747,0ˆ863,0ˆˆˆ016,1ˆ879,1ˆ

234,4ˆ

41

2133221

1

===−−===−==

==

bbb

b

ηααααα

µ

151,0ˆˆˆ0ˆˆˆ070,0ˆ221,0ˆ

213321

6251

−=−−==++−====

θθθθθθθθ bb

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-70

CASO DE ESTUDIO 6: Los Velocistas (3)

En la formulación del modelo ANCOVA completo los estimadores de los parámetros se calculan resolviendo las ecuaciones normales:

( )

=

=

==−

−−−−−−−−−

−−−−−

−−−−

−−

070,0221,0747,0016,1879,1

234,4

5957

398616

131

0599,00263,00113.01786,00687,00119,00263,00732,00020,00687,01759,00146,00113,00020,00356,00119,00146,00953,01785,00587,00119,06440,02431,00227,0

0687,01759,00146,02431,05311,00902,00119,00146,00953,00227,00902,03106,0

5957

398616

1311

1555937431955910018193443718196545843195147019344714054580021

YXXXb TR

1R

TRR

El modelo ANCOVA sin interacciones (rectas paralelas) ikikiik xY εηαµ +++= tiene 5 (=1+3+1) parámetros al que debe añadirse la constricción 0321 =++ ααα para formular por regresión el modelo con 1+2+1=4 variables independientes ...

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-71

CASO DE ESTUDIO 6: Los Velocistas (4)

El modelo ANCOVA sin interacciones (rectas paralelas) ikikiik xY εηαµ +++=

La suma de cuadrados explicada por el modelo tiene el

valor 53,507. Los estimadores de los parámetros del modelo ANCOVA sin interacciones factor-covariante se calculan resolviendo las ecuaciones normales:

ε

β

+

=

−−−−−−−−−−−−−− R

RXY

ηααµ

2

1

411111114111311121112111311121011101310141015101510141014011101120111011301110113011

758777675897986343546

373635343332312726252423222117161514131211

( )

=

==⇔= −

−−

743,0838,0

35,1196,4

398616

1311

19654585147047140

580021

YXXXbYXbXX TR

1R

TRR

TRRR

TR

743,0ˆ512,0ˆˆˆ838,0ˆ35,1ˆ

19,4ˆ

4

2133221

1

===−−===−==

==

bbb

b

ηααααα

µ

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-72

CASO DE ESTUDIO 6: Los Velocistas (5)

Los resultados MINITAB de General Linear Model y Regression con la codificación de variables mudas efectuada (suma cero) se indica a continuación.

En este punto una consideración final:

los modelos deben validarse y para ello se debe proceder a un análisis de los residuos.

La contrastación de la hipótesis nula

“No hay interacción entre los niveles del factor y la covariante, (M2) versus (M1)”, mediante el estadístico de

Fisher a partir de los resultados de la regresión muestra que no hay evidencia para rechazar la hipótesis nula:

68,35192,015635,9

2635,9302,10

621205,0

15,2112 ==

−=

−−

= < FSCRSCRSCRf

1 2 3

1 2 3 4 5

-2

-1

0

1

X

RES

I1

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-73

RESULTADOS MINITAB

Worksheet size: 100000 cells MTB > Indicator 'FACTOR A' C4 C5 C8. MTB > LET C4=C4-C8 MTB > LET C5=C5-C8 MTB > LET C6=C4*C3 MTB > LET C7=C5*C3 MTB > print c1-c7 Data Display Row Y FACTOR A X D1A D2A X1A X1B 1 6 1 3 1 0 3 0 2 4 1 1 1 0 1 0 3 5 1 3 1 0 3 0 4 3 1 1 1 0 1 0 5 4 1 2 1 0 2 0 6 3 1 1 1 0 1 0 7 6 1 4 1 0 4 0 8 8 2 4 0 1 0 4 9 9 2 5 0 1 0 5 10 7 2 5 0 1 0 5 11 9 2 4 0 1 0 4 12 8 2 3 0 1 0 3 13 5 2 1 0 1 0 1 14 7 2 2 0 1 0 2 15 6 3 3 -1 -1 -3 -3 16 7 3 2 -1 -1 -2 -2 17 7 3 2 -1 -1 -2 -2 18 7 3 3 -1 -1 -3 -3 19 8 3 4 -1 -1 -4 -4 20 5 3 1 -1 -1 -1 -1 21 7 3 4 -1 -1 -4 -4 MTB > MTB > GLM 'Y' = 'FACTOR A' 'FACTOR A'* X; SUBC> covariates 'X'.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-74

General Linear Model Factor Type Levels Values FACTOR A fixed 3 1 2 3 Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P X 1 36,575 15,672 15,672 24,40 0,000 FACTOR A 2 16,932 6,693 3,346 5,21 0,019 FACTOR A*X 2 0,667 0,667 0,334 0,52 0,605 Error 15 9,635 9,635 0,642 Total 20 63,810 Term Coef StDev T P Constant 4,2337 0,4467 9,48 0,000 X 0,7470 0,1512 4,94 0,000 X*FACTOR A 1 0,2207 0,2169 1,02 0,325 2 -0,0699 0,1962 -0,36 0,727 MTB > MTB > Regress 'Y' 5 'D1A' 'D2A' 'X' 'X1A' 'X1B'; SUBC> Constant. Regression Analysis The regression equation is Y = 4,23 - 1,88 D1A + 1,02 D2A + 0,747 X + 0,221 X1A - 0,070 X1B Predictor Coef StDev T P Constant 4,2337 0,4467 9,48 0,000 D1A -1,8788 0,5841 -3,22 0,006 D2A 1,0163 0,6432 1,58 0,135 X 0,7470 0,1512 4,94 0,000 X1A 0,2207 0,2169 1,02 0,325 X1B -0,0699 0,1962 -0,36 0,727 S = 0,8015 R-Sq = 84,9% R-Sq(adj) = 79,9% Analysis of Variance Source DF SS MS F P Regression 5 54,175 10,835 16,87 0,000 Residual Error 15 9,635 0,642 Total 20 63,810 MTB > Regress 'Y' 3 'D1A' 'D2A' 'X' ; SUBC> Constant. Regression Analysis

( ) ( )( ) ( )( ) ( ) xxxy

xxxyxxxy

6,009,5151,0747,086,023,4ˆˆˆˆˆ817,025,507,0747,002,123,4ˆˆˆˆˆ968,035,2221,0747,088,123,4ˆˆˆˆˆ

33.3

22.2

11.1

+=−++=+++=+=−++=+++=+=++−=+++=

θηαµθηαµθηαµ

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-75

The regression equation is Y = 4,19 - 1,35 D1A + 0,838 D2A + 0,743 X Predictor Coef StDev T P Constant 4,1864 0,4277 9,79 0,000 D1A -1,3497 0,2558 -5,28 0,000 D2A 0,8381 0,2582 3,25 0,005 X 0,7429 0,1421 5,23 0,000 S = 0,7785 R-Sq = 83,9% R-Sq(adj) = 81,0% Analysis of Variance Source DF SS MS F P Regression 3 53,507 17,836 29,43 0,000 Residual Error 17 10,302 0,606 Total 20 63,810 MTB > Regress 'Y' 3 'X' 'X1A' 'X1B'; SUBC> Constant. Regression Analysis The regression equation is Y = 3,92 + 0,793 X - 0,398 X1A + 0,216 X1B Predictor Coef StDev T P Constant 3,9199 0,5320 7,37 0,000 X 0,7932 0,1822 4,35 0,000 X1A -0,3981 0,1189 -3,35 0,004 X1B 0,21637 0,09984 2,17 0,045 S = 0,9800 R-Sq = 74,4% R-Sq(adj) = 69,9% Analysis of Variance Source DF SS MS F P Regression 3 47,482 15,827 16,48 0,000 Residual Error 17 16,327 0,960 Total 20 63,810 MTB > Regress 'Y' 1 'X' ; SUBC> Constant. Regression Analysis The regression equation is Y = 3,45 + 1,01 X Predictor Coef StDev T P Constant 3,4468 0,6112 5,64 0,000 X 1,0106 0,2001 5,05 0,000 S = 1,197 R-Sq = 57,3% R-Sq(adj) = 55,1% Analysis of Variance Source DF SS MS F P Regression 1 36,575 36,575 25,52 0,000 Residual Error 19 27,234 1,433

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-76

Total 20 63,810 MTB > Plot 'Y'*'X'...

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-77

INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR

CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2

EL MODELO ANOVA DE DOS FACTORES

CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5

MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA

CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN

CONCLUSIONES BIBLIOGRAFÍA

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-78

CONCLUSIONES (1)

En la exposición del tema se ha ilustrado como modelos específicos de análisis de la varianza y

análisis de la covarianza se podían estimar por técnicas estándar de regresión múltiple, así como el proceder en la contrastación de hipótesis habituales que aparecen en tales análisis.

La selección cuidadosa de las variables mudas es el punto crucial. A pesar de que muchas

reparametrizaciones pueden resultar válidas en modelos simples, algunas son mejores que otras, principalmente cuando se estudian interacciones entre los niveles de factores.

En diseños de experimentos complejos no estándares y no balanceados es donde se aprecia la

potencia del enfoque descrito. Si el diseño de experimentos es estándar y balanceado es más interpretable el tratamiento del modelo por los procedimientos Balanced ANOVA o Two-Way ANOVA de MINITAB.

Ante diseños no balanceados o muy complejos y por falta de ortogonalidad en las componentes,

resulta más seguro y exacto recalcular los sucesivos modelos por regresión y realizar los contrastes de significación manualmente a partir de las sumas de cuadrados residuales de los modelos representativos (varianza incremental) y el estadístico de Fisher.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-79

CONCLUSIONES (2)

La formulación por regresión pone de manifiesto la existencia de un modelo en el análisis de la

varianza y la covarianza.

La formulación por regresión pone de manifiesto que el análisis de los residuos en los modelos de análisis de la varianza y de la covarianza juega el mismo papel que en los modelos de regresión normal clásica.

Los modelos lineales generales ofrecen una visión unificada de la regresión, el análisis de la

varianza y el análisis de la covarianza, son elegantes y potentes, y mirando más allá, el siguiente paso consiste en permitir distribuciones de los errores no normales y relaciones entre regresores y respuesta no lineales que nos ocupa el resto del temario.

FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC

Setembre del 2.004 Dra. Lídia Montero pàgina 7-80

BIBLIOGRAFÍA

A. Dobson (1.990). An Introduction to Generalized Linear Models. Chapman and Hall. N.R. Draper y H. Smith (1.981). Applied Regression Analysis. John Wiley. J. Fox (1.997). Applied Regression Analysis, Models and Related Methods. Sage Publications. L. Lebart, A. Morineau y J.P. Fénelon (1.985). Traitement des données statistiques: Méthodes

et programmes. Ed. Bordas (Paris). J.K. Lindsey (1.997). Applying Generalized Linear Models. Springer-Verlag. P. McCullagh y J.A. Nelder (1.989). Generalized Linear Models. Chapman and Hall. MINITAB Reference Manual, Release 1.1 for Windows. State College, PA: MINITAB Inc.

(1.996). D. Peña Sánchez de la Rivera (1.994). Estadística Modelos y Métodos (2): Modelos lineales y

series temporales. Alianza Universidad Textos.