Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo...

358
Modelo Lineal En regresi´ on lineal interesa establecer la relaci´ on entre una variable dependiente Y y otras p variables: X 1 ,...,X p . Esta metodolog´ ıa es ampliamente usada en problemas de econom´ ıa, de la industria y de ciencias en general. Por ejemplo: en mujeres de 8 a 25 a˜ nos se desea relacionar la edad y la cantidad de esteroides presentes en plasma. dadas las evaluaciones de mitad y de fin de a˜ no de alumnos que participan en un estudio de rendimiento, se quiere relacionar la performance de los alumnos en los dos ex´ amenes. El objetivo es poder predecir en situaciones similares c´ omo le ir´ a a un alumno en la evaluaci´ on final a partir de lo que se observa en la evaluaci´ on de mitad de curso. 1

Transcript of Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo...

Page 1: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal

En regresion lineal interesa establecer la relacion entre una variable dependienteY y otras p variables: X1, . . . , Xp. Esta metodologıa es ampliamente usada enproblemas de economıa, de la industria y de ciencias en general. Por ejemplo:

• en mujeres de 8 a 25 anos se desea relacionar la edad y la cantidad deesteroides presentes en plasma.

• dadas las evaluaciones de mitad y de fin de ano de alumnos que participanen un estudio de rendimiento, se quiere relacionar la performance de losalumnos en los dos examenes. El objetivo es poder predecir en situacionessimilares como le ira a un alumno en la evaluacion final a partir de lo que seobserva en la evaluacion de mitad de curso.

1

Page 2: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 2

• un ingeniero esta interesado en la relacion entre la cantidad de oxido quese forma en un metal calcinado en un horno y la temperatura de horneadoy el tiempo expuesto a dichas temperaturas.

En los dos primeros ejemplos podrıamos tener graficos como los siguientes:

Page 3: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 3

mitad

final

60 70 80 90 100

6070

8090

edad

nive

l.est

eroi

de

10 15 20 25

510

1520

2530

Page 4: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 4

En los dos primeros ejemplos consideramos solo dos variables, mientras que enel tercero hay 3 variables involucradas.

En general tendremos:

• y : variable dependiente.• x : variables independientes (predictoras, regresoras o covariables).

Buscaremos un modelo que exprese a la variable dependiente en terminos delas variables independientes.

Cuando hablamos de un modelo nos referimos a una expresion matematica quedescriba en algun sentido el comportamiento de la variable de interes en funcionde las demas variables, es decir, las covariables.

En general, identificaremos con la letra Y (y) a la variable dependiente. El mo–delo pretende describir como el comportamiento de E(Y ) varıa bajo condicionescambiantes de las otras variables.

Page 5: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 5

En nuestro caso, supondremos, al menos en un principio, que V (Y ) no esafectada por estas condiciones cambiantes, es decir toma un valor constanteσ.

Bajo el supuesto de que otras variables aportan informacion sobre la variableY , estas variables son incorporadas al modelo como variables independientes.

Identificaremos con X = (X1, . . . , Xp)′ (x = (x1, . . . , xp)′) a las variables

independientes. Estas podrıan ser variables aleatorias o constantes conocidas.En general, trabajaremos bajo este ultimo caso y mas adelante lo extenderemosal caso de variables aleatorias.

Una forma general de plantear el modelo es expresando a la media de la dis-tribucion de Y como una g(x). En el caso de covariables alestorias como

E(Y |X = x) = g(x) para x ∈ D ,

o en el caso de covariables fijas como

Page 6: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 6

Y = g(X1, . . . , Xp) + ε ,

segun el caso, donde la funcion g en general no sera conocida y E(ε) = 0.

Los modelos de este tipo se llaman modelos de regresion. Las posibles funcionesde regresion g pertenecen a una clase G tan grande que es frecuente que sesimplifique el problema suponiendo cierta forma o ciertas propiedades de lafuncion de regresion g.

Una forma de simplificar el problema suponiendo que la familia G puede expre-sarse en funcion de un numero finito de constantes desconocidas, a estimar,llamadas parametros, que controlan el comportamiento del modelo. En estesentido diremos que el modelo de regresion es parametrico.

Se dira que el modelo de regresion es no parametrico si la familia G no puedeexpresarse en un numero finito de parametros.

Page 7: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 7

Algunos ejemplos de modelos parametricos y no parametricos cuando hay dosvariables independientes X1 y X2.

Modelos parametricos

(i) Y = θ1X1 + θ2X2 + θ3 + ε

(ii) Y = θ1eθ2X1 + θ3e

θ4X2 + ε

(iii) Y = θ1Xθ21 X

θ32 + ε

(iv) Y = θ1 logX1 + θ2 logX2 + θ3X31 + θ4 sen X2 + ε

Modelos no parametricos

(i) Y = g(X1, X2) + ε donde g(X1, X2) es una funcion continua.

(ii) Y = g(X1, X2) + ε donde g(X1, X2) es una funcion continua y derivable.

(iii) Y = g(X1, X2) + ε donde g(X1, X2) es monotona creciente en X1 y X2.

Page 8: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 8

Uno de los modelos mas sencillos es el modelo lineal, en el que los parame-tros intervienen como simples coeficientes de las variables independientes o defunciones de estas.

Es el caso de:

(i) Y = θ1X1 + θ2X2 + θ3 + ε

(iv) Y = θ1 logX1 + θ2 logX2 + θ3X31 + θ4 sen X2 + ε

En todos estos ejemplos g(x) es lineal en los parametros. No es el caso,por ejemplo, de g(x) = βoe

−β1x , conocido como creciemiento exponencial, yaque no es lineal como funcion de los parametros βo o β1.

Algunos ejemplos sencillos de modelos lineales dependientes de una sola variableson:

g(x) = βo + β1x

g(x) = βo + β1x + β2x2

g(x) = βo + β1 log x

Page 9: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 9

En las situaciones mas complejas Y depende de un conjunto de p variables(x1, . . . , xp), por lo tanto tendremos

g(x) = β0 + β1x1 + . . .+ βp−1xip−1 .

Eventualmente, las x ′i s podrıan ser funciones de otras variables, tales comoW1 = logX1, W2 = logX2, W3 = X

31 , etc., tal como ocurre en el caso iv).

Tambien podrıamos introducir variables explicativas que sean categoricas comolas dummies que solo toman los valores 0 y 1 y que sirven, como ya veremos,para indicar las distintas categorıas de una variable categorica. Este caso es deespecial interes pues permite tratar en el marco del modelo lineal el problema decomparar la media de mas de dos poblaciones, que se conoce como Analisisde la Varianza.

Page 10: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 10

Una vez establecido el modelo, nos interesara:

• Estimar los parametros desconocidos: βj y σ• Testear hipotesis del tipo

Ho : βj = 0 o Ho : c′β = δ

• Intervalos de confianza para los parametros o combinaciones lineales de losmismos.

• Prediccion• Chequeo de supuestos• Identificacion de datos atıpicos.• Medidas de ajuste• Criterios para la seleccion de modelos.

Page 11: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 11

Enfoque matricial

respuesta y ←→ p − 1 variables explicativas xjPor ahora, supondremos xj , 1 ≤ j ≤ p − 1 determinısticas.Muestra (xi1, . . . , xip−1, yi), 1 ≤ i ≤ n que cumplen el modelo Ω:

yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi i = 1, . . . , n

E(εi) = 0

V (εi) = σ2

cov(εi , εj) = 0 i 6= j

donde, β0, β1, . . . , βp−1 son p parametros desconocidos a estimar.

Este modelo tiene intercept u ordenada al origen, eventualmente podrıamossaber que es 0, en cuyo caso plantearıamos

yi = β1xi1 + . . .+ βp−1xip−1 + εi i = 1, . . . , n

Page 12: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 12

En el caso general tenemos

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y1y2..yn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 x11 x12 . . . x1p−11 x21 x22 . . . x2p−1. . . . . .. . . . . .1 xn1 xn2 . . . xnp−1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

β0β1..

βp−1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

ε =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ε1ε2..εn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Y = Xβ + ε

Page 13: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 13

La matriz X ∈ <n×p recibe el nombre de matriz de regresion o de diseno.

En general, se elige de tal forma que tenga rango maximo, es decir rg(X) = p,sin embargo esto no siempre es posible, como en el caso de algunos disenostratados en analisis de la varianza (ANOVA).

La teorıa que veremos no necesita que la primera columna sea de 1’s, es decirque el modelo tenga intercept, por lo tanto estudiaremos el caso general.

Page 14: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 14

Propiedades de vectores y matrices aleatorias

Dada una matriz V (r × s) de variables aleatorias conjuntamente distribuidasVi j con esperanza finita, definimos la matriz o vector de esperanzas como:

E(V)i j = E(Vi j)

En el caso delo modelo Ω, esto nos permite decir que el vector de errores estal que

E(ε) = 0

y que

E(εε′) = E

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ε1ε1 ε1ε2 . . . ε1εnε2ε1 ε2ε2 . . . ε2εn. . . . . .. . . . . .εnε1 εnε2 . . . εnεn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

= σ2I

Page 15: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 15

Lema: Sean A ∈ <q×r , B ∈ <s×t y C ∈ <q×t matrices constantes y V unamatriz aleatoria de dimension r × s , entonces:

E(AVB + C) = AE(V)B + C.

Matriz de Covarianza

Sea v = (v1, . . . , vn)′ un vector aleatorio de variables con E(vi) = µi y varianza

finita. Definimos la matriz de covarianza de v como:

Σvi j = Cov(vi , vj) = E[(vi − µi)(vj − µj)]

Podemos escribirla como:

Σv = E[(v − µ)(v − µ)′]donde µ = (µ1, . . . , µn)

′.

En este sentido, como E(ε) = 0, entonces hemos visto que

Σε = E(εε′) = σ2I

Page 16: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 16

Usaremos frecuentemente el siguiente

Lema: Sean A ∈ <m×n, una matriz constante, d un vector de constantes y vun vector aleatorio n–dimensional con matriz de covarianza Σv. Si w = Av+d,entonces:

Σw = AΣvA′ .

El modelo que presentamos mas arriba puede escribirse como:

Ω : Y = Xβ + ε E(ε) = 0 Σε = σ2I

o equivalentemente

Ω : E(Y) = Xβ ΣY = σ2I

Page 17: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 17

Page 18: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 18

¿Como estimamos los parametros?

Mınimos Cuadrados

Si los puntos en un grafico parecen seguir una recta, el problema es elegir larecta que mejor ajusta los puntos.

a) tomar una distancia promedio de la recta a todos los puntos

b) mover la recta hasta que esta distancia promedio sea la menor posible.

Si tenemos(xi , yi), 1 ≤ i ≤ n, y queremos predecir y a partir de x usandouna recta, podrıamos definir el error cometido en cada punto como la distanciavertical del punto a la recta.

Page 19: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 19

Page 20: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 20

Page 21: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 21

Page 22: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 22

Supongamos que tenemos un modelo que depende de p parametros. Sean(xi , yi) tales que

yi = g(xi , β1 . . . βp) + εi

E(εi) = 0, V (εi) = σ2, εi son independientes y la funcion g es conocidasalvo por los parametros β1 . . . βp.

Estimamos β1 . . . βp minimizando la suma de cuadrados residual, o seaˆβ = ( ˆ

β1, . . . ,ˆβp) es el estimador de mınimos cuadrados si minimiza

n∑

i=1(yi − g(xi , β1 . . . βp))2

En el caso de la regresion simple en el que g(x, β1, β2) = β1 + β2 x , mini-mizaremos:

1

n

n∑

i=1[yi − (β1 + β2xi)]2 .

Esta medida promedio se llama la suma de cuadrados residual del error para larecta. Fue inicialmente propuesta por Gauss. La recta de regresion ası definidaproduce la menor suma de cuadrados residual para el error de predecir y a partir

Page 23: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 23

de x y por esta razon se la suele llamar recta de mınimos cuadrados.

Consideremos para cada vector b ∈ <p el vector de residuosY − Xb .

El estimador de mınimos cuadrados de β1 . . . βp minimizan∑

i=1(yi − b1xi1 − . . .− bpxip)2 = ‖Y − Xb‖2 ,

donde ‖u‖2 = u′u = n∑

i=1u2i .

LlamemosS(b) = ‖Y − Xb‖2 = (Y − Xb)′(Y − Xb)

Definicion: un conjunto de funciones de Y, ˆβ1 =

ˆβ1(Y),

ˆβ2 =

ˆβ2(Y), . . .

ˆβp =

ˆβp(Y) que minimice S(b) es el estimador de mınimos cuadrados de β

(LS).

Page 24: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 24

Veremos que el LS siempre existe, pero no siempre es unico.

Derivando e igualando a 0 obtenemos las ecuaciones normales . Los esti-madores de mınimos cuadrados ˆ

β1, . . . ,ˆβp cumplen:

∂S(b)∂bk

= −2 n∑

i=1(Yi −

p∑

j=1xi jbj)xik = 0

Por lo tanto, para 1 ≤ k ≤ pn∑

i=1Yixik =

n∑

i=1

p∑

j=1xi jxikbj

n∑

i=1Yixik =

p∑

j=1bj

n∑

i=1xi jxik

Si el modelo tiene intercept, y lo escribimos como antes en terminos deβ0, . . . , βp−1, los estimadores

ˆβi cumplen

nˆβ0 +

ˆβ1

n∑

i=1xi1 + . . .+

ˆβp−1

n∑

i=1xip−1 =

n∑

i=1yi

nˆβ0

n∑

i=1xik +

ˆβ1

n∑

i=1xi1xik + . . .+

ˆβp−1

n∑

i=1xip−1xik =

n∑

i=1yixik k = 1, . . . , p − 1

Page 25: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 25

Estas p ecuaciones pueden escribirse como

X′Xˆβ = X′Y ,

que se conocen como ecuaciones normales.

Si X′X es no singular, la solucion es unica y resulta

ˆβ = (X′X)−1X′Y .

Ejemplo: En el caso de regresion simple tendrıamos

X′X =

⎛⎜⎜⎝1 1 1 . . . 1x1 x2 x3 . . . xn

⎞⎟⎟⎠

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 x11 x2. .. .1 xn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Page 26: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 26

X′X =

⎛⎜⎜⎜⎜⎜⎜⎝

nn∑

i=1xi

n∑

i=1xi

n∑

i=1x2i

⎞⎟⎟⎟⎟⎟⎟⎠

El sistema serıa ⎛⎜⎜⎜⎜⎜⎜⎝

nn∑

i=1xi

n∑

i=1xi

n∑

i=1x2i

⎞⎟⎟⎟⎟⎟⎟⎠

⎛⎜⎜⎝b0b1

⎞⎟⎟⎠ =

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1yi

n∑

i=1xiyi

⎞⎟⎟⎟⎟⎟⎟⎠

La inversa resulta

(X′X)−1 =1

n∑ni=1 x

2i − n2x2

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1x2i −

n∑

i=1xi

− n∑

i=1xi n

⎞⎟⎟⎟⎟⎟⎟⎠

y ademas

Page 27: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 27

X′Y =

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1yi

n∑

i=1xiyi

⎞⎟⎟⎟⎟⎟⎟⎠

y por lo tanto

ˆβ =

⎛⎜⎜⎝

ˆβ0ˆβ1

⎞⎟⎟⎠ =

1

nn∑

i=1(xi − x)2

⎛⎜⎜⎜⎜⎜⎜⎝

(n∑

i=1yi)(

n∑

i=1x2i )− (

n∑

i=1xi)(

n∑

i=1xiyi)

nn∑

i=1xiyi − (

n∑

i=1yi)(

n∑

i=1xi)

⎞⎟⎟⎟⎟⎟⎟⎠

entonces

b0 = y − xb1

y por otro lado

b1 =

n∑

i=1xiyi − nx y

n∑

i=1x2i − nx2

=

n∑

i=1(xi − x)(yi − y)n∑

i=1(xi − x)2

Page 28: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 28

Interpretacion Geometrica

Nuestro modelo plantea

Ω : E(Y) = Xβ

ΣY = σ2I

Luego, siη = E(Y) = Xβ

si xi es la i–esima columna de X entonces

η = β1x1 + β2x

2 + . . .+ βpxp

es decir que η ∈ Vr= subespacio generado por las p columnas de X: x1, . . . , xpy r es rg(X).

EntoncesmınbS(b) = mın

b‖Y − Xb‖2 = mın

z∈Vr‖Y − z‖2

Page 29: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 29

Page 30: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 30

y sabemos que se alcanza en η = b1x1 + b2x

2 + . . . + bpxp la proyeccion

ortogonal de Y sobre Vr , que sabemos que siempre existe y es unica, aunquelos bi pueden no serlo.

En terminos de las ecuaciones normales tenemos que:

X′Xb = X′Y

X′η = X′Y

Dados b1, . . . , bp funciones de Y seran un conjunto de estimadores de mıni-mos cuadrados (EMC) si y solo si X′b = η, es decir satisfacen las ecuacionesnormales.

Page 31: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 31

Caso en que rg(X) = p

En este caso existe la inversa de X′X, pues rg(X′X) = rg(X) = p.

De las ecuaciones normales queda:

X′Xˆβ = X′Y

ˆβ = (X′X)−1X′Y

entonces

Xˆβ = X(X′X)−1X′Y = PY = ˆY

En consecuencia el vector de residuos es:

r = Y − ˆY

= Y − Xˆβ

= Y − X(X′X)−1X′Y= Y − PY= (I− P)Y

Page 32: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 32

donde P = X(X′X)−1X′ ∈ <n×n es la matriz de proyeccion sobre el espaciogenerado por las columnas de X. Suele llamarse a esta matriz de proyeccionP o H (hat matrix).

Propiedades de P

Matriz simetrica e idempotente, es decir: P = P′ = P2. I − P tambien essimetrica es idempotente, es decir tambien es una matriz de proyeccion yproyecta sobre el ortogonal de Vr .

Lema:

i) P y I− P son simetricas e idempotentesii) rg(P) = tr(P) = p y rg(I− P) = tr(I− P) = n − piii) (I− P)X = 0

Page 33: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 33

Suma de Cuadrados

Tenemos quen∑

i=1(yi − yi)2 = ‖Y − PY‖2

Notemos que obtenemos el Teorema de Pitagoras. En efecto,

‖Y − ˆY‖2 = ‖Y − PY‖2 = ‖(I− P)Y‖2= Y′(I− P)′(I− P)Y= Y′(I− P)Y= Y′Y − Y′PY= Y′Y − Y′P′PY= ‖Y‖2 − ‖PY‖2

= ‖Y‖2 − ‖ˆY‖2 = ‖Y‖2 − ‖η‖2

Page 34: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 34

Caso en que rg(X) = p

Propiedades del Estimador de Mınimos Cuadrados

Usando la notacion matricial podemos escribir el modelo como

Ω : Y = Xβ + ε

E(ε) = 0

Σε = σ2I

Lema: Si se cumple el modelo Ω, tenemos que

ˆβ es un estimador insesgado de β, es decir E(ˆβ) = β.

Σˆβ= σ2(X′X)−1

Page 35: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 35

Caso en que rg(X) = p

Propiedades

Bajo el modelo Ω

Y = Xβ + ε

E(ε) = 0

Σε = σ2I

tenemos que

• E(ˆY) = Xβ• ΣY = σ2P• E(r) = 0• Σr = σ2(I− P)

Page 36: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 36

Si llamamos pi j a los elementos de P = X(X′X)−1X′ tenemos que

pi j = x′i(X′X)−1xj

donde xi representa la i–esima fila de X.

Luego:

V ar (yi) = σ2pi iV ar (ri) = σ2(1− pi i)

Cov(ri , rj) = −σ2pi j ,por lo tanto

Corr (ri , rj) = −pi j√

1− pi i√1− pj j

Page 37: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 37

Proposicion: Dados 1 ≤ i , j ≤ n tenemos que

i) 0 ≤ pi i ≤ 1ii) −12 ≤ pi j ≤ 12 si i 6= j

Como ya vimos V ar (yi) = σ2pi i , una consecuencia inmediata es que

V ar (yi) ≤ V ar (yi) = σ2 .

Page 38: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 38

Una propiedad interesante es que P es invariante por transformaciones linealesno singulares de la forma X → XA, donde A ∈ <p×p y rg(A) = p. Este tipode transformaciones es util, por ejemplo, si queremos realizar un cambio deunidades en las covariables.

Respecto a las propiedades de invariancia, podemos ver que si

ˆβ = ˆβ(X,Y) = (X′X)−1X′Y ,

para A ∈ <p×p no singular, λ ∈ < y γ ∈ <p, entoncesˆβ(XA,Y) = A−1ˆ

β Invariancia por transformaciones afinesˆβ(X, λY) = λˆ

β Invariancia por cambios de escalaˆβ(X,Y + Xγ) = ˆ

β + γ Invariancia por cambios de regresion

Page 39: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 39

Estimacion de σ2

Las varianzas de los estimadores dependen del diseno y σ2, que es desconocida.Dado que σ2 = E(ε2), parece natural estimarla mediante el promedio de loscuadrados de los residuos. El vector de residuos es

r = Y − ˆY

= Y − PY ,Bajo el modelo Ω, tenemos que

s2 =‖Y − ˆY‖2n − p =

‖Y − PY‖2n − p

es un estimador insesgado de σ2.

Lema Auxiliar: Sea x un vector aleatorio n–dimensional y sea A ∈ <n×n unamatriz simetrica. Si E(x) = µ y su matriz de covarianza es Σx entonces

E(x′Ax) = tr (AΣ) + µ′Aµ

Page 40: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 40

Respecto del diseno

• Covariables aleatoriasSi las covariables son aleatorias suponemos que tenemos los vectores (xi , yi)i.i.d. que satisfacen el modelo

yi = xiβ + εi

donde los εi son i.i.d., con E(εi) = 0 y V ar (εi) = σ2 e independientes dexi ∼ F .El analogo de suponer que X tiene rango completo es asumir que la distribucionde x no esta concentrada en ningun hiperplano, es decir

P (a′x = 0) < 1 ∀a 6= 0Esta condicion se cumple, por ejemplo, si x tiene densidad.

En este caso, ˆβ esta bien definido y las formulas que vimos para esperanza y

varianza de ˆβ son validas condicionalmente:

E(ˆβ|X = x) = β Σˆβ|X=x = σ

2(X′X)−1

Page 41: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 41

Se puede ver que si Vx = E(xx′) existe, entonces para n grande la distribucion

aproximada de ˆβ sera

Np

⎛⎜⎜⎝β,

σ2V−1xn

⎞⎟⎟⎠

Cuando el modelo tiene intercept, podemos escribirlo como:

yi = β0 + x′iβ1 + εi

donde β0 es la intercept y β1 es el vector de pendientes. En este caso resulta

σ2V−1x = σ2

⎛⎜⎜⎜⎜⎜⎜⎝

1 + µ′xΣ−1x µx −µ′xΣ−1x

−Σ−1x µx Σ−1x

⎞⎟⎟⎟⎟⎟⎟⎠

con µx = E(x) y Σx matriz de covarianza de x.

Page 42: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 42

• Estructura Ortogonal en la matriz de DisenoSupongamos que podemos dividir a la matriz X en k conjuntos de columnasortogonales: X1, . . . ,Xk , de manera que

X = [X1 . . .Xk ]

La correspondiente division en los parametros darıa

β = (β1, . . . ,βk)′

Luego podemos escribir:

E(Y) = X1β1 + . . .+ Xkβk

Como las columnas de Xi son ortogonales a las de Xj si i 6= j , tenemos queX′iXj = 0, luego

Page 43: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 43

ˆβ = (X′X)−1X′Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

X′1X1 0 . . . 00 X′2X2 . . . 0. . . . . . . . . . . .. . . . . . . . . X′kXk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

−1 ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

X′1YX′2Y. . .X′kY

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

entonces

ˆβ = (X′X)−1X′Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

(X′1X1)−1X′1Y

(X′2X2)−1X′2Y

. . .(X′kXk)

−1X′kY

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ˆβ1ˆβ2. . .ˆβk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

en consecuencia el estimador de βi no cambiara si alguno de los otros βj seiguala a 0, es decir si se remueve del modelo.

¿Como resulta la suma de cuadrados?

Page 44: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 44

Y′Y − ˆY′ˆY = Y′Y − ˆβ′X′Y = Y′Y − k∑

j=1

ˆβ′jX′jY

Por lo tanto si en el modelo ponemos algun βi = 0, el unico cambio en la sumade cuadrados es que el termino de ˆ

β′iX′iY no aparece:

Y′Y − k∑

j = 1

j 6= i

ˆβ′jX′jY

En el caso mas sencillo, cada Xi consta de una unica columna y resulta:

ˆβi =

X′iY

X′iXi

y la suma de cuadrados queda

Y′Y − k∑

j=1

ˆβ′jX′jY = Y

′Y − k∑

j = 1

ˆβ2jX′jXj

Page 45: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 45

Teorema de Gauss–Markov

En muchas aplicaciones estamos mas interesado en estimar funciones linealesde β que en estimar β en sı mismo.

Estas funciones incluyen el valor esperado de y en una futura observacion xo,por ejemplo.

Si bien puede haber muchos estimadores de una funcion lineal c′β o Cβ, estu-diaremos los estimadores lineales, es decir funciones lineales de las observacionesy1, . . . , yn.

Primero veremos cuando una funcion parametrica es estimable.

Definicion: Una funcion parametrica ψ se dice que es una funcion lineal delos parametros β1, . . . , βp si existen c1, . . . , cp constantes conocidas talque

ψ = c′β =p∑

j=1cjβj

donde c = (c1, . . . , cp)′.

Page 46: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 46

Definicion: Decimos que una funcion parametrica ψ = c′β es estimable sitiene un estimador lineal (en Y) insesgado, es decir si existe a ∈ <n tal que

E(a′Y) = ψ = c′β ∀β ∈ <p

¿Hay funciones que no son estimables?

Veamos un ejemplo de una funcion parametrica no estimable.

Page 47: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 47

Supongamos que queremos comparar la respuesta media de dos tratamientosy un control y que para ello observamos

T1: y11, y12, . . . , y1k y1j ∼ N(β1, σ2)

T2: y21, y22, . . . , y2k y2j ∼ N(β2, σ2)

Co: y31, y32, . . . , y3k y3j ∼ N(β3, σ2)

Suponemos igual cantidad de observaciones por tratamiento para simplificar lanotacion.

Podemos escribir esto como

yi j = βi + εi j

Podrıamos escribir esto como un modelo lineal:

Page 48: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 48

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .y1ky21y22. . .y2ky31y32. . .y3k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 0 01 0 0. . .1 0 00 1 00 1 0. . .0 1 00 0 10 0 1. . .0 0 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎝

β1β2β3

⎞⎟⎟⎟⎟⎟⎟⎠

Por ejemplo, T1, T2 y el control podrıan ser distintas dosis de una droga demanera que T1 es menor que la dosis del control y T2 mayor que la dosis

Page 49: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 49

control. Tendrıa sentido preguntarse si

β3 =β1 + β22

lo que implicarıa cierta linealidad en el efecto medio. En ese caso nos interesarıasaber si

(−12,−12, 1

)

⎛⎜⎜⎜⎜⎜⎜⎝

β1β2β3

⎞⎟⎟⎟⎟⎟⎟⎠= 0

Otra manera de escribir el modeo serıa

yi j = µ+ αi + εi j

donde:

µ es el efecto general

αi es el efecto del tratamiento i

Page 50: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 50

En ese caso tendrıamos

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .y1ky21y22. . .y2ky31y32. . .y3k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 1 0 01 1 0 0. . . .1 1 0 01 0 1 01 0 1 0. . . .1 0 1 01 0 0 11 0 0 1. . . .1 0 0 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

µα1α2α3

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

¿Son todas las funciones estimables en este modelo?

Page 51: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 51

Consideremos

α1 =(0, 1, 0, 0

)

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

µα1α2α3

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Veremos que α1 no es estimable.

Veamos el siguiente resultado que caracteriza las funciones parametricas es-timables suponiendo el modelo

Ω : E(Y) = Xβ ΣY = σ2I

Teorema: La funcion parametrica ψ = c′β es estimable si y solo si c es unacombinacion lineal de las filas de X, o sea si existe a ∈ <n tal que

c′ = a′X

Page 52: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 52

Lema: Supongamos que vale el modelo Ω. Sean ψ = c′β una funcion es-timable y Vr el espacio generado por las columnas de X (r = rg(X) ≤ p).Luego, existe un unico estimador lineal insesgado de ψ, digamos a∗

′Y con

a∗ ∈ Vr . Mas aun, si a′Y es un estimador insesgado de ψ, a∗ es la proyeccionortogonal de a sobre Vr .

Teorema de Gauss–Markov:Supongamos que vale el modelo Ω : E(Y) = Xβ ΣY = σ

2I.Toda funcion estimable ψ = c′β tiene un unico estimador ˆ

ψ lineal insesgado demıınima varianza (BLUE). Este estimador ˆ

ψ se puede obtener reemplazando aβ en c′β por ˆ

β, el estimador de mınimos cuadrados.

Page 53: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 53

Definicion: Dada una funcion estimable ψ su unico estimador lineal insesgadode mınima varianza ˆ

ψ, cuya existencia y calculo estan dados por el Teorema deGauss–Markov, es el estimador de mınimos cuadrados de ψ.

Tenemos el siguiente resultado:

Corolario: Si ψ1, . . . , ψq son q funciones estimables toda combinacion linealΨ =

∑qi=1 hiψi es estimable y su estimador de mınimos cuadrado esta dado por

∑qi=1 hi

ˆψi .

Page 54: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 54

¿Que ocurre cuando el rg(X) < p

Si rg(X) = r < p tenemos que ˆβ1, . . . ,ˆβp no son unicos. Esta misma inde-

terminacion afecta a los parametros β1, . . . , βp, en el sentido de que distintosconjuntos b1, . . . , bp darıan origen al mismo η y por lo tanto al mismo modelo

Y = η + ε = E(Y) + ε .

Sin embargo, tal como vimos si c′β es una funcion estimable tendra el mismovalor independientente del β que usemos, en tanto

c′β = a′Xβ = a′η

expresion que solo depende de η, que es unico.

¿Como podemos eliminar esta indeterminacion?

Page 55: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 55

a) Considerar un problema reducido con solo r parametros

Podrıamos considerar r columnas l.i. de X que generen a Vr y mantener en elmodelo solo aquellos βj asociados a estas columnas.

Ası tendrıamos una nueva matriz de diseno X1 ∈ <n×r con rango maximo. Eneste caso tendrıamos el modelo

Y = η + ε con η ∈ VrEl estimador serıa

α = (X′1X1)−1X′1Y

y la matriz de proyeccion corresponiente P = X1(X′1X1)

−1X′1.

Si asumimos, s.p.g., que las columnas elegidas son las primeras r , tendrıamosque

X = [X1X2]

donde X2 ∈ <n×(p−r) y ademas X2 = X1B. Por lo tantoX = X1[Ir B] = KL

con K ∈ <n×r , L ∈ <r×p y rg(L) = r .

Page 56: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 56

Por lo tanto el modelo original se obtiene como:

Xβ = KLβ = Kα

b) Considerar condiciones de contorno adecuadas para los βj’s y susestimadores

Ası podrıamos pedir que βr+1 = . . . = βp = 0 y en este caso obtendrıamos elmismo que en la situacion a) (suponiendo que las r primeras son las columnasl.i.).

Sin embargo, en otras situaciones, como en la de ANOVA, es frecuente que seimpongan otras restricciones lineales de manera de obtener la unicidad.

Consideremos el caso en que imponemos t ≥ p − r restricciones lineales a losβj , es decir

Hβ = 0 con H ∈ <t×p

Queremos encontrar dentro del conjunto de soluciones de Xβ = η una sola

Page 57: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 57

que cumpla Hβ = 0, es decir buscamos β que sea unica solucion de

Xβ = Xβ (= η)

Hβ = 0

De esta forma las primeras ecuaciones establecen que encontraremos una solu-cion del sistema que nos interesa y las segundas que esta solucion sera unica.

Lo que queremos es que

• toda funcion estimable del nuevo sistema lo sea en el viejo problema,• un unico conjunto de estimadores de mınimos cuadrados que satisfaga lascondiciones de contorno.

El siguiente teorema nos dice como elegir H para cumplir con este objetivo:

Page 58: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 58

Teorema: Sean X ∈ <n×p y H ∈ <t×p con rg(X) = r , p > r y t ≥ p − r .Consideremos VX el espacio generado por las columnas de X. El sistema

Xb = z

Hb = 0 (1)

tiene solucion unica b para todo z ∈ VX si y solo si se cumplen las siguientesdos condiciones:

i) si rg(G) = rg

⎛⎜⎜⎝XH

⎞⎟⎟⎠ = p

ii) ninguna combinacion lineal de las filas de H es combinacion lineal de las deX, excepto el 0.

Corolario: Si el sistema (1) cumple la condiciones i) y ii) del Teorema ante-rior, entonces existe un unico conjunto de estimadores de mınimos cuadrados(solucion de las ecuaciones normales) β1, . . . , βp para el cual H

ˆβ = 0.

Page 59: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 59

Observacion:

En terminos estadısticos la condicion ii) del Teorema nos dice que si hi esla iesima fila de H, entonces no existe a tal que hi = a

′X, por lo tanto lash′iβ no es una funcion estimable de los parametros.

Se puede demostrar que:

Si se cumplen las condiciones i) y ii) del Teorema, entonces los βj sonfunciones estimables.

De hecho, si Gβ =

⎛⎜⎜⎝Xβ0

⎞⎟⎟⎠, entonces

G′Gβ = G′⎛⎜⎜⎝Xβ0

⎞⎟⎟⎠ = (X′ H′)

⎛⎜⎜⎝Xβ0

⎞⎟⎟⎠ = X′Xβ .

Luego, (X′X + H′H)β = X′Xβ y como rg(G′G) = rg(G) = p tenemosque

Page 60: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 60

β = (X′X+H′H)−1X′Xβ

y tiene un estimador lineal insesgado dado por

(X′X+H′H)−1X′Y

dada una funcion estimable ψ, para cualquier H que elijamos en las condi-ciones del Teorema anterior, V ar (ˆψ) es la misma.

c) Computar una inversa generalizada de X′X: (X′X)−

En este caso tendrıamos que (X′X)−XY es solucion de las ecuaciones normales,por lo tanto otra forma de solucionar nuestro problema. En realidad puede verseque la opcion b) y c) quedan ligadas a traves del siguiente resultado:

Proposicion: Sea G =

⎛⎜⎜⎝XH

⎞⎟⎟⎠ una matriz que satisface las condiciones i) y ii)

del Teorema anterior. Luego (G′G)−1 es una inversa generalizada de X′X, porlo tanto:

(X′X)(G′G)−1(X′X) = X′X

Page 61: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 61

En efecto, ∀Y:(G′G)(G′G)−1H′Y = H′Y

(X′X+H′H)(G′G)−1H′Y = H′Y

X′X(G′G)−1H′Y = H′(I−H(G′G)−1H′)Y

entonces como X′α = H′β tenemos que

X′X(G′G)−1H′Y = 0

luego

X(G′G)−1H′Y ∈ V⊥ry al mismo tiempo

X(G′G)−1H′Y ∈ Vrpor lo tanto

X(G′G)−1H′ = 0

Page 62: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 62

Finalmente:

(X′X)(G′G)−1(X′X) = (X′X+H′H)(G′G)−1(X′X) = X′X ,

con lo cual es una inversa generalizada.

Mınimos Cuadrados Pesados y Mınimos Cuadrados Generalizados

¿ Que ocurre cuando ΣY = σ2V donde V 6= I?

Supongamos que V ∈ <n×n es una matriz definida positiva de constantes.Podemos entonces escribir: V = KK′ con K una matriz invertible.

Y = Xβ + ε

K−1Y = K−1Xβ +K−1ε

Page 63: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 63

donde E(K−1ε) = 0 y ΣK−1ε = σ2I.

Por lo tanto, tenemos un nuevo problema:

Y = Xβ + ε

que satisface las condiciones de Ω.

Hallar el estimador de mınimos cuadrados en el problema transformado equivalea:

mınb‖Y − Xb‖2 = mın

b(Y − Xb)′(Y − Xb)

= mınb(Y − Xb)′K−1′K−1(Y − Xb)

= mınb(Y − Xb)′V−1(Y − Xb)

Si V es una matriz diagonal decimos que tenemos un problema de Mıni-mos Cuadrados Pesados, mientras que si V es una matriz definida positivacualquiera, es de Mınimos Cuadrados Generalizados.

Las ecuaciones normales quedan:

X′Xb = X′Y

Page 64: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 64

X′K−1′K−1Xb = X′K−1

′K−1Y

X′V−1Xb = X′V−1Y

Observemos que si X′V−1X tiene inversa, entonces

β = (X′V−1X)−1X′V−1Y

y ademas

β es un estimador insesgado de β, es decir E(β) = β.

Σ ˜β= σ2(X′X)

−1= σ2(X′V−1X)−1

Veamos un ejemplo.

Consideremos el caso sencillo de una regresion simple por el origen:

Y = xβ + ε

donde Y = (y1, . . . , yn)′, x = (x1, . . . , xn)′ y ε = (ε1, . . . , εn)′ con E(ε) = 0 y

Σε = σ2V = σ2diag(w1, . . . , wn) con wi > 0.

Page 65: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 65

Probaremos que

β =∑ni=1 yixi/wi

∑ni=1 x

2i /wi

y ademas

Σ ˜β= σ2(X′V−1X)−1 =

σ2

∑ni=1 x

2i /wi

Si rg(X) = p se puede probar facilmente que el estimador β conserva laspropiedades del estimador de mınimos cuadrados: dada una funcion lineal es-timable c′β tenemos que

• c′β es el estimador lineal insesgado de c′β de menor varianza.

Una pregunta muy natural es:

Page 66: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 66

¿ Hay situaciones en las que β y ˆβ coinciden?

Los siguientes resultados nos dan la respuesta

Teorema: Una condicion necesaria y suficiente para que β y ˆβ coincidan es

que VV−1X = VX.

Corolario: β y ˆβ coinciden ⇐⇒ VVX = VX.

Corolario: Si tenemos un modelo de regresion simple por el origen,Y = xβ + ε,entonces

β = ˆβ ∀x⇐⇒ V = cIn

Page 67: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 67

Forma Canonica del Modelo Ω

Dada una base ortonormal de Vr = VX, digamos α1, . . .αr , sabemos quepodemos extenderla a una base ortonormal de<n: α1, . . . ,αr ,αr+1, . . . ,αn.Por lo tanto,

y ∈ <n : y = n∑

j=1zjαj

y tenemos que

α′iy =n∑

j=1zjα

′iαj = ziα

′iαi = zi ∀i = 1, . . . , n

Luego, si definimos a T como la matriz que tiene filas α′i , entonces

z = Ty

Observemos que

E(zi) =

⎧⎨⎩

α′iη = ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Σz = TΣyT′ = σ2I

Page 68: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 68

Por lo tanto, ahora podemos reescribir a Ω como

Ω :

E(zi) =

⎧⎨⎩

ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Σz = σ2I

donde ξ y σ2 son parametros desconocidos.

En terminos de esta forma caonica es sencillo demostrar que

s2 =‖Y − ˆY‖2n − r ==

‖Y − η‖2n − r

es un estimador insesgado de σ2. Solo habıamos demostrado hasta ahora elcaso de rango completo.

Page 69: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 69

Distribucion Normal Multivariada

Definicion 1: Se dice que un vectorX, k−dimensional tiene distribucion normalmultivariada Nk(µ,Q) donde µ es un vector k−dimensional, Q una matriz dek × k definida positiva, si su densidad es de la forma

fX(x) =1

(√2π)k |Q|1/2 e

− (x−µ)′Q−1(x−µ)2

donde |Q| indica determinante de Q.

Por ejemplo, si Xi son k v.a. independientes tales que Xi ∼ N(µi , σ2i ), entoncesel vector X′ = (X1, . . . , Xk) tiene densidad

fx(x) =1

(√2π)k

∏kj=1(σ

2i )1/2

e−1/2Σki=1(xi−µi)2/σ2i

Luego, resulta que X es Nk(µ,Q) donde µ′ = (µ1, . . . , µk) y

Q = diag(σ21, . . . , σ2k) =

⎛⎜⎜⎜⎜⎜⎜⎝

σ21. . .

σ2k

⎞⎟⎟⎟⎟⎟⎟⎠

Page 70: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 70

Mas aun, en el caso en que las k v.a. Xi son todas N(0, 1), X es N(0k, Ik)donde 0′k = (0, . . . , 0) ∈ <k y Ik es la matriz identidad de k × k .Recordemos el enunciado del Teorema de Cambio de Variable:

Sean x es un vector aleatorio con densidad f y y = g(x), tal que g−1(y) = x.

Supongamos que en un abierto G existen las derivadas parciales ∂xi∂yjy sea

J = det

⎧⎨⎩

∂xi∂yj

⎫⎬⎭, entonces

fY(y) = fX(g−1(y))|J|

Teorema N1: Si X es un vector aleatorio k−dimensional con distribucionNk(µ,Q), A es una matriz no singular de k × k y b un vector k−dimensional,entonces

Y = AX+ b es Nk(Aµ+ b, AQA′)

Page 71: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 71

Teorema N2:

i) Un vector aleatorio k−dimensional X es Nk(µ,Q) si y solo si X = BY+µ,donde Y es Nk(0k, Ik) y B es una matriz de k×k no singular tal que BB′ = Q.

ii) Si X es Nk(µ,Q) entonces

E(X) = µ y ΣX = Q

Teorema N3: Sea X un vector aleatorio k−dimensional Nk(µ,Q) y A unamatriz de h × k con rango h, luego si Y = AX+ b entonces

Y ∼ Nh(Aµ+ b,AQA′)

Page 72: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 72

Teorema N4: Sea X′ = (X1, . . . , Xk) un vector k−dimensional con distribu-cion normal multivariada, luego la distribucion marginal de cualquier subconjun-to de componentes tiene distribucion normal multivariada. En particular cadacomponente es normal.

Demostracion: Sea X∗ = (Xk1, . . . , Xkh), k1 < k2 < . . . < kh, luego se tieneque X∗ = AX, donde A es la matriz de h × k dada por:

ai j =

⎧⎨⎩

1 si j = ki0 si j 6= ki

1 ≤ i ≤ h, 1 ≤ j ≤ k .Es facil ver que A es una matriz de rango h.

Page 73: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 73

Teorema N5: Si X es un vector k−dimensional con distribucion Nk(µ,Q),luego

(X− µ)′Q−1(X− µ) ∼ χ2k.

Demostracion: Por lo ya visto, resulta que X = BY+µ donde Y es N(0k, Ik)

Y = B−1(X− µ)y ademas

BB′ = Q

Luego

YY′ = (X− µ)′B′−1B−1(X− µ) = (X− µ)′Q−1(X− µ)El teorema resulta del hecho que

Y′Y =k∑

i=1Y 2i

tiene distribucion χ2k , ya que las Yi son variables aleatorias independientes condistribucion N(0, 1).

Page 74: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 74

Teorema N6: Si X es un vector k−dimensional con distribucion Nk(µ, σ2Ik)y P una matriz simetrica e idempotente de rango r , entonces

(X− µ)′P(X− µ)σ2

∼ χ2r.

Page 75: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 75

Tests y Regiones de Confianza

Hasta ahora hemos trabajado solo con las hipotesis Ω. Sin embargo para deducirtests y regiones de confianza con nivel exacto sera necesario que hagamos unsupuesto adicional: normalidad conjunta de los errores

Supondremos que las yi ’s se distribuyen conjuntamente segun unanormal multivariada.

Podremos deducir:

intervalos de confianza de nivel exacto para funciones parametricas es-timables

tests de nivel exacto para hipotesis que involucran a los parametros

conjuntos o regiones de confianza para la estimacion simultanea de mas deuna funcion parametrica estimable.

Page 76: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 76

Nuestro nuevo modelo sera:

Ω : Y ∼ Nn(Xβ, σ2I) rg(X) = r β ∈ <p

Observemos que en este caso suponer que ΣY = σ2I es equivalente a asumir

que las yi , 1 ≤ i ≤ n, son independientes.

Page 77: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 77

Page 78: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 78

Bajo estas condiciones se obtiene el siguiente resultado:

Teorema: Supongamos que se tiene el modelo

Ω : Y ∼ Nn(Xβ, σ2I) rg(X) = p β ∈ <p .Luego, ˆ

β y s2 son funciones de estadısticos suficientes y completos y por lotanto, ˆ

β y s2 son estimadores IMVU de β y σ2, respectivamente.

Si nuestro modelo es

E(Y) = β0 + β1x1 + β2x2 + . . .+ βpxp

podrıamos tener interes en testear hipotesis como las que siguen:

Ho : βj = 0 vs. H1 : βj 6= 0Ho : β1 − β2 = 0 vs. H1 : β1 − β2 6= 0

Ho : β1 = β2 = . . . = βp = 0 vs. H1 : existe j : βj 6= 0

Todas estas hipotesis son de la forma c′β = 0 o Cβ = 0.

Page 79: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 79

Supongamos que tenemos q funciones estimables ψ1, ψ2, . . . , ψq donde:

ψi =p∑

j=1ci jβj 1 ≤ i ≤ q

Por ser estimables, por el Teorema de Gauss–Markov tenemos que

ˆψi =

n∑

j=1a∗i jyj 1 ≤ i ≤ q ,

donde a∗i ∈ Vr ⊂ <n; de manera queΨ = Cβ C ∈ <q×pˆΨ = A∗Y A∗ ∈ <q×n

Mas aun, sabemos que

ˆΨ = Cˆβ

ΣΨ = σ2A∗A∗′

Page 80: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 80

Estimamos a σ2 por

s2=‖Y − ˆY‖2n − r

Bajo estas nuevas hipotesis obtenemos el siguiente resultado:

Teorema: Supongamos que se cumple Ω, es decir Y ∼ Nn(Xβ, σ2I), rg(X) =r , β ∈ <p y que ademas que ψ1, ψ2, . . . , ψq son q funciones estimables l.i.,de manera que rg(C) = q. Entonces,

i) ˆΨ ∼ Nq(Ψ,ΣΨ) ( o lo que es igual Nq(Ψ, σ2A∗A∗′))

ii) ˆΨ ys2(n − r )

σ2son independientes

iii)(n − r )s2

σ2∼ χ2n−r

Page 81: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 81

En el caso de rango completo, es decir cuando r = p, obtenemos el siguienteresultado:

Teorema: Supongamos que se cumple Ω, es decir Y ∼ Nn(Xβ, σ2I), rg(X) =p, β ∈ <p. Entonces,

i) ˆβ ∼ Np(β, σ2(X′X)−1)

ii)(ˆβ − β)′(X′X)(ˆβ − β)

σ2∼ χ2p

iii) ˆβ y(n − p)s2

σ2son independientes

iv)(n − p)s2

σ2∼ χ2n−p

Estos resultados nos permiten deducir intervalos de confianza o tests para cadauno de los coeficientes del modelo lineal:

Page 82: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 82

Como ˆβ ∼ Np(β, σ

2(X′X)−1), entonces ˆβi = e

′iˆβ ∼ N(βi , σ

2e′i(X′X)−1ei).

Si denotamos Σˆβ= σ2D

ˆβi ∼ N(βi , σ2di i)

siendo di i el i -esimo elemento diagonal de D.

Si para un i fijo queremos testear

Ho : βi = 0 vs. H1 : βi 6= 0

tenemos que bajo Hoˆβi

s√di i∼ tn−p

Por lo tanto, rechazaremos Ho con nivel α si

∣∣∣∣∣∣∣∣

ˆβi

s√di i

∣∣∣∣∣∣∣∣> tn−p,α2

Page 83: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 83

En el caso de regresion simple tendrıamos

yi = β0 + β1xi + εi , 1 ≤ i ≤ n, εi ∼ N(0, σ2)Entonces:

X′X =

⎛⎜⎜⎜⎜⎜⎜⎝

nn∑

i=1xi

n∑

i=1xi

n∑

i=1x2i

⎞⎟⎟⎟⎟⎟⎟⎠

y la inversa resulta

(X′X)−1 =1

n∑ni=1 x

2i − n2x2

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1x2i −

n∑

i=1xi

− n∑

i=1xi n

⎞⎟⎟⎟⎟⎟⎟⎠

Page 84: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 84

ˆβ0 = −x ˆ

β1 + y

y

ˆβ1 =

n∑

i=1xiyi − nx y

n∑

i=1x2i − nx2

=

n∑

i=1(xi − x)(yi − y)n∑

i=1(xi − x)2

Luego, si queremos testear

Ho : β1 = 0 vs. H1 : β1 6= 0el estadıstico sera

T =

∣∣∣∣∣∣∣∣

ˆβ1s√d11

∣∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∣

ˆβ1

s/√∑n

i=1(xi − x)2∣∣∣∣∣∣∣∣

y rechazaremos Ho si

|T | > tn−2,α2

Page 85: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 85

Veamos un ejemplo: Precio del papel.

Y: ganancia en 1972

x: precio de papel en 1973

¿ Ejemplo Precio del Papel

precio ganancia

x y

1 1.83 28

2 3.35 45

3 0.64 12

4 2.30 35

5 2.39 45

6 1.08 14

7 2.92 39

8 1.11 12

9 2.57 43

10 1.22 23

Page 86: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 86

1.0 1.5 2.0 2.5 3.0

1520

2530

3540

45

precio

gana

ncia

Page 87: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 87

¿ sal.lm

Coefficients:

(Intercept) x

2.027775 14.20517

Degrees of freedom: 10 total; 8 residual

Residual standard error: 5.025083

¿ summary(sal.lm)

Call: lm(formula = y ˜ x, x = T)

Residuals:

Min 1Q Median 3Q Max

-5.796 -4.222 0.1386 2.952 9.022

Page 88: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 88

Coefficients:

Value Std. Error t value Pr(¿—t—)

(Intercept) 2.0278 3.9383 0.5149 0.6206

x 14.2052 1.8565 7.6516 0.0001

Residual standard error: 5.025 on 8 degrees of freedom

Multiple R-Squared: 0.8798

F-statistic: 58.55 on 1 and 8 degrees of freedom, the p-value

is 0.00006008

Correlation of Coefficients:

(Intercept)

x -0.915

X’X=

(Intercept) x

(Intercept) 10.00 19.4100

x 19.41 45.0013

Page 89: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 89

(X’X)ˆ(-1)=

(Intercept) x

(Intercept) 0.6142273 -0.264929

x -0.2649290 0.136491

¿ matriz de covarianza de coeficientes

(Intercept) x

(Intercept) 15.510133 -6.689844

x -6.689844 3.446597

Page 90: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 90

Tambien podrıamos interesarnos realizar in I. de C. para la esperanza de unanueva observacion independiente de las demas que cumpla el modelo

yi = β1x1 + β1x2 + . . .+ βpxp + εi

en xo = (xo1, xo2, . . . , xop)′ donde εi ∼ N(0, σ2) independientes.

Como E(yo) = x′oβ, podemos estimarlo por

ˆE(yo) = x

′o

ˆβ = yo

Por lo tanto, de acuerdo con lo que hemos visto

yo = x′o

ˆβ ∼ N(x′oβ, σ2x′o(X′X)−1xo)

y es independiente de(n − p)s2

σ2∼ χ2n−p

por lo tanto

T =yo − x′oβ

s√x′o(X

′X)−1xo∼ tn−p

Page 91: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 91

En consecuencia,

yo ± tn−p,α2 s√x′o(X

′X)−1xo

es un intervalo de nivel exacto 1− α.

Asimismo, podrıamos estar interesados en la prediccion de yo, una nueva ob-servacion que cumpla el modelo, y en un intervalo para ella, que llamaremosintervalo de prediccion.

Observemos que el predictor de yo es yo = x′o

ˆβ. En efecto,

E(yo − yo) = 0. ¿Que distribucion tiene yo − yo?Tenemos que

yo ∼ N(x′oβ, σ2x′o(X

′X)−1xo)

yo ∼ N(x′oβ, σ2)

Page 92: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 92

y dado que yo es independiente de las restantes yi ’s con las que estimamos,entonces por la independencia entre estas dos normales queda que

yo − yo ∼ N(0, σ2(1 + x′o(X′X)−1xo))

Por lo tanto, el intervalo de prediccion de nivel 1− α estara dado poryo ± tn−p,α2 s

√1 + x′o(X

′X)−1xo

Page 93: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 93

Ejemplo. Los siguientes son datos que corresponden a 10 porcentajes yi de

una sustancia que fueron medidos en experiencias de laboratorio y que se deseanrelacionar con la temperatura xi a la que fueron realizados dichas experiencias.

i x y

1 100 452 110 523 120 544 130 635 140 626 150 687 160 758 170 769 180 9210 190 88

Page 94: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 94

La tabla con los estadısticos calculados es:

Coeficiente Estimacion Error Standard Valor de t

β0 -4.47273 5.63433 -0.79β1 0.49636 0.03812 13.02

s 3.46213 g.l.=8

Page 95: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 95

Intervalos de Estimacion y de Prediccion

Page 96: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 96

Tabla de Resultados

Page 97: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 97

• El valor estimado de ˆβ1 ' 0,5,⇒ esperamos que el porcentaje aumente 0.5

por cada incremento de un grado en la temperatura.

• sβ1 = 0,03812

• Si testeamos H0 : β1 = 0 t = 0,496360,038112 = 13,02 y t8,0,025 = 2,306004

⇒ los datos nos dan evidencia suficiente al nivel 5% como para concluir quela pendiente es no nula.

Page 98: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 98

Observemos que en el grafico la recta ajustada esta encerrada entre 2 curvasinteriores y 2 exteriores. Las exteriores corresponden al intervalo de prediccionde nivel 0.95 y las interiores a los intervalos de confianza de nivel 0.95 para lamedia.

Notemos que el nivel de confianza 0.95 se aplica a cada punto y no esglobal

Page 99: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 99

Supongamos que queremos plantear un test de nivel α para

Ho : Cβ = δ vs. H1 : Cβ 6= δ

siendo rg(C) = q , C ∈ <q×p.Sea Ψ = C′β. Sabemos que ˆΨ ∼ Nq(Ψ, σ

2A∗A∗′) = Nq(Ψ, σ

2B). Por lotanto, tenemos que

(1) : Q =1

q(ˆΨ− δ)′B−1(ˆΨ− δ)

es independiente de

(2) : s2 =‖Y − ˆY‖2n − r

Veremos queE(Q) = σ2 + η2

y que η2 = 0 solo cuando Ho es cierta.

Page 100: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 100

Bajo Ho, (1) y (2) son estimadores insesgados de σ2, es decir que bajo Ho

esperamos que(1)

(2)' 1,

pero si Ho no es cierta, esperamos que

(1)

(2)> 1.

Luego, el cociente(ˆΨ− δ)′B−1(ˆΨ− δ)

qs2nos dara una idea de la veracidad de

HO, de manera que rechazaremos Ho si el cociente es grande.

¿ Cuan grande?

Page 101: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 101

Bajo Ho(ˆΨ− δ)′B−1(ˆΨ− δ)

σ2∼ χ2q

independiente de(n − r )s2

σ2∼ χ2n−r

En consecuencia:

F =(ˆΨ− δ)′B−1(ˆΨ− δ)

qs2∼ Fq,n−r

Rechazaremos Ho si

F > Fq,n−r,αVeamos dos situaciones frecuentes para el caso de rango completo.

Page 102: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 102

1. Una hipotesis simple.

C = c consiste en una sola fila, de manera que c′(X′X)−1c es un escalar, conlo cual el estadıstico resulta

F =(c′ˆβ − δ)2s2 c′(X′X)−1c

que bajo Ho tiene distribucion F1,n−p

En funcion de la relacion entre las distribuciones t y F podrıamos utilizar ladistribucion t de Student y

rechazamos Ho si

∣∣∣∣∣∣∣∣

c ′ˆβ − δs

√c′(X′X)−1c

∣∣∣∣∣∣∣∣> tn−p,α/2

Page 103: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 103

2. Tests para k coeficientes iguales a 0.

Ho : Ψ = Cβ = 0, donde C =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ei1··eik

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

, para i1 ≤ 1 < . . . < ik ≤ p.

El numerador sera:(Cˆβ)′(C(X′X)−1C′)−1(Cˆ

β)

donde C(X′X)−1C′ es una submatriz de D = (X′X)−1 que solo involucra loscoeficientes correspondientes a aquellos βi presentes en la hipotesis a testear.

Ası supongamos que tenemos 5 coeficientes β1, . . . , β5 y queremos testear

Ho : β1 = 0

β3 = 0

β5 = 0

Page 104: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 104

luego,

C(X′X)−1C′ =

⎛⎜⎜⎜⎜⎜⎜⎝

d11 d13 d15d13 d33 d35d15 d35 d55

⎞⎟⎟⎟⎟⎟⎟⎠

y en el numerador tendremos

( ˆβ1,

ˆβ3,

ˆβ5

)

⎛⎜⎜⎜⎜⎜⎜⎝

d11 d13 d15d13 d33 d35d15 d35 d55

⎞⎟⎟⎟⎟⎟⎟⎠

−1 ⎛⎜⎜⎜⎜⎜⎜⎝

ˆβ1ˆβ3ˆβ5

⎞⎟⎟⎟⎟⎟⎟⎠

Page 105: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 105

Test de Cociente de Verosimilitud

El test de F tambien puede motivarse como test de cociente de verosimilitud.

Sea Ω el conjunto de supuestos generales y supongamos que bajo este modelotesteamos la hipotesis H, llamemos ω = Ω ∩H. Ası, por ejemplo, si

Ω : Y ∼ Nn(Xβ, σ2I) β = (β0, β1, . . . , βp−1)′

yH : β1 = . . . = βp−1 = 0

entonces ω = Ω ∩H equivale aY ∼ Nn(β0, σ2I) .

Si p(y) es la funcion de densidad o de probabilidad de Y definimos λ el es-tadıstico del cociente de verosimilitud como

λ =maxω p(y)

maxΩ p(y)

Notemos que 0 ≤ λ ≤ 1 ya que ω ∈ Ω y por lo tanto maxω p(y) ≤ maxΩ p(y).

Page 106: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 106

H sera rechazada cuando maxω p(y) es mucho mas chico que maxΩ p(y), porlo tanto rechazaremos H si λ < λα.

Existen dos formas equivalentes de plantear las hipotesis:

• 1)Ω : Y ∼ Nn(Xβ, σ2I) rg = rH : Ψ1 = Ψ2 = . . . = Ψq = 0

donde Ψi son l.i. funciones estimables• 2)

Ω : Y ∼ Nn(η, σ2I) η ∈ VrH : η ∈ Vr−q

donde Vr es un subespacio de dimension r en <n y Vr−q es un subespaciode dimension r − q en Vr .

Vr es el espacio generado por las columnas de X y Vr−q es el espacio al cual

Page 107: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 107

esta restringido η a yacer al imponerle las restricciones Ψ1 = Ψ2 = . . . =Ψq = 0.

Las dos formas son equivalentes, nosotros probaremos que • 1) =⇒ • 2).Tenemos que Y ∼ Nn(η, σ

2I) η ∈ Vr . Llamemos C a la matriz tal queΨ = Cβ. Luego:

Vω = v = Xβ tal que Cβ = 0 = v = Xβ tal que A∗Xβ = 0= v = Xβ tal que A∗v = 0

A∗ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

a∗1...a∗q

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

. Es decir, v ⊥ a∗i 1 ≤ i ≤ q.

Como rg = q entonces a∗1, . . . , a∗q son l.i. Por lo tanto, v ∈ V⊥<a∗1...a∗q> :

complemento ortogonal de V<a∗1...a∗q> en Vr .

Page 108: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 108

Ademas, tenemos que

r = dim(V<a∗1...a∗q>) + dim(V⊥<a∗1...a∗q>

)

por lo tanto,dim(V⊥<a∗1...a∗q>) = dim(Vω) = r − q

Calculemos λ. Para ello deberemos calcular el maximo de de p(y) en c/u delos subespacios.

Veremos que λ =⎛⎝ ‖y−η‖2‖y−ηω‖2

⎞⎠n/2

y por lo tanto rechazamos H0 si

λ =

⎛⎜⎜⎝‖y − η‖2‖y − ηω‖2

⎞⎟⎟⎠

n/2

< kα

Si aplicamos a este cociente la funcion g(t) = n−rq

(t−2/n − 1

), resulta

F =n − rq

‖y − ηω‖2 − ‖y − η‖2‖y − η‖2

=1

q

‖y − ηω‖2 − ‖y − η‖2s2

Page 109: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 109

Como veremos

F =1

q

‖ηω − η‖2s2

Luego, rechazaremos H si

1

q

‖ηω − η‖2s2

> λα

Una interpretacion intuitiva para este test es que ‖y− ηω‖2 y ‖y− η‖2 midencuan bien ajustan los modelos ω y Ω, respectivamente. Por lo tanto, su cocientecompara el ajuste de ω con el de Ω y rechazamos H si este cociente es grande:

F > λα

¿ Que distribucion tiene el cociente F?

Tenemos que Vr−q ∈ Vr ∈ <n. Tomemos una base ortonormal de Vr−q :αq+1, . . .αr y la extendemos a una base ortonormal deVr : α1, . . . ,αq,αq+1, . . . ,αr y finalmente a una de <n:α1, . . . ,αr ,αr+1, . . . ,αn.

Page 110: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 110

α1, . . . ,αq,αq+1, . . . ,αr ,αr+1, . . . ,αn

Por lo tanto,

y ∈ <n : y = n∑

j=1zjαj

y tenemos que

α′iy =n∑

j=1zjα

′iαj = ziα

′iαi = zi ∀i = 1, . . . , n

Luego, si definimos a T como la matriz que tiene filas α′i , entonces

z = Ty

Observemos que bajo el modelo Ω

E(zi) =

⎧⎨⎩

α′iη = ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Σz = TΣyT′ = σ2I

Page 111: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 111

Bajo el modelo ω, tenemos que η = E(Y) ∈ Vr−q, es decir α′iη = 0 parai = 1, . . . , q.

E(zi) =

⎧⎨⎩

0 si 1 ≤ i ≤ qξi si q + 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Entonces podemos escribir:

Ω : z ∼ Nn(ξ, σ2I) ξi = 0 i ≥ r + 1ω : z ∼ Nn(ξ, σ2I) ξi = 0 1 ≤ i ≤ q y i ≥ r + 1

Utilizando la notacion de Scheffe tendremos

SΩ = ‖y − η‖2 =n∑

i=r+1z2i

Sω = ‖y − ηω‖2 =q∑

i=1z2i +

n∑

i=r+1z2i

y ademas

Sω − SΩ =q∑

i=1z2i

Page 112: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 112

‖y − ηω‖2 − ‖y − η‖2 = ‖η − ηω‖2 =q∑

i=1z2i

Ademas, bajo H tenemos que Sω−SΩσ2∼ χq independiente de s

2 y en conse-cuencia

1

q

Sω − SΩs2

∼ Fq,n−r

Rechazamos H si1

q

Sω − SΩs2

> Fq,n−r,α

Observacion: Puede demostrarse que este test es equivalente al tests de Fya visto.

Page 113: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 113

Page 114: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 114

Ejemplo:

Significacion de la Regresion. Tabla de Analisis de la Varianza

Supongamos que tenemos el modelo con intercept dado por

E(Y) = β0 + β1x1 + β2x2 + . . .+ βp−1xp−1

y queremos testear

Ho : β1 = β2 = . . . = βp−1 = 0

de manera que ω = Ω ∩ H. H impone p − 1 restricciones l.i. Trataremos elcaso en que rg(X) = p

¿Quien es Vω?dim(Vω) = r − (p − 1) = p − (p − 1) = 1 y tenemos que V1 ∈ Vp¿Quien es ηω?

Bajo ω, β1 = . . . = βp−1 = 0, E(Y) = β0.

Tenemos que:

Page 115: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 115

Xω =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

11..1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

→ ˆβ0 = (X

′ωXω)

−1X′ωY =1

n

n∑

i=1yi = Y.

Luego: ηω = X′ωˆβ0 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

YY..Y

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Ademas:‖Y‖2 = ‖Y − η‖2 + ‖η − ηω‖2 + ‖ηω‖2

Bajo Ω si rg(X) = p

ˆβΩ = (X

′X)−1X′Y → η = PY donde P = X(X′X)−1X′

Page 116: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 116

En efecto, ηω es la proyeccion ortogonal de η sobre Vω = V1. Si fuera ası,entonce η − ηω ⊥ ηω.

η = PY y ηω = 1(1′1)−11′Y = P1Y

luego,

(η−ηω)′ηω = Y′(P−Pω)PωY = Y′(PPω−P′ωPω)Y = Y′(Pω−Pω)′PωY = 0

Page 117: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 117

‖Y‖2 = ‖Y − η‖2 + ‖η − ηω‖2 + ‖ηω‖2Llamaremos

‖Y‖2: suma de cuadrados total‖Y − η‖2: suma de cuadrados residual‖η − ηω‖2: suma de cuadrados de la regresion‖Y − ηω‖2: suma de cuadrados total corregida

Tenemos las siguientes igualdades

‖Y‖2 = Y′Y g.l=n

‖Y − η‖2 = Y′Y − ˆβ′XY g.l=n − p

‖η − ηω‖2 = ˆβ′XY − n(Y)2 g.l=p − 1

‖Y − ηω‖2 = Y′Y − n(Y)2 g.l=n − 1

Page 118: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 118

Si quisieramos verificar la significacion de la regresion, harıamos

F =‖η − ηω‖2/p − 1‖Y − η‖2/n − p

Muchos programas ofrecen en su salida una tabla como la que sigue

Fuente g.l. M.S. F p-valor

Regresion ‖η‖2 − n(Y)2 p − 1 (1) = ‖η‖2−n(Y)2p−1

Residual ‖Y − η‖2 n − p (2) = ‖Y−η‖2n−p (1)/(2)

Tot. Cor. ‖Y‖2 − n(Y)2 n − 1Cuadro 1: Tabla de ANOVA

Page 119: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 119

Datos de Biomasa

Produccion de biomasa en el estuario de Cape Fear: los datos corresponden aun estudio de la Universidad de North Carolina en el que se muestrearon 3 tiposde vegetacion en tres localidades. En cada una se muestreo al azar 5 lugarescon un total de 45 observaciones. Analizaremos las variables del sustrato:

x1=SAL: Salinidad

x2=pH: Acidez

x3= K: Potasio

x4=Naa: Sodio

x5=Zn: Zinc

y : Biomasa Aerea

En esta etapa nos concentraremos en identificar aquellas variables que muestranmayor relacion con y . Ajustaremos el modelo

E(y) = β0 + β1SAL+ β2pH + β3K + β4Naa + β5Zn

Page 120: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 120

SALIDA DE S-PLUS

DATOS DE BIOMASA

¿ sal.lm

Call:

lm(formula = BIO ˜ ., data = bio)

Coefficients:

(Intercept) K NAA PH SAL ZN

1252.589 -0.2853166 -0.008662343 305.4821 -30.28808 -20.67844

Degrees of freedom: 45 total; 39 residual

Residual standard error: 398.2671

¿ summary(sal.lm)

Call: lm(formula = BIO ˜ ., data = bio)

Residuals:

Min 1Q Median 3Q Max

-748.1 -223.7 -85.22 139.1 1072

Page 121: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 121

Coefficients:

Value Std. Error t value Pr(¿—t—)

(Intercept) 1252.5895 1234.7294 1.0145 0.3166

K -0.2853 0.3483 -0.8191 0.4177

NAA -0.0087 0.0159 -0.5438 0.5897

PH 305.4821 87.8831 3.4760 0.0013

SAL -30.2881 24.0298 -1.2604 0.2150

ZN -20.6784 15.0544 -1.3736 0.1774

Residual standard error: 398.3 on 39 degrees of freedom

Multiple R-Squared: 0.6773

F-statistic: 16.37 on 5 and 39 degrees of freedom, the p-value is 1.082e-008

Correlation of Coefficients:

(Intercept) K NAA PH SAL

K -0.3122

NAA 0.3767 -0.8103

PH -0.8406 0.1212 -0.2442

SAL -0.9180 0.3047 -0.4324 0.6045

ZN -0.8809 0.1908 -0.3386 0.8350 0.7113

Page 122: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 122

SALIDA DE SX

PREDICTOR

VARIABLES COEFFICIENT STD ERROR STUDENT’S T P VIF

--------- ----------- --------- ----------- ------ -----

CONSTANT 1252.59 1234.73 1.01 0.3166

K -0.28532 0.34832 -0.82 0.4177 3.0

NAA -0.00866 0.01593 -0.54 0.5897 3.3

PH 305.482 87.8831 3.48 0.0013 3.3

SAL -30.2881 24.0298 -1.26 0.2150 2.2

ZN -20.6784 15.0544 -1.37 0.1774 4.3

R-SQUARED 0.6773 RESID. MEAN SQUARE (MSE) 158617

ADJUSTED R-SQUARED 0.6360 STANDARD DEVIATION 398.267

SOURCE DF SS MS F P

---------- --- ---------- ---------- ----- ------

REGRESSION 5 1.298E+07 2596983 16.37 0.0000

RESIDUAL 39 6186050 158617

TOTAL 44 1.917E+07

CASES INCLUDED 45 MISSING CASES 0

Page 123: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 123

Hipotesis Anidadas

La interpretacion del test de F en terminos de las hipotesis anidadas.

Supongamos que tenemos H1, H2, . . . , Hk un conjunto de hipotesis que im-ponen q1, q2, . . . , qk restricciones independientes, respectivamente. Luego, lasq1+q2+. . .+qk funciones estimables son l.i. La secuencia de hipotesis anidadasestara dada por

Ω, ω1 = Ω ∩H1, ω2 = Ω ∩ H1 ∩H2, . . . , ωk = Ω ∩H1 ∩H2 . . . ∩HkSi lamamos V(j) a los espacios asociados cada uno de dimensionr − q1 − q2 − . . .− qj

V(r) ⊃ V(r−q1) ⊃ . . .V(r−q1−q2−...−qk)

Sea ηωj la proyeccion ortogonal de Y sobre V(j), por lo tanto tenemos que

Y = Y − η + η − ηω1 + ηω1 − ηω2 + . . .+ ηωk−1 − ηωk + ηωk

Page 124: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 124

y en consecuencia

‖Y ‖2 = ‖Y −η‖2+‖η−ηω1‖2+‖ηω1−ηω2‖2+. . .+‖ηωk−1−ηωk‖2+‖ηωk‖

2

donde cada suma tiene una distribucion χ2 no central bajo Ω con n−r, q1, q2, . . . , qk,r − q1 − q2 − . . .− qk grados de libertad.

Page 125: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 125

Intervalos Simultaneos y Regiones de Confianza

Metodo de Bonferroni

Queremos hallar intervalos de confianza para q combinaciones lineales de laforma c′iβ i = 1, 2, . . . , q.

Bajo normalidad, para cada combinacion lineal el intervalo de la forma

c′iˆβ ± tn−r,δ/2σc′i ˆβ

tiene nivel 1− δ.

Definamos los eventos

Ei : c′iβ pertenece al intervalo i

tenemos que P (Ei) = 1− δLuego,

1− α = P (todos los intervalos son correctos) = P (∩qi=1Ei)

Page 126: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 126

= 1− P ((∩qi=1Ei)c) = 1− P (∪qi=1Eci )≥ 1−

q∑

i=1P (Eci ) = 1− qδ

Ası, por ejemplo si cada intervalo tiene nivel 0.95 (δ = 0.05) y q = 10 ten-drıamos que

1− α ≥ 1− qδ = 1− 10 ∗ 0.05 = 0.50¿ Como podrıamos mejorar esto?

Si cada δ =α

q, entonces preservarıamos un nivel global superior a 1− α.

Una clara desventaja de este metodo es que si q es grande al exigir que cadaintervalo tenga nivel 1 − α

q , podemos obtener intervalos muy anchos y por lotanto, de escaso valor practico.

Page 127: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 127

Metodo de Scheffe

Supondremos s.p.g. que c1, c2, . . . , cq son l.i. Sea Ψ = Cβ, donde C ∈ IRq×p.Inicialmente supondremos que rg(X) = p. En este caso, sabemos que

(ˆΨ−Ψ)′(C(X′X)−1C′)−1(ˆΨ−Ψ)qs2

∼ Fq,n−pentonces

1− α = P (Fq,n−p ≤ Fq,n−p,α)

= P((ˆΨ−Ψ)′(C(X′X)−1C′)−1(ˆΨ−Ψ) ≤ qs2Fq,n−p,α

)

= P((ˆΨ−Ψ)′L−1(ˆΨ−Ψ) ≤ m

)

= P(b′L−1b ≤ m

)

Page 128: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 128

Recordemos que dada L una matriz definida positiva tenemos que

suph6=0

(h′b)2

h′Lh= b′L−1b

con lo cual, tenemos

1− α = P

⎛⎜⎜⎜⎝suph6=0

(h′b)2

h′Lh≤ m

⎞⎟⎟⎟⎠

= P

⎛⎜⎜⎜⎝(h′b)2

h′Lh≤ m ∀h 6= 0

⎞⎟⎟⎟⎠

= P

⎛⎜⎜⎝

∣∣∣∣h′ˆΨ− h′Ψ∣∣∣∣

s(h′Lh)1/2≤

√qFq,n−p,α ∀h 6= 0

⎞⎟⎟⎠

= P(∣∣∣∣h′ˆΨ− h′Ψ

∣∣∣∣ ≤√qFq,n−p,α s(h

′Lh)1/2 ∀h 6= 0)

Page 129: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 129

Luego, para cualquier funcion lineal h′Ψ tenemos el intervalo de confianza

h′ˆΨ±√qFq,n−p,α s(h

′Lh)1/2

siendo la probabilidad total de la clase 1− α.

Supongamos que r = p y C = Ip, en ese caso tendrıamos

(ˆβ − β)′(X′X)(ˆβ − β) ≤ ps2Fp,n−p,αque define lo que se conoce como el elipsoide de confianza.

Page 130: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 130

¿Como es en el caso general en el que rg(X) = r?

Tenemos que c′1β, c′2β, . . . , c

′qβ son l.i. Sea Ψ = Cβ, donde C ∈ IRq×p,

rg(C) = q.

Recordemos que(ˆΨ−Ψ)′B−1(ˆΨ−Ψ)

qs2∼ Fq,n−r

donde ˆΨ ∼ N(Ψ,ΣΨ),ΣΨ = σ2B = σ2A∗A∗′.

Como rg(C) = q, entonces B tiene inversa, por lo tanto

1− α = P ((ˆΨ −Ψ)′B−1(ˆΨ−Ψ) ≤ qs2Fq,n−r,α)= P ((ˆΨ −Ψ)′B−1(ˆΨ−Ψ) ≤ m)

= P (suph6=0

(h′b)2

h′Bh≤ m)

= P (

∣∣∣∣h′ˆΨ− h′Ψ∣∣∣∣

s(h′Bh)1/2≤

√qFq,n−r,α ∀h 6= 0)

Page 131: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 131

De esta forma,h′ˆΨ±

√qFq,n−r,α s(h

′Bh)1/2

resulta un intervalo de confianza para la funcion lineal h′Ψ y la probabilidadtotal de la clase es 1− α. Observemos que este intervalo es de la forma:

h′ˆΨ±√qFq,n−r,α σh′Ψ

Page 132: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 132

Volvamos al ejemplo de Biomasa

¿ cor(xx)

BIO K NAA PH SAL ZN

BIO 1.0000000 -0.20511626 -0.27206950 0.77418613 -0.10316780 -0.62440784

K -0.2051163 1.00000000 0.79213460 0.01869352 -0.02049881 0.07396686

NAA -0.2720695 0.79213460 1.00000000 -0.03771997 0.16226567 0.11704693

PH 0.7741861 0.01869352 -0.03771997 1.00000000 -0.05133280 -0.72216711

SAL -0.1031678 -0.02049881 0.16226567 -0.05133280 1.00000000 -0.42083353

ZN -0.6244078 0.07396686 0.11704693 -0.72216711 -0.42083353 1.00000000

Analisis con todas las variables: lm(formula = BIO ˜ K + NAA + PH + SAL + ZN)

Value Std. Error t value Pr(¿—t—)

(Intercept) 1252.5895 1234.7294 1.0145 0.3166

K -0.2853 0.3483 -0.8191 0.4177

NAA -0.0087 0.0159 -0.5438 0.5897

PH 305.4821 87.8831 3.4760 0.0013

SAL -30.2881 24.0298 -1.2604 0.2150

ZN -20.6784 15.0544 -1.3736 0.1774

Residual standard error: 398.3 on 39 degrees of freedom

Multiple R-Squared: 0.6773

F-statistic: 16.37 on 5 and 39 degrees of freedom, the p-value is 1.082e-008

Page 133: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 133

lm(formula = BIO ˜ K + PH + SAL + ZN)

Value Std. Error t value Pr(¿—t—)

(Intercept) 1505.4479 1133.6647 1.3279 0.1917

K -0.4388 0.2023 -2.1688 0.0361

PH 293.8169 84.4685 3.4784 0.0012

SAL -35.9374 21.4758 -1.6734 0.1021

ZN -23.4497 14.0396 -1.6703 0.1027

Residual standard error: 394.7 on 40 degrees of freedom

Multiple R-Squared: 0.6749

F-statistic: 20.76 on 4 and 40 degrees of freedom, the p-value is 2.525e-009

lm(formula = BIO ˜ K + PH + SAL)

Value Std. Error t value Pr(¿—t—)

(Intercept) -131.1184 582.5120 -0.2251 0.8230

K -0.4900 0.2043 -2.3985 0.0211

PH 410.1454 48.8253 8.4003 0.0000

SAL -12.0533 16.3687 -0.7364 0.4657

Residual standard error: 403.3 on 41 degrees of freedom

Multiple R-Squared: 0.6522

F-statistic: 25.63 on 3 and 41 degrees of freedom, the p-value is 1.682e-009

Page 134: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 134

lm(formula = BIO ˜ K + PH)

Value Std. Error t value Pr(¿—t—)

(Intercept) -506.7131 279.8016 -1.8110 0.0773

K -0.4871 0.2031 -2.3977 0.0210

PH 411.9779 48.4954 8.4952 0.0000

Residual standard error: 401.1 on 42 degrees of freedom

Multiple R-Squared: 0.6476

F-statistic: 38.59 on 2 and 42 degrees of freedom, the p-value is 3.074e-010

Los intervalos de confianza de nivel individual 95% obtenidos a partir del ultimomodelo ajustado serıan tal como vimos de la forma

ˆβi ± t42,0.025σβi siendo t42,0.025 = 2.018

En este caso resultan:

-1.072 < β0 < 58

314 < βPH < 510

-0.898 < βK < -0.077

Page 135: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 135

Si los calculamos con el metodo de Bonferroni como para que el nivel globalresulte 95% usarıamos t42,0.025/3 = 2.50 y estos resultan

-1.206 < β0 < 192

291 < βPH < 533

-0.995 < βK < 0.021

La region de confianza obtenida a partir de metodo de Scheffe serıa

Page 136: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 136

Page 137: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 137

Comparacion entre los metodos

Se puede ver que si las q combinaciones son l.i. entonces

tν, α2q <√qFq,ν,α

Por ejemplo, si α = 0,05, q = 5 y n = 26, entonces

√qFq,ν,α = 3,68 tν, α2q = 2,85

En general, si se quieren realizar intervalos simultaneos para k funciones parametri-cas de las cuales q son l.i.,para α = 0,05 se puede ver que si q ≤ k y k nomucho mas grande que q, entonces

tν, α2k <√qFq,ν,α

Cuando k es mucho mas grande que q, entonces la desigualdad se invierte.

Page 138: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 138

Relacion entre el tests de F y el metodo de Scheffe

Los intervalosh′ˆΨ±

√qFq,n−r,α s(hBh)

1/2 (∗)y el test de F para chequear H : Ψ = δ estan relacionados.

El test de F no es significativo al nivel α si y solo si

(ˆΨ− δ)′B−1(ˆΨ− δ)qs2

≤ Fq,n−r,α

que es cierto si y solo si Ψ = δ esta en la region (ˆΨ−Ψ)′B−1(ˆΨ−Ψ) ≤ m,o sea si y solo si h′δ esta contenido en (*).

Dicho de otra forma, F es significativo si uno o mas intervalos (*) no contienena h′δ, el problema es identificar cual de las combinaciones lineales es la que noesta contenida.

Page 139: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 139

Coeficiente de Correlacion Multiple ( o coeficiente de determinacion)

Supongamos que tenemos el modelo

yi = β0 + β1xi1 + β2xi2 + . . .+ βp−1xip−1 + εi

y nos interesa testear

H : β1 = . . . = βp−1 = 0

Consideremos Ω y ω = Ω ∩ H. Llamaremos η a la proyeccion de Y sobre elsubespacio asociado a Ω y ηω a la proyeccion sobre el subespacio asociado aω.

¿Cual es la correlacion muestral entre el vector de observaciones Y y el vectorde predichos ˆY (o η) ?

R =

n∑

i=1(yi − y)(yi − y)

n∑

i=1(yi − y)2

n∑

i=1(yi − y)21/2

Page 140: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 140

Recordemos que cuando hay ordenada al origen, tenemos que

∂β0‖Y−Xβ‖2 = n∑

i=1(yi−(β0+β1xi1+β2xi2+. . .+βp−1xip−1) =

n∑

i=1(yi−yi)2 = 0

entoncesy = y

y en consecuencia

R =

n∑

i=1(yi − y)(yi − y)

n∑

i=1(yi − y)2

n∑

i=1(yi − y)21/2

Visto en terminos de proyecciones y productos internos, tendrıamos

R =〈Y − ηω, η − ηω〉‖Y − ηω‖‖η − ηω‖

Como

〈Y − ηω, η − ηω〉 = 〈Y − η, η − ηω〉+ 〈η − ηω, η − ηω〉= ‖η − ηω‖2

Page 141: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 141

obtenemos que

R2 =‖η − ηω‖2‖Y − ηω‖2

=Suma Cuadrados Total Regresion

Suma Cuadrados Total Corregida

es decir

R2 =

n∑

i=1(yi − y)2

n∑

i=1(yi − y)2

La relacion entre el estadıstico F y el coeficiente de correlacion multiple esta da-da por el siguiente resultado

Page 142: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 142

Teorema: Supongamos que deseamos testear H : Cβ = 0, que no involucraal intercept β0, es decir C es de la forma [0,C1]. Consideremos ω1 = Ω ∩ H.Sea

R2ω1 =

n∑

i=1(yiω1 − y)2n∑

i=1(yi − y)2

entonces el estadıstico F para testear H sera

F =(R2 − R2ω1)(n − p)(1− R2)q

Como corolario de este teorema obtenemos que R2 − R2ω1 ≥ 0 pues F ≥ 0 ypor lo tanto, el coeficiente de correlacion multiple o de determinacion R2 nuncadecrece al agregar una variable regresora extra.

Esta es una deventaja de R2 si uno lo quiere usar para comparar el ajuste demodelos de distinto numero de covariables, y por esta razon se suele utilizar elcoeficiente de determinacion ajustado definido por

Page 143: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 143

R2adj = 1− (1− R2)n

n − pque no crece necesariamente con p y de hecho se puede demostrar que R2adjaumenta al agregar una covariable solo si el estadıstico F que testea que losparametros agregados son 0 es mayor a 1.

Page 144: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 144

Distribuciones χ2, F y t no centrales

Def: Sean X1, · · · , Xν va. independientes tales que Xi ∼ N(ξi , 1). Luego:

U =ν∑

i=1X2i ∼ χ

′2ν,δ

donde el parametro de no centralidad es δ =

⎛⎜⎝ν∑

i=1ξ2i

⎞⎟⎠1/2

.

Se puede ver que si Yi ∼ N(0, 1) independientes entonces:

U = (Y1 + δ)2 +

ν∑

i=2Y 2i

U = (Y1 + δ)2 + χ2ν−1

Propiedades:

E(χ′2ν,δ) = ν + δ

Page 145: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 145

V ar (χ′2ν,δ) = 2ν + 4δ

2

Suma de χ2 no centrales independientes:

Si U1 ∼ χ′2ν1,δ1independiente de U2 ∼ χ

′2ν2,δ2, entonces

U1 + U2 ∼ χ′2ν1+ν2,(δ

21+δ

22)1/2

Distribucion F no central:

Def: Si U1 ∼ χ′2ν1,δ1independiente de U2 ∼ χ2ν2, tenemos que

U1/ν1U2/ν2

∼ F ′ν1,ν2,δ1es decir, F no central de ν1 y ν2 grados de libertad y parametro de no cen-

Page 146: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 146

tralidad δ1.

Distribucion t no central:

Def: Sean X ∼ N(δ, 1) independiente de U ∼ χ2ν, tenemos queX

√U/ν

∼ t ′ν,δ

es decir, t no central con ν y parametro de no centralidad δ.

Observacion: Notemos que t′ν,δ = F

′1,ν,δ

Potencia del test de F

Consideremos la base ortonormal de IRn:

α1, . . . ,αq,αq+1, . . . ,αr ,αr+1, . . . ,αn

Page 147: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 147

dondeVr−q : αq+1, . . . ,αr

Vr : α1, . . . ,αq,αq+1, . . . ,αrPor lo tanto,

y ∈ <n =⇒ y = n∑

j=1zjαj =⇒ α′iy = zi

y si definimos a T como la matriz que tiene filas α′i , entonces

z = Ty

Observemos que bajo el modelo Ω

zi independientes y zi ∼ N(ξi , σ2)donde

ξr+1 = ξr+2 = · · · = ξn = 0Bajo el modelo restringido ω, tenemos que

ξ1 = ξ2 = · · · = ξq = 0

Page 148: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 148

Usamos el estadıstico F :

‖η − ηω‖2qs2

=∑qi=1 z

2i

qs2

donde

s2 =

n∑

i=r+1z2i

n − rYa probamos que z1, · · · , zq y zr+1, · · · , zn son independientes y comoE(zi) = 0 si i ≥ r + 1 =⇒

n∑

i=r+1

⎛⎝ziσ

⎞⎠2

=(n − r )s2

σ2∼ χ2n−r

Sin embargo, si H0 es ciertaq∑

i=1

⎛⎝ziσ

⎞⎠2

∼ χ2qde lo contrario

ziσ∼ N(ξi

σ, 1)

Page 149: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 149

q∑

i=1

⎛⎝ziσ

⎞⎠2

∼ χ′2q,δ con δ2 =q∑

i=1

⎛⎜⎝ξiσ

⎞⎟⎠

2

Por lo tanto, si H0 no es cierta

F =‖η − ηω‖2

qs2∼ F ′q,n−r,δ

y la potencia del test sera:

P (F′q,n−r,δ ≥ Fq,n−r,α)

donde

δ =

√√√√√√q∑

i=1

⎛⎜⎝ξiσ

⎞⎟⎠

2

Page 150: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 150

¿Como se calcula δ en terminos de los parametros originales?

z = Ty =⇒ zi = α′iy =

n∑

j=1αi jyj =⇒ ξi = E(zi) = α

′iη

en consecuenciaξi = E(zi) =

n∑

j=1αi jηj

Tenemos las siguientes igualdades:

‖η − ηω‖2 =q∑

i=1z2i

σ2δ2 =q∑

i=1ξ2i

y reemplazando a las zi ’s obtenemos

‖η − ηω‖2 =q∑

i=1

⎛⎜⎝n∑

j=1αi jyj

⎞⎟⎠2

σ2δ2 =q∑

i=1

⎛⎜⎝n∑

j=1αi jηj

⎞⎟⎠2

Page 151: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 151

Con lo cual obtenemos la Regla 1: Bajo el modelo Ω

obtenemos σ2δ2 reemplazando en la suma de cuadrados ‖η − ηω‖2 cada Yipor su valor esperado.

Cuadrados Medios

En el denomirador del estadıstico F tenemos: s2 = ‖y−η‖2n−r y su esperanza es

σ2.

En el numerador del estadıstico F tenemos:‖η − ηω‖2

q=

∑qi=1 z

2i

qluego

E

⎛⎜⎜⎝‖η − ηω‖2

q

⎞⎟⎟⎠ = E

⎛⎜⎜⎝

∑qi=1 z

2i

q

⎞⎟⎟⎠

=1

q

q∑

i=1E(z2i )

Page 152: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 152

=1

q

q∑

i=1(σ2 + ξ2i )

= σ2 + q−1σ2δ2

Podemos calcular σ2δ2 con la Regla 1. Observemos que en realidad aquı noes necesaria la normalidad, solo alcanza con tener el modelo

Ω′ : E(Y) = Xβ Σ = σ2I

¿Como quedarıa en el caso de regresion lineal?

Ω : Yi = β0 + β1xi + εi εi ∼ N(0, σ2) independientes

ConsideremosH0 : β1 = 0 H1 : β1 6= 0

Page 153: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 153

Bajo ω = Ω∩H0 tenemos que Yi = β0+ εi , entonces el estimador de mınimoscuadrados sera ˆ

β0 = Y .

Para calcular la potencia necesitamos:

‖η − ηω‖2 =n∑

i=1(ˆβ0 +

ˆβ1xi − Y )2

Usando la Regla 1, reemplazamos por los valores esperados bajo Ω:

σ2δ2 =n∑

i=1

⎛⎜⎜⎜⎜⎜⎜⎜⎝β0 + β1xi −

n∑

i=1(β0 + β1xi)

n

⎞⎟⎟⎟⎟⎟⎟⎟⎠

2

=n∑

i=1(β0 + β1xi − β0 − β1x)2

=n∑

i=1β12 (xi − x)2

= β12 n∑

i=1(xi − x)2

Page 154: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 154

por lo tanto

δ2 =β12 n∑

i=1(xi − x)2

σ2

Analisis de la Varianza de 1 Factor (ANOVA 1)

En el Analisis de la Varianza de 1 Factor nos interesa comparar las medias de kpoblaciones . Supongamos que tenemos k poblaciones y llamamos β1, · · · , βka sus medias y que ademas cada poblacion se distribuye segun una normal ytodas tienen la misma varianza σ2.

Es decir, observamos

y11, y12, . . . , y1j . . . , y1n1 ∼ N(β1, σ2)

y21, y22, . . . , y2j . . . , y2n2 ∼ N(β2, σ2)

· · ·yk1, yk2, . . . , ykj . . . , yknk ∼ N(βk , σ

2)

Page 155: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 155

donde yi j es la j-esima observacion de la i-esima poblacion, todas independientes.En total se tienen n =

∑ki=1 ni observaciones.

Podemos escribir este modelo como.

yi j = βi + εi j i =, · · · , k j = 1, · · · , niεi j ∼ N(0, σ2) independientes

Deseamos testear:

H0 : β1 = · · · = βk H1 : existen i 6= j : βi 6= βj

Podrıamos escribir esto en forma matricial definiendo:

Page 156: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 156

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .

y1n1y21y22. . .

. . .

. . .

y2n2· · ·yk1yk2. . .

yknk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 0 0 ... 0

1 0 0 ... 0

. . . . .

1 0 0 ... 0

0 1 0 ... 0

0 1 0 ... 0

. . . . .

. . . . .

. . . . .

0 1 0 ... 0

. . . . .

0 0 0 ... 1

0 0 0 ... 1

. . . . .

0 0 0 ... 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

β1β2...

...

...

βk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

donde rg(X) = k . En consecuencia en este modelo todas las funciones de laforma c′β son estimables.

Page 157: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 157

Ejemplo (ANOVA 1) En la siguiente tabla se muestran los porcentajes decontenido de acidos grasos no saturados activos (PAPFUA) presentes en 6margarinas dieteticas:

IMPERIAL PARKAY BLUE BONNET CHIFFON MAZOLA FLEISCHMANN’S

14.1 12.8 13.5 13.2 16.8 18.1

13.6 12.5 13.4 12.7 17.2 17.1

14.4 13.4 14.1 12.6 16.4 18.3

14.3 13 14.3 13.9 17.3 18.4

12.3 18

Las preguntas que se plantean los investigadores son:

a) Se desea saber si hay diferencias en los contenidos medios de PAPFUA delas 6 margarinas consideradas.

b) La margarinas Mazola y Fleischmann’s son de tipo cereal, mientras quelas otras son de tipo soja. Interesa obtener un intervalo de confianza paraβ1+β2+β3+β4

4 − β5+β62 .

Page 158: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 158

En este caso k = 6, n1 = n3 = n4 = n6 = 4 y n2 = n5 = 5, por lo tanton = 26

Volvamos al caso general

Buscamos minimizar:

S(β) = k∑

i=1

ni∑

j=1(yi j − βi)2

luego∂S(β)∂βr

= −2nr∑

j=1(yr j − βr) = 0 r = 1, · · · , k

Por lo tanto, para cada r = 1, . . . , k

ˆβr =

∑nrj=1 yr jnr

= Y r.

Por otro lado, minimizar bajo ω = Ω ∩H0 es buscar el mınimo de

S∗(β) = k∑

i=1

ni∑

j=1(yi j − β)2

Page 159: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 159

luego∂S∗(β)∂β

= −2 k∑

i=1

ni∑

j=1(yi j − β) = 0

y en consecuencia

ˆβ =

∑ki=1

∑nij=1 yi jn

= Y .. (=∑ki=1 niy i .n

)

Para calcular el estadıstico F necesitamos:

‖η − ηω‖2 =k∑

i=1

ni∑

j=1(Y i . − Y ..)2 =

k∑

i=1ni(Y i . − Y ..)2

‖Y − η‖2 = k∑

i=1

ni∑

j=1(Yi j − Y i .)2 =

k∑

i=1(ni − 1)s2i

Suma de Cuadrados Entre Grupos=‖η−ηω‖2: es una medida pesada dispersionde las k poblaciones respecto de la media general.

Suma de Cuadrados Dentro de los Grupos=‖Y−η‖2: es una medida combinada

Page 160: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 160

de la dispersion dentro de cada muestra.

La hipotesis nula a testear

H0 : β1 = · · · = βk

se puede escribir

H0 : β2 − β1 = · · · = βk − β1 = 0

Page 161: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 161

que es de la forma

Cβ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

−1 1 0 ... 0−1 0 1 ... 0. . .. . .. . .−1 0 0 ... 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

β1....βk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0....0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

donde rg(C) = k − 1, luego q = k − 1 y por lo tanto, el estadıstico del testsera:

F =‖η − ηω‖2/(k − 1)‖Y − ηω‖2/(n − k)

y rechazaremos H0 si

F > Fk−1,n−k,α

Page 162: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 162

Con todo esto podemos armar la Tabla de Analisis de la Varianza de 1 Factorque es la salida tıpica de muchos programas que se utilizan para calcular estetest (ver Cuadro 2).

SC g.l. M.S. E(M.S.) F

Entrek∑

i=1

ni(Y i . − Y ..)2 k − 1 (1) =

k∑

i=1

ni(Y i . − Y ..)2

k−1 σ2 + (k − 1)−1k∑

i=1

ni(βi − β..)2

(1)/(2)

Dentrok∑

i=1

ni∑

j=1

(Yi j − Y i .)2 n − k (2) =

k∑

i=1

ni∑

j=1

(Yi j − Y i .)2

n−p σ2

Tot. Cor.k∑

i=1

ni∑

j=1

(Yi j − Y ..)2 n − 1

Cuadro 2: Tabla de ANOVA

Bajo Ω, F tiene una distribucion F no central con parametro de no centralidad

Page 163: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 163

dado por la Regla 1:

σ2δ2 =k∑

i=1ni(βi − β..)2

donde β.. =∑ki=1

ninβi

Si la hipotesis de igualdad de medias es rechazada, seguramente nos deseare-mos identificar aquellas βi que difieren entre sı, estaremos interesados en lasdiferencias βi − βj .Otras veces, como en el ejemplo, podrıan interesarnos algunas combinacionesparticulares, tales como

β1 −β2 + β32

o1

2(β1 + β2)−

1

3(β3 + β4 + β5)

Estas son combinaciones lineales de los parametros de la forma:

p∑

i=1ciβi con

p∑

i=1ci = 0

Estas combinaciones reciben el nombre de contrastes. Podrıamos utilizar cualquiera

Page 164: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 164

de los metodos vistos, si estuvieramos interesados en muchos contrastes elmetodos de Scheffe podrıa ser el mas adecuado. Para algunos casos particu-lares veremos el metodo introducido por Tukey.

Por ahora volvamos al ejemplo:

margarinas¡-read.table(”C:““Users““Ana““ModeloLineal““doctex““margarinas.txt”,header=T)

margarinas

PAPFUA TIPO

1 14.1 1

2 13.6 1

3 14.4 1

4 14.3 1

5 12.8 2

6 12.5 2

7 13.4 2

.

.

25 18.3 6

26 18.4 6

attach(margarinas)

tipo.f¡- factor(TIPO)

plot(tipo.f,PAPFUA)

Page 165: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 165

1 2 3 4 5 6

1314

1516

1718

salida¡- aov(PAPFUA˜tipo.f)

anova(salida)

Analysis of Variance Table

Response: PAPFUA

Page 166: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 166

Df Sum Sq Mean Sq F value Pr(¿F)

tipo.f 5 104.992 20.9984 79.736 1.642e-12 ***

Residuals 20 5.267 0.2634

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Como el p-valor es pequenısimo el test de F rechaza la hipotesis de igualdad de medias.

Tests simultaneos para diferencias de medias

Bonferroni: α = 0,05 α

2(62)= 0,05/30 = 0,002. Cada intervalo es de la

forma:

y i . − y j. ± t20,0,002 s√√√√√√1

ni+1

njdonde t20,0,002 = 3,331

6 5 1 3 4 2

17,975 17,140 14,100 13,825 13,100 12,800

- - - - - - - - - - - - - - - - -

Page 167: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 167

Hay tres grupos de medias que no son significativamente diferentes.

Scheffe: α = 0,05

Vamos a probar que en contxto del modelo yi j = βi+εi j , βj−β1., j = 2, . . . , kes una base de dimension k−1 que genera el subespacio de todos los contrastesy por lo tanto

la probabilidad de que todos los contrastes satisfagan simultaneamente lasdesigualdades

ˆψ ±

√(k − 1)Fk−1,n−k,αs

√√√√√k∑

i=1c2i /ni

es 1− αCada intervalo es de la forma:

y i . − y j. ±√(k − 1)Fk−1,n−k,0,05 s

√√√√√√1

ni+1

nj

Page 168: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 168

y i . − y j. ±√5F5,20,0,05 s

√√√√√√1

ni+1

nj

donde F5,20,0,05 = 2,71

6 5 1 3 4 2

17,975 17,140 14,100 13,825 13,100 12,800

- - - - - - - - - - - - - - - - -

La conclusion es la misma.

Ejercicio Adicional de la Practica 3: programar estos dos tipos deintervalos.

Page 169: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 169

Intervalo de Confianza para el contraste buscado en b)

Bonferroni: α = 0,05

El intervalo es de la forma general:

ˆψ ± tn−r,0,05/2

√ˆvar(ˆψ)

y en este casoˆψ ± tn−k,0,05/2

√ˆvar(ˆψ)

donde t20,0,05 = 2,086

Tenemos que

ˆψ =

β1 + β2 + β3 + β44

− β5 + β62

=y 1. + y 2. + y 3. + y 4.

4− y 5. + y 6.

2= −4,1015

Page 170: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 170

Ademas:

ˆvar(ˆψ) = s2⎛⎜⎝1

16

⎛⎜⎝1

4+1

5+1

4+1

4

⎞⎟⎠+1

4

⎛⎜⎝1

5+1

4

⎞⎟⎠

⎞⎟⎠ = 0,0473

El inetervalo resultante es

(−4,1015−2,086∗0,0217,−4,1015+2,086∗0,0217) = (−4,199972,−4,002528)

Otra parametrizacion

Otra manera de escribir el modelo serıa

yi j = µ+ αi + εi j

donde:

µ: es el efecto general

αi : es el efecto del tratamiento i

Page 171: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 171

En ese caso tendrıamos

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .y1n1y21y22. . .y2n2..yk1yk2. . .yknk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 1 0 01 1 0 0. . . .1 1 0 01 0 1 01 0 1 0. . . .1 0 1 0. . . .. . . .1 0 0 11 0 0 1. . . .1 0 0 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

µα1α2...αk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

¿Son todas las funciones estimables en este modelo?

Page 172: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 172

Es claro que la matriz de diseno X tiene rg(X) = k < p = k + 1 y por lotanto no toda funcion parametrica es estimable.

Ya vimos en el caso k = 3 que, por ejemplo, α1 no es estimable.

De acuerdo con el Teorema que probamos muchas clases atras deberıamosincluir una restriccion adicional. Para lograr la identificabilidad de los parametrosson frecuentes:

αk = 0 ok∑

i=1αi = 0 etc.

Es muy usada la restriccion∑ki=1αi = 0, que es natural ya que:

ηi j = E(yi j) = µ+ αi = µ+ α+ αi − α= µ+ αi

dondek∑

i=1αi = 0

Notemos que usando esta restriccion tenemos que:

ηi j = E(yi j) = µ+ αi =⇒ η.j = kµ

Page 173: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 173

=⇒ µ = η.j

por lo tanto

αi = ηi j − η.jµ y αi estan unıvocamente determinados por los ηi j :

µ = η.j αi = ηi j − η.jSi quisieramos plantear las ecuaciones normales para estimar los parametrospodrıamos plantear:

∂S

∂µ= −2 k∑

i=1

ni∑

j=1(yi j − µ− αi) = 0

∂S

∂αi= −2

ni∑

j=1(yi j − µ− αi) = 0

k∑

i=1αi = 0 ← restriccion adicional

Page 174: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 174

Por lo tanto:

nµ+k∑

i=1niαi =

k∑

i=1niy i .

µ+ αi = y i .k∑

i=1αi = 0

Notemos que la primera ecuacion es dependiente de las k siguientes. Luego:

µ =k∑

i=1

y i .k

αi = y i . −k∑

j=1

y j.k

que estan unıvocamente determinados por los yi j

Volviendo al tema de comparaciones multiples

Metodo de Tukey

Mientras el metodo S de Scheffe utiliza la distribucion F , este metodo usa ladistribucion del rango studientizado ql ,ν, que presentaremos a continuacion.

Page 175: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 175

El metodo T sirve para realizar contrastes simultaneos que involucran I parame-tros (θ1, . . . , θI) con la restriccion de que sus estimadores θi tengan igual vari-anza. De allı, que en principio en el contexto de ANOVA 1 Factor asumiremosque ni = m ∀i = 1, ..., kDeduciremos el metodo para el caso en que θi son independientes y los con-trastes de interes de la forma θi − θj .Def.: Distribucion del rango studientizado qI,ν: Sean x1, x2, . . . , xI v.a. inde-pendientes tales que xi ∼ N(0, 1), R = max1≤i≤I xi − mın1≤i≤I xi y U ∼ χ2νindependiente de las x ′i s. Entonces:

max1≤i≤I xi − mın1≤i≤I xi√Uν

=R√Uν

∼ qI,ν

Teorema de Tukey

Sean θi v.a. independientes 1 ≤ i ≤ I, tales que θi ∼ N(θi , a2σ2), con a > 0constante conocida y s2 un estimador de σ2, independiente de θi ∀i , y tal que

Page 176: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 176

νs2

σ2∼ χ2ν. Entonces

La probabilidad de que todas los 12I(I − 1) diferencias θi − θj satisfagan si-multaneamente

θi − θj − Ts ≤ θi − θj ≤ θi − θj + Tsdonde T = aqI,ν,α es 1− α.Ejemplo: Supongamos que queremos comparar las medias de 4 tratamientos:T1, T2, T3 y T4 y nos interesan los contrastes:

αi − αjque es equivalente a comparar βi − βj .Sabemos que βi = y i . y que y 1., . . . , y 4. son independientes. Ademas y i . ∼N(βi ,

σ2

ni). Para poder usar Tukey, entonces ni = m ∀i .

Por lo tanto:

P (∩i ,j y i . − y j. − q4,4m−4,αs√√√√√1

m≤ βi − βj ≤ y i . − y j. − q4,4m−4,αs

√√√√√1

m)

Page 177: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 177

Extensiones del Metodo de Tukey

1. Teorema de Tukey

Bajo las condicones del Teorema anterior la probabilidad de que todos loscontrastes de la forma ψ =

∑Ii=1 ciθi ,

∑Ii=1 ci = 0 satisfagan simultaneamente

ψ − Ts I∑

i=1|ci |/2 ≤ ψ ≤ ψ − Ts

I∑

i=1|ci |/2

donde T = aqI,ν,α y ψ =∑Ii=1 ci θi , es 1− α.

2. Metodo de Tukey–Kramer Para el caso de muestras de diferente tamanohay diferentes propuestas para extender el metodo de Tukey. El metodo T–Kaplicado al problema de ANOVA 1 Factor para ni observaciones para cada niveli , i = 1, · · · , k , propone los intervalos

y i .− y j.− qk,n−k,αs√√√√√√1

2(1

ni+1

nj) ≤ βi −βj ≤ y i .− y j.− qk,n−k,αs

√√√√√√1

2(1

ni+1

nj))

Page 178: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 178

Volvamos a nuestro ejemplo de las margarinas

salida¡- aov(PAPFUA˜tipo.f)

anova(salida)

FLUOR.tuk¡-TukeyHSD(salida,”tipo.f”,ordered=FALSE,conf.level=0.99)

plot(FLUOR.tuk)

Page 179: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 179

−2 0 2 4 6

6−5

5−4

5−3

6−2

4−2

6−1

4−1

2−1

99% family−wise confidence level

Differences in mean levels of tipo.f

Page 180: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 180

Comparacion de los metodos para ANOVA 1 Factor

Notemos que ls tres tipos de intervalos son de la misma forma y que paracomparar sus longitudes basta considerar:

rT,S =long.Tukey

long.Schef f e=

qk,ν,αk∑

i=1|ci |/2

√√√√√(k − 1)Fk−1,ν,αk∑

i=1c2i

rB,S =long.Bonf er roni

long.Schef f e=

tν,α/(k(k−1))√(k − 1)Fk−1,ν,,α

rT,B =long.Tukey

long.Bonf er roni=rT,SrB,S

En la siguiente tabla extraıda de Stapleton (1995) mostramos los cocientespara contrastes de la forma βi−βj para α = 0,05, k = 3, 5, 7, 10, ν = 10,∞.

Page 181: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 181

Page 182: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 1

Análisis de la Varianza de dos factores con replicaciones:

Caso Balanceado (Scheffé, 1959)

En este ejemplo nos interesa el tiempo de coagulación (en minutos) del plasma sanguíneo para 3

tratamientos y 2 concentraciones de adrenalina mezclada con el plasma.

Para cada combinación de tratamiento y concentración de adrenalina, se tomaron 3 observaciones

independientes. Se obtuvieron los siguientes datos:

Concentración

Tratamiento 1 2

1 9.8

10.1

9.8

11.3

10.7

10.7

2 9.2

8.6

9.2

10.3

10.7

10.2

3 8.4

7.9

8.0

9.8

10.1

10.1

Page 183: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 2

En este caso tenemos dos factores:

Factor A: Tratamiento (con tres niveles)

Factor B: Concentración (dos niveles)

y dentro de cada casillero tenemos la misma cantidad de replicaciones K, en este caso K=3.

Podemos pensar que nuestros datos se disponen en una tabla de doble entrada como la anterior

(una entrada para el factor A y otra para B) y en la que en cada casilla tendremos las

replicaciones de cada una de las combinaciones de los factores A y B.

Page 184: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 3

Factor B

Factor A 1 2 . . J

1

Y111

Y112

.

.

Y11K

Y121

Y122

.

.

Y12K

. . . Y1J1

Y1J2

.

.

Y1JK

2

Y211

Y212

.

.

Y21K

Y221

Y222

.

.

Y22K

. . . Y2J1

Y2J2

.

.

Y2JK

.

. . .

Yijl

. .

. . . . . .

I

YI11

YI12

.

.

YI1K

YI21

YI22

.

.

YI2K

. . . YIJ1

YIJ2

.

.

YIJK

Page 185: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 4

Cada observación Yijkpuede escribirse como:

Yijk = ij + ijk

donde ijk representa el error, la media ij (que depende del cada nivel i del Factor A (Filas) y de

cada j nivel del Factor B (Columnas)) y el subíndice k identifica la replicación dentro de cada

casillero.

Asumiremos que ijk N(0,2) independientes.

Cuando el número de observaciones dentro de cada casillero es constante decimos que el diseño

es balanceado. Vamos a considerar el caso balanceado.

Para cada observación, podríamos considerar un modelo que involucre una media general, el

efecto del tratamiento y el efecto de la concentración de adrenalina:

Yijk = + i + j + ijk

Esto es lo que conocemos como Modelo Aditivo.

Veamos que podría ocurrir con ij .

Page 186: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 5

Sin embargo, podría ocurrir que el efecto de cierto tratamiento no sea el mismo para los

distintos niveles de concentración de adrenalina. En este caso diríamos que hay interacción.

Page 187: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 6

¿Cómo representar esto en el modelo? Deberíamos pensar en un Modelo No Aditivo.

Escribimos cada observación Yijk puede escribirse como:

Yijk = ij + ijk

Page 188: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 7

Podemos pensar que cada ij es una suma de 4 términos:

Una media general,

Efecto del nivel i del Factor A: i

Efecto del nivel j del Factor B: j

Interacciones ij: ij

Luego

Yijk = + i + j + ij + ijk

Notemos que

)()()( ............ jiijjiij

que es de la forma + i + j + ij donde

0 j

ij

i

ij

j

j

i

i

Page 189: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 8

Estimación

Tenemos que minimizar

ji

ij

k

ijkY,

2)(S

Obtenemos el estimador de mínimos cuadrados de ij resolviendo

0)()2(S

ij

k

ijk

ij

Y

con lo cual

ijij Y

y queda 2

.

,

)(S ij

ji

ijk

k

YY

Page 190: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 9

Notemos que en este caso la matriz de diseño X es:

Por lo tanto todas funciones paramétricas son estimables, en particular:

, i , j y ij

IJprg(X) :

:

1..:0

1..0:

:..10

:..::

0..10

:..01

0..::

0..01

11

IJ

Page 191: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 10

ijLuego, por el Teorema de Gauss-Markov, los estimadores de mínimos cuadrados de , i ,j y ij

los obtenemos reemplazando a ij por su estimador

Así obtenemos:

)ˆˆˆˆ(ˆ

)ˆˆ(ˆ

)ˆˆ(ˆ

ˆˆ

....

...

...

..

jiijij

jj

ii

Resultando

)(ˆ

)(ˆ

)(ˆ

ˆ

........

.....

.....

...

yyyy

yy

yy

y

jiijij

jj

ii

Page 192: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 11

La hipótesis de igualdad de los efectos de los I niveles del Factor A (filas) puede plantearse

mediante la hipótesis nula:

HA: 1 = 2 = ......= I = 0,

la hipótesis de igualdad de los J niveles del Factor B (columnas) se plantea como:

HB: 1 = 2 = ......= J = 0,

mientras que la ausencia de interacciones, la testearíamos a través de la hipótesis

HAB: 11 = 12 = ......= IJ = 0.

La ausencia de interacciones implica que la diferencia de medias de dos niveles de un factor

es la misma para todos los niveles del otro factor.

Page 193: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 12

La suma de cuadrados puede ser reescrita como:

ji k

ijijjjiiijjiijk

ijji

ji

ijk

k

ij

ji

ijk

k

Y

YY

,

2

2

,

2

,

))ˆ()ˆ()ˆ()ˆ()ˆˆˆˆ((

)()(S

y usando las restricciones

0 j

ij

i

ij

j

j

i

i

queda

ji

ijij

j

jj

i

ii KIKJKIJKS,

2222 )ˆ()ˆ()ˆ()ˆ(S

Esta expresión es muy útil pues bajo HA, HB, o HAB permite ver que los estimadores son los

mismos que bajo .

Page 194: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 13

Por ejemplo, bajo HA: 1 = 2 = ......= I = 0, tendríamos

ji

ijij

j

jj

i

i KIKJKIJKS,

2222 )ˆ()ˆ(ˆ)ˆ(S

Por lo tanto, S se minimiza cuando

ijijjj ˆ ademasy ˆ ,ˆ

En este caso además tendríamos

i

iA JKS2

ˆS

Análogamente

Page 195: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 14

ji

ijAB

j

jB

KS

IKS

,

2

2

ˆS

ˆS

Para testear, por ejemplo HA

ji

ij

k

ijk

i

i

i

i

A

YY

JK

S

JK

S

S

,

2

.

22

)(

ˆ

1-I

IJ-nˆ

1-I

IJ-n

S

q

r-n

En cuanto a los grados de libertad de cada una, es decir q, es el número de condiciones l.i.

estimables impuestas por cada hipótesis.

Page 196: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 15

Los grados de libertad de cada una de estas sumas son:

SA: I-1

SB: J-1

SAB: (I-1)(J-1)

SE: IJ(K-1)

ST: n-1=I*J*K-1

Por lo tanto la Tabla de Análisis de la Varianza será:

Page 197: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 16

(Extraída de Scheffé, 1959)

Page 198: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 17

EJEMPLO: 2 factores con replicaciones.

Supongamos que nos interesa estudiar el efecto del porcentaje de grasa corporal (factor A, 3

niveles) y del sexo (factor B) en la tolerancia al ejercicio físico en personas de 25 a 35 años de

edad. Esta tolerancia se mide en minutos antes de que ocurra la fatiga en sujetos realizando

bicicleta fija.

Dos sujetos fueron sometidos al test de tolerancia para cada grupo de sexo-grasa. A partir de los

datos obtenidos se calculó la siguiente tabla de análisis de la varianza para el modelo:

Yijk = + i + j + ij + ijk i=1, 2, 3 j=1, 2, k=1, 2

Page 199: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 18

grasa<-

read.table("C:\\Users\\Ana\\ModeloLineal\\doctex\\grasa.txt",header=T)

grasa

attach(grasa)

names(grasa)

plot(Tolera~ SEXO + GRASA, data=grasa)

Page 200: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 19

interaction.plot(SEXO,GRASA,Tolera,col=2:3)

Page 201: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 20

interaction.plot(SEXO,GRASA,Tolera,col=2:3)

Page 202: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 21

ANALYSIS OF VARIANCE TABLE FOR TOLERA

g <- lm(Tolera~GRASA*SEXO, grasa)

anova(g)

Analysis of Variance Table

Response: Tolera

Df Sum Sq Mean Sq F value Pr(>F)

GRASA 2 1544 772.00 74.7097 5.754e-05 ***

SEXO 1 12 12.00 1.1613 0.3226

GRASA:SEXO 2 24 12.00 1.1613 0.3747

Residuals 6 62 10.33

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Comenzamos por testear la hipótesis de ausencia de interacciones

HAB: 11 = 12 = ......= 0

Como el p-valor obtenido para el test de F correspondiente es 0.3747, no podemos rechazar HAB,

Page 203: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 22

¿Por qué testeamos primero HAB?

No tiene tiene sentido testear los efectos principales cuando hay interacción, a menos que hubiera

un interés específico. Un p-valor bajo en el test para HAB sugiere que cada factor tiene un efecto en

la variable de respuesta, pero el tamaño de este efecto depende del nivel del otro factor. Por esta

razón testeamos en primer término HAB.

Si el p-valor para testear HAB no es pequeño, testeamos HA y HB.

Si en cambio, el p-valor es pequeño, no podemos descartar la presencia de interacciones y

comparamos las medias entre los distintos niveles de un factor, fijado el nivel del otro factor.

Como en este ejemplo p-valor es 0.3747 y no podemos rechazar HAB, estamos en condiciones de

testear HA y HB.

Si deseáramos verificar si el sexo tiene algún efecto sobre la tolerancia al ejercicio físico

deberíamos testear

HB: 1 = 2 = 0,

y como el p-valor del test correspondiente es 0.3226, no podemos rechazar la hipótesis de que

el efecto del sexo sea nulo.

Page 204: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 23

Por otra parte, podría interesarnos testear

HA: 1 = 2 = 3 = 0.

El p-valor obtenido para el test de F correspondiente es 0.0001, en consecuencia rechazamos la

hipótesis de que el efecto del porcentaje de grasa es el mismo para los tres niveles.

Si nos interesase realizar intervalos de confianza simultáneos para las diferencias entre las medias

de los niveles de porcentaje de grasa podemos calcular los intervalos mediante el método de

Tukey con un nivel global de 95%:

Page 205: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 24

salida<-aov(Tolera~SEXO*GRASA)

tolera.tuk<-TukeyHSD(salida,"GRASA",ordered=FALSE,conf.level=0.95)

plot(tolera.tuk)

Page 206: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 25

EJEMPLO: 2 factores con replicaciones

plasma<-

read.table("C:\\Users\\Ana\\ModeloLineal\\doctex\\plasma.txt",header=T)

attach(plasma)

names(plasma)

trat<- factor(TRATA)

concentra<- factor(CONCENTRA)

plot(Tiempo~trat + concentra, data=plasma)

Page 207: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 26

Yijk = + i + j + ij + ijk i=1, 2, 3 j=1, 2, k=1, 2,3

interaction.plot(trat,concentra,Tiempo,col=2:3)

Page 208: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 27

interaction.plot(concentra,trat,Tiempo,col=2:4)

Page 209: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 28

g <- lm(Tiempo~trat*concentra, plasma)

anova(g)

Analysis of Variance Table

Response: Tiempo

Df Sum Sq Mean Sq F value Pr(>F)

trat 2 5.470 2.7350 37.2955 7.084e-06 ***

concentra 1 9.245 9.2450 126.0682 1.011e-07 ***

trat:concentra 2 0.610 0.3050 4.1591 0.04244 *

Residuals 12 0.880 0.0733

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Como antes comenzamos por testear la hipótesis nula HAB. En este caso la hipótesis nula es

rechazada al 5%. Compararemos las medias de todas las combinaciones.

Page 210: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 29

tiempo.tuk<-TukeyHSD(salida,ordered=FALSE,conf.level=0.95)

par(cex=0.5)

plot(tiempo.tuk,cex=2)

Tambien podria escribirse:

tiempo.tuk<-

TukeyHSD(salida,"trat:concentra",ordered=FALSE,conf.level=0.95)

Page 211: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 30

Page 212: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal 203 Ana M. Bianco 31

Una forma de resumir esta información es considerando:

TRAT CONCENTRA MEAN GROUPS

--------- --------- ---------- -----------

1 2 10.900 I

2 2 10.400 I I

3 2 10.000 .. I

1 1 9.9000 .. I

2 1 9.0000 .... I

3 1 8.1000 ...... I

Donde se ve que hay cuatro grupos de medias que no difieren significativamente unas de otras.

Page 213: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal: Diagnostico

Verificacion de Supuestos y Diagnostico Supongamos que tenemos una

muestra (yi , xi), i = 1, . . . , n que cumple:

yi = x′iβ + εi

donde εi = N(0, σ2) son independientes y estimamos por el metodo de mınimos

cuadrados a β y realizamos todas las inferencias que necesitamos.

¿Como verificamos todos los supuestos que hemos realizado?

1

Page 214: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 2

Los 4 supuestos que revisaremos son:

1. Linealidad: E(Y ) = Xβ

2. Homoscedasticidad: V ar (εi) = σ2 = cte.

3. Normalidad: εi tienen distribucion Normal

4. Independencia de los errores: εi independiente de εj si i 6= j .

Comencemos por considerar los residuos:

ei = yi − yi i = 1, . . . , n

Como sabemose = (I− P)Y

por lo tantoE(e) = 0 Σe = σ

2(I− P)

Por lo tanto, V (ei) = σ2(1−pi i), con lo cual los residuos son heteroscedasticos.

Page 215: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 3

Si ademas, los errores son normales, como hemos supuesto antes

ei ∼ N(0, σ2(1− pi i))

Observemos ademas, que los residuos no son independientes, en tanto:

Cov(ei , ej) = −σ2pi j

Definimos otros residuos relacionados:

ri =yi − yi

s√(1− pi i)

residuo standarizado

r ∗i =yi − yi

s(i)√(1− pi i)

residuo studentizado

donde s(i) es el desvıo standard muestral computado partir de una regresionajustada sin la observacion i .

Sea X(i) la matriz X sin la i−esima fila: xi . Probaran en la practica que sonciertas las siguientes igualdades:

Page 216: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 4

X′(i)X(i) = X′X− xix

′i

(

X′(i)X(i)

)−1= (X′X)

−1+(X′X)−1 xix

′i (X

′X)−1

1− pi i

con lo cual

ˆβ − ˆβ(i) = (X

′X)−1xi

ei1− pi i

s2(i) =(n − p)s2 − e2i (1− pi i)

n − p − 1

Distribucion de los Residuos

A fin de estudiar la distribucion de estos residuos podrıamos graficar:

Esquemas de Tallo y Hoja

Histogramas

Page 217: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 5

Boxplots

De esta forma podrıamos evaluar:

simetrıa

valores extremos

valores centrales

outliers

posibles agrupamientos

normalidad

summary(salida)

Call:

lm(formula = BIO ˜ K + PH)

Residuals:

Min 1Q Median 3Q Max

Page 218: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 6

-679.25 -253.50 -95.44 259.45 1135.80

Coefficients:

Estimate Std. Error t value Pr(¿—t—)

(Intercept) -506.7131 279.8016 -1.811 0.0773 .

K -0.4871 0.2031 -2.398 0.0210 *

PH 411.9779 48.4954 8.495 1.15e-10 ***

Residual standard error: 401.1 on 42 degrees of freedom

Multiple R-squared: 0.6476, Adjusted R-squared: 0.6308

F-statistic: 38.59 on 2 and 42 DF, p-value: 3.074e-10

names(salida)

[1] ”coefficients” ”residuals” ”effects” ”rank” ”fitted.values” ”assign”

[8] ”df.residual” ”xlevels” ”call” ”terms” ”model”

names(lm.influence(salida))

[1] ”hat” ”coefficients” ”sigma” ”wt.res”

Page 219: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 7

stem(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))

The decimal point is at the —

-1 — 9

-1 — 332

-0 — 9888777766655555

-0 — 332211111

0 — 022

0 — 677778

1 — 04

1 — 69

2 — 01

2 — 9

boxplot(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))

qqnorm(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))

Chequeando la Normalidad

El QQ–plot es un grafico de percentiles muestrales vs. percentiles teoricos (bajo una cierta

distribucion asumida F ).

Page 220: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 8

−2

−1

01

23

Figura 1: Boxplot de ri : Datos de Biomasa

Page 221: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 9

Si la muestra proviniese de una poblacion con distribucion F los percentiles muestrales vs. los

teoricos caerıan aproximadamente sobre una recta a 45.

Para esto ordenamos los residuos standarizados

r(1) ≤ r(2) ≤ . . . ≤ r(n)

y graficamos los percentiles muestrales 1/(n + 1), 2/(n + 1), . . . , n/(n + 1) contra los per-

centiles teoricos de una N(0, 1)φ−1(1/(n + 1)), φ−1(2/(n + 1)), . . . , φ−1(n/(n + 1))

.

Si el grafico se desviase de la recta, estarıamos encontrando evidencia contra la normalidad.

Page 222: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 10

−2 −1 0 1 2

−2

−1

01

23

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Figura 2: QQ-plot de ri : Datos de Biomasa

Page 223: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 11

Linealidad

yi vs. ei

Uno de los graficos que se realiza despues de realizar el ajuste es el de yi vs. ei

¿Que esperamos observar? Consideremos el modelo yi = β0 + β1xi1 + . . .+ βp−1xi(p−1)

Si quisieramos hacer una regresion entre ei vs. yi el estimador de la pendiente tendrıa como

numerador:

n∑

i=1(ei − e)(yi − y ) =

n∑

i=1ei yi = Y(I− P)PY = 0

En cambio si la regresion la hiciesemos entre ei vs. yi el estimador de la pendiente tendrıa como

numerador:

n∑

i=1(ei − e)(yi − y) =

n∑

i=1ei yi = Y

′(I− P)Y = Y′(I− P)(I− P)Y = e′e = ‖e‖2

es decir, la suma de cuadrados de los residuos.

Mas aun, el estimador del coeficiente correspondiente a la pendiente en este caso serıa:

Page 224: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 12

−4 0 2 4 6 8 10

−10

05

10

yhat

std.

res

0 1 2 3 4

−10

05

10

x1

std.

res

−2 −1 0 1

−10

05

10

x2

std.

res

Figura 3: Linealidad: OK!!

Page 225: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 13

0 1 2 3 4

−10

−5

05

1015

x1

std.

res

−2 −1 0 1 2

−20

−15

−10

−5

05

1015

x3

std.

res

Figura 4: Linealidad: MAL!!

Page 226: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 14

(a)Representa la situación esperable si el modelo se cumple: una nube de residuos alrededor del 0 sin estructura.

(b) y (c) Muestran gráficos en los que el supuesto de igualad de varianzas no se cumple.

(d) El supuesto de linealidad no se satisface.

Page 227: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 15

−4 −2 0 2 4 6 8

−20

−10

010

20

yhat

std.

res

Figura 6: Boxplot de ri : Heteroscedaticidad

Page 228: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 16

e′en∑

i=1(yi − y)

2=

n∑

i=1(yi − yi)

2

n∑

i=1(yi − y)

2=

n∑

i=1(yi − y )

2 −n∑

i=1(yi − y)

2

n∑

i=1(yi − y)

2= 1− R2

Es decir que esta pendiente serıa 0 solo en el caso de ajuste perfecto.

El caso (d) corresponderıa a un modelo inadecuado. Por ejemplo, supongamos que ajustamos

yi = β0 + β1xi1 + εi , pero en realidad es:

yi = β0 + β1xi1 + β2xi2 + εi

Luego:

E(ei) = E(yi − yi)

= E(yi − β0 + β1xi1)

= h + gxi1 + kxi2

o sea tanto ei como yi varıan con xi1.

ei vs. cada variable regresora

Tengamos en cuenta que por las ecuaciones normales:

Page 229: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 17

n∑

i=1(ei−e)(xi j−x .j) =

n∑

i=1ei (xi j−x .j) =

n∑

i=1ei xi j =

n∑

i=1(yi−β0−β1xi1+. . .−βp−1xi(p−1))xi j = 0

De manera que, si el modelo elegido fuera correcto no deberıa aparecer ninguna estructura en

el grafico de ei vs. xi j . Por lo tanto, los graficos anteriores tambien nos sirven de guıa en este

caso.

Por ejemplo, si en el razonamiento anterior reemplazasemos xi2 por x2i1 tendrıamos:

E(ei) = h + gxi1 + kx2i1

el grafico quedarıa cercano a una parabola.

ei vs. tiempo

En principio cualquier factor podrıa influir en Y y deberıa incluirse en la regresion como variable

explicativa. Si un factor ha sido omitido, podrıa graficarse ei vs. factor y ver si hay alguna

tendencia o patron particular.

A veces con los datos se registra el tiempo o el orden en que han sido tomadas las mediciones.

Puede ser de interes estudiar si los residuos tienen alguna dependencia en el tiempo.

Page 230: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 18

Page 231: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 19

Algunos Tests

Test de Rachas

Si tenemos observaciones positivas y negativas ordenadas secuencialmente segun el tiempo,

podrıamos preguntarnos si tienen algun patron particular o si se presentan en forma aleatoria.

Por ejemplo: si tuvieramos la sucesion de residuos siguiente:

+ + − + − − − − + + − + + +

con n1 = 8 residuos positivos, n2 = 6 residuos positivos, n = 14 residuos en total y u = 7

rachas, ¿hemos observado algo muy poco probable bajo el supuesto de aleatoriedad? ¿Podrıa

haber alguna variable oculta que justifique esto?

Vamos a analizar un caso mas sencillo con solo 6 residuos: 2+ y 4−.

Un numero bajo de rachas hara pensar en una correlacion positiva, mientras que un numero

alto harıa sospechar una correlacion negativa.

Si n1 > 10 y n2 > 10 puede usarse una aproximacion normal para el estadıstico del test. Si

n1 ≤ n2 ≤ 10 se usan las tablas exactas de Sweed y Hasenhart (1943).

El test aproximado resulta de calcular:

Page 232: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 20

Page 233: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 21

Z =u − µ± 1/2

σ

µ =2n1n2n1 + n2

+ 1

σ =2n1n2(2n1n2 − n1 − n2)

(n1 + n2)2(n1 + n2 − 1)

(Para muchas chances usar el factor de correccion −1/2 y para muy pocas 1/2)

Veamos un ejemplo

Consideremos el caso en que examinamos 27 residuos de los cuales 15 son de un signo y 12

son de otro y ordenados secuencialmente de acuerdo con el tiempo presentan 7 rachas. ¿Hay

muy pocas rachas?

Supongamos que hubiera n1 = 15 residuos positivos, n2 = 12 residuos positivos, entonces

n = 27 residuos en total y u = 7 rachas, ¿Hay pocas rachas?

µ =43

3

Page 234: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 22

σ =740

117

Z =7− 43/3 + 1/2

√740117

= −2,713

Usando la aproximacion normal tenemos:

P (Z ≤ −2,713) ∼= 0,0033

por lo tanto bajo el supuesto de aleatoriedad estarıamos observando un numero inusualmente

bajo de rachas, por lo tanto rechazarıamos la hipotesis de que las rachas de signos han ocurrido

simplemente por azar a los niveles habituales.

Page 235: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 23

Test de Durbin–Watson

Es un test muy conocido que es util para detectar cierto tipo de correlacion en una serie.

Supongamos que postulamos el modelo:

yi = βo + β1xi1 + ...+ βp−1xip−1 + εi

donde εi ∼ N(0, σ2) independientes.

En este caso, tenemos que ρs = Corr(yi , yi−s) = 0 ∀s.

Supongamos que εi ∼ N(0, σ2), pero en realidad hay cierta estructura en los errores:

εi = ρεi−1 + ui Modelo Autorregresivo

donde ρ representa la correlacion y ui las innovaciones, que son independientes de todo el

pasado.

Page 236: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 24

Si εi = ρεi−1 + ui entonces

Cov(εi , εi−1) = Cov(ρεi−1 + ui , εi−1)

= ρσ2

Corr(εi , εi−1) = ρ

¿Cuanto vale Corr(εi , εi−s)? Veamos que Corr(εi , εi−s) = ρs

Nuestro objetivo es testear:

H0 : ρs = 0 v . H0 : ρs = ρs

para ρ 6= 0, |ρ| < −1. Esta alternativa surge del modelo εi = ρεi−1 + ui , donde ui ∼ N(0, σ2

e independientes de εi−1, εi−1, ..... y de ui−1, ui−1, ...... Se asume ademas que la media y la

varianza de las εi son constantes, mas aun: εi ∼ N(0, σ2/(1− ρ2)

El estadıstico del test esta basado en los residuos e1, . . . , en:

Page 237: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 25

d =

∑ni=2(ei − ei−1)

2

∑ni=1 e

2i

¿Cual es la zona de rechazo? Las tablas de Durbin-Watson proveen paraα = 0,05, 0,0025y0,01

valores dL y dU para distintos valores de n y de p (cantidad de covariables).

Pueden encontrarse las tablas que usaremos en:

http://www.imm.bwl.uni-muenchen.de/dateien/3˙lehre/market˙analysis/durbin˙watson˙tables.pdf

Page 238: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 26

Test de una cola contra alternativas ρ > 0 de nivel α:

si d < dL ⇒ d es significativo

si d > dU ⇒ d no es significativo

si dL ≤ d ≤ dU ⇒ d no hay conclusion

Test de una cola contra alternativas ρ < 0 de nivel α:

idem usando 4− d

Test de una cola contra alternativas ρ 6= 0 de nivel 2α:

si d < dL o 4− d < dL ⇒ d es significativo

si d > dU y 4− d > dU ⇒ d no es significativo

en otro caso no hay conclusion

Veamos un ejemplo extraıdo de Draper y Smith (1980):

Una companıa de gaseosas quiere predecir la venta regional a partir de los gastos mensuales

regionales realizados en propagandas. Se dispone de datos de 20 anos.

Page 239: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 27

Page 240: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 28

Page 241: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 29

Page 242: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 30

Page 243: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 31

Test de Normalidad de Shapiro–Wilk

Dada una distribucion Go, sea F la familia de diferencias que se obtiene por cambios de posicion

o escala a partir de G − o. Asumiremos que G − o esta estandarizada.

Sea X1, X2, . . . , Xn una m.a. con distribucion en F , tal que E(xi) = µ y V (xi) = σ2.

Consideremos los estadısticos de orden de la muestra:

Xo = (X(1), X(2), . . . , X(n))

Por otro lado, sea

Zo = (Z(1), Z(2), . . . , Z(n))

una muestra ordenada de Go, m = (m1, . . . , mn)′ y V = vi j , el vector de medias y la matriz

de covarianzas de Zo:

mi = E(Z(i)) vi j = Cov(Z(i), Z(j))

Por lo tanto, para i = 1, . . . , n: X(i) ' µ+ σZ(i)

En consecuencia, el plot de (X(1), X(2), . . . , X(n)) vs. (m1, m2, . . . , mn) deberıa ser aproxi-

madamente lineal.

Page 244: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 32

Una manera de chequear esto es mediante el coeficiente de correlacion lineal en este grafico.

El estadıstico del test de Shapiro-Wilk W corresponde a la correlacion entre V−1m y Xo para

el caso de la familia Normal.

La zona de rechazo es: W < kα

En R la instruccion shapiro.test ejecuta este test devolviendo el p-valor y el estadıstico W .

biomasa¡- read.table(”C:““Users““Ana““ModeloLineal““doctex““biomasa.txt”,header=T)

attach(biomasa)

salida¡- lm(formula = BIO ˜ K + PH)

salida$res

1 2 3 4 5 6 7 8 9

-174.95788 -301.36355 390.63567 71.08915 -517.69012 -517.70400 -44.40357 -35.84008 -204.90345

10 11 12 13 14 15 16 17 18

-271.47716 71.29876 726.37064 618.06946 831.79843 267.83356 -121.24039 -271.03566 -312.78027

19 20 21 22 23 24 25 26 27

-239.67658 -333.85551 -179.22424 -325.37695 -290.55431 -253.49593 -206.01746 273.70705 -31.03141

28 29 30 31 32 33 34 35 36

-223.97267 -679.25157 -27.23251 -211.33982 243.45516 782.95205 1135.79900 565.85631 -473.63371

37 38 39 40 41 42 43 44 45

-241.24364 -55.82630 -95.44412 -102.26077 306.69000 -84.42299 17.49883 264.75622 259.44632

Page 245: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 33

shapiro.test(salida$res)

Shapiro-Wilk normality test

data: salida$res

W = 0.9217, p-value = 0.004813

Page 246: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Diagnostico

En general, en presencia de heteroscedasticidad se suelen tomar una de lassiguientes medidas: utilizar pesos o transformar las variables.

En muchas ocasiones la transformacion de la variable dependiente o una de lasindependientes puede ser mucha utilidad. En general, las transformaciones sonusadas para estabilizar varianzas, simplificar modelos u obtener normalidad.

Deteccion de Heteroscedasticidad

En algunos casos el reconocer la naturaleza de la variable dependiente puedeprevenirnos sobre la heterogeneidad de varianzas.

De hecho, si la variable de respuesta fuese una variable de conteo de tipoPoisson, tendrıamos que σ2i ' E(Yi) y por lo tanto no podrıamos esperar que

1

Page 247: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 2

se cumpla el supuesto de homoscedasticidad.

Aun cuando no conozcamos la distribucion de Yi podemos tener una idea aprox-imada del comportamiento de su varianza.

Ejemplos

Mercado inmobiliario: Variacion de precio de venta de casas.

σ constante:

50,000$ ←→ 100,000$1,000,000$ ←→ 1,050,000$

σ No constante:

50,000$ ←→ 60,000$1,000,000$ ←→ 1,200,000$

Page 248: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 3

Ejemplo Los siguientes datos representan el tiempo de viaje (y ) al centro de

una ciudad y la distancia recorrida (x).

Distancia (en millas) .5 1 1.5 2 3 4 5 6 8 10Tiempo viajado (en minutos) 15 15.1 16.5 19.9 27.7 29.7 26.7 35.9 42 49.4

Supongamos yi = β0 + β1 xi + εi

No parece razonable suponer que la varianza sea constante.

De hecho, si la longitud de una cuadra en esta ciudad es d , el viaje de x millascomprende x/d cuadras. Luego, y puede ser expresada como

y = z1 + z2 + . . .+ zx/d ,

donde zj , j = 1, . . . , x/d es el tiempo en recorrer la j–esima cuadra.

Si suponemos que las zj son v.a. independientes y con la misma varianza ten-

Page 249: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 4

drıamos que:

v(y) = v(z1) + v(z2) + . . .+ v(zx/d) = (x/d)v(zj)

∝ xσ2 .

Usando el metodo de mınimos cuadrados ponderados con pesos wi = 1/xiobtenemos los estimadores ˆ

β0 = 12,561 yˆβ1 = 3,714.

Por lo tanto:

si yi v.a. conteo −→ σ2i ' E(Yi)

si yi =mini−→ σ2i =

E(Yi)(1− E(Yi))ni

si yi =ni∑

i=1

zi jni−→ σ2i =

σ2

nisi zi j homoscedasticos

Page 250: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 5

¿Como diagnosticar?

Hemos recomendado el grafico de ri vs. Yi para detectar heteroscedasticidad,¿como podemos ver en el la relacion entre V (Yi) y E(Yi) ?

Consideremos el siguiente ejemplo.

El siguiente plot corresponde a datos de velocidad (SP ) y distancia de frenadoen un automovil (D).

En este grafico se puede ver cierta heteroscedaticidad que es mucho mas evidenteen el grafico de ri vs. Yi obtenidos despues de ajustar a los datos el modelo

Di = β1SPi + β2SP2i + εi .

Page 251: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 6

5 10 15 20 25 30 35 40

020

4060

8010

012

014

0

SP

D

Page 252: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 7

0 20 40 60 80 100 120

−20

−10

010

20

salida$fit

salid

a$re

s

Page 253: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 8

¿Como podemos determinar la relacion entre V (Yi) y E(Yi) ?

Un procedimiento es obtener estimadores de E(Yi) y de V (Yi) por regiones ytratar de establecer que relacion hay entre ellas.

Para ello, se recomienda dividir el rango de Yi en tres regiones de manerade hacer un compromiso entre que las regiones tengan igual tamano e igualcantidad de puntos cada una.

En el ejemplo de velocidad, estas regiones podrıan estar delimitadas por losvalores 25 y 72.

Luego calcularıamos

la mediana de cada region: Y (1), Y (2) y Y (3)

la distancia intercuartil de cada una: d (1), d (2) y d (3)

graficamos Y (i) vs. d (i)

En nuestro ejemplo, obtendrıamos

(Y (1), Y (2), Y (3)) = (10,22315; 29,13797; 96,30877)

Page 254: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 9

(d (1), d (2), d (3)) = (6,778; 9,421; 25,500)

graficando, obtenemos

20 40 60 80

1015

2025

medyhat

dint

er

Page 255: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 10

Este grafico sugiere que√V (Yi) ∼= αE(Yi) y por lo tanto

V (Yi) ∝ E2(Yi)Recordemos que cuando ΣY 6= σ2I aplicabamos el metodo de mınimos cuadra-dos generalizados o ponderados:

Supongamos que ΣY = σ2V , donde V ∈ <n×n es una matriz definida pos-

itiva de constantes. Podemos entonces escribir: V = KK′ con K una matrizinvertible.

Y = Xβ + ε

K−1Y = K−1Xβ +K−1ε

Por lo tanto, tenemos un nuevo problema transformado es:

Y = Xβ + ε

Page 256: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 11

que satisface las condiciones de Ω.

Hallar el estimador de mınimos cuadrados, β, en el problema transformadoequivale a:

mınb‖Y − Xb‖2 = mın

b(Y − Xb)′V−1(Y − Xb)

Para el modelo transformado, los residuos serıan

r = Y − ˆY

= Y − Xβ= K−1Y −K−1Xβ= K−1(Y − Xβ)

Volviendo al ejemplo de velocidad

Si ajustamos nuevamente los datos usando pesos.

speed¡-read.table(”C:/Users/Ana/ModeloLineal/datos/Speed.txt”, header=T)

attach(speed)

Page 257: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 12

plot(SP,D)

SP2=SP*SP

salida¡- lm(D˜SP+SP2-1)

summary(salida)

Coefficients:

Estimate Std. Error t value Pr(¿—t—)

SP 0.576599 0.200804 2.871 0.00564 **

SP2 0.062145 0.006904 9.001 9.83e-13 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 9.852 on 60 degrees of freedom

Multiple R-squared: 0.9644, Adjusted R-squared: 0.9632

F-statistic: 813.5 on 2 and 60 DF, p-value: ¡ 2.2e-16

plot(salida$fit,salida$res)

EY=0.200804*SP+0.006904*SP2

plot(SP,EY)

Page 258: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 13

5 10 15 20 25 30 35 40

510

15

SP

EY

Como vemos en el grafico, E(Yi) serıa proporcional a SP , por lo tanto deacuerdo a lo visto V (Yi) ∝ E2(Yi) y en consecuencia usarıamos pesos de laforma 1/SP 2.

Page 259: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 14

salida3¡- lm(D˜SP+SP2,weight=peso)

summary(salida3)

Call:

lm(formula = D ˜ SP + SP2, weights = peso)

Residuals:

Min 1Q Median 3Q Max

-0.79915 -0.32983 -0.02599 0.27541 0.92972

Coefficients:

Estimate Std. Error t value Pr(¿—t—)

(Intercept) 1.50605 2.03544 0.740 0.462

SP 0.41968 0.34326 1.223 0.226

SP2 0.06557 0.01057 6.205 5.9e-08 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.4514 on 59 degrees of freedom

Multiple R-squared: 0.9131, Adjusted R-squared: 0.9101

F-statistic: 309.8 on 2 and 59 DF, p-value: ¡ 2.2e-16

plot(salida3$fit/SP,salida3$res/SP)

Page 260: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 15

1.0 1.5 2.0 2.5 3.0

−0.

50.

00.

5

salida3$fit/SP

salid

a3$r

es/S

P

Transformaciones Estabilizadoras de la Varianza

Podrıamos preguntarnos si alguna transformacion podrıa estabilizar la varianza.

Page 261: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 16

Supongamos que f es continua, con seunda derivada f ′′ finita, entonces veremosque

V (f (Yi)) ∼= (f ′(µi))2 σ2i (µi) donde µi = E(Yi)

Por lo tanto, para que V (f (Yi)) = cte , necesitamos que

(f ′(µi))2 ∼= c

σ2i (µi)donde c = cte.

Una funcion f con esta propiedad se llama funcion estabilizadora de la vari-

anza.

Por ejemplo:

yi v.a. de conteo tipo Poisson −→ f (µi) =√µi

yi =mini

(v.a. tipo Binomial) −→ f ′(µi) = cn1/2i /√µi(1− µi)

−→ f (µi) = 2cn1/2i arcsen(√µi)

Page 262: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 17

Otra forma de elegir una transformacion

Cuando tenemos una sola variable independiente el diagrama de dispersionde las observaciones puede sugerirnos inmediatamente que es necesaria unatransformacion de los datos y cual elegir.

Si no es ası, Tukey y Mosteller (1977) sugieren la siguiente estrategia:

• Dividimos el rango de las x ′s en tres regiones haciendo un compromiso entreel numero de observaciones en cada region y un tamano homogeneo de lasmismas.

• En cada region calculamos la mediana de las x ′s y de las correspondientesy ′s .

• Hallamos la pendiente de la recta de los dos primeros puntos y de los dosultimos.

• Si las pendientes son iguales entonces los puntos estan sobre una recta. Sino, el punto del medio estara por debajo de los otros dos (convexo) o masarriba de los otros dos (concavo).

Page 263: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 18

• Transformamos a x o a y usando el cuadro que se encuentra mas abajo.

Podemos aplicar la transformacion elegida a los tres puntos y verificar si laspendientes dan iguales. En este caso habrıamos encontrado una transformacionadecuada.

Cuadro de Transformaciones

. .

−1/y 2 .

−1/y x5

−1/y 1/2 x4

log(y) ⇑ x3

y 1/2 convexo x2

y ⇐⇒ x

y 2 ⇓ x1/2

y 3 concavo log(x)

y 4 −1/x1/2y 5 −1/x. .

Page 264: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 19

Ejemplo Stevens (1956) pidio a un conjunto de individuos que comparasen

notas de varios decibeles contra un standard (80 decibeles) y que les asignaranun rango de sonoridad, donde el rango standard era 10. Obtuvo los siguientesdatos

Estımulo (x) 30 50 60 70 75 80 85 90 95 100Respuesta mediana (y ) 0.2 1.0 3.0 5.0 8.5 10.0 14.0 20 29 43

Page 265: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 20

Consideramos: (50,1), (77.5,9.25) y (95,29).

Page 266: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 21

(50,1), (77.5,9.25) y (95,29)

pendiente y2−y1x2−x1 ⇒• entre los dos primeros es 8,2527,5 = ,3

• entre los dos ultimos 19,7517,5 = 1,13 .

Transformamos ay . Comenzando con escala descendente transformarıamos con√y . Aplicamos esta transformacion a la segunda coordenada de los tres puntos

y al recalcular las pendientes obtenemos

• entre los dos primeros es 2,0427,5 = 0,074

• entre los dos ultimos 2,3527,5 = 0,134

Podrıamos probar con la transformacion que sigue en la escala descendente, esdecir −1/y 1/2 . Las nuevas pendientes son: 0.025 y 0.0082⇒ estarıamos empeorando.

De acuerdo con este analisis, nos quedarıamos con la transformacion logaritmo.

Page 267: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 22

## Datos de Stevens

estimulo¡- c( 30,50,60,70,75,80,85,90,95,100)

respuesta.med¡- c( 0.2,1.0,3.0,5.0,8.5,10.0,14.0,20,29,43)

xmed¡- c(50,77.5,95)

ymed¡- c(1,9.25,29)

par(mfrow=c(2,2))

plot(estimulo,respuesta.med)

plot(xmed,ymed)

plot(xmed,sqrt(ymed))

plot(xmed,log(ymed))

Nota ¿Que ocurre si la variable de respuesta toma valores negativos? En esecaso se suma una constante c a Y antes de aplicarle una potencia. Dolby (1963)propuso un metodo grafico para elegir la constante c .

Page 268: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 23

30 40 50 60 70 80 90

010

2030

40

estimulo

resp

uest

a.m

ed

50 60 70 80 90

05

1015

2025

30

xmed

ymed

50 60 70 80 90

12

34

5

xmed

sqrt

(ym

ed)

50 60 70 80 90

0.0

1.0

2.0

3.0

xmed

log(

ymed

)

Page 269: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 24

Cuando hay 2 o mas variables explicativas

El principal problema que se nos presenta en este caso es los graficos de Y vs.cada una de las covariables Xj pueden ser no informativos.

Ası por ejemplo , si consideramos los puntos

y¡- c(2,1,3,1,3,2)

x1¡- c(1,2,2,3,3,4)

x2¡- c(3,1,3,0,2,0)

par(mfrow=c(1,2))

plot(x1,y)

plot(x2,y)

el grafico que obtenemos es:

Page 270: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 25

1.0 2.0 3.0 4.0

1.0

1.5

2.0

2.5

3.0

x1

y

0.0 1.0 2.0 3.0

1.0

1.5

2.0

2.5

3.0

x2

y

Page 271: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 26

No presenta ninguna estructura cuando graficamos Y vs.X1 (aparece un hexagono),aun cuando lo puntos yacen sobre el plano: Y = −3 + X1 + X2Wood (1973) propuso el siguiente metodo.

Supongamos que ajustamos el modelo

Yi = β0 + β1xi1 + · · ·+ βkxik + εiy obtenemos los estimadores (β0, β1, . . . , βk), entonces los residuos seran:

ei = Yi − Yi = Yi − (β0 + β1xi1 + · · ·+ βkxik)Luego:

Yi − β0 −k∑

j 6=mβjxi j = ei + βmxim residuos parciales

Por lo tanto, ei + βmxim es Yi sin el efecto de todas las otras covariables, demanera que graficando ei + βmxim vs. Xim obtenemos un grafico en el que elefecto de las otras covariables ha sido removido.

Page 272: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 27

En estos graficos de residuos parciales podemos aplicar las tecnicas para unasola variable independiente.

Una desventaja de este metodo es que si dos covariables estuvieran muy cor-relacionadas, podrıa ocurrir que los β′s no estuvieran bien estimados y por lotanto los plots de residuos parciales podrıan ser confusos.

Ejemplo

Page 273: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 28

Page 274: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Diagnóstico en ANOVA

En el caso de Anova 1 Factor computando los residuos ijr una vez calculada la Tabla ANOVA

podemos detectar:

Heterogeneidad de varianzas

Falta de independencia entre las observaciones

Presencia de outliers

Omisión de alguna variable importante

Falta de Normalidad

Podemos investigar la distribución de los residuos a través de diagramas de tallo-hoja,

histogramas, box-plots. Podemos detectar asimetría, presencia de outliers, etc.

Si el tamaño de ni es razonable, es aconsejable realizarlos para cada nivel del factor. Recordemos

que como en regresión, los residuales no son independientes. En general, esta dependencia suele

ser despreciable.

Si el tamaño de ni es razonable, podemos chequear el supuesto de normalidad realizando qq-plots

y aplicando el test de Shapiro-Wilk para la observaciones originales en cada nivel. Si no es así, los

haremos para todos los residuos juntos.

Page 275: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Si detectásemos residuos grandes o alejados del grueso de los residuos deberíamos estudiar

cuidadosamente la situación.

Otros gráficos

Diagrama de puntos: se construyen graficando los residuos (o las observaciones originales)

de cada nivel del factor en paralelo y nos darán una idea de si el supuesto de homogeneidad

de varianzas entre los niveles es razonable o no.

Valores predichos iY vs. Residuos: en este gráfico podemos apreciar la bondad del ajuste

del modelo y las varianzas de los residuos.

Gráfico de residuos vs. secuencia temporal: si se tiene registrado el orden en que fueron

tomadas las observaciones es aconsejable hacer este gráfico con el fin de detectar alguna

tendencia.

Gráfico de residuales vs. alguna variable de interés: si se midió alguna otra variable (edad,

peso, etc) puede ser útil graficar los residuos vs. esta variable. Esto puede contribuir a:

1. la comprensión del problema

2. sugerir variables a controlar en una nueva experiencia

3. ayudar a detectar un factor confundido si no se aleatorizó correctamente.

Page 276: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Para detectar heterogeneidad de varianzas en este modelo existen varios tests específicos cuando

la distribución de los datos es normal. Veremos una opción, que es la del Test de Levene, que es

válida en un contexto más general.

Supongamos que tenemos un Anova 1 Factor en el que comparamos k tratamientos.

Las hipótesis a testear son:

Ho: 12 = 2

2 =....=k

2 vs. H1: i

2 j

2 para algún par de índices i j

Test de Levene Modificado

El test de Levene modificado testea la igualdad de varianzas. Puede calcularse fácilmente

transformando la variable de respuesta y calculando una nueva Tabla de ANOVA para las

variables transformadas.

Page 277: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Los pasos a seguir son:

0) Computamos la mediana de la i-ésima casilla

1) Calculamos las variables transformadas: iijijYYW~

2) Calculamos la Tabla de ANOVA para

3) Rechazamos la hipótesis de igualdad de varianzas si el estadístico F del paso anterior es grande.

Entre las propuestas para testear homogeneidad de varianzas, este test figura entre los más

potentes y resistentes a la violación del supuesto de normalidad.

Si se rechaza la hipótesis de igualdad de varianzas, tenemos algunas alternativas.

Si la varianza no es constante, pero se sustenta el supuesto de normalidad, es recomendable usar

mínimos cuadrados ponderados o pesados.

Muchas veces la heterogeneidad de varianzas está acompañada por la no normalidad de las

observaciones. En este caso, la transformación de la variable de respuesta suele ser un remedio.

Con frecuencia, la misma transformación que estabiliza las varianzas también corrige la falta de

normalidad de los datos.

)(~

ijj

i YmedY

ijW

Page 278: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Si esto no se puede lograr, puede combinarse una transformación estabilizadora de varianzas con

una alternativa al test de F que sea no paramétrica.

Una posibilidad para encontrar la función transformadora es realizar un gráfico de iY vs. i

S para

visualizar qué tipo de relación tienen.

Veamos un ejemplo.

Page 279: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Transplante de Corazón

En los transplantes de corazón la similitud entre el tipo de tejido del donante y del receptor es

importante, pues grandes diferencias aumentan la probabilidad de rechazo del corazón

transplantado. Los datos que analizaremos a continuación corresponden al tiempo de

supervivencia de 36 pacientes transplantados. Los datos fueron agrupados en tres categorías de

acuerdo con el grado de incompatibilidad entre el tejido del donante y del receptor (baja=1,

media=2 y alta=3). Los investigadores quieren determinar si el tiempo medio de sobrevida

depende del grado de incompatibilidad.

Las hipótesis a testear son:

Ho: 1 = 2 = 3 vs. H1: no todas las i son iguales

Diagrama de Puntos

El diagrama de puntos sugiere que el tiempo de sobrevida puede disminuir cuando crece la

incompatibilidad.

Page 280: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Page 281: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Inicialmente se realizó un ANOVA y se calcularon los residuos con fines de diagnóstico. A

continuación ofrecemos la salida y algunos gráficos.

SOURCE DF SS MS F P

------- ---- --------- --------- ------ ------

BETWEEN 2 455385 227693 2.13 0.1351

WITHIN 33 3530419 106982

TOTAL 35 398580

SAMPLE GROUP

Incompat. MEAN SIZE STD DEV

--------- ---------- ------ ----------

1 334.92 13 421.99

2 281.08 12 347.32

3 69.818 11 81.607

TOTAL 235.97 36 327.08

Page 282: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Page 283: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

is

El diagrama de puntos de los residuos standarizados sugiere que la distribución de los residuos es

asimétrica a derecha y que la varianza de los residuos podría ser menor cuando hay una alta

incompatibilidad.

El test de Levene modificado fue aplicado obteniéndose un p-valor igual a 0.1504.

Por otro lado, el qq-plot de todos los residuos standarizados revela cierta asimetría a derecha y el

test de Shapiro-Wilk tiene un p-valor menor que 0.0001.

Si realizamos un scatter plot de vs parece haber una relación lineal entre ambos.

iY

Page 284: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Trabajamos con la nueva variable )log(YY y realizamos el análisis de la varianza para ella.

Tabla de ANOVA

SOURCE DF SS MS F P

------- ---- --------- --------- ------ ------

BETWEEN 2 12.9734 6.48670 3.57 0.0394

WITHIN 33 59.9250 1.81591

TOTAL 35 72.8984

SAMPLE GROUP

IND MEAN SIZE STD DEV

--------- ---------- ------ ----------

1 5.0174 13 1.3338

2 4.8098 12 1.4213

3 3.6281 11 1.2790

TOTAL 4.5237 36 1.3476

El p-valor del test de Levene modificado para la variable transformada es 0.7282. El diagrama de

puntos y el qq-plot de los residuos standarizados (p-valor del test de Shapiro -Wilk = 0.1463)

también sugieren que la transformación logarítmica es apropiada.

En la tabla de ANOVA vemos que el estadístico F = 3.57 con un p-valor = 0.0394. Para un nivel

=0.05 concluiríamos que la media del logaritmo del tiempo de sobrevida de los transplantados

depende del grado de incompatibilidad del tejido entre donante y receptor.

Page 285: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013

Page 286: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 30

Transformaciones de Box y Cox

Box y Cox (1964) propusieron una familia de funciones de potencia para lavariable de respuesta con el objetivo de garantizar el cumplimiento de todos lossupuestos de un modelo lineal, es decir:

Y ∼ N(Xβ, σ2I)

Estas transformaciones combinan el objetivo de encontrar una relacion simple,con homogeneidad de varianzas, mejorando la normalidad.

Las transformaciones originales de Box y Cox estan dadas por:

y (λ) =

⎧⎨⎩

yλ−1λ si λ 6= 0log y si λ = 0

Mediante la regla de L’ Hopital podemos probar que

lımλ→0yλ − 1λ

= log y

Page 287: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 31

En ese mismo trabajo estos autores proponen la familia

y (λ) =

⎧⎨⎩

(y+λ2)λ1−1

λ1si λ1 6= 0

log (y + λ2) si λ1 = 0

para contemplar el caso de valores de y negativos. En la practica se elige λ2para que yi + λ2 > 0 para todo i . De manera que solo veremos a λ1 comoparametro de estas transformaciones.

Esta familia es continua en λ y monotona creciente para cada λ, es decir queel orden original entre las y ’s es preservado: si y1 > y2, luego y

(λ)1 ) > y

(λ)2 .

Es claro que no toda distribucion puede ser transformada a una normal. Drapery Smith (1969)estudiaron este problema y concluyeron que aun en aquellasdistribuciones para las que transformando por potencias no es posible lograrexacta normalidad, los estimadores usuales de λ conducen a distribucionescuyos primeros 4 momentos corresponderıan a simetrıa.

John y Draper (1980) propusieron la siguiente modificacion:

Page 288: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 32

y (λ) =

⎧⎨⎩

sg(y) (|y |+1)λ−1

λ si λ 6= 0sg(y) log (|y |+ 1) si λ = 0

que puede funcionar mejor para distribuciones simetricas.

Supongamos que las observaciones transformadas Y(λ) ∼ N(Xβ, σ2I). Nosotrosobservamos la matriz de diseno X, el vector de respuestas Y, de manera quelos parametros del modelo son (λ,β, σ2). Box y Cox (1964) mostraron queλ puede ser estimado por el metodo de maxima verosimilitud. Sin embargo,si plantearamos las tres ecuaciones de scores, resolverlas simultaneamente po-drıa ser complicado. Por este motivo, se suele resolver la busqueda de losestimadores de (β, σ2) para cada λ fijo y luego se elige el λ mas adecuado.

En este caso tendrıamos que la densidad de Y(λ) es

f (y(λ)) =1

(√2πσ2)n

e−

(y(λ)−Xβ

)′(y(λ)−Xβ

)

2σ2

Page 289: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 33

donde

y (λ) =

⎧⎨⎩

yλ−1λ si λ 6= 0log y si λ = 0

¿Cual serıa en este caso f (y)? Tendrıamos

f (y) =1

(√2πσ2)n

e−

(y(λ)−Xβ

)′(y(λ)−Xβ

)

2σ2 J(λ, y)

donde J(λ, y) es el jacobiano de la transformacion de y a y (λ). Por lo tanto:

J(λ, y) = Πni=1∂y(λ)i

∂yi= Πni=1y

λ−1i

Con lo cual, la funcion de verosimilitud, que coincidirıa con f (y), resultarıa:

Page 290: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 34

f (y, λ,β, σ2) =1

(√2πσ2)n

e−

(y(λ)−Xβ

)′(y(λ)−Xβ

)

2σ2 Πni=1yλ−1i

Para cada λ fijo los estimadores de maxima verosimilitud de β y de σ2 son:

ˆβ(λ) = (X′X)−1XY(λ)ˆσ2(λ) = Y(λ)(I− P)Y(λ)/n

Si consideramos la log–versosimilitud y reemplazamos por dichos valores resulta:

log f (y, λ,β, σ2) = cte − n2log

ˆσ2(λ) + (λ− 1) n∑

i=1log yi

= cte − n2logS2(λ)

S2(λ): ¿Por que puede ser visto como un estimador de la escala: ?

Page 291: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 35

Sea g la media geometrica de las observaciones yi : g = (Πni=1yi)

1/n y definimos

y(λ, g) = y (λ)/gλ−1

Si hicieramos la regresion de y(λ, g) ∼ N(Xβ, σ2I), ¿Cuanto darıa S2λ ?Veremos que es la cantidad que

−n2logS2λ =

n

2log σ2(λ) + (λ− 1) n∑

i=1log yi

Por lo tanto, el estimador de λ se obtendra maximizando

−n2logS2(λ)

A partir de la teorıa que conocemos de cociente de verosimilitud, podemos verque si nos interesa testear la hipotesis

H0 : λ = λ0

el estadıstico:

Page 292: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 36

W = 2(−n2logS2(ˆλ) +

n

2logS2(λ0))

tiene distribucion asintotica χ21. En consecuencia:

P (−n2logS2(ˆλ) +

n

2logS2(λ0) ≤

1

2χ21,α)

∼= 1− α

y podemos deducir un intervalo de confianza para λ.

Page 293: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 37

Page 294: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 38

Ejemplo (Draper y Smith, 1981)

Los siguientes datos corresponden a un estudio mas extenso presentado porDraper y Smith (1981) en el que se quiere estudiar la viscosidad en funcion dedos componentes FF = filler y PP = Oil (aceite).

Page 295: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 39

FF PP WW

0 0 26

12 0 38

24 0 50

26 0 76

48 0 108

60 0 157

0 10 17

12 10 26

24 10 37

36 10 53

48 10 83

60 10 124

0 20 13

12 20 20

24 20 27

36 20 37

48 20 57

60 20 87

12 30 15

24 30 22

36 30 27

48 30 41

Page 296: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 40

60 30 63

El modelo propuesto es:

WW = β0 + β1FF + β2PP + ε

Call:

lm(formula = WW ˜ FF + PP)

Residuals:

Min 1Q Median 3Q Max

-15.592 -9.695 -3.722 6.713 35.296

Coefficients:

Estimate Std. Error t value Pr(¿—t—)

(Intercept) 28.1837 6.3322 4.451 0.000245 ***

FF 1.5587 0.1452 10.735 9.48e-10 ***

PP -1.7166 0.2640 -6.502 2.44e-06 ***

Residual standard error: 13.82 on 20 degrees of freedom

Page 297: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 41

Multiple R-squared: 0.8793, Adjusted R-squared: 0.8673

F-statistic: 72.87 on 2 and 20 DF, p-value: 6.543e-10

library(MASS)

boxcox(WW˜FF+PP, data = viscosity,lambda = seq(-1, 1, length = 10))

boxcox(WW˜FF+PP, data = viscosity,lambda = seq(-1, 1, length = 10))

salida.log¡- lm(logww˜FF+PP)

Page 298: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 42

0 20 40 60 80 100 120

−10

010

2030

salida$fit

salid

a$re

s

−0.4 −0.2 0.0 0.2 0.4

−75

−70

−65

−60

−55

−50

λ

log−

Like

lihoo

d

95%

−1.0 −0.5 0.0 0.5 1.0

−90

−80

−70

−60

−50

λ

log−

Like

lihoo

d

95%

2.5 3.0 3.5 4.0 4.5 5.0

−0.

050.

000.

05

salida.log$fit

salid

a.lo

g$re

s

Page 299: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 43

Errores Correlacionados

Consideremos el caso particular en que los errores siguen el siguiente un modeloautorregresivo de orden 1, AR(1), es decir:

εt = ρεt−1 + ut ,

donde ut son i.i.d, E(ut) = 0 y V ar (ut) = σ2u. Asumimos que |ρ| < 1. Ya

hemos probado que

E(εt) = 0

V ar (εt) =σ2u1− ρ2

Cov(εt, εt−r = ρr σ2u1− ρ2

Removiendo la autocorrelacion mediante una transformacion

Page 300: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 44

Supongamos que

yt = α+ βxt + εtεt = ρεt−1 + ut

donde ut son i.i.d. ut ∼ N(0, σ2u). Notemos que:yt = α+ βxt + εtyt−1 = α+ βxt−1 + εt−1

por lo tanto:

yt − ρyt−1 = α(1− ρ) + β(xt − ρxt−1) + εt − ρεt−1

con lo cual

y ∗t = α∗ + β∗x∗t + ut

es decir las nuevas variables satisfacen las condiciones habituales del modelolineal.

Page 301: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 45

¿Como estimar a ρ?

El metodo iterativo de Cochrane–Orcutt propone los siguientes pasos para laestimacion en esta situacion.

1. Computar los estimadores de mınimos cuadrados ordinarios de α y β.

2. Calcular los residuos et y estimar a ρ mediante

ρ =∑nt=2 etet−1∑nt=2 e

2t−1

3. Ajustar el modelo (*) usando ρ.

4. Examinar los nuevos residuos. Si no estan correlacionados terminar com-putando los estimadores de interes:

α = α∗/1− ρ ˆβ = ˆβ∗

De lo contrario, repetir el procedimiento usando como estimadores inicialesα y ˆβ.

Page 302: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 46

Metodo de Prais–Winstein (1954)

Otra posibilidad es el metodo de Prais–Winstein basado en mınimos cuadra-dos generalizados. En funcion de las expresiones vistas para la varianzas y lascorrelaciones de los errores, tenemos que Σepsi lon = σ

2Ω, donde

Ω =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 ρ ρ2 . . . ρn−1

ρ 1 ρ . . . ρn−2

. . .

. . .ρn−1 ρn−2 . . . 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Utilizando el estimador del paso [2.] anterior, ρ, podrıamos estimar a Ω por ˆΩ

Page 303: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 47

ˆΩ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 ρ ρ2 . . . ρn−1

ρ 1 ρ . . . ρn−2

. . .

. . .ρn−1 ρn−2 . . . 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

para luego computar el estimador de mınimos cuadrados generalizados:

β = (X′ˆΩ−1X)−1 X′ˆΩ−1Y

.

Page 304: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 48

Deteccion de Puntos Influyentes

Residuos

En general, los puntos con residuos standarizados ri que van mas alla del rango[-2, 2] (o [-2.5,2.5], segun los autores) se consideran sospechosos.

Leverage

El leverage mide cuan extrema es una observacion en el espacio de las covari-ables x′s.

Se llama leverage de una observacion a

pi i = x′i(X′X)−1xi

En la practica probaran propiedades de pi i que son utiles para interpretar que mi-den.

De hecho, si X ∈ <n×p contiene una columna de 1′s, sin perdida de gen-eralidad asumamos que la primera, X = [l,X2] y la matriz de proyeccion

Page 305: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 49

P = X(X′X)−1X′ satisface:

a) P = P1 + P2 donde P1 = n−1l l′ (l ∈ <n, l = (1, 1, .., 1)′) y P2 =

˜X(˜X ′˜X)−1˜

X ′ siendo ˜X = (I−n−1l l′)X2 la matriz con las columnas centradas.

b) pi i ≥ 1n.

c) pi i =1n + pi i donde pi i = (P2)i i .

Con lo cual, pi i mide la distancia de xi a su centro x.

Sabemos quen∑

i=1pi i = p =⇒

1

n

n∑

i=1pi i =

p

n

y por esta razon se sugiere considerar como punto de corte 2p

n(algunos autores

sugieren 3p

n)

Por lo tanto, se estudiaran especialmente aquellos puntos tales que pi i > 2p

n.

Ademas se sugiere considerar los siguientes graficos:

Page 306: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 50

−2 −1 0 1 2 3

−2

−1

01

23

x1

x2

i vs. pi i

tallo y hoja (o histograma) de pi i

boxplots de pi i

Page 307: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 51

Distancia de Cook

Las conclusiones de los metodos de diagnostico podrıan depender de la presenciade puntos influyentes.

Al excluir un punto influyente del analisis, las conclusiones a partir del conjuntorestante podrıan cambiar considerablemente.

En principio, desearıamos que pequenas perturbaciones introdujeran pequenoscambios.

Supongamos que ˆβ es el estimador de mınimos cuadrados obtenidos a partir

de toda la muestra (x1, y1), . . . , (xn, yn), mientras queˆβ(i) es el estimador de

mınimos cuadrados obtenido al excluir la i–esima observacion, (xi , yi), de lamuestra.

Se define la Curva de Influencia Muestral (SIC) como:

SIC =(ˆβ − ˆ

β(i))

1/n= n(ˆβ − ˆ

β(i))

Page 308: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 52

Como SIC es un vector, podrıamos considerar su norma o su norma respectode una matriz simetrica definida positivaM y eventualmente un factor de escala:

Di(M, c) =n−2SIC ′ M SIC

c

=(ˆβ − ˆ

β(i))′M(ˆβ − ˆ

β(i))

c

Si eligieramos M = X′X y c = pσ2 = ps2 obtendrıamos algo conocido:

(ˆβ − ˆβ(i))

′(X′X)(ˆβ − ˆβ(i))

pσ2

De hecho el elipsoide de confianza lo obtenemos como:

(ˆβ − ˆβ(i))

′(X′X)(ˆβ − ˆβ(i))

pσ2≤ Fp,n−p,1−α

La distancia de Cook (1977) es:

Page 309: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 53

Di =(ˆβ − ˆ

β(i))′(X′X)(ˆβ − ˆ

β(i))

ps2

Notemos que

Di =(ˆY − ˆY(i))

′(ˆY − ˆY(i))

ps2

=

n∑

j=1(ˆYj − ˆ

Yj(i))2

ps2

donde ˆY(i) denota al vector de valores predichos obtenido a partir deˆβ(i).

En la practica se mostrara que

Di =1

p

pi i1− pi i

r 2i

donde pi i es el elemento i de la diagonal de la matriz de proyeccion P y ries el i−esimo residuo standarizado. En esta expresion se ve que esta distancia

Page 310: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 54

conjuga tanto el efecto sobre los residuos como el leverage de las observaciones,por lo tanto Di implica residuo o leverage grandes.

Se suele comparar a Di con la distribucion Fp,n−p y se presta especial atenciona aquellos puntos que estan por encima del percentil 50%.

Otras medidas

DFFIT

Una medida bastante natural y cercana a la distancia de Cook es la del cambioen la prediccion al eliminar la observacion i .

Recordemos que

ˆβ − ˆβ(i) = (X

′X)−1xi

ei1− pi i

S2(i) =(n − p)s2 − e2i (1− pi i)

n − p − 1

Por lo tanto el cambio en la prediccion resulta:

Page 311: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 55

DFFITi =ˆYi − ˆYi(i) = x

′iˆβ − x′i ˆβ(i)

=pi i1− pi i

ei

Como ΣY = σ2P, una version standarizada es:

DFFITi =

√pi i

S(i)(1− pi i)ei

Usando las cotas vistas para los residuos y los leverage, se sugiere como puntos

de corte |DFFIT | > 2√pn−p o si n es mucho mayor que p |DFFIT | > 2

√√√√p

n.

DFBETAj

Esta medida considera el cambio en cada coordenada de ˆβ al eliminar la obser-

vacion i .

Page 312: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 56

Como vimos

ˆβ − ˆβ(i) = (X

′X)−1xi

ei1− pi i

Llamemos(a0i , . . . , ap−1i) = (X

′X)−1xi

entonces para i = 1, .., n y j = 0, .., p − 1

DFBETAj =ˆβj − ˆ

βj(i) =aj iei1− pi i

Ver archivo Complemento

Page 313: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 57

Colinealidad

la calidad de los estimadores, medida a traves de su precision, puede ser muyafectada si las covariables estan muy relacionadas entre sı.

Esta situacion tıpicamente puede deberse a:

Las covariables cumplen una restriccion (ejemplo% de cemento)

Se crean variables a partir de otras existentes y se introduce dependencia

En los sistemas bologicos o fısicos o quımicos las variables naturalmentepueden tener dependencia.

Dependencia inadecuada por un muestreo inadecuado.

De todas formas, no siempre puede identificarse el origen de la colinealidad,aunque es importante detectarla y tratar de entender su naturaleza.

Sabemos caraterizar la singularidad: existe c, ‖c‖ = 1 tal que

Xc = 0 (‖Xc‖2 = 0)

Page 314: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 58

Podrıamos decir que la casi–singularidad corresponde a: existe c, ‖c‖ = 1 talque

‖Xc‖2 = δ <<Veamos que efecto tiene esta casi–singularidad. Por Cauchy–Schwartz tenemosque

1 = c′c = c′(X′X)1/2(X′X)−1/2c ≤√c′(X′X)c

√c′(X′X)−1c =

√δ

√c′(X′X)−1c

Por lo tanto:1 ≤ δc′(X′X)−1c

En consecuencia:

V ar (c′ˆβ) = σ2c′(X′X)−1c ≥ σ2/δ >>Como Xc puede ser afectado por las unidades de X vamos a escalar las colum-

Page 315: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 59

nas de X de manera que tengan norma 1:

X = [x[1] . . . x[p]] −→ Xs = [x[1]/‖x[1]‖ . . . x[p]/‖x[p]‖]Notemos que si D−1 = diag(‖x[1]‖, . . . , ‖x[p]‖), entonces

Xs = XD−1

y por lo tanto:

(X′sXs)−1 = D(X′X)−1D

En este sentido podrıamos considerar el modelo equivalente

Y = Xsβs + ε

donde βs = Dβ.

Tenemos que:

Page 316: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 60

ˆβs = D

ˆβ y Σˆ

βs= DΣˆ

βD

Una consecuencia de escalar es que se remueve la casi–singularidad debida aque una columna de X tiene longitud pequena.

Para d = Dc:

c′(X′X)c = c′DD−1(X′X)D−1Dc = d′(X′sXs)d ≥ λmin‖d‖2

siendo dmin es el mınimo autovalor de (X′sXs)

Luego, si hay multicolinealidad c′(X′X)c puede ser pequeno (aun con ‖d‖2 notan pequeno) y por lo tanto λmin sera pequeno.

Deteccion de Colinealidad

Autovalores y Numero de Condicion

Como hemos visto los autovalores pueden darnos indicios de colinealidad.

Sean λ1, . . . , λp los autovalores de (X′sXs) y lllamemos

Page 317: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 61

λmax = maxλi λmin = mınλi

Definimos:

ındice de condicion : δj =

√√√√√√λmaxλj

Un numero de condicion grande indica una matriz pobremente condicionada.

Belsey, Kuh y Welsch (1980) sugieren que ındices δj > 30 o 100 indicarıancolinealidad de moderada o severa

Factor de Inflacion de la Varianza

Podemos medir la relacion entre una variable xj y las demas mediante el coefi-ciente de correlacion multiple R2j .

Se define el Factor de Inflacion de la Varianza como

Page 318: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 62

V IFj =1

1− R2jSi R2j ' 1 entonces V IFj >> y si xj es ortogonal a todas las demas V IFj = 1.Se puede demostrar que si R es la matriz de correlacion de las xj entonces:

(R−1)j j = V IFjTheil (1971) y Berek (1977) probaron que

V (ˆβj) =σ2

xj xjV IFj

donde xj es la j−esima columna centrada y escalada.Se suele tomar como punto de corte V IFj > 10 como indicador de colinealidad.

Ver archivo Complemento

Page 319: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Datos de Salario

Call: lm(formula = monthsal ~ evaluation + sex + years + yearsact +

rating)

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) -1293.5661 540.1389 -2.3949 0.0244

evaluation 7.1552 0.8120 8.8119 0.0000

sex 336.5824 205.9956 1.6339 0.1148

years 46.0607 21.4797 2.1444 0.0419

yearsact -16.3686 35.2996 -0.4637 0.6469

rating 29.5137 85.5693 0.3449 0.7330

Residual standard error: 490.9 on 25 degrees of freedom

Multiple R-Squared: 0.8356. F-statistic: 25.42 on 5 and 25 degrees

of freedom, the p-value is 4.716e-009

Page 320: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

salario.dd$hat

sa

lario

.dd

$s

td.r

es

0.1 0.2 0.3 0.4 0.5 0.6 0.7

-10

12

6

4

Page 321: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

-10

12

Page 322: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

indice

sa

lario

.dd

$c

oo

k

0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

4

Page 323: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

indice

sa

lario

.dd

$d

fits

0 5 10 15 20 25 30

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

4

Page 324: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

leverage<-diag(x.mat%*%solve(t(x.mat)%*%x.mat)%*%t(x.mat))

indice

lev

era

ge

0 5 10 15 20 25 30

0.1

0.2

0.3

0.4

0.5

4

Page 325: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Datos de Cemento

PREDICTOR

VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF

--------- ----------- --------- ----------- ------ -----

CONSTANT 73.6101 105.965 0.69 0.5069

X1 -0.44973 1.13123 -0.40 0.7014 92.7

X2 1.29951 1.06597 1.22 0.2575 70.8

X3 0.56301 1.05868 0.53 0.6093 585.3

X4 -0.17039 1.04937 -0.16 0.8750 642.6

X5 -0.38591 1.52207 -0.25 0.8062 2.2

R-SQUARED 0.9871 RESID. MEAN SQUARE (MSE) 7.29043

ADJUSTED R-SQUARED 0.9790 STANDARD DEVIATION 2.70008

SOURCE DF SS MS F P

---------- --- ---------- ---------- ----- ------

REGRESSION 5 4453.65 890.729 122.18 0.0000

RESIDUAL 8 58.3234 7.29043

TOTAL 13 4511.97

CASES INCLUDED 14 MISSING CASES 0

Page 326: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Seleccion de Modelos

Cuando trabajamos en forma teorica asumimos que tenemos un modelo Y =Xβ+ε y podemos obtener estimadores, test, intervalos de confianza y propiedadesde optimalidad.

Sin embargo, en la practica tenemos una muestra (Y1, x1), . . . (Yn, xn), de ma-nera que la matriz de diseno X tiene como filas a xi ’s y lo primero que debemosdeterminar es cuales de las columnas de X debemos usar.

Un principio general para elegir un modelo es que sea parsimonioso, dondeparsimonia se refiere a que conjugue simpleza con buen ajuste. La idea es hacerlas cosas tan simples como sea posible, pero tampoco no tan simples....

1

Page 327: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 2

Supongamos que realizamos la regresion entre Y y X ∈ IRn×k ajustando delmodelo

Y = Xβ + ε

Cuando consideramos la matriz X podemos obtener 2k − 1 modelos posiblesrelacionados con ella, llamemos 2X a este conjunto.

Si ademas considerasemos las posibles transformaciones de Y y de cada una delas columnas de las covariables, este conjunto aumentarıa considerablemente.

Existen algoritmos rapidos para computar todos estos ajustes y son especial-mente utiles cuando p es grande, pero son necesarios metodos de comparacionpara elegir los mejores y debe tenerse en cuenta que el orden en que entran lasvariables al modelo puede afectar los resultados.

Page 328: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 3

Analisis Exploratorio de Datos

El analisis exploratorio de datos nos puede guiar dandonos un primer esbozo. Atal fin podemos realizar graficos de:

Y vs. cada covariable

Y vs. transformaciones de cada covariable

transformaciones de Y vs. cada covariable

residuos parciales

Recordemos que habıamos visto el coeficiente de regresion multiple y coefi-ciente de regresion multiple ajustado para evaluar la bondad del ajuste. Recorde-mos su definicion:

R2 =

n∑

i=1(yi − y)

2

n∑

i=1(yi − y)

2

Page 329: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 4

R2adj = 1− (1− R2)n

n − p

Sin embargo, estos son solo algunos de los metodos de comparacion de modelosde uso frecuente.

Criterios de Seleccion de Modelos

Criterios basados en el Error de Prediccion

Criterio Cp de Mallows

Criterios de Informacion: AIC (Criterio de Akaike), BIC (Criterio de Infor-macion de Bayes), etc.

Regularizacion

Page 330: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 5

Balance entre Sesgo y Varianza

Volviendo al planteo inicial, supongamos que realizamos la regresion entre Y yX ∈ IRn×k y que

Y = Xβ + ε

donde βs = 0 para un subconjunto de βs de β.

El modelo verdadero incluye solamente las columnas de X para las cuales βs 6=0.

Llamaremos modelo correcto a un modelo verdadero con algunas columnas deX extras.

Llamaremos modelo incorrecto a un modelo que no incluye todas las columnasdel modelo verdadero.

Un criterio que parece razonables es elegir de acuerdo al error de prediccion delmodelo.

Page 331: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 6

Cada uno de los modelos M ∈ 2X conduciran a predicciones

Y(M) = PMY

Si observasemos nuevas respuestas independientes para el mismo diseno X, elError de Prediccion para el modelo M puede calcularse como

‖Y+ − Y(M)‖2 = ‖Y+ − PMY‖

2

Sin embargo, esta norma es una variable aleatoria. Por lo tanto, un criterioposible es elegir el modelo M∗ de acuerdo con el menor Error de PrediccionEsperado (EPE), es decir

mınM∈2X

1

nE‖Y+ − PMY‖

2 = mınM∈2X

EPE

Supongamos que X ∈ IRn×q es el modelo verdadero y sea X ∈ IRn×p el modeloajustado. Ambas X y X son construidas a partir de X.

Page 332: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 7

Como la verdadera relacion entre Y y X es a traves de X, entonces

Y = Xβ + ε = η + ε

Las predicciones usando el modelo M asociado a X seran

Y = (X′X)−1X′Y = PY

Si observasemos nuevas respuestas Y+ que corresponden a la misma matriz dediseno X, como antes, tendrıamos

Y+ = Xβ + ε+ = η + ε+

por lo tanto el Error de Prediccion correspondiente al modelo M sera:

Page 333: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 8

Y+ − Y = η + ε+ − P(η + ε)

= (I− P)η + ε+ − Pε

En consecuencia:

‖Y+ − Y‖2 =

((I− P)η + ε+ − Pε

)′ ((I− P)η + ε+ − Pε

)

= η′(I− P)η + η′(I− P)ε+ 0 + ε′+(I− P)η

+ ε′+ε+ + ε′+Pε+ 0− ε

′Pε+ + ε′Pε

y tomando esperanza obtenemos:

E‖Y+ − Y‖2 = η′(I− P)η + tr (Σε+) + E(εPε)

= η′(I− P)η + σ2n + σ2tr (P)

= η′(I− P)η + σ2n + σ2rg(P)

Page 334: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 9

De esta forma resulta:

EPE =

⎧⎨⎩

(1 + qn)σ2 modelo verdadero

(1 + pn)σ2 modelo correcto

1nη′(I− P)η + (1 + p

n)σ2 modelo incorrecto

De tal forma que si elegimos un modelo correcto incrementamos la varianza,pero si elegimos un modelo incorrecto introducimos un sesgo.

Convalidacion Cruzada (CV )

Obviamente EPE no podemos calcularlo, por lo tanto tendremos que estimar-lo.

Si n es grande se pueden dividir los datos en dos: una parte para ajustar (trainingsample) y la otra para estimar el error de prediccion (validation sample):

Page 335: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 10

⎧⎨⎩

X∗Y∗ para ajustar el modelo

XoYo para estimar a EPE

de manera que

ˆEPE =

1

no‖Yo − Xo ˆ

β‖2

Muchas veces ocurre que n no es lo suficientemente grande como para dividir lamuestra en dos y por esa razon se usa CV basado en el metodo leave–one–outen el que se saca una observacion por vez y se predice con el resto de las n−1observaciones:

ˆEPECV =

1

n

n∑

j=1(yj − xj

ˆβ(j))

2

Page 336: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 11

dondeˆβ(j) se computa sin la observacion j .

En base a la relacion entreˆβ y

ˆβ(j) tenemos que

ˆEPECV =

1

n

n∑

j=1

(yj − xjˆβ)2

1− pj j

La idea es elegir las variables de manera de minimizar elˆEPECV .

Cp de Mallows

Notemos que si

E‖Y+ − Y‖2 = η′(I− P)η + (n + p)σ2

entonces

E‖Y+ − Y‖2

σ2− (n + p) =

η′(I− P)η

σ2

Page 337: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

Modelo Lineal A. M. Bianco FCEyN 2013 12

Mallows propone una medida cercana

Cp =‖Y − Y‖2

s2+ 2p − n

Notemos que Cp ' p cuando el modelo es bueno. Un problema de este metodoes que necesita estimar a σ2 y generalmente se hace usando el s2 basado enlas k covariables (es decir suponiendo sesgo pequeno).

Page 338: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

13

Métodos Automáticos de Selección de Variables Podemos dividirlos entre aquellos procedimientos de búsqueda que escogen el mejor entre todos los modelos posibles y aquellos que eligen iterativamente, en forma automática. Búsqueda de todos los subconjuntos posibles Este método consiste en evaluar todos los modelos posibles que se pueden construir en un conjunto dado de variables independientes. Es particularmente útil cuando el número de variables no es demasiado grande. En general, uno puede forzar la presencia de ciertas variables y eso reduce el tamaño de la búsqueda. Uno puede imponer el criterio de selección R2, R2

a y Cp. Si bien el Cp parece el más razonable debemos tener en cuenta que asume que el modelo con todas las variables no tiene sesgo. Además, si bien se basa en los errores de predicción no tiene en cuenta que pasaría con futuras observaciones En R contamos con Leaps.

Page 339: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

14

Consideremos los datos de cemento. Recordemos que la respuesa y (y.hald) es la temperatura de la mezcla de cemento y las 4 covariables (x.hald) son: x1: tricalcium aluminate x2: tricalcium silicate x3: tetracalcium alumino ferrite x4: dicalcium silicate. Recordemos corr(x1,x3)= -0.824 y corr(x2,x4)= -0.975. library(leaps) library(wle) data(hald) hald

> cor(x.hald)

[,1] [,2] [,3] [,4]

[1,] 1.0000000 0.2285795 -0.8241338 -0.2454451

[2,] 0.2285795 1.0000000 -0.1392424 -0.9729550

[3,] -0.8241338 -0.1392424 1.0000000 0.0295370

[4,] -0.2454451 -0.9729550 0.0295370 1.0000000

Page 340: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

15

[,1] [,2] [,3] [,4] [,5]

[1,] 78.5 7 26 6 60

[2,] 74.3 1 29 15 52

[3,] 104.3 11 56 8 20

[4,] 87.6 11 31 8 47

[5,] 95.9 7 52 6 33

[6,] 109.2 11 55 9 22

[7,] 102.7 3 71 17 6

[8,] 72.5 1 31 22 44

[9,] 93.1 2 54 18 22

[10,] 115.9 21 47 4 26

[11,] 83.8 1 40 23 34

[12,] 113.3 11 66 9 12

[13,] 109.4 10 68 8 12

Page 341: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

16

all-subsets regression leaps(x=x.hald, y=y.hald, method=c("Cp", "adjr2", "r2"))

leaps(x=x.hald, y=y.hald, method=c("Cp", "adjr2", "r2"))

$which

1 2 3 4

1 FALSE FALSE FALSE TRUE

1 FALSE TRUE FALSE FALSE

1 TRUE FALSE FALSE FALSE

1 FALSE FALSE TRUE FALSE

2 TRUE TRUE FALSE FALSE

2 TRUE FALSE FALSE TRUE

2 FALSE FALSE TRUE TRUE

2 FALSE TRUE TRUE FALSE

2 FALSE TRUE FALSE TRUE

2 TRUE FALSE TRUE FALSE

3 TRUE TRUE FALSE TRUE

3 TRUE TRUE TRUE FALSE

3 TRUE FALSE TRUE TRUE

3 FALSE TRUE TRUE TRUE

4 TRUE TRUE TRUE TRUE

$label

[1] "(Intercept)" "1" "2" "3" "4"

$size

[1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5

$Cp

[1] 138.730833 142.486407 202.548769 315.154284 2.678242 5.495851

[7] 22.373112 62.437716 138.225920 198.094653 3.018233 3.041280

[13] 3.496824 7.337474 5.000000

Page 342: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

17

Page 343: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

18

> cbind(leap.cem$size,leap.cem$Cp) [,1] [,2] [1,] 2 138.730833 [2,] 2 142.486407 [3,] 2 202.548769 [4,] 2 315.154284 [5,] 3 2.678242 [6,] 3 5.495851 [7,] 3 22.373112 [8,] 3 62.437716 [9,] 3 138.225920 [10,] 3 198.094653 [11,] 4 3.018233 [12,] 4 3.041280 [13,] 4 3.496824 [14,] 4 7.337474 [15,] 5 5.000000

Page 344: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

19

leaps(x=x.hald, y=y.hald, method=c("r2")) $which 1 2 3 4 1 FALSE FALSE FALSE TRUE 1 FALSE TRUE FALSE FALSE 1 TRUE FALSE FALSE FALSE 1 FALSE FALSE TRUE FALSE 2 TRUE TRUE FALSE FALSE 2 TRUE FALSE FALSE TRUE 2 FALSE FALSE TRUE TRUE 2 FALSE TRUE TRUE FALSE 2 FALSE TRUE FALSE TRUE 2 TRUE FALSE TRUE FALSE 3 TRUE TRUE FALSE TRUE 3 TRUE TRUE TRUE FALSE 3 TRUE FALSE TRUE TRUE 3 FALSE TRUE TRUE TRUE 4 TRUE TRUE TRUE TRUE $label [1] "(Intercept)" "1" "2" "3" "4" $size [1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5 $r2 [1] 0.6745420 0.6662683 0.5339480 0.2858727 0.9786784 0.9724710 0.9352896 [8] 0.8470254 0.6800604 0.5481667 0.9823355 0.9822847 0.9812811 0.9728200 [15] 0.9823756

Page 345: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

20

leaps(x=x.hald, y=y.hald, method=c("adjr2")) $which 1 2 3 4 1 FALSE FALSE FALSE TRUE 1 FALSE TRUE FALSE FALSE 1 TRUE FALSE FALSE FALSE 1 FALSE FALSE TRUE FALSE 2 TRUE TRUE FALSE FALSE 2 TRUE FALSE FALSE TRUE 2 FALSE FALSE TRUE TRUE 2 FALSE TRUE TRUE FALSE 2 FALSE TRUE FALSE TRUE 2 TRUE FALSE TRUE FALSE 3 TRUE TRUE FALSE TRUE 3 TRUE TRUE TRUE FALSE 3 TRUE FALSE TRUE TRUE 3 FALSE TRUE TRUE TRUE 4 TRUE TRUE TRUE TRUE $label [1] "(Intercept)" "1" "2" "3" "4" $size [1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5 $adjr2 [1] 0.6449549 0.6359290 0.4915797 0.2209521 0.9744140 0.9669653 0.9223476 [8] 0.8164305 0.6160725 0.4578001 0.9764473 0.9763796 0.9750415 0.9637599 [15] 0.9735634

Page 346: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

21

Datos de Biomasa

UNFORCED INDEPENDENT VARIABLES: (A)K (B)NA (C)PH (D)SAL (E)ZN

ADJUSTED

P CP R SQUARE R SQUARE RESID SS MODEL VARIABLES

-- ----- -------- -------- --------- -----------------------------

1 77.9 0.0000 0.0000 1.917E+07 INTERCEPT ONLY

2 7.4 0.5900 0.5994 7680575 C

2 32.7 0.3757 0.3899 1.169E+07 E

2 70.9 0.0525 0.0740 1.775E+07 B

2 74.8 0.0198 0.0421 1.836E+07 A

2 78.6 -0.0124 0.0106 1.897E+07 D

3 2.3 0.6422 0.6584 6548174 B C

3 3.6 0.6308 0.6476 6755845 A C

3 8.3 0.5896 0.6083 7509642 C E

3 8.9 0.5845 0.6034 7603247 C D

3 15.1 0.5313 0.5526 8576766 D E

4 3.8 0.6378 0.6625 6471149 B C E

4 4.0 0.6355 0.6604 6511089 A B C

4 4.2 0.6341 0.6590 6536396 B C D

4 5.0 0.6268 0.6522 6667664 A C D

4 5.0 0.6267 0.6521 6669300 A C E

5 4.3 0.6424 0.6749 6232954 A C D E

5 4.7 0.6389 0.6718 6292475 B C D E

5 5.6 0.6306 0.6642 6438038 A B C E

5 5.9 0.6279 0.6617 6485307 A B C D

5 16.1 0.5351 0.5773 8102649 A B D E

6 6.0 0.6360 0.6773 6186048 A B C D E

Page 347: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

22

Page 348: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

23

Procedimientos Stepwise Existen tradicionalmente tres versiones: Forward, Backward y la combinacón de ambos que es la Stepwise. Podríamos decir que hay tantas implementaciones de este método como programas, por lo que es necesario leer detalladamente la descripción del programa que estamos utilizando. Describiremos la implementación de mle.stepwise de wle. Forward: Este procedimiento no incluye inicialmente ninguna covariable, salvo la intercept, y va agregando las variables una a una de acuerdo con la que tiene mayor F parcial en los sucesivos modelos evaluados y superior al valor F.in. Backard: Este procedimiento incluye inicialmente todas las covariables y las va eliminando de a una a medida que el valor del F parcial sea inferior al valor F.out. Stepwise: Es una combinación de los dos anteriores y tiene en cuenta tanto el valor F.in como el F.out.

Page 349: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

24

Stepwise Regression: veamos un ejemplo de Forward

library(wle)

data(hald)

result <- mle.stepwise(y.hald~x.hald)

summary(result)

Forward selection procedure

F.in: 4

Last 3 iterations:

(Intercept) x.hald1 x.hald2 x.hald3 x.hald4

[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

> summary(lm(y.hald~x.hald[,1]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 81.4793 4.9273 16.54 4.07e-09 ***

x.hald[, 1] 1.8687 0.5264 3.55 0.00455 **

Residual standard error: 10.73 on 11 degrees of freedom

Multiple R-squared: 0.5339, Adjusted R-squared: 0.4916

F-statistic: 12.6 on 1 and 11 DF, p-value: 0.004552

Page 350: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

25

> summary(lm(y.hald~x.hald[,2]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 57.4237 8.4906 6.763 3.1e-05 ***

x.hald[, 2] 0.7891 0.1684 4.686 0.000665 ***

Residual standard error: 9.077 on 11 degrees of freedom

Multiple R-squared: 0.6663, Adjusted R-squared: 0.6359

F-statistic: 21.96 on 1 and 11 DF, p-value: 0.0006648

> summary(lm(y.hald~x.hald[,3]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 110.2027 7.9478 13.866 2.6e-08 ***

x.hald[, 3] -1.2558 0.5984 -2.098 0.0598 .

Residual standard error: 13.28 on 11 degrees of freedom

Multiple R-squared: 0.2859, Adjusted R-squared: 0.221

F-statistic: 4.403 on 1 and 11 DF, p-value: 0.05976

> summary(lm(y.hald~x.hald[,4]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 117.5679 5.2622 22.342 1.62e-10 ***

x.hald[, 4] -0.7382 0.1546 -4.775 0.000576 ***

Residual standard error: 8.964 on 11 degrees of freedom

Multiple R-squared: 0.6745, Adjusted R-squared: 0.645

F-statistic: 22.8 on 1 and 11 DF, p-value: 0.0005762

Page 351: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

26

salida.41<-lm(y.hald~ x.hald[,4]+x.hald[,1])

anova(salida.41)

Analysis of Variance Table

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 4] 1 1831.90 1831.90 245.03 2.319e-08 ***

x.hald[, 1] 1 809.10 809.10 108.22 1.105e-06 ***

Residuals 10 74.76 7.48

salida.43<-lm(y.hald~ x.hald[,4]+x.hald[,3])

anova(salida.43)

Analysis of Variance Table

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 4] 1 1831.90 1831.90 104.240 1.314e-06 ***

x.hald[, 3] 1 708.13 708.13 40.295 8.375e-05 ***

Residuals 10 175.74 17.57

salida.42<-lm(y.hald~ x.hald[,4]+x.hald[,2])

anova(salida.42)

Analysis of Variance Table

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 4] 1 1831.90 1831.90 21.0834 0.0009927 ***

x.hald[, 2] 1 14.99 14.99 0.1725 0.6866842

Residuals 10 868.88 86.89

Page 352: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

27

salida.412<-lm(y.hald~ x.hald[,4]+x.hald[,1]++x.hald[,2])

anova(salida.412)

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 4] 1 1831.90 1831.90 343.6758 1.771e-08 ***

x.hald[, 1] 1 809.10 809.10 151.7934 6.150e-07 ***

x.hald[, 2] 1 26.79 26.79 5.0259 0.05169 .

Residuals 9 47.97 5.33

salida.413<-lm(y.hald~ x.hald[,4]+x.hald[,1]++x.hald[,3])

anova(salida.413)

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 4] 1 1831.90 1831.90 324.3179 2.285e-08 ***

x.hald[, 1] 1 809.10 809.10 143.2435 7.875e-07 ***

x.hald[, 3] 1 23.93 23.93 4.2358 0.06969 .

Residuals 9 50.84 5.65

> summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+x.hald[,4]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 71.6483 14.1424 5.066 0.000675 ***

x.hald[, 1] 1.4519 0.1170 12.410 5.78e-07 ***

x.hald[, 2] 0.4161 0.1856 2.242 0.051687 .

x.hald[, 4] -0.2365 0.1733 -1.365 0.205395

Residual standard error: 2.309 on 9 degrees of freedom

Multiple R-squared: 0.9823, Adjusted R-squared: 0.9764

F-statistic: 166.8 on 3 and 9 DF, p-value: 3.323e-08

Page 353: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

28

resultb <- mle.stepwise(y.hald~x.hald,type="Backward")

summary(resultb)

Backward selection procedure

F.out: 4

Last 2 iterations:

(Intercept) x.hald1 x.hald2 x.hald3 x.hald4

[1,] 1 1 1 0 1 0.01823

[2,] 1 1 1 0 0 1.86300

summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+ x.hald[,3]+x.hald[,4]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 62.4054 70.0710 0.891 0.3991

x.hald[, 1] 1.5511 0.7448 2.083 0.0708 .

x.hald[, 2] 0.5102 0.7238 0.705 0.5009

x.hald[, 3] 0.1019 0.7547 0.135 0.8959 (0.135*0.135=0.018225)

x.hald[, 4] -0.1441 0.7091 -0.203 0.8441

Residual standard error: 2.446 on 8 degrees of freedom

Multiple R-squared: 0.9824, Adjusted R-squared: 0.9736

F-statistic: 111.5 on 4 and 8 DF, p-value: 4.756e-07

Page 354: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

29

anova(lm(y.hald~ x.hald[,1]+ x.hald[,2]+ x.hald[,4]))

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 1] 1 1450.08 1450.08 272.0439 4.934e-08 ***

x.hald[, 2] 1 1207.78 1207.78 226.5879 1.094e-07 ***

x.hald[, 4] 1 9.93 9.93 1.8633 0.2054

Residuals 9 47.97 5.33

anova(lm(y.hald~ x.hald[,1]+ x.hald[,4]+ x.hald[,2]))

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 1] 1 1450.08 1450.08 272.0439 4.934e-08 ***

x.hald[, 4] 1 1190.92 1190.92 223.4253 1.163e-07 ***

x.hald[, 2] 1 26.79 26.79 5.0259 0.05169 .

Residuals 9 47.97 5.33

anova(lm(y.hald~ x.hald[,2]+ x.hald[,4]+ x.hald[,1]))

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 2] 1 1809.43 1809.43 339.460 1.870e-08 ***

x.hald[, 4] 1 37.46 37.46 7.027 0.02644 *

x.hald[, 1] 1 820.91 820.91 154.008 5.781e-07 ***

Residuals 9 47.97 5.33

Page 355: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

30

anova(lm(y.hald~ x.hald[,1]+ x.hald[,2]))

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 1] 1 1450.1 1450.08 250.43 2.088e-08 ***

x.hald[, 2] 1 1207.8 1207.78 208.58 5.029e-08 ***

Residuals 10 57.9 5.79

anova(lm(y.hald~ x.hald[,2]+ x.hald[,1]))

Response: y.hald

Df Sum Sq Mean Sq F value Pr(>F)

x.hald[, 2] 1 1809.43 1809.43 312.48 7.149e-09 ***

x.hald[, 1] 1 848.43 848.43 146.52 2.692e-07 ***

Residuals 10 57.90 5.79

Page 356: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

31

results <- mle.stepwise(y.hald~x.hald,type="Stepwise")

summary(results)

mle.stepwise(formula = y.hald ~ x.hald, type = "Stepwise")

Stepwise selection procedure

F.in: 4

F.out: 4

Last 4 iterations:

(Intercept) x.hald1 x.hald2 x.hald3 x.hald4

[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

[4,] 1 1 1 0 0 1.863

Page 357: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

32

> summary(lm(y.hald~x.hald[,4]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 117.5679 5.2622 22.342 1.62e-10 ***

x.hald[, 4] -0.7382 0.1546 -4.775 0.000576 ***

Residual standard error: 8.964 on 11 degrees of freedom

Multiple R-squared: 0.6745, Adjusted R-squared: 0.645

F-statistic: 22.8 on 1 and 11 DF, p-value: 0.0005762

> summary(lm(y.hald~ x.hald[,1]+x.hald[,4]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 103.09738 2.12398 48.54 3.32e-13 ***

x.hald[, 1] 1.43996 0.13842 10.40 1.11e-06 ***

x.hald[, 4] -0.61395 0.04864 -12.62 1.81e-07 ***

Residual standard error: 2.734 on 10 degrees of freedom

Multiple R-squared: 0.9725, Adjusted R-squared: 0.967

F-statistic: 176.6 on 2 and 10 DF, p-value: 1.581e-08

> summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+x.hald[,4]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 71.6483 14.1424 5.066 0.000675 ***

x.hald[, 1] 1.4519 0.1170 12.410 5.78e-07 ***

x.hald[, 2] 0.4161 0.1856 2.242 0.051687 .

x.hald[, 4] -0.2365 0.1733 -1.365 0.205395

Residual standard error: 2.309 on 9 degrees of freedom

Multiple R-squared: 0.9823, Adjusted R-squared: 0.9764

F-statistic: 166.8 on 3 and 9 DF, p-value: 3.323e-08

Page 358: Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo lineal/Notas Ana.pdf · g(x) = β0 +β1x1 + ...+βp−1xip−1. Eventualmente, las x0

33

Forward selection procedure

F.in: 4

Last 3 iterations:

(Intercept) x.hald1 x.hald2 x.hald3 x.hald4

[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

############################################################

Backward selection procedure

F.out: 4

Last 2 iterations:

(Intercept) x.hald1 x.hald2 x.hald3 x.hald4

[1,] 1 1 1 0 1 0.01823

[2,] 1 1 1 0 0 1.86300

############################################################

Stepwise selection procedure

F.in: 4

F.out: 4

Last 4 iterations:

(Intercept) x.hald1 x.hald2 x.hald3 x.hald4

[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

[4,] 1 1 1 0 0 1.863