Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo...
Transcript of Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo...
Modelo Lineal
En regresion lineal interesa establecer la relacion entre una variable dependienteY y otras p variables: X1, . . . , Xp. Esta metodologıa es ampliamente usada enproblemas de economıa, de la industria y de ciencias en general. Por ejemplo:
• en mujeres de 8 a 25 anos se desea relacionar la edad y la cantidad deesteroides presentes en plasma.
• dadas las evaluaciones de mitad y de fin de ano de alumnos que participanen un estudio de rendimiento, se quiere relacionar la performance de losalumnos en los dos examenes. El objetivo es poder predecir en situacionessimilares como le ira a un alumno en la evaluacion final a partir de lo que seobserva en la evaluacion de mitad de curso.
1
Modelo Lineal A. M. Bianco FCEyN 2013 2
• un ingeniero esta interesado en la relacion entre la cantidad de oxido quese forma en un metal calcinado en un horno y la temperatura de horneadoy el tiempo expuesto a dichas temperaturas.
En los dos primeros ejemplos podrıamos tener graficos como los siguientes:
Modelo Lineal A. M. Bianco FCEyN 2013 3
mitad
final
60 70 80 90 100
6070
8090
edad
nive
l.est
eroi
de
10 15 20 25
510
1520
2530
Modelo Lineal A. M. Bianco FCEyN 2013 4
En los dos primeros ejemplos consideramos solo dos variables, mientras que enel tercero hay 3 variables involucradas.
En general tendremos:
• y : variable dependiente.• x : variables independientes (predictoras, regresoras o covariables).
Buscaremos un modelo que exprese a la variable dependiente en terminos delas variables independientes.
Cuando hablamos de un modelo nos referimos a una expresion matematica quedescriba en algun sentido el comportamiento de la variable de interes en funcionde las demas variables, es decir, las covariables.
En general, identificaremos con la letra Y (y) a la variable dependiente. El mo–delo pretende describir como el comportamiento de E(Y ) varıa bajo condicionescambiantes de las otras variables.
Modelo Lineal A. M. Bianco FCEyN 2013 5
En nuestro caso, supondremos, al menos en un principio, que V (Y ) no esafectada por estas condiciones cambiantes, es decir toma un valor constanteσ.
Bajo el supuesto de que otras variables aportan informacion sobre la variableY , estas variables son incorporadas al modelo como variables independientes.
Identificaremos con X = (X1, . . . , Xp)′ (x = (x1, . . . , xp)′) a las variables
independientes. Estas podrıan ser variables aleatorias o constantes conocidas.En general, trabajaremos bajo este ultimo caso y mas adelante lo extenderemosal caso de variables aleatorias.
Una forma general de plantear el modelo es expresando a la media de la dis-tribucion de Y como una g(x). En el caso de covariables alestorias como
E(Y |X = x) = g(x) para x ∈ D ,
o en el caso de covariables fijas como
Modelo Lineal A. M. Bianco FCEyN 2013 6
Y = g(X1, . . . , Xp) + ε ,
segun el caso, donde la funcion g en general no sera conocida y E(ε) = 0.
Los modelos de este tipo se llaman modelos de regresion. Las posibles funcionesde regresion g pertenecen a una clase G tan grande que es frecuente que sesimplifique el problema suponiendo cierta forma o ciertas propiedades de lafuncion de regresion g.
Una forma de simplificar el problema suponiendo que la familia G puede expre-sarse en funcion de un numero finito de constantes desconocidas, a estimar,llamadas parametros, que controlan el comportamiento del modelo. En estesentido diremos que el modelo de regresion es parametrico.
Se dira que el modelo de regresion es no parametrico si la familia G no puedeexpresarse en un numero finito de parametros.
Modelo Lineal A. M. Bianco FCEyN 2013 7
Algunos ejemplos de modelos parametricos y no parametricos cuando hay dosvariables independientes X1 y X2.
Modelos parametricos
(i) Y = θ1X1 + θ2X2 + θ3 + ε
(ii) Y = θ1eθ2X1 + θ3e
θ4X2 + ε
(iii) Y = θ1Xθ21 X
θ32 + ε
(iv) Y = θ1 logX1 + θ2 logX2 + θ3X31 + θ4 sen X2 + ε
Modelos no parametricos
(i) Y = g(X1, X2) + ε donde g(X1, X2) es una funcion continua.
(ii) Y = g(X1, X2) + ε donde g(X1, X2) es una funcion continua y derivable.
(iii) Y = g(X1, X2) + ε donde g(X1, X2) es monotona creciente en X1 y X2.
Modelo Lineal A. M. Bianco FCEyN 2013 8
Uno de los modelos mas sencillos es el modelo lineal, en el que los parame-tros intervienen como simples coeficientes de las variables independientes o defunciones de estas.
Es el caso de:
(i) Y = θ1X1 + θ2X2 + θ3 + ε
(iv) Y = θ1 logX1 + θ2 logX2 + θ3X31 + θ4 sen X2 + ε
En todos estos ejemplos g(x) es lineal en los parametros. No es el caso,por ejemplo, de g(x) = βoe
−β1x , conocido como creciemiento exponencial, yaque no es lineal como funcion de los parametros βo o β1.
Algunos ejemplos sencillos de modelos lineales dependientes de una sola variableson:
g(x) = βo + β1x
g(x) = βo + β1x + β2x2
g(x) = βo + β1 log x
Modelo Lineal A. M. Bianco FCEyN 2013 9
En las situaciones mas complejas Y depende de un conjunto de p variables(x1, . . . , xp), por lo tanto tendremos
g(x) = β0 + β1x1 + . . .+ βp−1xip−1 .
Eventualmente, las x ′i s podrıan ser funciones de otras variables, tales comoW1 = logX1, W2 = logX2, W3 = X
31 , etc., tal como ocurre en el caso iv).
Tambien podrıamos introducir variables explicativas que sean categoricas comolas dummies que solo toman los valores 0 y 1 y que sirven, como ya veremos,para indicar las distintas categorıas de una variable categorica. Este caso es deespecial interes pues permite tratar en el marco del modelo lineal el problema decomparar la media de mas de dos poblaciones, que se conoce como Analisisde la Varianza.
Modelo Lineal A. M. Bianco FCEyN 2013 10
Una vez establecido el modelo, nos interesara:
• Estimar los parametros desconocidos: βj y σ• Testear hipotesis del tipo
Ho : βj = 0 o Ho : c′β = δ
• Intervalos de confianza para los parametros o combinaciones lineales de losmismos.
• Prediccion• Chequeo de supuestos• Identificacion de datos atıpicos.• Medidas de ajuste• Criterios para la seleccion de modelos.
Modelo Lineal A. M. Bianco FCEyN 2013 11
Enfoque matricial
respuesta y ←→ p − 1 variables explicativas xjPor ahora, supondremos xj , 1 ≤ j ≤ p − 1 determinısticas.Muestra (xi1, . . . , xip−1, yi), 1 ≤ i ≤ n que cumplen el modelo Ω:
yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi i = 1, . . . , n
E(εi) = 0
V (εi) = σ2
cov(εi , εj) = 0 i 6= j
donde, β0, β1, . . . , βp−1 son p parametros desconocidos a estimar.
Este modelo tiene intercept u ordenada al origen, eventualmente podrıamossaber que es 0, en cuyo caso plantearıamos
yi = β1xi1 + . . .+ βp−1xip−1 + εi i = 1, . . . , n
Modelo Lineal A. M. Bianco FCEyN 2013 12
En el caso general tenemos
Y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
y1y2..yn
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
X =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 x11 x12 . . . x1p−11 x21 x22 . . . x2p−1. . . . . .. . . . . .1 xn1 xn2 . . . xnp−1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
β =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
β0β1..
βp−1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
ε =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
ε1ε2..εn
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
⇓
Y = Xβ + ε
Modelo Lineal A. M. Bianco FCEyN 2013 13
La matriz X ∈ <n×p recibe el nombre de matriz de regresion o de diseno.
En general, se elige de tal forma que tenga rango maximo, es decir rg(X) = p,sin embargo esto no siempre es posible, como en el caso de algunos disenostratados en analisis de la varianza (ANOVA).
La teorıa que veremos no necesita que la primera columna sea de 1’s, es decirque el modelo tenga intercept, por lo tanto estudiaremos el caso general.
Modelo Lineal A. M. Bianco FCEyN 2013 14
Propiedades de vectores y matrices aleatorias
Dada una matriz V (r × s) de variables aleatorias conjuntamente distribuidasVi j con esperanza finita, definimos la matriz o vector de esperanzas como:
E(V)i j = E(Vi j)
En el caso delo modelo Ω, esto nos permite decir que el vector de errores estal que
E(ε) = 0
y que
E(εε′) = E
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
ε1ε1 ε1ε2 . . . ε1εnε2ε1 ε2ε2 . . . ε2εn. . . . . .. . . . . .εnε1 εnε2 . . . εnεn
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
= σ2I
Modelo Lineal A. M. Bianco FCEyN 2013 15
Lema: Sean A ∈ <q×r , B ∈ <s×t y C ∈ <q×t matrices constantes y V unamatriz aleatoria de dimension r × s , entonces:
E(AVB + C) = AE(V)B + C.
Matriz de Covarianza
Sea v = (v1, . . . , vn)′ un vector aleatorio de variables con E(vi) = µi y varianza
finita. Definimos la matriz de covarianza de v como:
Σvi j = Cov(vi , vj) = E[(vi − µi)(vj − µj)]
Podemos escribirla como:
Σv = E[(v − µ)(v − µ)′]donde µ = (µ1, . . . , µn)
′.
En este sentido, como E(ε) = 0, entonces hemos visto que
Σε = E(εε′) = σ2I
Modelo Lineal A. M. Bianco FCEyN 2013 16
Usaremos frecuentemente el siguiente
Lema: Sean A ∈ <m×n, una matriz constante, d un vector de constantes y vun vector aleatorio n–dimensional con matriz de covarianza Σv. Si w = Av+d,entonces:
Σw = AΣvA′ .
El modelo que presentamos mas arriba puede escribirse como:
Ω : Y = Xβ + ε E(ε) = 0 Σε = σ2I
o equivalentemente
Ω : E(Y) = Xβ ΣY = σ2I
Modelo Lineal A. M. Bianco FCEyN 2013 17
Modelo Lineal A. M. Bianco FCEyN 2013 18
¿Como estimamos los parametros?
Mınimos Cuadrados
Si los puntos en un grafico parecen seguir una recta, el problema es elegir larecta que mejor ajusta los puntos.
a) tomar una distancia promedio de la recta a todos los puntos
b) mover la recta hasta que esta distancia promedio sea la menor posible.
Si tenemos(xi , yi), 1 ≤ i ≤ n, y queremos predecir y a partir de x usandouna recta, podrıamos definir el error cometido en cada punto como la distanciavertical del punto a la recta.
Modelo Lineal A. M. Bianco FCEyN 2013 19
Modelo Lineal A. M. Bianco FCEyN 2013 20
Modelo Lineal A. M. Bianco FCEyN 2013 21
Modelo Lineal A. M. Bianco FCEyN 2013 22
Supongamos que tenemos un modelo que depende de p parametros. Sean(xi , yi) tales que
yi = g(xi , β1 . . . βp) + εi
E(εi) = 0, V (εi) = σ2, εi son independientes y la funcion g es conocidasalvo por los parametros β1 . . . βp.
Estimamos β1 . . . βp minimizando la suma de cuadrados residual, o seaˆβ = ( ˆ
β1, . . . ,ˆβp) es el estimador de mınimos cuadrados si minimiza
n∑
i=1(yi − g(xi , β1 . . . βp))2
En el caso de la regresion simple en el que g(x, β1, β2) = β1 + β2 x , mini-mizaremos:
1
n
n∑
i=1[yi − (β1 + β2xi)]2 .
Esta medida promedio se llama la suma de cuadrados residual del error para larecta. Fue inicialmente propuesta por Gauss. La recta de regresion ası definidaproduce la menor suma de cuadrados residual para el error de predecir y a partir
Modelo Lineal A. M. Bianco FCEyN 2013 23
de x y por esta razon se la suele llamar recta de mınimos cuadrados.
Consideremos para cada vector b ∈ <p el vector de residuosY − Xb .
El estimador de mınimos cuadrados de β1 . . . βp minimizan∑
i=1(yi − b1xi1 − . . .− bpxip)2 = ‖Y − Xb‖2 ,
donde ‖u‖2 = u′u = n∑
i=1u2i .
LlamemosS(b) = ‖Y − Xb‖2 = (Y − Xb)′(Y − Xb)
Definicion: un conjunto de funciones de Y, ˆβ1 =
ˆβ1(Y),
ˆβ2 =
ˆβ2(Y), . . .
ˆβp =
ˆβp(Y) que minimice S(b) es el estimador de mınimos cuadrados de β
(LS).
Modelo Lineal A. M. Bianco FCEyN 2013 24
Veremos que el LS siempre existe, pero no siempre es unico.
Derivando e igualando a 0 obtenemos las ecuaciones normales . Los esti-madores de mınimos cuadrados ˆ
β1, . . . ,ˆβp cumplen:
∂S(b)∂bk
= −2 n∑
i=1(Yi −
p∑
j=1xi jbj)xik = 0
Por lo tanto, para 1 ≤ k ≤ pn∑
i=1Yixik =
n∑
i=1
p∑
j=1xi jxikbj
n∑
i=1Yixik =
p∑
j=1bj
n∑
i=1xi jxik
Si el modelo tiene intercept, y lo escribimos como antes en terminos deβ0, . . . , βp−1, los estimadores
ˆβi cumplen
nˆβ0 +
ˆβ1
n∑
i=1xi1 + . . .+
ˆβp−1
n∑
i=1xip−1 =
n∑
i=1yi
nˆβ0
n∑
i=1xik +
ˆβ1
n∑
i=1xi1xik + . . .+
ˆβp−1
n∑
i=1xip−1xik =
n∑
i=1yixik k = 1, . . . , p − 1
Modelo Lineal A. M. Bianco FCEyN 2013 25
Estas p ecuaciones pueden escribirse como
X′Xˆβ = X′Y ,
que se conocen como ecuaciones normales.
Si X′X es no singular, la solucion es unica y resulta
ˆβ = (X′X)−1X′Y .
Ejemplo: En el caso de regresion simple tendrıamos
X′X =
⎛⎜⎜⎝1 1 1 . . . 1x1 x2 x3 . . . xn
⎞⎟⎟⎠
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 x11 x2. .. .1 xn
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
Modelo Lineal A. M. Bianco FCEyN 2013 26
X′X =
⎛⎜⎜⎜⎜⎜⎜⎝
nn∑
i=1xi
n∑
i=1xi
n∑
i=1x2i
⎞⎟⎟⎟⎟⎟⎟⎠
El sistema serıa ⎛⎜⎜⎜⎜⎜⎜⎝
nn∑
i=1xi
n∑
i=1xi
n∑
i=1x2i
⎞⎟⎟⎟⎟⎟⎟⎠
⎛⎜⎜⎝b0b1
⎞⎟⎟⎠ =
⎛⎜⎜⎜⎜⎜⎜⎝
n∑
i=1yi
n∑
i=1xiyi
⎞⎟⎟⎟⎟⎟⎟⎠
La inversa resulta
(X′X)−1 =1
n∑ni=1 x
2i − n2x2
⎛⎜⎜⎜⎜⎜⎜⎝
n∑
i=1x2i −
n∑
i=1xi
− n∑
i=1xi n
⎞⎟⎟⎟⎟⎟⎟⎠
y ademas
Modelo Lineal A. M. Bianco FCEyN 2013 27
X′Y =
⎛⎜⎜⎜⎜⎜⎜⎝
n∑
i=1yi
n∑
i=1xiyi
⎞⎟⎟⎟⎟⎟⎟⎠
y por lo tanto
ˆβ =
⎛⎜⎜⎝
ˆβ0ˆβ1
⎞⎟⎟⎠ =
1
nn∑
i=1(xi − x)2
⎛⎜⎜⎜⎜⎜⎜⎝
(n∑
i=1yi)(
n∑
i=1x2i )− (
n∑
i=1xi)(
n∑
i=1xiyi)
nn∑
i=1xiyi − (
n∑
i=1yi)(
n∑
i=1xi)
⎞⎟⎟⎟⎟⎟⎟⎠
entonces
b0 = y − xb1
y por otro lado
b1 =
n∑
i=1xiyi − nx y
n∑
i=1x2i − nx2
=
n∑
i=1(xi − x)(yi − y)n∑
i=1(xi − x)2
Modelo Lineal A. M. Bianco FCEyN 2013 28
Interpretacion Geometrica
Nuestro modelo plantea
Ω : E(Y) = Xβ
ΣY = σ2I
Luego, siη = E(Y) = Xβ
si xi es la i–esima columna de X entonces
η = β1x1 + β2x
2 + . . .+ βpxp
es decir que η ∈ Vr= subespacio generado por las p columnas de X: x1, . . . , xpy r es rg(X).
EntoncesmınbS(b) = mın
b‖Y − Xb‖2 = mın
z∈Vr‖Y − z‖2
Modelo Lineal A. M. Bianco FCEyN 2013 29
Modelo Lineal A. M. Bianco FCEyN 2013 30
y sabemos que se alcanza en η = b1x1 + b2x
2 + . . . + bpxp la proyeccion
ortogonal de Y sobre Vr , que sabemos que siempre existe y es unica, aunquelos bi pueden no serlo.
En terminos de las ecuaciones normales tenemos que:
X′Xb = X′Y
X′η = X′Y
Dados b1, . . . , bp funciones de Y seran un conjunto de estimadores de mıni-mos cuadrados (EMC) si y solo si X′b = η, es decir satisfacen las ecuacionesnormales.
Modelo Lineal A. M. Bianco FCEyN 2013 31
Caso en que rg(X) = p
En este caso existe la inversa de X′X, pues rg(X′X) = rg(X) = p.
De las ecuaciones normales queda:
X′Xˆβ = X′Y
ˆβ = (X′X)−1X′Y
entonces
Xˆβ = X(X′X)−1X′Y = PY = ˆY
En consecuencia el vector de residuos es:
r = Y − ˆY
= Y − Xˆβ
= Y − X(X′X)−1X′Y= Y − PY= (I− P)Y
Modelo Lineal A. M. Bianco FCEyN 2013 32
donde P = X(X′X)−1X′ ∈ <n×n es la matriz de proyeccion sobre el espaciogenerado por las columnas de X. Suele llamarse a esta matriz de proyeccionP o H (hat matrix).
Propiedades de P
Matriz simetrica e idempotente, es decir: P = P′ = P2. I − P tambien essimetrica es idempotente, es decir tambien es una matriz de proyeccion yproyecta sobre el ortogonal de Vr .
Lema:
i) P y I− P son simetricas e idempotentesii) rg(P) = tr(P) = p y rg(I− P) = tr(I− P) = n − piii) (I− P)X = 0
Modelo Lineal A. M. Bianco FCEyN 2013 33
Suma de Cuadrados
Tenemos quen∑
i=1(yi − yi)2 = ‖Y − PY‖2
Notemos que obtenemos el Teorema de Pitagoras. En efecto,
‖Y − ˆY‖2 = ‖Y − PY‖2 = ‖(I− P)Y‖2= Y′(I− P)′(I− P)Y= Y′(I− P)Y= Y′Y − Y′PY= Y′Y − Y′P′PY= ‖Y‖2 − ‖PY‖2
= ‖Y‖2 − ‖ˆY‖2 = ‖Y‖2 − ‖η‖2
Modelo Lineal A. M. Bianco FCEyN 2013 34
Caso en que rg(X) = p
Propiedades del Estimador de Mınimos Cuadrados
Usando la notacion matricial podemos escribir el modelo como
Ω : Y = Xβ + ε
E(ε) = 0
Σε = σ2I
Lema: Si se cumple el modelo Ω, tenemos que
ˆβ es un estimador insesgado de β, es decir E(ˆβ) = β.
Σˆβ= σ2(X′X)−1
Modelo Lineal A. M. Bianco FCEyN 2013 35
Caso en que rg(X) = p
Propiedades
Bajo el modelo Ω
Y = Xβ + ε
E(ε) = 0
Σε = σ2I
tenemos que
• E(ˆY) = Xβ• ΣY = σ2P• E(r) = 0• Σr = σ2(I− P)
Modelo Lineal A. M. Bianco FCEyN 2013 36
Si llamamos pi j a los elementos de P = X(X′X)−1X′ tenemos que
pi j = x′i(X′X)−1xj
donde xi representa la i–esima fila de X.
Luego:
V ar (yi) = σ2pi iV ar (ri) = σ2(1− pi i)
Cov(ri , rj) = −σ2pi j ,por lo tanto
Corr (ri , rj) = −pi j√
1− pi i√1− pj j
Modelo Lineal A. M. Bianco FCEyN 2013 37
Proposicion: Dados 1 ≤ i , j ≤ n tenemos que
i) 0 ≤ pi i ≤ 1ii) −12 ≤ pi j ≤ 12 si i 6= j
Como ya vimos V ar (yi) = σ2pi i , una consecuencia inmediata es que
V ar (yi) ≤ V ar (yi) = σ2 .
Modelo Lineal A. M. Bianco FCEyN 2013 38
Una propiedad interesante es que P es invariante por transformaciones linealesno singulares de la forma X → XA, donde A ∈ <p×p y rg(A) = p. Este tipode transformaciones es util, por ejemplo, si queremos realizar un cambio deunidades en las covariables.
Respecto a las propiedades de invariancia, podemos ver que si
ˆβ = ˆβ(X,Y) = (X′X)−1X′Y ,
para A ∈ <p×p no singular, λ ∈ < y γ ∈ <p, entoncesˆβ(XA,Y) = A−1ˆ
β Invariancia por transformaciones afinesˆβ(X, λY) = λˆ
β Invariancia por cambios de escalaˆβ(X,Y + Xγ) = ˆ
β + γ Invariancia por cambios de regresion
Modelo Lineal A. M. Bianco FCEyN 2013 39
Estimacion de σ2
Las varianzas de los estimadores dependen del diseno y σ2, que es desconocida.Dado que σ2 = E(ε2), parece natural estimarla mediante el promedio de loscuadrados de los residuos. El vector de residuos es
r = Y − ˆY
= Y − PY ,Bajo el modelo Ω, tenemos que
s2 =‖Y − ˆY‖2n − p =
‖Y − PY‖2n − p
es un estimador insesgado de σ2.
Lema Auxiliar: Sea x un vector aleatorio n–dimensional y sea A ∈ <n×n unamatriz simetrica. Si E(x) = µ y su matriz de covarianza es Σx entonces
E(x′Ax) = tr (AΣ) + µ′Aµ
Modelo Lineal A. M. Bianco FCEyN 2013 40
Respecto del diseno
• Covariables aleatoriasSi las covariables son aleatorias suponemos que tenemos los vectores (xi , yi)i.i.d. que satisfacen el modelo
yi = xiβ + εi
donde los εi son i.i.d., con E(εi) = 0 y V ar (εi) = σ2 e independientes dexi ∼ F .El analogo de suponer que X tiene rango completo es asumir que la distribucionde x no esta concentrada en ningun hiperplano, es decir
P (a′x = 0) < 1 ∀a 6= 0Esta condicion se cumple, por ejemplo, si x tiene densidad.
En este caso, ˆβ esta bien definido y las formulas que vimos para esperanza y
varianza de ˆβ son validas condicionalmente:
E(ˆβ|X = x) = β Σˆβ|X=x = σ
2(X′X)−1
Modelo Lineal A. M. Bianco FCEyN 2013 41
Se puede ver que si Vx = E(xx′) existe, entonces para n grande la distribucion
aproximada de ˆβ sera
Np
⎛⎜⎜⎝β,
σ2V−1xn
⎞⎟⎟⎠
Cuando el modelo tiene intercept, podemos escribirlo como:
yi = β0 + x′iβ1 + εi
donde β0 es la intercept y β1 es el vector de pendientes. En este caso resulta
σ2V−1x = σ2
⎛⎜⎜⎜⎜⎜⎜⎝
1 + µ′xΣ−1x µx −µ′xΣ−1x
−Σ−1x µx Σ−1x
⎞⎟⎟⎟⎟⎟⎟⎠
con µx = E(x) y Σx matriz de covarianza de x.
Modelo Lineal A. M. Bianco FCEyN 2013 42
• Estructura Ortogonal en la matriz de DisenoSupongamos que podemos dividir a la matriz X en k conjuntos de columnasortogonales: X1, . . . ,Xk , de manera que
X = [X1 . . .Xk ]
La correspondiente division en los parametros darıa
β = (β1, . . . ,βk)′
Luego podemos escribir:
E(Y) = X1β1 + . . .+ Xkβk
Como las columnas de Xi son ortogonales a las de Xj si i 6= j , tenemos queX′iXj = 0, luego
Modelo Lineal A. M. Bianco FCEyN 2013 43
ˆβ = (X′X)−1X′Y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
X′1X1 0 . . . 00 X′2X2 . . . 0. . . . . . . . . . . .. . . . . . . . . X′kXk
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
−1 ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
X′1YX′2Y. . .X′kY
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
entonces
ˆβ = (X′X)−1X′Y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
(X′1X1)−1X′1Y
(X′2X2)−1X′2Y
. . .(X′kXk)
−1X′kY
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
=
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
ˆβ1ˆβ2. . .ˆβk
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
en consecuencia el estimador de βi no cambiara si alguno de los otros βj seiguala a 0, es decir si se remueve del modelo.
¿Como resulta la suma de cuadrados?
Modelo Lineal A. M. Bianco FCEyN 2013 44
Y′Y − ˆY′ˆY = Y′Y − ˆβ′X′Y = Y′Y − k∑
j=1
ˆβ′jX′jY
Por lo tanto si en el modelo ponemos algun βi = 0, el unico cambio en la sumade cuadrados es que el termino de ˆ
β′iX′iY no aparece:
Y′Y − k∑
j = 1
j 6= i
ˆβ′jX′jY
En el caso mas sencillo, cada Xi consta de una unica columna y resulta:
ˆβi =
X′iY
X′iXi
y la suma de cuadrados queda
Y′Y − k∑
j=1
ˆβ′jX′jY = Y
′Y − k∑
j = 1
ˆβ2jX′jXj
Modelo Lineal A. M. Bianco FCEyN 2013 45
Teorema de Gauss–Markov
En muchas aplicaciones estamos mas interesado en estimar funciones linealesde β que en estimar β en sı mismo.
Estas funciones incluyen el valor esperado de y en una futura observacion xo,por ejemplo.
Si bien puede haber muchos estimadores de una funcion lineal c′β o Cβ, estu-diaremos los estimadores lineales, es decir funciones lineales de las observacionesy1, . . . , yn.
Primero veremos cuando una funcion parametrica es estimable.
Definicion: Una funcion parametrica ψ se dice que es una funcion lineal delos parametros β1, . . . , βp si existen c1, . . . , cp constantes conocidas talque
ψ = c′β =p∑
j=1cjβj
donde c = (c1, . . . , cp)′.
Modelo Lineal A. M. Bianco FCEyN 2013 46
Definicion: Decimos que una funcion parametrica ψ = c′β es estimable sitiene un estimador lineal (en Y) insesgado, es decir si existe a ∈ <n tal que
E(a′Y) = ψ = c′β ∀β ∈ <p
¿Hay funciones que no son estimables?
Veamos un ejemplo de una funcion parametrica no estimable.
Modelo Lineal A. M. Bianco FCEyN 2013 47
Supongamos que queremos comparar la respuesta media de dos tratamientosy un control y que para ello observamos
T1: y11, y12, . . . , y1k y1j ∼ N(β1, σ2)
T2: y21, y22, . . . , y2k y2j ∼ N(β2, σ2)
Co: y31, y32, . . . , y3k y3j ∼ N(β3, σ2)
Suponemos igual cantidad de observaciones por tratamiento para simplificar lanotacion.
Podemos escribir esto como
yi j = βi + εi j
Podrıamos escribir esto como un modelo lineal:
Modelo Lineal A. M. Bianco FCEyN 2013 48
Y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
y11y12. . .y1ky21y22. . .y2ky31y32. . .y3k
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;X =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 0 01 0 0. . .1 0 00 1 00 1 0. . .0 1 00 0 10 0 1. . .0 0 1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;β =
⎛⎜⎜⎜⎜⎜⎜⎝
β1β2β3
⎞⎟⎟⎟⎟⎟⎟⎠
Por ejemplo, T1, T2 y el control podrıan ser distintas dosis de una droga demanera que T1 es menor que la dosis del control y T2 mayor que la dosis
Modelo Lineal A. M. Bianco FCEyN 2013 49
control. Tendrıa sentido preguntarse si
β3 =β1 + β22
lo que implicarıa cierta linealidad en el efecto medio. En ese caso nos interesarıasaber si
(−12,−12, 1
)
⎛⎜⎜⎜⎜⎜⎜⎝
β1β2β3
⎞⎟⎟⎟⎟⎟⎟⎠= 0
Otra manera de escribir el modeo serıa
yi j = µ+ αi + εi j
donde:
µ es el efecto general
αi es el efecto del tratamiento i
Modelo Lineal A. M. Bianco FCEyN 2013 50
En ese caso tendrıamos
Y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
y11y12. . .y1ky21y22. . .y2ky31y32. . .y3k
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;X =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 1 0 01 1 0 0. . . .1 1 0 01 0 1 01 0 1 0. . . .1 0 1 01 0 0 11 0 0 1. . . .1 0 0 1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;β =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
µα1α2α3
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
¿Son todas las funciones estimables en este modelo?
Modelo Lineal A. M. Bianco FCEyN 2013 51
Consideremos
α1 =(0, 1, 0, 0
)
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
µα1α2α3
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
Veremos que α1 no es estimable.
Veamos el siguiente resultado que caracteriza las funciones parametricas es-timables suponiendo el modelo
Ω : E(Y) = Xβ ΣY = σ2I
Teorema: La funcion parametrica ψ = c′β es estimable si y solo si c es unacombinacion lineal de las filas de X, o sea si existe a ∈ <n tal que
c′ = a′X
Modelo Lineal A. M. Bianco FCEyN 2013 52
Lema: Supongamos que vale el modelo Ω. Sean ψ = c′β una funcion es-timable y Vr el espacio generado por las columnas de X (r = rg(X) ≤ p).Luego, existe un unico estimador lineal insesgado de ψ, digamos a∗
′Y con
a∗ ∈ Vr . Mas aun, si a′Y es un estimador insesgado de ψ, a∗ es la proyeccionortogonal de a sobre Vr .
Teorema de Gauss–Markov:Supongamos que vale el modelo Ω : E(Y) = Xβ ΣY = σ
2I.Toda funcion estimable ψ = c′β tiene un unico estimador ˆ
ψ lineal insesgado demıınima varianza (BLUE). Este estimador ˆ
ψ se puede obtener reemplazando aβ en c′β por ˆ
β, el estimador de mınimos cuadrados.
Modelo Lineal A. M. Bianco FCEyN 2013 53
Definicion: Dada una funcion estimable ψ su unico estimador lineal insesgadode mınima varianza ˆ
ψ, cuya existencia y calculo estan dados por el Teorema deGauss–Markov, es el estimador de mınimos cuadrados de ψ.
Tenemos el siguiente resultado:
Corolario: Si ψ1, . . . , ψq son q funciones estimables toda combinacion linealΨ =
∑qi=1 hiψi es estimable y su estimador de mınimos cuadrado esta dado por
∑qi=1 hi
ˆψi .
Modelo Lineal A. M. Bianco FCEyN 2013 54
¿Que ocurre cuando el rg(X) < p
Si rg(X) = r < p tenemos que ˆβ1, . . . ,ˆβp no son unicos. Esta misma inde-
terminacion afecta a los parametros β1, . . . , βp, en el sentido de que distintosconjuntos b1, . . . , bp darıan origen al mismo η y por lo tanto al mismo modelo
Y = η + ε = E(Y) + ε .
Sin embargo, tal como vimos si c′β es una funcion estimable tendra el mismovalor independientente del β que usemos, en tanto
c′β = a′Xβ = a′η
expresion que solo depende de η, que es unico.
¿Como podemos eliminar esta indeterminacion?
Modelo Lineal A. M. Bianco FCEyN 2013 55
a) Considerar un problema reducido con solo r parametros
Podrıamos considerar r columnas l.i. de X que generen a Vr y mantener en elmodelo solo aquellos βj asociados a estas columnas.
Ası tendrıamos una nueva matriz de diseno X1 ∈ <n×r con rango maximo. Eneste caso tendrıamos el modelo
Y = η + ε con η ∈ VrEl estimador serıa
α = (X′1X1)−1X′1Y
y la matriz de proyeccion corresponiente P = X1(X′1X1)
−1X′1.
Si asumimos, s.p.g., que las columnas elegidas son las primeras r , tendrıamosque
X = [X1X2]
donde X2 ∈ <n×(p−r) y ademas X2 = X1B. Por lo tantoX = X1[Ir B] = KL
con K ∈ <n×r , L ∈ <r×p y rg(L) = r .
Modelo Lineal A. M. Bianco FCEyN 2013 56
Por lo tanto el modelo original se obtiene como:
Xβ = KLβ = Kα
b) Considerar condiciones de contorno adecuadas para los βj’s y susestimadores
Ası podrıamos pedir que βr+1 = . . . = βp = 0 y en este caso obtendrıamos elmismo que en la situacion a) (suponiendo que las r primeras son las columnasl.i.).
Sin embargo, en otras situaciones, como en la de ANOVA, es frecuente que seimpongan otras restricciones lineales de manera de obtener la unicidad.
Consideremos el caso en que imponemos t ≥ p − r restricciones lineales a losβj , es decir
Hβ = 0 con H ∈ <t×p
Queremos encontrar dentro del conjunto de soluciones de Xβ = η una sola
Modelo Lineal A. M. Bianco FCEyN 2013 57
que cumpla Hβ = 0, es decir buscamos β que sea unica solucion de
Xβ = Xβ (= η)
Hβ = 0
De esta forma las primeras ecuaciones establecen que encontraremos una solu-cion del sistema que nos interesa y las segundas que esta solucion sera unica.
Lo que queremos es que
• toda funcion estimable del nuevo sistema lo sea en el viejo problema,• un unico conjunto de estimadores de mınimos cuadrados que satisfaga lascondiciones de contorno.
El siguiente teorema nos dice como elegir H para cumplir con este objetivo:
Modelo Lineal A. M. Bianco FCEyN 2013 58
Teorema: Sean X ∈ <n×p y H ∈ <t×p con rg(X) = r , p > r y t ≥ p − r .Consideremos VX el espacio generado por las columnas de X. El sistema
Xb = z
Hb = 0 (1)
tiene solucion unica b para todo z ∈ VX si y solo si se cumplen las siguientesdos condiciones:
i) si rg(G) = rg
⎛⎜⎜⎝XH
⎞⎟⎟⎠ = p
ii) ninguna combinacion lineal de las filas de H es combinacion lineal de las deX, excepto el 0.
Corolario: Si el sistema (1) cumple la condiciones i) y ii) del Teorema ante-rior, entonces existe un unico conjunto de estimadores de mınimos cuadrados(solucion de las ecuaciones normales) β1, . . . , βp para el cual H
ˆβ = 0.
Modelo Lineal A. M. Bianco FCEyN 2013 59
Observacion:
En terminos estadısticos la condicion ii) del Teorema nos dice que si hi esla iesima fila de H, entonces no existe a tal que hi = a
′X, por lo tanto lash′iβ no es una funcion estimable de los parametros.
Se puede demostrar que:
Si se cumplen las condiciones i) y ii) del Teorema, entonces los βj sonfunciones estimables.
De hecho, si Gβ =
⎛⎜⎜⎝Xβ0
⎞⎟⎟⎠, entonces
G′Gβ = G′⎛⎜⎜⎝Xβ0
⎞⎟⎟⎠ = (X′ H′)
⎛⎜⎜⎝Xβ0
⎞⎟⎟⎠ = X′Xβ .
Luego, (X′X + H′H)β = X′Xβ y como rg(G′G) = rg(G) = p tenemosque
Modelo Lineal A. M. Bianco FCEyN 2013 60
β = (X′X+H′H)−1X′Xβ
y tiene un estimador lineal insesgado dado por
(X′X+H′H)−1X′Y
dada una funcion estimable ψ, para cualquier H que elijamos en las condi-ciones del Teorema anterior, V ar (ˆψ) es la misma.
c) Computar una inversa generalizada de X′X: (X′X)−
En este caso tendrıamos que (X′X)−XY es solucion de las ecuaciones normales,por lo tanto otra forma de solucionar nuestro problema. En realidad puede verseque la opcion b) y c) quedan ligadas a traves del siguiente resultado:
Proposicion: Sea G =
⎛⎜⎜⎝XH
⎞⎟⎟⎠ una matriz que satisface las condiciones i) y ii)
del Teorema anterior. Luego (G′G)−1 es una inversa generalizada de X′X, porlo tanto:
(X′X)(G′G)−1(X′X) = X′X
Modelo Lineal A. M. Bianco FCEyN 2013 61
En efecto, ∀Y:(G′G)(G′G)−1H′Y = H′Y
(X′X+H′H)(G′G)−1H′Y = H′Y
X′X(G′G)−1H′Y = H′(I−H(G′G)−1H′)Y
entonces como X′α = H′β tenemos que
X′X(G′G)−1H′Y = 0
luego
X(G′G)−1H′Y ∈ V⊥ry al mismo tiempo
X(G′G)−1H′Y ∈ Vrpor lo tanto
X(G′G)−1H′ = 0
Modelo Lineal A. M. Bianco FCEyN 2013 62
Finalmente:
(X′X)(G′G)−1(X′X) = (X′X+H′H)(G′G)−1(X′X) = X′X ,
con lo cual es una inversa generalizada.
Mınimos Cuadrados Pesados y Mınimos Cuadrados Generalizados
¿ Que ocurre cuando ΣY = σ2V donde V 6= I?
Supongamos que V ∈ <n×n es una matriz definida positiva de constantes.Podemos entonces escribir: V = KK′ con K una matriz invertible.
Y = Xβ + ε
K−1Y = K−1Xβ +K−1ε
Modelo Lineal A. M. Bianco FCEyN 2013 63
donde E(K−1ε) = 0 y ΣK−1ε = σ2I.
Por lo tanto, tenemos un nuevo problema:
Y = Xβ + ε
que satisface las condiciones de Ω.
Hallar el estimador de mınimos cuadrados en el problema transformado equivalea:
mınb‖Y − Xb‖2 = mın
b(Y − Xb)′(Y − Xb)
= mınb(Y − Xb)′K−1′K−1(Y − Xb)
= mınb(Y − Xb)′V−1(Y − Xb)
Si V es una matriz diagonal decimos que tenemos un problema de Mıni-mos Cuadrados Pesados, mientras que si V es una matriz definida positivacualquiera, es de Mınimos Cuadrados Generalizados.
Las ecuaciones normales quedan:
X′Xb = X′Y
Modelo Lineal A. M. Bianco FCEyN 2013 64
X′K−1′K−1Xb = X′K−1
′K−1Y
X′V−1Xb = X′V−1Y
Observemos que si X′V−1X tiene inversa, entonces
β = (X′V−1X)−1X′V−1Y
y ademas
β es un estimador insesgado de β, es decir E(β) = β.
Σ ˜β= σ2(X′X)
−1= σ2(X′V−1X)−1
Veamos un ejemplo.
Consideremos el caso sencillo de una regresion simple por el origen:
Y = xβ + ε
donde Y = (y1, . . . , yn)′, x = (x1, . . . , xn)′ y ε = (ε1, . . . , εn)′ con E(ε) = 0 y
Σε = σ2V = σ2diag(w1, . . . , wn) con wi > 0.
Modelo Lineal A. M. Bianco FCEyN 2013 65
Probaremos que
β =∑ni=1 yixi/wi
∑ni=1 x
2i /wi
y ademas
Σ ˜β= σ2(X′V−1X)−1 =
σ2
∑ni=1 x
2i /wi
Si rg(X) = p se puede probar facilmente que el estimador β conserva laspropiedades del estimador de mınimos cuadrados: dada una funcion lineal es-timable c′β tenemos que
• c′β es el estimador lineal insesgado de c′β de menor varianza.
Una pregunta muy natural es:
Modelo Lineal A. M. Bianco FCEyN 2013 66
¿ Hay situaciones en las que β y ˆβ coinciden?
Los siguientes resultados nos dan la respuesta
Teorema: Una condicion necesaria y suficiente para que β y ˆβ coincidan es
que VV−1X = VX.
Corolario: β y ˆβ coinciden ⇐⇒ VVX = VX.
Corolario: Si tenemos un modelo de regresion simple por el origen,Y = xβ + ε,entonces
β = ˆβ ∀x⇐⇒ V = cIn
Modelo Lineal A. M. Bianco FCEyN 2013 67
Forma Canonica del Modelo Ω
Dada una base ortonormal de Vr = VX, digamos α1, . . .αr , sabemos quepodemos extenderla a una base ortonormal de<n: α1, . . . ,αr ,αr+1, . . . ,αn.Por lo tanto,
y ∈ <n : y = n∑
j=1zjαj
y tenemos que
α′iy =n∑
j=1zjα
′iαj = ziα
′iαi = zi ∀i = 1, . . . , n
Luego, si definimos a T como la matriz que tiene filas α′i , entonces
z = Ty
Observemos que
E(zi) =
⎧⎨⎩
α′iη = ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n
Σz = TΣyT′ = σ2I
Modelo Lineal A. M. Bianco FCEyN 2013 68
Por lo tanto, ahora podemos reescribir a Ω como
Ω :
E(zi) =
⎧⎨⎩
ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n
Σz = σ2I
donde ξ y σ2 son parametros desconocidos.
En terminos de esta forma caonica es sencillo demostrar que
s2 =‖Y − ˆY‖2n − r ==
‖Y − η‖2n − r
es un estimador insesgado de σ2. Solo habıamos demostrado hasta ahora elcaso de rango completo.
Modelo Lineal A. M. Bianco FCEyN 2013 69
Distribucion Normal Multivariada
Definicion 1: Se dice que un vectorX, k−dimensional tiene distribucion normalmultivariada Nk(µ,Q) donde µ es un vector k−dimensional, Q una matriz dek × k definida positiva, si su densidad es de la forma
fX(x) =1
(√2π)k |Q|1/2 e
− (x−µ)′Q−1(x−µ)2
donde |Q| indica determinante de Q.
Por ejemplo, si Xi son k v.a. independientes tales que Xi ∼ N(µi , σ2i ), entoncesel vector X′ = (X1, . . . , Xk) tiene densidad
fx(x) =1
(√2π)k
∏kj=1(σ
2i )1/2
e−1/2Σki=1(xi−µi)2/σ2i
Luego, resulta que X es Nk(µ,Q) donde µ′ = (µ1, . . . , µk) y
Q = diag(σ21, . . . , σ2k) =
⎛⎜⎜⎜⎜⎜⎜⎝
σ21. . .
σ2k
⎞⎟⎟⎟⎟⎟⎟⎠
Modelo Lineal A. M. Bianco FCEyN 2013 70
Mas aun, en el caso en que las k v.a. Xi son todas N(0, 1), X es N(0k, Ik)donde 0′k = (0, . . . , 0) ∈ <k y Ik es la matriz identidad de k × k .Recordemos el enunciado del Teorema de Cambio de Variable:
Sean x es un vector aleatorio con densidad f y y = g(x), tal que g−1(y) = x.
Supongamos que en un abierto G existen las derivadas parciales ∂xi∂yjy sea
J = det
⎧⎨⎩
∂xi∂yj
⎫⎬⎭, entonces
fY(y) = fX(g−1(y))|J|
Teorema N1: Si X es un vector aleatorio k−dimensional con distribucionNk(µ,Q), A es una matriz no singular de k × k y b un vector k−dimensional,entonces
Y = AX+ b es Nk(Aµ+ b, AQA′)
Modelo Lineal A. M. Bianco FCEyN 2013 71
Teorema N2:
i) Un vector aleatorio k−dimensional X es Nk(µ,Q) si y solo si X = BY+µ,donde Y es Nk(0k, Ik) y B es una matriz de k×k no singular tal que BB′ = Q.
ii) Si X es Nk(µ,Q) entonces
E(X) = µ y ΣX = Q
Teorema N3: Sea X un vector aleatorio k−dimensional Nk(µ,Q) y A unamatriz de h × k con rango h, luego si Y = AX+ b entonces
Y ∼ Nh(Aµ+ b,AQA′)
Modelo Lineal A. M. Bianco FCEyN 2013 72
Teorema N4: Sea X′ = (X1, . . . , Xk) un vector k−dimensional con distribu-cion normal multivariada, luego la distribucion marginal de cualquier subconjun-to de componentes tiene distribucion normal multivariada. En particular cadacomponente es normal.
Demostracion: Sea X∗ = (Xk1, . . . , Xkh), k1 < k2 < . . . < kh, luego se tieneque X∗ = AX, donde A es la matriz de h × k dada por:
ai j =
⎧⎨⎩
1 si j = ki0 si j 6= ki
1 ≤ i ≤ h, 1 ≤ j ≤ k .Es facil ver que A es una matriz de rango h.
Modelo Lineal A. M. Bianco FCEyN 2013 73
Teorema N5: Si X es un vector k−dimensional con distribucion Nk(µ,Q),luego
(X− µ)′Q−1(X− µ) ∼ χ2k.
Demostracion: Por lo ya visto, resulta que X = BY+µ donde Y es N(0k, Ik)
Y = B−1(X− µ)y ademas
BB′ = Q
Luego
YY′ = (X− µ)′B′−1B−1(X− µ) = (X− µ)′Q−1(X− µ)El teorema resulta del hecho que
Y′Y =k∑
i=1Y 2i
tiene distribucion χ2k , ya que las Yi son variables aleatorias independientes condistribucion N(0, 1).
Modelo Lineal A. M. Bianco FCEyN 2013 74
Teorema N6: Si X es un vector k−dimensional con distribucion Nk(µ, σ2Ik)y P una matriz simetrica e idempotente de rango r , entonces
(X− µ)′P(X− µ)σ2
∼ χ2r.
Modelo Lineal A. M. Bianco FCEyN 2013 75
Tests y Regiones de Confianza
Hasta ahora hemos trabajado solo con las hipotesis Ω. Sin embargo para deducirtests y regiones de confianza con nivel exacto sera necesario que hagamos unsupuesto adicional: normalidad conjunta de los errores
Supondremos que las yi ’s se distribuyen conjuntamente segun unanormal multivariada.
Podremos deducir:
intervalos de confianza de nivel exacto para funciones parametricas es-timables
tests de nivel exacto para hipotesis que involucran a los parametros
conjuntos o regiones de confianza para la estimacion simultanea de mas deuna funcion parametrica estimable.
Modelo Lineal A. M. Bianco FCEyN 2013 76
Nuestro nuevo modelo sera:
Ω : Y ∼ Nn(Xβ, σ2I) rg(X) = r β ∈ <p
Observemos que en este caso suponer que ΣY = σ2I es equivalente a asumir
que las yi , 1 ≤ i ≤ n, son independientes.
Modelo Lineal A. M. Bianco FCEyN 2013 77
Modelo Lineal A. M. Bianco FCEyN 2013 78
Bajo estas condiciones se obtiene el siguiente resultado:
Teorema: Supongamos que se tiene el modelo
Ω : Y ∼ Nn(Xβ, σ2I) rg(X) = p β ∈ <p .Luego, ˆ
β y s2 son funciones de estadısticos suficientes y completos y por lotanto, ˆ
β y s2 son estimadores IMVU de β y σ2, respectivamente.
Si nuestro modelo es
E(Y) = β0 + β1x1 + β2x2 + . . .+ βpxp
podrıamos tener interes en testear hipotesis como las que siguen:
Ho : βj = 0 vs. H1 : βj 6= 0Ho : β1 − β2 = 0 vs. H1 : β1 − β2 6= 0
Ho : β1 = β2 = . . . = βp = 0 vs. H1 : existe j : βj 6= 0
Todas estas hipotesis son de la forma c′β = 0 o Cβ = 0.
Modelo Lineal A. M. Bianco FCEyN 2013 79
Supongamos que tenemos q funciones estimables ψ1, ψ2, . . . , ψq donde:
ψi =p∑
j=1ci jβj 1 ≤ i ≤ q
Por ser estimables, por el Teorema de Gauss–Markov tenemos que
ˆψi =
n∑
j=1a∗i jyj 1 ≤ i ≤ q ,
donde a∗i ∈ Vr ⊂ <n; de manera queΨ = Cβ C ∈ <q×pˆΨ = A∗Y A∗ ∈ <q×n
Mas aun, sabemos que
ˆΨ = Cˆβ
ΣΨ = σ2A∗A∗′
Modelo Lineal A. M. Bianco FCEyN 2013 80
Estimamos a σ2 por
s2=‖Y − ˆY‖2n − r
Bajo estas nuevas hipotesis obtenemos el siguiente resultado:
Teorema: Supongamos que se cumple Ω, es decir Y ∼ Nn(Xβ, σ2I), rg(X) =r , β ∈ <p y que ademas que ψ1, ψ2, . . . , ψq son q funciones estimables l.i.,de manera que rg(C) = q. Entonces,
i) ˆΨ ∼ Nq(Ψ,ΣΨ) ( o lo que es igual Nq(Ψ, σ2A∗A∗′))
ii) ˆΨ ys2(n − r )
σ2son independientes
iii)(n − r )s2
σ2∼ χ2n−r
Modelo Lineal A. M. Bianco FCEyN 2013 81
En el caso de rango completo, es decir cuando r = p, obtenemos el siguienteresultado:
Teorema: Supongamos que se cumple Ω, es decir Y ∼ Nn(Xβ, σ2I), rg(X) =p, β ∈ <p. Entonces,
i) ˆβ ∼ Np(β, σ2(X′X)−1)
ii)(ˆβ − β)′(X′X)(ˆβ − β)
σ2∼ χ2p
iii) ˆβ y(n − p)s2
σ2son independientes
iv)(n − p)s2
σ2∼ χ2n−p
Estos resultados nos permiten deducir intervalos de confianza o tests para cadauno de los coeficientes del modelo lineal:
Modelo Lineal A. M. Bianco FCEyN 2013 82
Como ˆβ ∼ Np(β, σ
2(X′X)−1), entonces ˆβi = e
′iˆβ ∼ N(βi , σ
2e′i(X′X)−1ei).
Si denotamos Σˆβ= σ2D
ˆβi ∼ N(βi , σ2di i)
siendo di i el i -esimo elemento diagonal de D.
Si para un i fijo queremos testear
Ho : βi = 0 vs. H1 : βi 6= 0
tenemos que bajo Hoˆβi
s√di i∼ tn−p
Por lo tanto, rechazaremos Ho con nivel α si
∣∣∣∣∣∣∣∣
ˆβi
s√di i
∣∣∣∣∣∣∣∣> tn−p,α2
Modelo Lineal A. M. Bianco FCEyN 2013 83
En el caso de regresion simple tendrıamos
yi = β0 + β1xi + εi , 1 ≤ i ≤ n, εi ∼ N(0, σ2)Entonces:
X′X =
⎛⎜⎜⎜⎜⎜⎜⎝
nn∑
i=1xi
n∑
i=1xi
n∑
i=1x2i
⎞⎟⎟⎟⎟⎟⎟⎠
y la inversa resulta
(X′X)−1 =1
n∑ni=1 x
2i − n2x2
⎛⎜⎜⎜⎜⎜⎜⎝
n∑
i=1x2i −
n∑
i=1xi
− n∑
i=1xi n
⎞⎟⎟⎟⎟⎟⎟⎠
Modelo Lineal A. M. Bianco FCEyN 2013 84
ˆβ0 = −x ˆ
β1 + y
y
ˆβ1 =
n∑
i=1xiyi − nx y
n∑
i=1x2i − nx2
=
n∑
i=1(xi − x)(yi − y)n∑
i=1(xi − x)2
Luego, si queremos testear
Ho : β1 = 0 vs. H1 : β1 6= 0el estadıstico sera
T =
∣∣∣∣∣∣∣∣
ˆβ1s√d11
∣∣∣∣∣∣∣∣=
∣∣∣∣∣∣∣∣
ˆβ1
s/√∑n
i=1(xi − x)2∣∣∣∣∣∣∣∣
y rechazaremos Ho si
|T | > tn−2,α2
Modelo Lineal A. M. Bianco FCEyN 2013 85
Veamos un ejemplo: Precio del papel.
Y: ganancia en 1972
x: precio de papel en 1973
¿ Ejemplo Precio del Papel
precio ganancia
x y
1 1.83 28
2 3.35 45
3 0.64 12
4 2.30 35
5 2.39 45
6 1.08 14
7 2.92 39
8 1.11 12
9 2.57 43
10 1.22 23
Modelo Lineal A. M. Bianco FCEyN 2013 86
1.0 1.5 2.0 2.5 3.0
1520
2530
3540
45
precio
gana
ncia
Modelo Lineal A. M. Bianco FCEyN 2013 87
¿ sal.lm
Coefficients:
(Intercept) x
2.027775 14.20517
Degrees of freedom: 10 total; 8 residual
Residual standard error: 5.025083
¿ summary(sal.lm)
Call: lm(formula = y ˜ x, x = T)
Residuals:
Min 1Q Median 3Q Max
-5.796 -4.222 0.1386 2.952 9.022
Modelo Lineal A. M. Bianco FCEyN 2013 88
Coefficients:
Value Std. Error t value Pr(¿—t—)
(Intercept) 2.0278 3.9383 0.5149 0.6206
x 14.2052 1.8565 7.6516 0.0001
Residual standard error: 5.025 on 8 degrees of freedom
Multiple R-Squared: 0.8798
F-statistic: 58.55 on 1 and 8 degrees of freedom, the p-value
is 0.00006008
Correlation of Coefficients:
(Intercept)
x -0.915
X’X=
(Intercept) x
(Intercept) 10.00 19.4100
x 19.41 45.0013
Modelo Lineal A. M. Bianco FCEyN 2013 89
(X’X)ˆ(-1)=
(Intercept) x
(Intercept) 0.6142273 -0.264929
x -0.2649290 0.136491
¿ matriz de covarianza de coeficientes
(Intercept) x
(Intercept) 15.510133 -6.689844
x -6.689844 3.446597
Modelo Lineal A. M. Bianco FCEyN 2013 90
Tambien podrıamos interesarnos realizar in I. de C. para la esperanza de unanueva observacion independiente de las demas que cumpla el modelo
yi = β1x1 + β1x2 + . . .+ βpxp + εi
en xo = (xo1, xo2, . . . , xop)′ donde εi ∼ N(0, σ2) independientes.
Como E(yo) = x′oβ, podemos estimarlo por
ˆE(yo) = x
′o
ˆβ = yo
Por lo tanto, de acuerdo con lo que hemos visto
yo = x′o
ˆβ ∼ N(x′oβ, σ2x′o(X′X)−1xo)
y es independiente de(n − p)s2
σ2∼ χ2n−p
por lo tanto
T =yo − x′oβ
s√x′o(X
′X)−1xo∼ tn−p
Modelo Lineal A. M. Bianco FCEyN 2013 91
En consecuencia,
yo ± tn−p,α2 s√x′o(X
′X)−1xo
es un intervalo de nivel exacto 1− α.
Asimismo, podrıamos estar interesados en la prediccion de yo, una nueva ob-servacion que cumpla el modelo, y en un intervalo para ella, que llamaremosintervalo de prediccion.
Observemos que el predictor de yo es yo = x′o
ˆβ. En efecto,
E(yo − yo) = 0. ¿Que distribucion tiene yo − yo?Tenemos que
yo ∼ N(x′oβ, σ2x′o(X
′X)−1xo)
yo ∼ N(x′oβ, σ2)
Modelo Lineal A. M. Bianco FCEyN 2013 92
y dado que yo es independiente de las restantes yi ’s con las que estimamos,entonces por la independencia entre estas dos normales queda que
yo − yo ∼ N(0, σ2(1 + x′o(X′X)−1xo))
Por lo tanto, el intervalo de prediccion de nivel 1− α estara dado poryo ± tn−p,α2 s
√1 + x′o(X
′X)−1xo
Modelo Lineal A. M. Bianco FCEyN 2013 93
Ejemplo. Los siguientes son datos que corresponden a 10 porcentajes yi de
una sustancia que fueron medidos en experiencias de laboratorio y que se deseanrelacionar con la temperatura xi a la que fueron realizados dichas experiencias.
i x y
1 100 452 110 523 120 544 130 635 140 626 150 687 160 758 170 769 180 9210 190 88
Modelo Lineal A. M. Bianco FCEyN 2013 94
La tabla con los estadısticos calculados es:
Coeficiente Estimacion Error Standard Valor de t
β0 -4.47273 5.63433 -0.79β1 0.49636 0.03812 13.02
s 3.46213 g.l.=8
Modelo Lineal A. M. Bianco FCEyN 2013 95
Intervalos de Estimacion y de Prediccion
Modelo Lineal A. M. Bianco FCEyN 2013 96
Tabla de Resultados
Modelo Lineal A. M. Bianco FCEyN 2013 97
• El valor estimado de ˆβ1 ' 0,5,⇒ esperamos que el porcentaje aumente 0.5
por cada incremento de un grado en la temperatura.
• sβ1 = 0,03812
• Si testeamos H0 : β1 = 0 t = 0,496360,038112 = 13,02 y t8,0,025 = 2,306004
⇒ los datos nos dan evidencia suficiente al nivel 5% como para concluir quela pendiente es no nula.
Modelo Lineal A. M. Bianco FCEyN 2013 98
Observemos que en el grafico la recta ajustada esta encerrada entre 2 curvasinteriores y 2 exteriores. Las exteriores corresponden al intervalo de prediccionde nivel 0.95 y las interiores a los intervalos de confianza de nivel 0.95 para lamedia.
Notemos que el nivel de confianza 0.95 se aplica a cada punto y no esglobal
Modelo Lineal A. M. Bianco FCEyN 2013 99
Supongamos que queremos plantear un test de nivel α para
Ho : Cβ = δ vs. H1 : Cβ 6= δ
siendo rg(C) = q , C ∈ <q×p.Sea Ψ = C′β. Sabemos que ˆΨ ∼ Nq(Ψ, σ
2A∗A∗′) = Nq(Ψ, σ
2B). Por lotanto, tenemos que
(1) : Q =1
q(ˆΨ− δ)′B−1(ˆΨ− δ)
es independiente de
(2) : s2 =‖Y − ˆY‖2n − r
Veremos queE(Q) = σ2 + η2
y que η2 = 0 solo cuando Ho es cierta.
Modelo Lineal A. M. Bianco FCEyN 2013 100
Bajo Ho, (1) y (2) son estimadores insesgados de σ2, es decir que bajo Ho
esperamos que(1)
(2)' 1,
pero si Ho no es cierta, esperamos que
(1)
(2)> 1.
Luego, el cociente(ˆΨ− δ)′B−1(ˆΨ− δ)
qs2nos dara una idea de la veracidad de
HO, de manera que rechazaremos Ho si el cociente es grande.
¿ Cuan grande?
Modelo Lineal A. M. Bianco FCEyN 2013 101
Bajo Ho(ˆΨ− δ)′B−1(ˆΨ− δ)
σ2∼ χ2q
independiente de(n − r )s2
σ2∼ χ2n−r
En consecuencia:
F =(ˆΨ− δ)′B−1(ˆΨ− δ)
qs2∼ Fq,n−r
Rechazaremos Ho si
F > Fq,n−r,αVeamos dos situaciones frecuentes para el caso de rango completo.
Modelo Lineal A. M. Bianco FCEyN 2013 102
1. Una hipotesis simple.
C = c consiste en una sola fila, de manera que c′(X′X)−1c es un escalar, conlo cual el estadıstico resulta
F =(c′ˆβ − δ)2s2 c′(X′X)−1c
que bajo Ho tiene distribucion F1,n−p
En funcion de la relacion entre las distribuciones t y F podrıamos utilizar ladistribucion t de Student y
rechazamos Ho si
∣∣∣∣∣∣∣∣
c ′ˆβ − δs
√c′(X′X)−1c
∣∣∣∣∣∣∣∣> tn−p,α/2
Modelo Lineal A. M. Bianco FCEyN 2013 103
2. Tests para k coeficientes iguales a 0.
Ho : Ψ = Cβ = 0, donde C =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
ei1··eik
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
, para i1 ≤ 1 < . . . < ik ≤ p.
El numerador sera:(Cˆβ)′(C(X′X)−1C′)−1(Cˆ
β)
donde C(X′X)−1C′ es una submatriz de D = (X′X)−1 que solo involucra loscoeficientes correspondientes a aquellos βi presentes en la hipotesis a testear.
Ası supongamos que tenemos 5 coeficientes β1, . . . , β5 y queremos testear
Ho : β1 = 0
β3 = 0
β5 = 0
Modelo Lineal A. M. Bianco FCEyN 2013 104
luego,
C(X′X)−1C′ =
⎛⎜⎜⎜⎜⎜⎜⎝
d11 d13 d15d13 d33 d35d15 d35 d55
⎞⎟⎟⎟⎟⎟⎟⎠
y en el numerador tendremos
( ˆβ1,
ˆβ3,
ˆβ5
)
⎛⎜⎜⎜⎜⎜⎜⎝
d11 d13 d15d13 d33 d35d15 d35 d55
⎞⎟⎟⎟⎟⎟⎟⎠
−1 ⎛⎜⎜⎜⎜⎜⎜⎝
ˆβ1ˆβ3ˆβ5
⎞⎟⎟⎟⎟⎟⎟⎠
Modelo Lineal A. M. Bianco FCEyN 2013 105
Test de Cociente de Verosimilitud
El test de F tambien puede motivarse como test de cociente de verosimilitud.
Sea Ω el conjunto de supuestos generales y supongamos que bajo este modelotesteamos la hipotesis H, llamemos ω = Ω ∩H. Ası, por ejemplo, si
Ω : Y ∼ Nn(Xβ, σ2I) β = (β0, β1, . . . , βp−1)′
yH : β1 = . . . = βp−1 = 0
entonces ω = Ω ∩H equivale aY ∼ Nn(β0, σ2I) .
Si p(y) es la funcion de densidad o de probabilidad de Y definimos λ el es-tadıstico del cociente de verosimilitud como
λ =maxω p(y)
maxΩ p(y)
Notemos que 0 ≤ λ ≤ 1 ya que ω ∈ Ω y por lo tanto maxω p(y) ≤ maxΩ p(y).
Modelo Lineal A. M. Bianco FCEyN 2013 106
H sera rechazada cuando maxω p(y) es mucho mas chico que maxΩ p(y), porlo tanto rechazaremos H si λ < λα.
Existen dos formas equivalentes de plantear las hipotesis:
• 1)Ω : Y ∼ Nn(Xβ, σ2I) rg = rH : Ψ1 = Ψ2 = . . . = Ψq = 0
donde Ψi son l.i. funciones estimables• 2)
Ω : Y ∼ Nn(η, σ2I) η ∈ VrH : η ∈ Vr−q
donde Vr es un subespacio de dimension r en <n y Vr−q es un subespaciode dimension r − q en Vr .
Vr es el espacio generado por las columnas de X y Vr−q es el espacio al cual
Modelo Lineal A. M. Bianco FCEyN 2013 107
esta restringido η a yacer al imponerle las restricciones Ψ1 = Ψ2 = . . . =Ψq = 0.
Las dos formas son equivalentes, nosotros probaremos que • 1) =⇒ • 2).Tenemos que Y ∼ Nn(η, σ
2I) η ∈ Vr . Llamemos C a la matriz tal queΨ = Cβ. Luego:
Vω = v = Xβ tal que Cβ = 0 = v = Xβ tal que A∗Xβ = 0= v = Xβ tal que A∗v = 0
A∗ =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
a∗1...a∗q
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
. Es decir, v ⊥ a∗i 1 ≤ i ≤ q.
Como rg = q entonces a∗1, . . . , a∗q son l.i. Por lo tanto, v ∈ V⊥<a∗1...a∗q> :
complemento ortogonal de V<a∗1...a∗q> en Vr .
Modelo Lineal A. M. Bianco FCEyN 2013 108
Ademas, tenemos que
r = dim(V<a∗1...a∗q>) + dim(V⊥<a∗1...a∗q>
)
por lo tanto,dim(V⊥<a∗1...a∗q>) = dim(Vω) = r − q
Calculemos λ. Para ello deberemos calcular el maximo de de p(y) en c/u delos subespacios.
Veremos que λ =⎛⎝ ‖y−η‖2‖y−ηω‖2
⎞⎠n/2
y por lo tanto rechazamos H0 si
λ =
⎛⎜⎜⎝‖y − η‖2‖y − ηω‖2
⎞⎟⎟⎠
n/2
< kα
Si aplicamos a este cociente la funcion g(t) = n−rq
(t−2/n − 1
), resulta
F =n − rq
‖y − ηω‖2 − ‖y − η‖2‖y − η‖2
=1
q
‖y − ηω‖2 − ‖y − η‖2s2
Modelo Lineal A. M. Bianco FCEyN 2013 109
Como veremos
F =1
q
‖ηω − η‖2s2
Luego, rechazaremos H si
1
q
‖ηω − η‖2s2
> λα
Una interpretacion intuitiva para este test es que ‖y− ηω‖2 y ‖y− η‖2 midencuan bien ajustan los modelos ω y Ω, respectivamente. Por lo tanto, su cocientecompara el ajuste de ω con el de Ω y rechazamos H si este cociente es grande:
F > λα
¿ Que distribucion tiene el cociente F?
Tenemos que Vr−q ∈ Vr ∈ <n. Tomemos una base ortonormal de Vr−q :αq+1, . . .αr y la extendemos a una base ortonormal deVr : α1, . . . ,αq,αq+1, . . . ,αr y finalmente a una de <n:α1, . . . ,αr ,αr+1, . . . ,αn.
Modelo Lineal A. M. Bianco FCEyN 2013 110
α1, . . . ,αq,αq+1, . . . ,αr ,αr+1, . . . ,αn
Por lo tanto,
y ∈ <n : y = n∑
j=1zjαj
y tenemos que
α′iy =n∑
j=1zjα
′iαj = ziα
′iαi = zi ∀i = 1, . . . , n
Luego, si definimos a T como la matriz que tiene filas α′i , entonces
z = Ty
Observemos que bajo el modelo Ω
E(zi) =
⎧⎨⎩
α′iη = ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n
Σz = TΣyT′ = σ2I
Modelo Lineal A. M. Bianco FCEyN 2013 111
Bajo el modelo ω, tenemos que η = E(Y) ∈ Vr−q, es decir α′iη = 0 parai = 1, . . . , q.
E(zi) =
⎧⎨⎩
0 si 1 ≤ i ≤ qξi si q + 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n
Entonces podemos escribir:
Ω : z ∼ Nn(ξ, σ2I) ξi = 0 i ≥ r + 1ω : z ∼ Nn(ξ, σ2I) ξi = 0 1 ≤ i ≤ q y i ≥ r + 1
Utilizando la notacion de Scheffe tendremos
SΩ = ‖y − η‖2 =n∑
i=r+1z2i
Sω = ‖y − ηω‖2 =q∑
i=1z2i +
n∑
i=r+1z2i
y ademas
Sω − SΩ =q∑
i=1z2i
Modelo Lineal A. M. Bianco FCEyN 2013 112
‖y − ηω‖2 − ‖y − η‖2 = ‖η − ηω‖2 =q∑
i=1z2i
Ademas, bajo H tenemos que Sω−SΩσ2∼ χq independiente de s
2 y en conse-cuencia
1
q
Sω − SΩs2
∼ Fq,n−r
Rechazamos H si1
q
Sω − SΩs2
> Fq,n−r,α
Observacion: Puede demostrarse que este test es equivalente al tests de Fya visto.
Modelo Lineal A. M. Bianco FCEyN 2013 113
Modelo Lineal A. M. Bianco FCEyN 2013 114
Ejemplo:
Significacion de la Regresion. Tabla de Analisis de la Varianza
Supongamos que tenemos el modelo con intercept dado por
E(Y) = β0 + β1x1 + β2x2 + . . .+ βp−1xp−1
y queremos testear
Ho : β1 = β2 = . . . = βp−1 = 0
de manera que ω = Ω ∩ H. H impone p − 1 restricciones l.i. Trataremos elcaso en que rg(X) = p
¿Quien es Vω?dim(Vω) = r − (p − 1) = p − (p − 1) = 1 y tenemos que V1 ∈ Vp¿Quien es ηω?
Bajo ω, β1 = . . . = βp−1 = 0, E(Y) = β0.
Tenemos que:
Modelo Lineal A. M. Bianco FCEyN 2013 115
Xω =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
11..1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
→ ˆβ0 = (X
′ωXω)
−1X′ωY =1
n
n∑
i=1yi = Y.
Luego: ηω = X′ωˆβ0 =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
YY..Y
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
Ademas:‖Y‖2 = ‖Y − η‖2 + ‖η − ηω‖2 + ‖ηω‖2
Bajo Ω si rg(X) = p
ˆβΩ = (X
′X)−1X′Y → η = PY donde P = X(X′X)−1X′
Modelo Lineal A. M. Bianco FCEyN 2013 116
En efecto, ηω es la proyeccion ortogonal de η sobre Vω = V1. Si fuera ası,entonce η − ηω ⊥ ηω.
η = PY y ηω = 1(1′1)−11′Y = P1Y
luego,
(η−ηω)′ηω = Y′(P−Pω)PωY = Y′(PPω−P′ωPω)Y = Y′(Pω−Pω)′PωY = 0
Modelo Lineal A. M. Bianco FCEyN 2013 117
‖Y‖2 = ‖Y − η‖2 + ‖η − ηω‖2 + ‖ηω‖2Llamaremos
‖Y‖2: suma de cuadrados total‖Y − η‖2: suma de cuadrados residual‖η − ηω‖2: suma de cuadrados de la regresion‖Y − ηω‖2: suma de cuadrados total corregida
Tenemos las siguientes igualdades
‖Y‖2 = Y′Y g.l=n
‖Y − η‖2 = Y′Y − ˆβ′XY g.l=n − p
‖η − ηω‖2 = ˆβ′XY − n(Y)2 g.l=p − 1
‖Y − ηω‖2 = Y′Y − n(Y)2 g.l=n − 1
Modelo Lineal A. M. Bianco FCEyN 2013 118
Si quisieramos verificar la significacion de la regresion, harıamos
F =‖η − ηω‖2/p − 1‖Y − η‖2/n − p
Muchos programas ofrecen en su salida una tabla como la que sigue
Fuente g.l. M.S. F p-valor
Regresion ‖η‖2 − n(Y)2 p − 1 (1) = ‖η‖2−n(Y)2p−1
Residual ‖Y − η‖2 n − p (2) = ‖Y−η‖2n−p (1)/(2)
Tot. Cor. ‖Y‖2 − n(Y)2 n − 1Cuadro 1: Tabla de ANOVA
Modelo Lineal A. M. Bianco FCEyN 2013 119
Datos de Biomasa
Produccion de biomasa en el estuario de Cape Fear: los datos corresponden aun estudio de la Universidad de North Carolina en el que se muestrearon 3 tiposde vegetacion en tres localidades. En cada una se muestreo al azar 5 lugarescon un total de 45 observaciones. Analizaremos las variables del sustrato:
x1=SAL: Salinidad
x2=pH: Acidez
x3= K: Potasio
x4=Naa: Sodio
x5=Zn: Zinc
y : Biomasa Aerea
En esta etapa nos concentraremos en identificar aquellas variables que muestranmayor relacion con y . Ajustaremos el modelo
E(y) = β0 + β1SAL+ β2pH + β3K + β4Naa + β5Zn
Modelo Lineal A. M. Bianco FCEyN 2013 120
SALIDA DE S-PLUS
DATOS DE BIOMASA
¿ sal.lm
Call:
lm(formula = BIO ˜ ., data = bio)
Coefficients:
(Intercept) K NAA PH SAL ZN
1252.589 -0.2853166 -0.008662343 305.4821 -30.28808 -20.67844
Degrees of freedom: 45 total; 39 residual
Residual standard error: 398.2671
¿ summary(sal.lm)
Call: lm(formula = BIO ˜ ., data = bio)
Residuals:
Min 1Q Median 3Q Max
-748.1 -223.7 -85.22 139.1 1072
Modelo Lineal A. M. Bianco FCEyN 2013 121
Coefficients:
Value Std. Error t value Pr(¿—t—)
(Intercept) 1252.5895 1234.7294 1.0145 0.3166
K -0.2853 0.3483 -0.8191 0.4177
NAA -0.0087 0.0159 -0.5438 0.5897
PH 305.4821 87.8831 3.4760 0.0013
SAL -30.2881 24.0298 -1.2604 0.2150
ZN -20.6784 15.0544 -1.3736 0.1774
Residual standard error: 398.3 on 39 degrees of freedom
Multiple R-Squared: 0.6773
F-statistic: 16.37 on 5 and 39 degrees of freedom, the p-value is 1.082e-008
Correlation of Coefficients:
(Intercept) K NAA PH SAL
K -0.3122
NAA 0.3767 -0.8103
PH -0.8406 0.1212 -0.2442
SAL -0.9180 0.3047 -0.4324 0.6045
ZN -0.8809 0.1908 -0.3386 0.8350 0.7113
Modelo Lineal A. M. Bianco FCEyN 2013 122
SALIDA DE SX
PREDICTOR
VARIABLES COEFFICIENT STD ERROR STUDENT’S T P VIF
--------- ----------- --------- ----------- ------ -----
CONSTANT 1252.59 1234.73 1.01 0.3166
K -0.28532 0.34832 -0.82 0.4177 3.0
NAA -0.00866 0.01593 -0.54 0.5897 3.3
PH 305.482 87.8831 3.48 0.0013 3.3
SAL -30.2881 24.0298 -1.26 0.2150 2.2
ZN -20.6784 15.0544 -1.37 0.1774 4.3
R-SQUARED 0.6773 RESID. MEAN SQUARE (MSE) 158617
ADJUSTED R-SQUARED 0.6360 STANDARD DEVIATION 398.267
SOURCE DF SS MS F P
---------- --- ---------- ---------- ----- ------
REGRESSION 5 1.298E+07 2596983 16.37 0.0000
RESIDUAL 39 6186050 158617
TOTAL 44 1.917E+07
CASES INCLUDED 45 MISSING CASES 0
Modelo Lineal A. M. Bianco FCEyN 2013 123
Hipotesis Anidadas
La interpretacion del test de F en terminos de las hipotesis anidadas.
Supongamos que tenemos H1, H2, . . . , Hk un conjunto de hipotesis que im-ponen q1, q2, . . . , qk restricciones independientes, respectivamente. Luego, lasq1+q2+. . .+qk funciones estimables son l.i. La secuencia de hipotesis anidadasestara dada por
Ω, ω1 = Ω ∩H1, ω2 = Ω ∩ H1 ∩H2, . . . , ωk = Ω ∩H1 ∩H2 . . . ∩HkSi lamamos V(j) a los espacios asociados cada uno de dimensionr − q1 − q2 − . . .− qj
V(r) ⊃ V(r−q1) ⊃ . . .V(r−q1−q2−...−qk)
Sea ηωj la proyeccion ortogonal de Y sobre V(j), por lo tanto tenemos que
Y = Y − η + η − ηω1 + ηω1 − ηω2 + . . .+ ηωk−1 − ηωk + ηωk
Modelo Lineal A. M. Bianco FCEyN 2013 124
y en consecuencia
‖Y ‖2 = ‖Y −η‖2+‖η−ηω1‖2+‖ηω1−ηω2‖2+. . .+‖ηωk−1−ηωk‖2+‖ηωk‖
2
donde cada suma tiene una distribucion χ2 no central bajo Ω con n−r, q1, q2, . . . , qk,r − q1 − q2 − . . .− qk grados de libertad.
Modelo Lineal A. M. Bianco FCEyN 2013 125
Intervalos Simultaneos y Regiones de Confianza
Metodo de Bonferroni
Queremos hallar intervalos de confianza para q combinaciones lineales de laforma c′iβ i = 1, 2, . . . , q.
Bajo normalidad, para cada combinacion lineal el intervalo de la forma
c′iˆβ ± tn−r,δ/2σc′i ˆβ
tiene nivel 1− δ.
Definamos los eventos
Ei : c′iβ pertenece al intervalo i
tenemos que P (Ei) = 1− δLuego,
1− α = P (todos los intervalos son correctos) = P (∩qi=1Ei)
Modelo Lineal A. M. Bianco FCEyN 2013 126
= 1− P ((∩qi=1Ei)c) = 1− P (∪qi=1Eci )≥ 1−
q∑
i=1P (Eci ) = 1− qδ
Ası, por ejemplo si cada intervalo tiene nivel 0.95 (δ = 0.05) y q = 10 ten-drıamos que
1− α ≥ 1− qδ = 1− 10 ∗ 0.05 = 0.50¿ Como podrıamos mejorar esto?
Si cada δ =α
q, entonces preservarıamos un nivel global superior a 1− α.
Una clara desventaja de este metodo es que si q es grande al exigir que cadaintervalo tenga nivel 1 − α
q , podemos obtener intervalos muy anchos y por lotanto, de escaso valor practico.
Modelo Lineal A. M. Bianco FCEyN 2013 127
Metodo de Scheffe
Supondremos s.p.g. que c1, c2, . . . , cq son l.i. Sea Ψ = Cβ, donde C ∈ IRq×p.Inicialmente supondremos que rg(X) = p. En este caso, sabemos que
(ˆΨ−Ψ)′(C(X′X)−1C′)−1(ˆΨ−Ψ)qs2
∼ Fq,n−pentonces
1− α = P (Fq,n−p ≤ Fq,n−p,α)
= P((ˆΨ−Ψ)′(C(X′X)−1C′)−1(ˆΨ−Ψ) ≤ qs2Fq,n−p,α
)
= P((ˆΨ−Ψ)′L−1(ˆΨ−Ψ) ≤ m
)
= P(b′L−1b ≤ m
)
Modelo Lineal A. M. Bianco FCEyN 2013 128
Recordemos que dada L una matriz definida positiva tenemos que
suph6=0
(h′b)2
h′Lh= b′L−1b
con lo cual, tenemos
1− α = P
⎛⎜⎜⎜⎝suph6=0
(h′b)2
h′Lh≤ m
⎞⎟⎟⎟⎠
= P
⎛⎜⎜⎜⎝(h′b)2
h′Lh≤ m ∀h 6= 0
⎞⎟⎟⎟⎠
= P
⎛⎜⎜⎝
∣∣∣∣h′ˆΨ− h′Ψ∣∣∣∣
s(h′Lh)1/2≤
√qFq,n−p,α ∀h 6= 0
⎞⎟⎟⎠
= P(∣∣∣∣h′ˆΨ− h′Ψ
∣∣∣∣ ≤√qFq,n−p,α s(h
′Lh)1/2 ∀h 6= 0)
Modelo Lineal A. M. Bianco FCEyN 2013 129
Luego, para cualquier funcion lineal h′Ψ tenemos el intervalo de confianza
h′ˆΨ±√qFq,n−p,α s(h
′Lh)1/2
siendo la probabilidad total de la clase 1− α.
Supongamos que r = p y C = Ip, en ese caso tendrıamos
(ˆβ − β)′(X′X)(ˆβ − β) ≤ ps2Fp,n−p,αque define lo que se conoce como el elipsoide de confianza.
Modelo Lineal A. M. Bianco FCEyN 2013 130
¿Como es en el caso general en el que rg(X) = r?
Tenemos que c′1β, c′2β, . . . , c
′qβ son l.i. Sea Ψ = Cβ, donde C ∈ IRq×p,
rg(C) = q.
Recordemos que(ˆΨ−Ψ)′B−1(ˆΨ−Ψ)
qs2∼ Fq,n−r
donde ˆΨ ∼ N(Ψ,ΣΨ),ΣΨ = σ2B = σ2A∗A∗′.
Como rg(C) = q, entonces B tiene inversa, por lo tanto
1− α = P ((ˆΨ −Ψ)′B−1(ˆΨ−Ψ) ≤ qs2Fq,n−r,α)= P ((ˆΨ −Ψ)′B−1(ˆΨ−Ψ) ≤ m)
= P (suph6=0
(h′b)2
h′Bh≤ m)
= P (
∣∣∣∣h′ˆΨ− h′Ψ∣∣∣∣
s(h′Bh)1/2≤
√qFq,n−r,α ∀h 6= 0)
Modelo Lineal A. M. Bianco FCEyN 2013 131
De esta forma,h′ˆΨ±
√qFq,n−r,α s(h
′Bh)1/2
resulta un intervalo de confianza para la funcion lineal h′Ψ y la probabilidadtotal de la clase es 1− α. Observemos que este intervalo es de la forma:
h′ˆΨ±√qFq,n−r,α σh′Ψ
Modelo Lineal A. M. Bianco FCEyN 2013 132
Volvamos al ejemplo de Biomasa
¿ cor(xx)
BIO K NAA PH SAL ZN
BIO 1.0000000 -0.20511626 -0.27206950 0.77418613 -0.10316780 -0.62440784
K -0.2051163 1.00000000 0.79213460 0.01869352 -0.02049881 0.07396686
NAA -0.2720695 0.79213460 1.00000000 -0.03771997 0.16226567 0.11704693
PH 0.7741861 0.01869352 -0.03771997 1.00000000 -0.05133280 -0.72216711
SAL -0.1031678 -0.02049881 0.16226567 -0.05133280 1.00000000 -0.42083353
ZN -0.6244078 0.07396686 0.11704693 -0.72216711 -0.42083353 1.00000000
Analisis con todas las variables: lm(formula = BIO ˜ K + NAA + PH + SAL + ZN)
Value Std. Error t value Pr(¿—t—)
(Intercept) 1252.5895 1234.7294 1.0145 0.3166
K -0.2853 0.3483 -0.8191 0.4177
NAA -0.0087 0.0159 -0.5438 0.5897
PH 305.4821 87.8831 3.4760 0.0013
SAL -30.2881 24.0298 -1.2604 0.2150
ZN -20.6784 15.0544 -1.3736 0.1774
Residual standard error: 398.3 on 39 degrees of freedom
Multiple R-Squared: 0.6773
F-statistic: 16.37 on 5 and 39 degrees of freedom, the p-value is 1.082e-008
Modelo Lineal A. M. Bianco FCEyN 2013 133
lm(formula = BIO ˜ K + PH + SAL + ZN)
Value Std. Error t value Pr(¿—t—)
(Intercept) 1505.4479 1133.6647 1.3279 0.1917
K -0.4388 0.2023 -2.1688 0.0361
PH 293.8169 84.4685 3.4784 0.0012
SAL -35.9374 21.4758 -1.6734 0.1021
ZN -23.4497 14.0396 -1.6703 0.1027
Residual standard error: 394.7 on 40 degrees of freedom
Multiple R-Squared: 0.6749
F-statistic: 20.76 on 4 and 40 degrees of freedom, the p-value is 2.525e-009
lm(formula = BIO ˜ K + PH + SAL)
Value Std. Error t value Pr(¿—t—)
(Intercept) -131.1184 582.5120 -0.2251 0.8230
K -0.4900 0.2043 -2.3985 0.0211
PH 410.1454 48.8253 8.4003 0.0000
SAL -12.0533 16.3687 -0.7364 0.4657
Residual standard error: 403.3 on 41 degrees of freedom
Multiple R-Squared: 0.6522
F-statistic: 25.63 on 3 and 41 degrees of freedom, the p-value is 1.682e-009
Modelo Lineal A. M. Bianco FCEyN 2013 134
lm(formula = BIO ˜ K + PH)
Value Std. Error t value Pr(¿—t—)
(Intercept) -506.7131 279.8016 -1.8110 0.0773
K -0.4871 0.2031 -2.3977 0.0210
PH 411.9779 48.4954 8.4952 0.0000
Residual standard error: 401.1 on 42 degrees of freedom
Multiple R-Squared: 0.6476
F-statistic: 38.59 on 2 and 42 degrees of freedom, the p-value is 3.074e-010
Los intervalos de confianza de nivel individual 95% obtenidos a partir del ultimomodelo ajustado serıan tal como vimos de la forma
ˆβi ± t42,0.025σβi siendo t42,0.025 = 2.018
En este caso resultan:
-1.072 < β0 < 58
314 < βPH < 510
-0.898 < βK < -0.077
Modelo Lineal A. M. Bianco FCEyN 2013 135
Si los calculamos con el metodo de Bonferroni como para que el nivel globalresulte 95% usarıamos t42,0.025/3 = 2.50 y estos resultan
-1.206 < β0 < 192
291 < βPH < 533
-0.995 < βK < 0.021
La region de confianza obtenida a partir de metodo de Scheffe serıa
Modelo Lineal A. M. Bianco FCEyN 2013 136
Modelo Lineal A. M. Bianco FCEyN 2013 137
Comparacion entre los metodos
Se puede ver que si las q combinaciones son l.i. entonces
tν, α2q <√qFq,ν,α
Por ejemplo, si α = 0,05, q = 5 y n = 26, entonces
√qFq,ν,α = 3,68 tν, α2q = 2,85
En general, si se quieren realizar intervalos simultaneos para k funciones parametri-cas de las cuales q son l.i.,para α = 0,05 se puede ver que si q ≤ k y k nomucho mas grande que q, entonces
tν, α2k <√qFq,ν,α
Cuando k es mucho mas grande que q, entonces la desigualdad se invierte.
Modelo Lineal A. M. Bianco FCEyN 2013 138
Relacion entre el tests de F y el metodo de Scheffe
Los intervalosh′ˆΨ±
√qFq,n−r,α s(hBh)
1/2 (∗)y el test de F para chequear H : Ψ = δ estan relacionados.
El test de F no es significativo al nivel α si y solo si
(ˆΨ− δ)′B−1(ˆΨ− δ)qs2
≤ Fq,n−r,α
que es cierto si y solo si Ψ = δ esta en la region (ˆΨ−Ψ)′B−1(ˆΨ−Ψ) ≤ m,o sea si y solo si h′δ esta contenido en (*).
Dicho de otra forma, F es significativo si uno o mas intervalos (*) no contienena h′δ, el problema es identificar cual de las combinaciones lineales es la que noesta contenida.
Modelo Lineal A. M. Bianco FCEyN 2013 139
Coeficiente de Correlacion Multiple ( o coeficiente de determinacion)
Supongamos que tenemos el modelo
yi = β0 + β1xi1 + β2xi2 + . . .+ βp−1xip−1 + εi
y nos interesa testear
H : β1 = . . . = βp−1 = 0
Consideremos Ω y ω = Ω ∩ H. Llamaremos η a la proyeccion de Y sobre elsubespacio asociado a Ω y ηω a la proyeccion sobre el subespacio asociado aω.
¿Cual es la correlacion muestral entre el vector de observaciones Y y el vectorde predichos ˆY (o η) ?
R =
n∑
i=1(yi − y)(yi − y)
n∑
i=1(yi − y)2
n∑
i=1(yi − y)21/2
Modelo Lineal A. M. Bianco FCEyN 2013 140
Recordemos que cuando hay ordenada al origen, tenemos que
∂
∂β0‖Y−Xβ‖2 = n∑
i=1(yi−(β0+β1xi1+β2xi2+. . .+βp−1xip−1) =
n∑
i=1(yi−yi)2 = 0
entoncesy = y
y en consecuencia
R =
n∑
i=1(yi − y)(yi − y)
n∑
i=1(yi − y)2
n∑
i=1(yi − y)21/2
Visto en terminos de proyecciones y productos internos, tendrıamos
R =〈Y − ηω, η − ηω〉‖Y − ηω‖‖η − ηω‖
Como
〈Y − ηω, η − ηω〉 = 〈Y − η, η − ηω〉+ 〈η − ηω, η − ηω〉= ‖η − ηω‖2
Modelo Lineal A. M. Bianco FCEyN 2013 141
obtenemos que
R2 =‖η − ηω‖2‖Y − ηω‖2
=Suma Cuadrados Total Regresion
Suma Cuadrados Total Corregida
es decir
R2 =
n∑
i=1(yi − y)2
n∑
i=1(yi − y)2
La relacion entre el estadıstico F y el coeficiente de correlacion multiple esta da-da por el siguiente resultado
Modelo Lineal A. M. Bianco FCEyN 2013 142
Teorema: Supongamos que deseamos testear H : Cβ = 0, que no involucraal intercept β0, es decir C es de la forma [0,C1]. Consideremos ω1 = Ω ∩ H.Sea
R2ω1 =
n∑
i=1(yiω1 − y)2n∑
i=1(yi − y)2
entonces el estadıstico F para testear H sera
F =(R2 − R2ω1)(n − p)(1− R2)q
Como corolario de este teorema obtenemos que R2 − R2ω1 ≥ 0 pues F ≥ 0 ypor lo tanto, el coeficiente de correlacion multiple o de determinacion R2 nuncadecrece al agregar una variable regresora extra.
Esta es una deventaja de R2 si uno lo quiere usar para comparar el ajuste demodelos de distinto numero de covariables, y por esta razon se suele utilizar elcoeficiente de determinacion ajustado definido por
Modelo Lineal A. M. Bianco FCEyN 2013 143
R2adj = 1− (1− R2)n
n − pque no crece necesariamente con p y de hecho se puede demostrar que R2adjaumenta al agregar una covariable solo si el estadıstico F que testea que losparametros agregados son 0 es mayor a 1.
Modelo Lineal A. M. Bianco FCEyN 2013 144
Distribuciones χ2, F y t no centrales
Def: Sean X1, · · · , Xν va. independientes tales que Xi ∼ N(ξi , 1). Luego:
U =ν∑
i=1X2i ∼ χ
′2ν,δ
donde el parametro de no centralidad es δ =
⎛⎜⎝ν∑
i=1ξ2i
⎞⎟⎠1/2
.
Se puede ver que si Yi ∼ N(0, 1) independientes entonces:
U = (Y1 + δ)2 +
ν∑
i=2Y 2i
U = (Y1 + δ)2 + χ2ν−1
Propiedades:
E(χ′2ν,δ) = ν + δ
Modelo Lineal A. M. Bianco FCEyN 2013 145
V ar (χ′2ν,δ) = 2ν + 4δ
2
Suma de χ2 no centrales independientes:
Si U1 ∼ χ′2ν1,δ1independiente de U2 ∼ χ
′2ν2,δ2, entonces
U1 + U2 ∼ χ′2ν1+ν2,(δ
21+δ
22)1/2
Distribucion F no central:
Def: Si U1 ∼ χ′2ν1,δ1independiente de U2 ∼ χ2ν2, tenemos que
U1/ν1U2/ν2
∼ F ′ν1,ν2,δ1es decir, F no central de ν1 y ν2 grados de libertad y parametro de no cen-
Modelo Lineal A. M. Bianco FCEyN 2013 146
tralidad δ1.
Distribucion t no central:
Def: Sean X ∼ N(δ, 1) independiente de U ∼ χ2ν, tenemos queX
√U/ν
∼ t ′ν,δ
es decir, t no central con ν y parametro de no centralidad δ.
Observacion: Notemos que t′ν,δ = F
′1,ν,δ
Potencia del test de F
Consideremos la base ortonormal de IRn:
α1, . . . ,αq,αq+1, . . . ,αr ,αr+1, . . . ,αn
Modelo Lineal A. M. Bianco FCEyN 2013 147
dondeVr−q : αq+1, . . . ,αr
Vr : α1, . . . ,αq,αq+1, . . . ,αrPor lo tanto,
y ∈ <n =⇒ y = n∑
j=1zjαj =⇒ α′iy = zi
y si definimos a T como la matriz que tiene filas α′i , entonces
z = Ty
Observemos que bajo el modelo Ω
zi independientes y zi ∼ N(ξi , σ2)donde
ξr+1 = ξr+2 = · · · = ξn = 0Bajo el modelo restringido ω, tenemos que
ξ1 = ξ2 = · · · = ξq = 0
Modelo Lineal A. M. Bianco FCEyN 2013 148
Usamos el estadıstico F :
‖η − ηω‖2qs2
=∑qi=1 z
2i
qs2
donde
s2 =
n∑
i=r+1z2i
n − rYa probamos que z1, · · · , zq y zr+1, · · · , zn son independientes y comoE(zi) = 0 si i ≥ r + 1 =⇒
n∑
i=r+1
⎛⎝ziσ
⎞⎠2
=(n − r )s2
σ2∼ χ2n−r
Sin embargo, si H0 es ciertaq∑
i=1
⎛⎝ziσ
⎞⎠2
∼ χ2qde lo contrario
ziσ∼ N(ξi
σ, 1)
Modelo Lineal A. M. Bianco FCEyN 2013 149
⇓
q∑
i=1
⎛⎝ziσ
⎞⎠2
∼ χ′2q,δ con δ2 =q∑
i=1
⎛⎜⎝ξiσ
⎞⎟⎠
2
Por lo tanto, si H0 no es cierta
F =‖η − ηω‖2
qs2∼ F ′q,n−r,δ
y la potencia del test sera:
P (F′q,n−r,δ ≥ Fq,n−r,α)
donde
δ =
√√√√√√q∑
i=1
⎛⎜⎝ξiσ
⎞⎟⎠
2
Modelo Lineal A. M. Bianco FCEyN 2013 150
¿Como se calcula δ en terminos de los parametros originales?
z = Ty =⇒ zi = α′iy =
n∑
j=1αi jyj =⇒ ξi = E(zi) = α
′iη
en consecuenciaξi = E(zi) =
n∑
j=1αi jηj
Tenemos las siguientes igualdades:
‖η − ηω‖2 =q∑
i=1z2i
σ2δ2 =q∑
i=1ξ2i
y reemplazando a las zi ’s obtenemos
‖η − ηω‖2 =q∑
i=1
⎛⎜⎝n∑
j=1αi jyj
⎞⎟⎠2
σ2δ2 =q∑
i=1
⎛⎜⎝n∑
j=1αi jηj
⎞⎟⎠2
Modelo Lineal A. M. Bianco FCEyN 2013 151
Con lo cual obtenemos la Regla 1: Bajo el modelo Ω
obtenemos σ2δ2 reemplazando en la suma de cuadrados ‖η − ηω‖2 cada Yipor su valor esperado.
Cuadrados Medios
En el denomirador del estadıstico F tenemos: s2 = ‖y−η‖2n−r y su esperanza es
σ2.
En el numerador del estadıstico F tenemos:‖η − ηω‖2
q=
∑qi=1 z
2i
qluego
E
⎛⎜⎜⎝‖η − ηω‖2
q
⎞⎟⎟⎠ = E
⎛⎜⎜⎝
∑qi=1 z
2i
q
⎞⎟⎟⎠
=1
q
q∑
i=1E(z2i )
Modelo Lineal A. M. Bianco FCEyN 2013 152
=1
q
q∑
i=1(σ2 + ξ2i )
= σ2 + q−1σ2δ2
Podemos calcular σ2δ2 con la Regla 1. Observemos que en realidad aquı noes necesaria la normalidad, solo alcanza con tener el modelo
Ω′ : E(Y) = Xβ Σ = σ2I
¿Como quedarıa en el caso de regresion lineal?
Ω : Yi = β0 + β1xi + εi εi ∼ N(0, σ2) independientes
ConsideremosH0 : β1 = 0 H1 : β1 6= 0
Modelo Lineal A. M. Bianco FCEyN 2013 153
Bajo ω = Ω∩H0 tenemos que Yi = β0+ εi , entonces el estimador de mınimoscuadrados sera ˆ
β0 = Y .
Para calcular la potencia necesitamos:
‖η − ηω‖2 =n∑
i=1(ˆβ0 +
ˆβ1xi − Y )2
Usando la Regla 1, reemplazamos por los valores esperados bajo Ω:
σ2δ2 =n∑
i=1
⎛⎜⎜⎜⎜⎜⎜⎜⎝β0 + β1xi −
n∑
i=1(β0 + β1xi)
n
⎞⎟⎟⎟⎟⎟⎟⎟⎠
2
=n∑
i=1(β0 + β1xi − β0 − β1x)2
=n∑
i=1β12 (xi − x)2
= β12 n∑
i=1(xi − x)2
Modelo Lineal A. M. Bianco FCEyN 2013 154
por lo tanto
δ2 =β12 n∑
i=1(xi − x)2
σ2
Analisis de la Varianza de 1 Factor (ANOVA 1)
En el Analisis de la Varianza de 1 Factor nos interesa comparar las medias de kpoblaciones . Supongamos que tenemos k poblaciones y llamamos β1, · · · , βka sus medias y que ademas cada poblacion se distribuye segun una normal ytodas tienen la misma varianza σ2.
Es decir, observamos
y11, y12, . . . , y1j . . . , y1n1 ∼ N(β1, σ2)
y21, y22, . . . , y2j . . . , y2n2 ∼ N(β2, σ2)
· · ·yk1, yk2, . . . , ykj . . . , yknk ∼ N(βk , σ
2)
Modelo Lineal A. M. Bianco FCEyN 2013 155
donde yi j es la j-esima observacion de la i-esima poblacion, todas independientes.En total se tienen n =
∑ki=1 ni observaciones.
Podemos escribir este modelo como.
yi j = βi + εi j i =, · · · , k j = 1, · · · , niεi j ∼ N(0, σ2) independientes
Deseamos testear:
H0 : β1 = · · · = βk H1 : existen i 6= j : βi 6= βj
Podrıamos escribir esto en forma matricial definiendo:
Modelo Lineal A. M. Bianco FCEyN 2013 156
Y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
y11y12. . .
y1n1y21y22. . .
. . .
. . .
y2n2· · ·yk1yk2. . .
yknk
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;X =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 0 0 ... 0
1 0 0 ... 0
. . . . .
1 0 0 ... 0
0 1 0 ... 0
0 1 0 ... 0
. . . . .
. . . . .
. . . . .
0 1 0 ... 0
. . . . .
0 0 0 ... 1
0 0 0 ... 1
. . . . .
0 0 0 ... 1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;β =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
β1β2...
...
...
βk
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
donde rg(X) = k . En consecuencia en este modelo todas las funciones de laforma c′β son estimables.
Modelo Lineal A. M. Bianco FCEyN 2013 157
Ejemplo (ANOVA 1) En la siguiente tabla se muestran los porcentajes decontenido de acidos grasos no saturados activos (PAPFUA) presentes en 6margarinas dieteticas:
IMPERIAL PARKAY BLUE BONNET CHIFFON MAZOLA FLEISCHMANN’S
14.1 12.8 13.5 13.2 16.8 18.1
13.6 12.5 13.4 12.7 17.2 17.1
14.4 13.4 14.1 12.6 16.4 18.3
14.3 13 14.3 13.9 17.3 18.4
12.3 18
Las preguntas que se plantean los investigadores son:
a) Se desea saber si hay diferencias en los contenidos medios de PAPFUA delas 6 margarinas consideradas.
b) La margarinas Mazola y Fleischmann’s son de tipo cereal, mientras quelas otras son de tipo soja. Interesa obtener un intervalo de confianza paraβ1+β2+β3+β4
4 − β5+β62 .
Modelo Lineal A. M. Bianco FCEyN 2013 158
En este caso k = 6, n1 = n3 = n4 = n6 = 4 y n2 = n5 = 5, por lo tanton = 26
Volvamos al caso general
Buscamos minimizar:
S(β) = k∑
i=1
ni∑
j=1(yi j − βi)2
luego∂S(β)∂βr
= −2nr∑
j=1(yr j − βr) = 0 r = 1, · · · , k
Por lo tanto, para cada r = 1, . . . , k
ˆβr =
∑nrj=1 yr jnr
= Y r.
Por otro lado, minimizar bajo ω = Ω ∩H0 es buscar el mınimo de
S∗(β) = k∑
i=1
ni∑
j=1(yi j − β)2
Modelo Lineal A. M. Bianco FCEyN 2013 159
luego∂S∗(β)∂β
= −2 k∑
i=1
ni∑
j=1(yi j − β) = 0
y en consecuencia
ˆβ =
∑ki=1
∑nij=1 yi jn
= Y .. (=∑ki=1 niy i .n
)
Para calcular el estadıstico F necesitamos:
‖η − ηω‖2 =k∑
i=1
ni∑
j=1(Y i . − Y ..)2 =
k∑
i=1ni(Y i . − Y ..)2
‖Y − η‖2 = k∑
i=1
ni∑
j=1(Yi j − Y i .)2 =
k∑
i=1(ni − 1)s2i
Suma de Cuadrados Entre Grupos=‖η−ηω‖2: es una medida pesada dispersionde las k poblaciones respecto de la media general.
Suma de Cuadrados Dentro de los Grupos=‖Y−η‖2: es una medida combinada
Modelo Lineal A. M. Bianco FCEyN 2013 160
de la dispersion dentro de cada muestra.
La hipotesis nula a testear
H0 : β1 = · · · = βk
se puede escribir
H0 : β2 − β1 = · · · = βk − β1 = 0
Modelo Lineal A. M. Bianco FCEyN 2013 161
que es de la forma
Cβ =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
−1 1 0 ... 0−1 0 1 ... 0. . .. . .. . .−1 0 0 ... 1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
β1....βk
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
=
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
0....0
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
donde rg(C) = k − 1, luego q = k − 1 y por lo tanto, el estadıstico del testsera:
F =‖η − ηω‖2/(k − 1)‖Y − ηω‖2/(n − k)
y rechazaremos H0 si
F > Fk−1,n−k,α
Modelo Lineal A. M. Bianco FCEyN 2013 162
Con todo esto podemos armar la Tabla de Analisis de la Varianza de 1 Factorque es la salida tıpica de muchos programas que se utilizan para calcular estetest (ver Cuadro 2).
SC g.l. M.S. E(M.S.) F
Entrek∑
i=1
ni(Y i . − Y ..)2 k − 1 (1) =
k∑
i=1
ni(Y i . − Y ..)2
k−1 σ2 + (k − 1)−1k∑
i=1
ni(βi − β..)2
(1)/(2)
Dentrok∑
i=1
ni∑
j=1
(Yi j − Y i .)2 n − k (2) =
k∑
i=1
ni∑
j=1
(Yi j − Y i .)2
n−p σ2
Tot. Cor.k∑
i=1
ni∑
j=1
(Yi j − Y ..)2 n − 1
Cuadro 2: Tabla de ANOVA
Bajo Ω, F tiene una distribucion F no central con parametro de no centralidad
Modelo Lineal A. M. Bianco FCEyN 2013 163
dado por la Regla 1:
σ2δ2 =k∑
i=1ni(βi − β..)2
donde β.. =∑ki=1
ninβi
Si la hipotesis de igualdad de medias es rechazada, seguramente nos deseare-mos identificar aquellas βi que difieren entre sı, estaremos interesados en lasdiferencias βi − βj .Otras veces, como en el ejemplo, podrıan interesarnos algunas combinacionesparticulares, tales como
β1 −β2 + β32
o1
2(β1 + β2)−
1
3(β3 + β4 + β5)
Estas son combinaciones lineales de los parametros de la forma:
p∑
i=1ciβi con
p∑
i=1ci = 0
Estas combinaciones reciben el nombre de contrastes. Podrıamos utilizar cualquiera
Modelo Lineal A. M. Bianco FCEyN 2013 164
de los metodos vistos, si estuvieramos interesados en muchos contrastes elmetodos de Scheffe podrıa ser el mas adecuado. Para algunos casos particu-lares veremos el metodo introducido por Tukey.
Por ahora volvamos al ejemplo:
margarinas¡-read.table(”C:““Users““Ana““ModeloLineal““doctex““margarinas.txt”,header=T)
margarinas
PAPFUA TIPO
1 14.1 1
2 13.6 1
3 14.4 1
4 14.3 1
5 12.8 2
6 12.5 2
7 13.4 2
.
.
25 18.3 6
26 18.4 6
attach(margarinas)
tipo.f¡- factor(TIPO)
plot(tipo.f,PAPFUA)
Modelo Lineal A. M. Bianco FCEyN 2013 165
1 2 3 4 5 6
1314
1516
1718
salida¡- aov(PAPFUA˜tipo.f)
anova(salida)
Analysis of Variance Table
Response: PAPFUA
Modelo Lineal A. M. Bianco FCEyN 2013 166
Df Sum Sq Mean Sq F value Pr(¿F)
tipo.f 5 104.992 20.9984 79.736 1.642e-12 ***
Residuals 20 5.267 0.2634
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Como el p-valor es pequenısimo el test de F rechaza la hipotesis de igualdad de medias.
Tests simultaneos para diferencias de medias
Bonferroni: α = 0,05 α
2(62)= 0,05/30 = 0,002. Cada intervalo es de la
forma:
y i . − y j. ± t20,0,002 s√√√√√√1
ni+1
njdonde t20,0,002 = 3,331
6 5 1 3 4 2
17,975 17,140 14,100 13,825 13,100 12,800
- - - - - - - - - - - - - - - - -
Modelo Lineal A. M. Bianco FCEyN 2013 167
Hay tres grupos de medias que no son significativamente diferentes.
Scheffe: α = 0,05
Vamos a probar que en contxto del modelo yi j = βi+εi j , βj−β1., j = 2, . . . , kes una base de dimension k−1 que genera el subespacio de todos los contrastesy por lo tanto
la probabilidad de que todos los contrastes satisfagan simultaneamente lasdesigualdades
ˆψ ±
√(k − 1)Fk−1,n−k,αs
√√√√√k∑
i=1c2i /ni
es 1− αCada intervalo es de la forma:
y i . − y j. ±√(k − 1)Fk−1,n−k,0,05 s
√√√√√√1
ni+1
nj
Modelo Lineal A. M. Bianco FCEyN 2013 168
y i . − y j. ±√5F5,20,0,05 s
√√√√√√1
ni+1
nj
donde F5,20,0,05 = 2,71
6 5 1 3 4 2
17,975 17,140 14,100 13,825 13,100 12,800
- - - - - - - - - - - - - - - - -
La conclusion es la misma.
Ejercicio Adicional de la Practica 3: programar estos dos tipos deintervalos.
Modelo Lineal A. M. Bianco FCEyN 2013 169
Intervalo de Confianza para el contraste buscado en b)
Bonferroni: α = 0,05
El intervalo es de la forma general:
ˆψ ± tn−r,0,05/2
√ˆvar(ˆψ)
y en este casoˆψ ± tn−k,0,05/2
√ˆvar(ˆψ)
donde t20,0,05 = 2,086
Tenemos que
ˆψ =
β1 + β2 + β3 + β44
− β5 + β62
=y 1. + y 2. + y 3. + y 4.
4− y 5. + y 6.
2= −4,1015
Modelo Lineal A. M. Bianco FCEyN 2013 170
Ademas:
ˆvar(ˆψ) = s2⎛⎜⎝1
16
⎛⎜⎝1
4+1
5+1
4+1
4
⎞⎟⎠+1
4
⎛⎜⎝1
5+1
4
⎞⎟⎠
⎞⎟⎠ = 0,0473
El inetervalo resultante es
(−4,1015−2,086∗0,0217,−4,1015+2,086∗0,0217) = (−4,199972,−4,002528)
Otra parametrizacion
Otra manera de escribir el modelo serıa
yi j = µ+ αi + εi j
donde:
µ: es el efecto general
αi : es el efecto del tratamiento i
Modelo Lineal A. M. Bianco FCEyN 2013 171
En ese caso tendrıamos
Y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
y11y12. . .y1n1y21y22. . .y2n2..yk1yk2. . .yknk
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;X =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 1 0 01 1 0 0. . . .1 1 0 01 0 1 01 0 1 0. . . .1 0 1 0. . . .. . . .1 0 0 11 0 0 1. . . .1 0 0 1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
;β =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
µα1α2...αk
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
¿Son todas las funciones estimables en este modelo?
Modelo Lineal A. M. Bianco FCEyN 2013 172
Es claro que la matriz de diseno X tiene rg(X) = k < p = k + 1 y por lotanto no toda funcion parametrica es estimable.
Ya vimos en el caso k = 3 que, por ejemplo, α1 no es estimable.
De acuerdo con el Teorema que probamos muchas clases atras deberıamosincluir una restriccion adicional. Para lograr la identificabilidad de los parametrosson frecuentes:
αk = 0 ok∑
i=1αi = 0 etc.
Es muy usada la restriccion∑ki=1αi = 0, que es natural ya que:
ηi j = E(yi j) = µ+ αi = µ+ α+ αi − α= µ+ αi
dondek∑
i=1αi = 0
Notemos que usando esta restriccion tenemos que:
ηi j = E(yi j) = µ+ αi =⇒ η.j = kµ
Modelo Lineal A. M. Bianco FCEyN 2013 173
=⇒ µ = η.j
por lo tanto
αi = ηi j − η.jµ y αi estan unıvocamente determinados por los ηi j :
µ = η.j αi = ηi j − η.jSi quisieramos plantear las ecuaciones normales para estimar los parametrospodrıamos plantear:
∂S
∂µ= −2 k∑
i=1
ni∑
j=1(yi j − µ− αi) = 0
∂S
∂αi= −2
ni∑
j=1(yi j − µ− αi) = 0
k∑
i=1αi = 0 ← restriccion adicional
Modelo Lineal A. M. Bianco FCEyN 2013 174
Por lo tanto:
nµ+k∑
i=1niαi =
k∑
i=1niy i .
µ+ αi = y i .k∑
i=1αi = 0
Notemos que la primera ecuacion es dependiente de las k siguientes. Luego:
µ =k∑
i=1
y i .k
αi = y i . −k∑
j=1
y j.k
que estan unıvocamente determinados por los yi j
Volviendo al tema de comparaciones multiples
Metodo de Tukey
Mientras el metodo S de Scheffe utiliza la distribucion F , este metodo usa ladistribucion del rango studientizado ql ,ν, que presentaremos a continuacion.
Modelo Lineal A. M. Bianco FCEyN 2013 175
El metodo T sirve para realizar contrastes simultaneos que involucran I parame-tros (θ1, . . . , θI) con la restriccion de que sus estimadores θi tengan igual vari-anza. De allı, que en principio en el contexto de ANOVA 1 Factor asumiremosque ni = m ∀i = 1, ..., kDeduciremos el metodo para el caso en que θi son independientes y los con-trastes de interes de la forma θi − θj .Def.: Distribucion del rango studientizado qI,ν: Sean x1, x2, . . . , xI v.a. inde-pendientes tales que xi ∼ N(0, 1), R = max1≤i≤I xi − mın1≤i≤I xi y U ∼ χ2νindependiente de las x ′i s. Entonces:
max1≤i≤I xi − mın1≤i≤I xi√Uν
=R√Uν
∼ qI,ν
Teorema de Tukey
Sean θi v.a. independientes 1 ≤ i ≤ I, tales que θi ∼ N(θi , a2σ2), con a > 0constante conocida y s2 un estimador de σ2, independiente de θi ∀i , y tal que
Modelo Lineal A. M. Bianco FCEyN 2013 176
νs2
σ2∼ χ2ν. Entonces
La probabilidad de que todas los 12I(I − 1) diferencias θi − θj satisfagan si-multaneamente
θi − θj − Ts ≤ θi − θj ≤ θi − θj + Tsdonde T = aqI,ν,α es 1− α.Ejemplo: Supongamos que queremos comparar las medias de 4 tratamientos:T1, T2, T3 y T4 y nos interesan los contrastes:
αi − αjque es equivalente a comparar βi − βj .Sabemos que βi = y i . y que y 1., . . . , y 4. son independientes. Ademas y i . ∼N(βi ,
σ2
ni). Para poder usar Tukey, entonces ni = m ∀i .
Por lo tanto:
P (∩i ,j y i . − y j. − q4,4m−4,αs√√√√√1
m≤ βi − βj ≤ y i . − y j. − q4,4m−4,αs
√√√√√1
m)
Modelo Lineal A. M. Bianco FCEyN 2013 177
Extensiones del Metodo de Tukey
1. Teorema de Tukey
Bajo las condicones del Teorema anterior la probabilidad de que todos loscontrastes de la forma ψ =
∑Ii=1 ciθi ,
∑Ii=1 ci = 0 satisfagan simultaneamente
ψ − Ts I∑
i=1|ci |/2 ≤ ψ ≤ ψ − Ts
I∑
i=1|ci |/2
donde T = aqI,ν,α y ψ =∑Ii=1 ci θi , es 1− α.
2. Metodo de Tukey–Kramer Para el caso de muestras de diferente tamanohay diferentes propuestas para extender el metodo de Tukey. El metodo T–Kaplicado al problema de ANOVA 1 Factor para ni observaciones para cada niveli , i = 1, · · · , k , propone los intervalos
y i .− y j.− qk,n−k,αs√√√√√√1
2(1
ni+1
nj) ≤ βi −βj ≤ y i .− y j.− qk,n−k,αs
√√√√√√1
2(1
ni+1
nj))
Modelo Lineal A. M. Bianco FCEyN 2013 178
Volvamos a nuestro ejemplo de las margarinas
salida¡- aov(PAPFUA˜tipo.f)
anova(salida)
FLUOR.tuk¡-TukeyHSD(salida,”tipo.f”,ordered=FALSE,conf.level=0.99)
plot(FLUOR.tuk)
Modelo Lineal A. M. Bianco FCEyN 2013 179
−2 0 2 4 6
6−5
5−4
5−3
6−2
4−2
6−1
4−1
2−1
99% family−wise confidence level
Differences in mean levels of tipo.f
Modelo Lineal A. M. Bianco FCEyN 2013 180
Comparacion de los metodos para ANOVA 1 Factor
Notemos que ls tres tipos de intervalos son de la misma forma y que paracomparar sus longitudes basta considerar:
rT,S =long.Tukey
long.Schef f e=
qk,ν,αk∑
i=1|ci |/2
√√√√√(k − 1)Fk−1,ν,αk∑
i=1c2i
rB,S =long.Bonf er roni
long.Schef f e=
tν,α/(k(k−1))√(k − 1)Fk−1,ν,,α
rT,B =long.Tukey
long.Bonf er roni=rT,SrB,S
En la siguiente tabla extraıda de Stapleton (1995) mostramos los cocientespara contrastes de la forma βi−βj para α = 0,05, k = 3, 5, 7, 10, ν = 10,∞.
Modelo Lineal A. M. Bianco FCEyN 2013 181
Modelo Lineal 203 Ana M. Bianco 1
Análisis de la Varianza de dos factores con replicaciones:
Caso Balanceado (Scheffé, 1959)
En este ejemplo nos interesa el tiempo de coagulación (en minutos) del plasma sanguíneo para 3
tratamientos y 2 concentraciones de adrenalina mezclada con el plasma.
Para cada combinación de tratamiento y concentración de adrenalina, se tomaron 3 observaciones
independientes. Se obtuvieron los siguientes datos:
Concentración
Tratamiento 1 2
1 9.8
10.1
9.8
11.3
10.7
10.7
2 9.2
8.6
9.2
10.3
10.7
10.2
3 8.4
7.9
8.0
9.8
10.1
10.1
Modelo Lineal 203 Ana M. Bianco 2
En este caso tenemos dos factores:
Factor A: Tratamiento (con tres niveles)
Factor B: Concentración (dos niveles)
y dentro de cada casillero tenemos la misma cantidad de replicaciones K, en este caso K=3.
Podemos pensar que nuestros datos se disponen en una tabla de doble entrada como la anterior
(una entrada para el factor A y otra para B) y en la que en cada casilla tendremos las
replicaciones de cada una de las combinaciones de los factores A y B.
Modelo Lineal 203 Ana M. Bianco 3
Factor B
Factor A 1 2 . . J
1
Y111
Y112
.
.
Y11K
Y121
Y122
.
.
Y12K
. . . Y1J1
Y1J2
.
.
Y1JK
2
Y211
Y212
.
.
Y21K
Y221
Y222
.
.
Y22K
. . . Y2J1
Y2J2
.
.
Y2JK
.
. . .
Yijl
. .
. . . . . .
I
YI11
YI12
.
.
YI1K
YI21
YI22
.
.
YI2K
. . . YIJ1
YIJ2
.
.
YIJK
Modelo Lineal 203 Ana M. Bianco 4
Cada observación Yijkpuede escribirse como:
Yijk = ij + ijk
donde ijk representa el error, la media ij (que depende del cada nivel i del Factor A (Filas) y de
cada j nivel del Factor B (Columnas)) y el subíndice k identifica la replicación dentro de cada
casillero.
Asumiremos que ijk N(0,2) independientes.
Cuando el número de observaciones dentro de cada casillero es constante decimos que el diseño
es balanceado. Vamos a considerar el caso balanceado.
Para cada observación, podríamos considerar un modelo que involucre una media general, el
efecto del tratamiento y el efecto de la concentración de adrenalina:
Yijk = + i + j + ijk
Esto es lo que conocemos como Modelo Aditivo.
Veamos que podría ocurrir con ij .
Modelo Lineal 203 Ana M. Bianco 5
Sin embargo, podría ocurrir que el efecto de cierto tratamiento no sea el mismo para los
distintos niveles de concentración de adrenalina. En este caso diríamos que hay interacción.
Modelo Lineal 203 Ana M. Bianco 6
¿Cómo representar esto en el modelo? Deberíamos pensar en un Modelo No Aditivo.
Escribimos cada observación Yijk puede escribirse como:
Yijk = ij + ijk
Modelo Lineal 203 Ana M. Bianco 7
Podemos pensar que cada ij es una suma de 4 términos:
Una media general,
Efecto del nivel i del Factor A: i
Efecto del nivel j del Factor B: j
Interacciones ij: ij
Luego
Yijk = + i + j + ij + ijk
Notemos que
)()()( ............ jiijjiij
que es de la forma + i + j + ij donde
0 j
ij
i
ij
j
j
i
i
Modelo Lineal 203 Ana M. Bianco 8
Estimación
Tenemos que minimizar
ji
ij
k
ijkY,
2)(S
Obtenemos el estimador de mínimos cuadrados de ij resolviendo
0)()2(S
ij
k
ijk
ij
Y
con lo cual
.ˆ
ijij Y
y queda 2
.
,
)(S ij
ji
ijk
k
YY
Modelo Lineal 203 Ana M. Bianco 9
Notemos que en este caso la matriz de diseño X es:
Por lo tanto todas funciones paramétricas son estimables, en particular:
, i , j y ij
IJprg(X) :
:
1..:0
1..0:
:..10
:..::
0..10
:..01
0..::
0..01
11
IJ
Modelo Lineal 203 Ana M. Bianco 10
ijLuego, por el Teorema de Gauss-Markov, los estimadores de mínimos cuadrados de , i ,j y ij
los obtenemos reemplazando a ij por su estimador
Así obtenemos:
)ˆˆˆˆ(ˆ
)ˆˆ(ˆ
)ˆˆ(ˆ
ˆˆ
....
...
...
..
jiijij
jj
ii
Resultando
)(ˆ
)(ˆ
)(ˆ
ˆ
........
.....
.....
...
yyyy
yy
yy
y
jiijij
jj
ii
Modelo Lineal 203 Ana M. Bianco 11
La hipótesis de igualdad de los efectos de los I niveles del Factor A (filas) puede plantearse
mediante la hipótesis nula:
HA: 1 = 2 = ......= I = 0,
la hipótesis de igualdad de los J niveles del Factor B (columnas) se plantea como:
HB: 1 = 2 = ......= J = 0,
mientras que la ausencia de interacciones, la testearíamos a través de la hipótesis
HAB: 11 = 12 = ......= IJ = 0.
La ausencia de interacciones implica que la diferencia de medias de dos niveles de un factor
es la misma para todos los niveles del otro factor.
Modelo Lineal 203 Ana M. Bianco 12
La suma de cuadrados puede ser reescrita como:
ji k
ijijjjiiijjiijk
ijji
ji
ijk
k
ij
ji
ijk
k
Y
YY
,
2
2
,
2
,
))ˆ()ˆ()ˆ()ˆ()ˆˆˆˆ((
)()(S
y usando las restricciones
0 j
ij
i
ij
j
j
i
i
queda
ji
ijij
j
jj
i
ii KIKJKIJKS,
2222 )ˆ()ˆ()ˆ()ˆ(S
Esta expresión es muy útil pues bajo HA, HB, o HAB permite ver que los estimadores son los
mismos que bajo .
Modelo Lineal 203 Ana M. Bianco 13
Por ejemplo, bajo HA: 1 = 2 = ......= I = 0, tendríamos
ji
ijij
j
jj
i
i KIKJKIJKS,
2222 )ˆ()ˆ(ˆ)ˆ(S
Por lo tanto, S se minimiza cuando
ijijjj ˆ ademasy ˆ ,ˆ
En este caso además tendríamos
i
iA JKS2
ˆS
Análogamente
Modelo Lineal 203 Ana M. Bianco 14
ji
ijAB
j
jB
KS
IKS
,
2
2
ˆS
ˆS
Para testear, por ejemplo HA
ji
ij
k
ijk
i
i
i
i
A
YY
JK
S
JK
S
S
,
2
.
22
)(
ˆ
1-I
IJ-nˆ
1-I
IJ-n
S
q
r-n
En cuanto a los grados de libertad de cada una, es decir q, es el número de condiciones l.i.
estimables impuestas por cada hipótesis.
Modelo Lineal 203 Ana M. Bianco 15
Los grados de libertad de cada una de estas sumas son:
SA: I-1
SB: J-1
SAB: (I-1)(J-1)
SE: IJ(K-1)
ST: n-1=I*J*K-1
Por lo tanto la Tabla de Análisis de la Varianza será:
Modelo Lineal 203 Ana M. Bianco 16
(Extraída de Scheffé, 1959)
Modelo Lineal 203 Ana M. Bianco 17
EJEMPLO: 2 factores con replicaciones.
Supongamos que nos interesa estudiar el efecto del porcentaje de grasa corporal (factor A, 3
niveles) y del sexo (factor B) en la tolerancia al ejercicio físico en personas de 25 a 35 años de
edad. Esta tolerancia se mide en minutos antes de que ocurra la fatiga en sujetos realizando
bicicleta fija.
Dos sujetos fueron sometidos al test de tolerancia para cada grupo de sexo-grasa. A partir de los
datos obtenidos se calculó la siguiente tabla de análisis de la varianza para el modelo:
Yijk = + i + j + ij + ijk i=1, 2, 3 j=1, 2, k=1, 2
Modelo Lineal 203 Ana M. Bianco 18
grasa<-
read.table("C:\\Users\\Ana\\ModeloLineal\\doctex\\grasa.txt",header=T)
grasa
attach(grasa)
names(grasa)
plot(Tolera~ SEXO + GRASA, data=grasa)
Modelo Lineal 203 Ana M. Bianco 19
interaction.plot(SEXO,GRASA,Tolera,col=2:3)
Modelo Lineal 203 Ana M. Bianco 20
interaction.plot(SEXO,GRASA,Tolera,col=2:3)
Modelo Lineal 203 Ana M. Bianco 21
ANALYSIS OF VARIANCE TABLE FOR TOLERA
g <- lm(Tolera~GRASA*SEXO, grasa)
anova(g)
Analysis of Variance Table
Response: Tolera
Df Sum Sq Mean Sq F value Pr(>F)
GRASA 2 1544 772.00 74.7097 5.754e-05 ***
SEXO 1 12 12.00 1.1613 0.3226
GRASA:SEXO 2 24 12.00 1.1613 0.3747
Residuals 6 62 10.33
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Comenzamos por testear la hipótesis de ausencia de interacciones
HAB: 11 = 12 = ......= 0
Como el p-valor obtenido para el test de F correspondiente es 0.3747, no podemos rechazar HAB,
Modelo Lineal 203 Ana M. Bianco 22
¿Por qué testeamos primero HAB?
No tiene tiene sentido testear los efectos principales cuando hay interacción, a menos que hubiera
un interés específico. Un p-valor bajo en el test para HAB sugiere que cada factor tiene un efecto en
la variable de respuesta, pero el tamaño de este efecto depende del nivel del otro factor. Por esta
razón testeamos en primer término HAB.
Si el p-valor para testear HAB no es pequeño, testeamos HA y HB.
Si en cambio, el p-valor es pequeño, no podemos descartar la presencia de interacciones y
comparamos las medias entre los distintos niveles de un factor, fijado el nivel del otro factor.
Como en este ejemplo p-valor es 0.3747 y no podemos rechazar HAB, estamos en condiciones de
testear HA y HB.
Si deseáramos verificar si el sexo tiene algún efecto sobre la tolerancia al ejercicio físico
deberíamos testear
HB: 1 = 2 = 0,
y como el p-valor del test correspondiente es 0.3226, no podemos rechazar la hipótesis de que
el efecto del sexo sea nulo.
Modelo Lineal 203 Ana M. Bianco 23
Por otra parte, podría interesarnos testear
HA: 1 = 2 = 3 = 0.
El p-valor obtenido para el test de F correspondiente es 0.0001, en consecuencia rechazamos la
hipótesis de que el efecto del porcentaje de grasa es el mismo para los tres niveles.
Si nos interesase realizar intervalos de confianza simultáneos para las diferencias entre las medias
de los niveles de porcentaje de grasa podemos calcular los intervalos mediante el método de
Tukey con un nivel global de 95%:
Modelo Lineal 203 Ana M. Bianco 24
salida<-aov(Tolera~SEXO*GRASA)
tolera.tuk<-TukeyHSD(salida,"GRASA",ordered=FALSE,conf.level=0.95)
plot(tolera.tuk)
Modelo Lineal 203 Ana M. Bianco 25
EJEMPLO: 2 factores con replicaciones
plasma<-
read.table("C:\\Users\\Ana\\ModeloLineal\\doctex\\plasma.txt",header=T)
attach(plasma)
names(plasma)
trat<- factor(TRATA)
concentra<- factor(CONCENTRA)
plot(Tiempo~trat + concentra, data=plasma)
Modelo Lineal 203 Ana M. Bianco 26
Yijk = + i + j + ij + ijk i=1, 2, 3 j=1, 2, k=1, 2,3
interaction.plot(trat,concentra,Tiempo,col=2:3)
Modelo Lineal 203 Ana M. Bianco 27
interaction.plot(concentra,trat,Tiempo,col=2:4)
Modelo Lineal 203 Ana M. Bianco 28
g <- lm(Tiempo~trat*concentra, plasma)
anova(g)
Analysis of Variance Table
Response: Tiempo
Df Sum Sq Mean Sq F value Pr(>F)
trat 2 5.470 2.7350 37.2955 7.084e-06 ***
concentra 1 9.245 9.2450 126.0682 1.011e-07 ***
trat:concentra 2 0.610 0.3050 4.1591 0.04244 *
Residuals 12 0.880 0.0733
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Como antes comenzamos por testear la hipótesis nula HAB. En este caso la hipótesis nula es
rechazada al 5%. Compararemos las medias de todas las combinaciones.
Modelo Lineal 203 Ana M. Bianco 29
tiempo.tuk<-TukeyHSD(salida,ordered=FALSE,conf.level=0.95)
par(cex=0.5)
plot(tiempo.tuk,cex=2)
Tambien podria escribirse:
tiempo.tuk<-
TukeyHSD(salida,"trat:concentra",ordered=FALSE,conf.level=0.95)
Modelo Lineal 203 Ana M. Bianco 30
Modelo Lineal 203 Ana M. Bianco 31
Una forma de resumir esta información es considerando:
TRAT CONCENTRA MEAN GROUPS
--------- --------- ---------- -----------
1 2 10.900 I
2 2 10.400 I I
3 2 10.000 .. I
1 1 9.9000 .. I
2 1 9.0000 .... I
3 1 8.1000 ...... I
Donde se ve que hay cuatro grupos de medias que no difieren significativamente unas de otras.
Modelo Lineal: Diagnostico
Verificacion de Supuestos y Diagnostico Supongamos que tenemos una
muestra (yi , xi), i = 1, . . . , n que cumple:
yi = x′iβ + εi
donde εi = N(0, σ2) son independientes y estimamos por el metodo de mınimos
cuadrados a β y realizamos todas las inferencias que necesitamos.
¿Como verificamos todos los supuestos que hemos realizado?
1
Modelo Lineal A. M. Bianco FCEyN 2013 2
Los 4 supuestos que revisaremos son:
1. Linealidad: E(Y ) = Xβ
2. Homoscedasticidad: V ar (εi) = σ2 = cte.
3. Normalidad: εi tienen distribucion Normal
4. Independencia de los errores: εi independiente de εj si i 6= j .
Comencemos por considerar los residuos:
ei = yi − yi i = 1, . . . , n
Como sabemose = (I− P)Y
por lo tantoE(e) = 0 Σe = σ
2(I− P)
Por lo tanto, V (ei) = σ2(1−pi i), con lo cual los residuos son heteroscedasticos.
Modelo Lineal A. M. Bianco FCEyN 2013 3
Si ademas, los errores son normales, como hemos supuesto antes
ei ∼ N(0, σ2(1− pi i))
Observemos ademas, que los residuos no son independientes, en tanto:
Cov(ei , ej) = −σ2pi j
Definimos otros residuos relacionados:
ri =yi − yi
s√(1− pi i)
residuo standarizado
r ∗i =yi − yi
s(i)√(1− pi i)
residuo studentizado
donde s(i) es el desvıo standard muestral computado partir de una regresionajustada sin la observacion i .
Sea X(i) la matriz X sin la i−esima fila: xi . Probaran en la practica que sonciertas las siguientes igualdades:
Modelo Lineal A. M. Bianco FCEyN 2013 4
X′(i)X(i) = X′X− xix
′i
(
X′(i)X(i)
)−1= (X′X)
−1+(X′X)−1 xix
′i (X
′X)−1
1− pi i
con lo cual
ˆβ − ˆβ(i) = (X
′X)−1xi
ei1− pi i
s2(i) =(n − p)s2 − e2i (1− pi i)
n − p − 1
Distribucion de los Residuos
A fin de estudiar la distribucion de estos residuos podrıamos graficar:
Esquemas de Tallo y Hoja
Histogramas
Modelo Lineal A. M. Bianco FCEyN 2013 5
Boxplots
De esta forma podrıamos evaluar:
simetrıa
valores extremos
valores centrales
outliers
posibles agrupamientos
normalidad
summary(salida)
Call:
lm(formula = BIO ˜ K + PH)
Residuals:
Min 1Q Median 3Q Max
Modelo Lineal A. M. Bianco FCEyN 2013 6
-679.25 -253.50 -95.44 259.45 1135.80
Coefficients:
Estimate Std. Error t value Pr(¿—t—)
(Intercept) -506.7131 279.8016 -1.811 0.0773 .
K -0.4871 0.2031 -2.398 0.0210 *
PH 411.9779 48.4954 8.495 1.15e-10 ***
Residual standard error: 401.1 on 42 degrees of freedom
Multiple R-squared: 0.6476, Adjusted R-squared: 0.6308
F-statistic: 38.59 on 2 and 42 DF, p-value: 3.074e-10
names(salida)
[1] ”coefficients” ”residuals” ”effects” ”rank” ”fitted.values” ”assign”
[8] ”df.residual” ”xlevels” ”call” ”terms” ”model”
names(lm.influence(salida))
[1] ”hat” ”coefficients” ”sigma” ”wt.res”
Modelo Lineal A. M. Bianco FCEyN 2013 7
stem(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))
The decimal point is at the —
-1 — 9
-1 — 332
-0 — 9888777766655555
-0 — 332211111
0 — 022
0 — 677778
1 — 04
1 — 69
2 — 01
2 — 9
boxplot(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))
qqnorm(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))
Chequeando la Normalidad
El QQ–plot es un grafico de percentiles muestrales vs. percentiles teoricos (bajo una cierta
distribucion asumida F ).
Modelo Lineal A. M. Bianco FCEyN 2013 8
−2
−1
01
23
Figura 1: Boxplot de ri : Datos de Biomasa
Modelo Lineal A. M. Bianco FCEyN 2013 9
Si la muestra proviniese de una poblacion con distribucion F los percentiles muestrales vs. los
teoricos caerıan aproximadamente sobre una recta a 45.
Para esto ordenamos los residuos standarizados
r(1) ≤ r(2) ≤ . . . ≤ r(n)
y graficamos los percentiles muestrales 1/(n + 1), 2/(n + 1), . . . , n/(n + 1) contra los per-
centiles teoricos de una N(0, 1)φ−1(1/(n + 1)), φ−1(2/(n + 1)), . . . , φ−1(n/(n + 1))
.
Si el grafico se desviase de la recta, estarıamos encontrando evidencia contra la normalidad.
Modelo Lineal A. M. Bianco FCEyN 2013 10
−2 −1 0 1 2
−2
−1
01
23
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Figura 2: QQ-plot de ri : Datos de Biomasa
Modelo Lineal A. M. Bianco FCEyN 2013 11
Linealidad
yi vs. ei
Uno de los graficos que se realiza despues de realizar el ajuste es el de yi vs. ei
¿Que esperamos observar? Consideremos el modelo yi = β0 + β1xi1 + . . .+ βp−1xi(p−1)
Si quisieramos hacer una regresion entre ei vs. yi el estimador de la pendiente tendrıa como
numerador:
n∑
i=1(ei − e)(yi − y ) =
n∑
i=1ei yi = Y(I− P)PY = 0
En cambio si la regresion la hiciesemos entre ei vs. yi el estimador de la pendiente tendrıa como
numerador:
n∑
i=1(ei − e)(yi − y) =
n∑
i=1ei yi = Y
′(I− P)Y = Y′(I− P)(I− P)Y = e′e = ‖e‖2
es decir, la suma de cuadrados de los residuos.
Mas aun, el estimador del coeficiente correspondiente a la pendiente en este caso serıa:
Modelo Lineal A. M. Bianco FCEyN 2013 12
−4 0 2 4 6 8 10
−10
05
10
yhat
std.
res
0 1 2 3 4
−10
05
10
x1
std.
res
−2 −1 0 1
−10
05
10
x2
std.
res
Figura 3: Linealidad: OK!!
Modelo Lineal A. M. Bianco FCEyN 2013 13
0 1 2 3 4
−10
−5
05
1015
x1
std.
res
−2 −1 0 1 2
−20
−15
−10
−5
05
1015
x3
std.
res
Figura 4: Linealidad: MAL!!
Modelo Lineal A. M. Bianco FCEyN 2013 14
(a)Representa la situación esperable si el modelo se cumple: una nube de residuos alrededor del 0 sin estructura.
(b) y (c) Muestran gráficos en los que el supuesto de igualad de varianzas no se cumple.
(d) El supuesto de linealidad no se satisface.
Modelo Lineal A. M. Bianco FCEyN 2013 15
−4 −2 0 2 4 6 8
−20
−10
010
20
yhat
std.
res
Figura 6: Boxplot de ri : Heteroscedaticidad
Modelo Lineal A. M. Bianco FCEyN 2013 16
e′en∑
i=1(yi − y)
2=
n∑
i=1(yi − yi)
2
n∑
i=1(yi − y)
2=
n∑
i=1(yi − y )
2 −n∑
i=1(yi − y)
2
n∑
i=1(yi − y)
2= 1− R2
Es decir que esta pendiente serıa 0 solo en el caso de ajuste perfecto.
El caso (d) corresponderıa a un modelo inadecuado. Por ejemplo, supongamos que ajustamos
yi = β0 + β1xi1 + εi , pero en realidad es:
yi = β0 + β1xi1 + β2xi2 + εi
Luego:
E(ei) = E(yi − yi)
= E(yi − β0 + β1xi1)
= h + gxi1 + kxi2
o sea tanto ei como yi varıan con xi1.
ei vs. cada variable regresora
Tengamos en cuenta que por las ecuaciones normales:
Modelo Lineal A. M. Bianco FCEyN 2013 17
n∑
i=1(ei−e)(xi j−x .j) =
n∑
i=1ei (xi j−x .j) =
n∑
i=1ei xi j =
n∑
i=1(yi−β0−β1xi1+. . .−βp−1xi(p−1))xi j = 0
De manera que, si el modelo elegido fuera correcto no deberıa aparecer ninguna estructura en
el grafico de ei vs. xi j . Por lo tanto, los graficos anteriores tambien nos sirven de guıa en este
caso.
Por ejemplo, si en el razonamiento anterior reemplazasemos xi2 por x2i1 tendrıamos:
E(ei) = h + gxi1 + kx2i1
el grafico quedarıa cercano a una parabola.
ei vs. tiempo
En principio cualquier factor podrıa influir en Y y deberıa incluirse en la regresion como variable
explicativa. Si un factor ha sido omitido, podrıa graficarse ei vs. factor y ver si hay alguna
tendencia o patron particular.
A veces con los datos se registra el tiempo o el orden en que han sido tomadas las mediciones.
Puede ser de interes estudiar si los residuos tienen alguna dependencia en el tiempo.
Modelo Lineal A. M. Bianco FCEyN 2013 18
Modelo Lineal A. M. Bianco FCEyN 2013 19
Algunos Tests
Test de Rachas
Si tenemos observaciones positivas y negativas ordenadas secuencialmente segun el tiempo,
podrıamos preguntarnos si tienen algun patron particular o si se presentan en forma aleatoria.
Por ejemplo: si tuvieramos la sucesion de residuos siguiente:
+ + − + − − − − + + − + + +
con n1 = 8 residuos positivos, n2 = 6 residuos positivos, n = 14 residuos en total y u = 7
rachas, ¿hemos observado algo muy poco probable bajo el supuesto de aleatoriedad? ¿Podrıa
haber alguna variable oculta que justifique esto?
Vamos a analizar un caso mas sencillo con solo 6 residuos: 2+ y 4−.
Un numero bajo de rachas hara pensar en una correlacion positiva, mientras que un numero
alto harıa sospechar una correlacion negativa.
Si n1 > 10 y n2 > 10 puede usarse una aproximacion normal para el estadıstico del test. Si
n1 ≤ n2 ≤ 10 se usan las tablas exactas de Sweed y Hasenhart (1943).
El test aproximado resulta de calcular:
Modelo Lineal A. M. Bianco FCEyN 2013 20
Modelo Lineal A. M. Bianco FCEyN 2013 21
Z =u − µ± 1/2
σ
µ =2n1n2n1 + n2
+ 1
σ =2n1n2(2n1n2 − n1 − n2)
(n1 + n2)2(n1 + n2 − 1)
(Para muchas chances usar el factor de correccion −1/2 y para muy pocas 1/2)
Veamos un ejemplo
Consideremos el caso en que examinamos 27 residuos de los cuales 15 son de un signo y 12
son de otro y ordenados secuencialmente de acuerdo con el tiempo presentan 7 rachas. ¿Hay
muy pocas rachas?
Supongamos que hubiera n1 = 15 residuos positivos, n2 = 12 residuos positivos, entonces
n = 27 residuos en total y u = 7 rachas, ¿Hay pocas rachas?
µ =43
3
Modelo Lineal A. M. Bianco FCEyN 2013 22
σ =740
117
Z =7− 43/3 + 1/2
√740117
= −2,713
Usando la aproximacion normal tenemos:
P (Z ≤ −2,713) ∼= 0,0033
por lo tanto bajo el supuesto de aleatoriedad estarıamos observando un numero inusualmente
bajo de rachas, por lo tanto rechazarıamos la hipotesis de que las rachas de signos han ocurrido
simplemente por azar a los niveles habituales.
Modelo Lineal A. M. Bianco FCEyN 2013 23
Test de Durbin–Watson
Es un test muy conocido que es util para detectar cierto tipo de correlacion en una serie.
Supongamos que postulamos el modelo:
yi = βo + β1xi1 + ...+ βp−1xip−1 + εi
donde εi ∼ N(0, σ2) independientes.
En este caso, tenemos que ρs = Corr(yi , yi−s) = 0 ∀s.
Supongamos que εi ∼ N(0, σ2), pero en realidad hay cierta estructura en los errores:
εi = ρεi−1 + ui Modelo Autorregresivo
donde ρ representa la correlacion y ui las innovaciones, que son independientes de todo el
pasado.
Modelo Lineal A. M. Bianco FCEyN 2013 24
Si εi = ρεi−1 + ui entonces
Cov(εi , εi−1) = Cov(ρεi−1 + ui , εi−1)
= ρσ2
⇓
Corr(εi , εi−1) = ρ
¿Cuanto vale Corr(εi , εi−s)? Veamos que Corr(εi , εi−s) = ρs
Nuestro objetivo es testear:
H0 : ρs = 0 v . H0 : ρs = ρs
para ρ 6= 0, |ρ| < −1. Esta alternativa surge del modelo εi = ρεi−1 + ui , donde ui ∼ N(0, σ2
e independientes de εi−1, εi−1, ..... y de ui−1, ui−1, ...... Se asume ademas que la media y la
varianza de las εi son constantes, mas aun: εi ∼ N(0, σ2/(1− ρ2)
El estadıstico del test esta basado en los residuos e1, . . . , en:
Modelo Lineal A. M. Bianco FCEyN 2013 25
d =
∑ni=2(ei − ei−1)
2
∑ni=1 e
2i
¿Cual es la zona de rechazo? Las tablas de Durbin-Watson proveen paraα = 0,05, 0,0025y0,01
valores dL y dU para distintos valores de n y de p (cantidad de covariables).
Pueden encontrarse las tablas que usaremos en:
http://www.imm.bwl.uni-muenchen.de/dateien/3˙lehre/market˙analysis/durbin˙watson˙tables.pdf
Modelo Lineal A. M. Bianco FCEyN 2013 26
Test de una cola contra alternativas ρ > 0 de nivel α:
si d < dL ⇒ d es significativo
si d > dU ⇒ d no es significativo
si dL ≤ d ≤ dU ⇒ d no hay conclusion
Test de una cola contra alternativas ρ < 0 de nivel α:
idem usando 4− d
Test de una cola contra alternativas ρ 6= 0 de nivel 2α:
si d < dL o 4− d < dL ⇒ d es significativo
si d > dU y 4− d > dU ⇒ d no es significativo
en otro caso no hay conclusion
Veamos un ejemplo extraıdo de Draper y Smith (1980):
Una companıa de gaseosas quiere predecir la venta regional a partir de los gastos mensuales
regionales realizados en propagandas. Se dispone de datos de 20 anos.
Modelo Lineal A. M. Bianco FCEyN 2013 27
Modelo Lineal A. M. Bianco FCEyN 2013 28
Modelo Lineal A. M. Bianco FCEyN 2013 29
Modelo Lineal A. M. Bianco FCEyN 2013 30
Modelo Lineal A. M. Bianco FCEyN 2013 31
Test de Normalidad de Shapiro–Wilk
Dada una distribucion Go, sea F la familia de diferencias que se obtiene por cambios de posicion
o escala a partir de G − o. Asumiremos que G − o esta estandarizada.
Sea X1, X2, . . . , Xn una m.a. con distribucion en F , tal que E(xi) = µ y V (xi) = σ2.
Consideremos los estadısticos de orden de la muestra:
Xo = (X(1), X(2), . . . , X(n))
Por otro lado, sea
Zo = (Z(1), Z(2), . . . , Z(n))
una muestra ordenada de Go, m = (m1, . . . , mn)′ y V = vi j , el vector de medias y la matriz
de covarianzas de Zo:
mi = E(Z(i)) vi j = Cov(Z(i), Z(j))
Por lo tanto, para i = 1, . . . , n: X(i) ' µ+ σZ(i)
En consecuencia, el plot de (X(1), X(2), . . . , X(n)) vs. (m1, m2, . . . , mn) deberıa ser aproxi-
madamente lineal.
Modelo Lineal A. M. Bianco FCEyN 2013 32
Una manera de chequear esto es mediante el coeficiente de correlacion lineal en este grafico.
El estadıstico del test de Shapiro-Wilk W corresponde a la correlacion entre V−1m y Xo para
el caso de la familia Normal.
La zona de rechazo es: W < kα
En R la instruccion shapiro.test ejecuta este test devolviendo el p-valor y el estadıstico W .
biomasa¡- read.table(”C:““Users““Ana““ModeloLineal““doctex““biomasa.txt”,header=T)
attach(biomasa)
salida¡- lm(formula = BIO ˜ K + PH)
salida$res
1 2 3 4 5 6 7 8 9
-174.95788 -301.36355 390.63567 71.08915 -517.69012 -517.70400 -44.40357 -35.84008 -204.90345
10 11 12 13 14 15 16 17 18
-271.47716 71.29876 726.37064 618.06946 831.79843 267.83356 -121.24039 -271.03566 -312.78027
19 20 21 22 23 24 25 26 27
-239.67658 -333.85551 -179.22424 -325.37695 -290.55431 -253.49593 -206.01746 273.70705 -31.03141
28 29 30 31 32 33 34 35 36
-223.97267 -679.25157 -27.23251 -211.33982 243.45516 782.95205 1135.79900 565.85631 -473.63371
37 38 39 40 41 42 43 44 45
-241.24364 -55.82630 -95.44412 -102.26077 306.69000 -84.42299 17.49883 264.75622 259.44632
Modelo Lineal A. M. Bianco FCEyN 2013 33
shapiro.test(salida$res)
Shapiro-Wilk normality test
data: salida$res
W = 0.9217, p-value = 0.004813
Diagnostico
En general, en presencia de heteroscedasticidad se suelen tomar una de lassiguientes medidas: utilizar pesos o transformar las variables.
En muchas ocasiones la transformacion de la variable dependiente o una de lasindependientes puede ser mucha utilidad. En general, las transformaciones sonusadas para estabilizar varianzas, simplificar modelos u obtener normalidad.
Deteccion de Heteroscedasticidad
En algunos casos el reconocer la naturaleza de la variable dependiente puedeprevenirnos sobre la heterogeneidad de varianzas.
De hecho, si la variable de respuesta fuese una variable de conteo de tipoPoisson, tendrıamos que σ2i ' E(Yi) y por lo tanto no podrıamos esperar que
1
Modelo Lineal A. M. Bianco FCEyN 2013 2
se cumpla el supuesto de homoscedasticidad.
Aun cuando no conozcamos la distribucion de Yi podemos tener una idea aprox-imada del comportamiento de su varianza.
Ejemplos
Mercado inmobiliario: Variacion de precio de venta de casas.
σ constante:
50,000$ ←→ 100,000$1,000,000$ ←→ 1,050,000$
σ No constante:
50,000$ ←→ 60,000$1,000,000$ ←→ 1,200,000$
Modelo Lineal A. M. Bianco FCEyN 2013 3
Ejemplo Los siguientes datos representan el tiempo de viaje (y ) al centro de
una ciudad y la distancia recorrida (x).
Distancia (en millas) .5 1 1.5 2 3 4 5 6 8 10Tiempo viajado (en minutos) 15 15.1 16.5 19.9 27.7 29.7 26.7 35.9 42 49.4
Supongamos yi = β0 + β1 xi + εi
No parece razonable suponer que la varianza sea constante.
De hecho, si la longitud de una cuadra en esta ciudad es d , el viaje de x millascomprende x/d cuadras. Luego, y puede ser expresada como
y = z1 + z2 + . . .+ zx/d ,
donde zj , j = 1, . . . , x/d es el tiempo en recorrer la j–esima cuadra.
Si suponemos que las zj son v.a. independientes y con la misma varianza ten-
Modelo Lineal A. M. Bianco FCEyN 2013 4
drıamos que:
v(y) = v(z1) + v(z2) + . . .+ v(zx/d) = (x/d)v(zj)
∝ xσ2 .
Usando el metodo de mınimos cuadrados ponderados con pesos wi = 1/xiobtenemos los estimadores ˆ
β0 = 12,561 yˆβ1 = 3,714.
Por lo tanto:
si yi v.a. conteo −→ σ2i ' E(Yi)
si yi =mini−→ σ2i =
E(Yi)(1− E(Yi))ni
si yi =ni∑
i=1
zi jni−→ σ2i =
σ2
nisi zi j homoscedasticos
Modelo Lineal A. M. Bianco FCEyN 2013 5
¿Como diagnosticar?
Hemos recomendado el grafico de ri vs. Yi para detectar heteroscedasticidad,¿como podemos ver en el la relacion entre V (Yi) y E(Yi) ?
Consideremos el siguiente ejemplo.
El siguiente plot corresponde a datos de velocidad (SP ) y distancia de frenadoen un automovil (D).
En este grafico se puede ver cierta heteroscedaticidad que es mucho mas evidenteen el grafico de ri vs. Yi obtenidos despues de ajustar a los datos el modelo
Di = β1SPi + β2SP2i + εi .
Modelo Lineal A. M. Bianco FCEyN 2013 6
5 10 15 20 25 30 35 40
020
4060
8010
012
014
0
SP
D
Modelo Lineal A. M. Bianco FCEyN 2013 7
0 20 40 60 80 100 120
−20
−10
010
20
salida$fit
salid
a$re
s
Modelo Lineal A. M. Bianco FCEyN 2013 8
¿Como podemos determinar la relacion entre V (Yi) y E(Yi) ?
Un procedimiento es obtener estimadores de E(Yi) y de V (Yi) por regiones ytratar de establecer que relacion hay entre ellas.
Para ello, se recomienda dividir el rango de Yi en tres regiones de manerade hacer un compromiso entre que las regiones tengan igual tamano e igualcantidad de puntos cada una.
En el ejemplo de velocidad, estas regiones podrıan estar delimitadas por losvalores 25 y 72.
Luego calcularıamos
la mediana de cada region: Y (1), Y (2) y Y (3)
la distancia intercuartil de cada una: d (1), d (2) y d (3)
graficamos Y (i) vs. d (i)
En nuestro ejemplo, obtendrıamos
(Y (1), Y (2), Y (3)) = (10,22315; 29,13797; 96,30877)
Modelo Lineal A. M. Bianco FCEyN 2013 9
(d (1), d (2), d (3)) = (6,778; 9,421; 25,500)
graficando, obtenemos
20 40 60 80
1015
2025
medyhat
dint
er
Modelo Lineal A. M. Bianco FCEyN 2013 10
Este grafico sugiere que√V (Yi) ∼= αE(Yi) y por lo tanto
V (Yi) ∝ E2(Yi)Recordemos que cuando ΣY 6= σ2I aplicabamos el metodo de mınimos cuadra-dos generalizados o ponderados:
Supongamos que ΣY = σ2V , donde V ∈ <n×n es una matriz definida pos-
itiva de constantes. Podemos entonces escribir: V = KK′ con K una matrizinvertible.
Y = Xβ + ε
K−1Y = K−1Xβ +K−1ε
Por lo tanto, tenemos un nuevo problema transformado es:
Y = Xβ + ε
Modelo Lineal A. M. Bianco FCEyN 2013 11
que satisface las condiciones de Ω.
Hallar el estimador de mınimos cuadrados, β, en el problema transformadoequivale a:
mınb‖Y − Xb‖2 = mın
b(Y − Xb)′V−1(Y − Xb)
Para el modelo transformado, los residuos serıan
r = Y − ˆY
= Y − Xβ= K−1Y −K−1Xβ= K−1(Y − Xβ)
Volviendo al ejemplo de velocidad
Si ajustamos nuevamente los datos usando pesos.
speed¡-read.table(”C:/Users/Ana/ModeloLineal/datos/Speed.txt”, header=T)
attach(speed)
Modelo Lineal A. M. Bianco FCEyN 2013 12
plot(SP,D)
SP2=SP*SP
salida¡- lm(D˜SP+SP2-1)
summary(salida)
Coefficients:
Estimate Std. Error t value Pr(¿—t—)
SP 0.576599 0.200804 2.871 0.00564 **
SP2 0.062145 0.006904 9.001 9.83e-13 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 9.852 on 60 degrees of freedom
Multiple R-squared: 0.9644, Adjusted R-squared: 0.9632
F-statistic: 813.5 on 2 and 60 DF, p-value: ¡ 2.2e-16
plot(salida$fit,salida$res)
EY=0.200804*SP+0.006904*SP2
plot(SP,EY)
Modelo Lineal A. M. Bianco FCEyN 2013 13
5 10 15 20 25 30 35 40
510
15
SP
EY
Como vemos en el grafico, E(Yi) serıa proporcional a SP , por lo tanto deacuerdo a lo visto V (Yi) ∝ E2(Yi) y en consecuencia usarıamos pesos de laforma 1/SP 2.
Modelo Lineal A. M. Bianco FCEyN 2013 14
salida3¡- lm(D˜SP+SP2,weight=peso)
summary(salida3)
Call:
lm(formula = D ˜ SP + SP2, weights = peso)
Residuals:
Min 1Q Median 3Q Max
-0.79915 -0.32983 -0.02599 0.27541 0.92972
Coefficients:
Estimate Std. Error t value Pr(¿—t—)
(Intercept) 1.50605 2.03544 0.740 0.462
SP 0.41968 0.34326 1.223 0.226
SP2 0.06557 0.01057 6.205 5.9e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.4514 on 59 degrees of freedom
Multiple R-squared: 0.9131, Adjusted R-squared: 0.9101
F-statistic: 309.8 on 2 and 59 DF, p-value: ¡ 2.2e-16
plot(salida3$fit/SP,salida3$res/SP)
Modelo Lineal A. M. Bianco FCEyN 2013 15
1.0 1.5 2.0 2.5 3.0
−0.
50.
00.
5
salida3$fit/SP
salid
a3$r
es/S
P
Transformaciones Estabilizadoras de la Varianza
Podrıamos preguntarnos si alguna transformacion podrıa estabilizar la varianza.
Modelo Lineal A. M. Bianco FCEyN 2013 16
Supongamos que f es continua, con seunda derivada f ′′ finita, entonces veremosque
V (f (Yi)) ∼= (f ′(µi))2 σ2i (µi) donde µi = E(Yi)
Por lo tanto, para que V (f (Yi)) = cte , necesitamos que
(f ′(µi))2 ∼= c
σ2i (µi)donde c = cte.
Una funcion f con esta propiedad se llama funcion estabilizadora de la vari-
anza.
Por ejemplo:
yi v.a. de conteo tipo Poisson −→ f (µi) =√µi
yi =mini
(v.a. tipo Binomial) −→ f ′(µi) = cn1/2i /√µi(1− µi)
−→ f (µi) = 2cn1/2i arcsen(√µi)
Modelo Lineal A. M. Bianco FCEyN 2013 17
Otra forma de elegir una transformacion
Cuando tenemos una sola variable independiente el diagrama de dispersionde las observaciones puede sugerirnos inmediatamente que es necesaria unatransformacion de los datos y cual elegir.
Si no es ası, Tukey y Mosteller (1977) sugieren la siguiente estrategia:
• Dividimos el rango de las x ′s en tres regiones haciendo un compromiso entreel numero de observaciones en cada region y un tamano homogeneo de lasmismas.
• En cada region calculamos la mediana de las x ′s y de las correspondientesy ′s .
• Hallamos la pendiente de la recta de los dos primeros puntos y de los dosultimos.
• Si las pendientes son iguales entonces los puntos estan sobre una recta. Sino, el punto del medio estara por debajo de los otros dos (convexo) o masarriba de los otros dos (concavo).
Modelo Lineal A. M. Bianco FCEyN 2013 18
• Transformamos a x o a y usando el cuadro que se encuentra mas abajo.
Podemos aplicar la transformacion elegida a los tres puntos y verificar si laspendientes dan iguales. En este caso habrıamos encontrado una transformacionadecuada.
Cuadro de Transformaciones
. .
−1/y 2 .
−1/y x5
−1/y 1/2 x4
log(y) ⇑ x3
y 1/2 convexo x2
y ⇐⇒ x
y 2 ⇓ x1/2
y 3 concavo log(x)
y 4 −1/x1/2y 5 −1/x. .
Modelo Lineal A. M. Bianco FCEyN 2013 19
Ejemplo Stevens (1956) pidio a un conjunto de individuos que comparasen
notas de varios decibeles contra un standard (80 decibeles) y que les asignaranun rango de sonoridad, donde el rango standard era 10. Obtuvo los siguientesdatos
Estımulo (x) 30 50 60 70 75 80 85 90 95 100Respuesta mediana (y ) 0.2 1.0 3.0 5.0 8.5 10.0 14.0 20 29 43
Modelo Lineal A. M. Bianco FCEyN 2013 20
Consideramos: (50,1), (77.5,9.25) y (95,29).
Modelo Lineal A. M. Bianco FCEyN 2013 21
(50,1), (77.5,9.25) y (95,29)
pendiente y2−y1x2−x1 ⇒• entre los dos primeros es 8,2527,5 = ,3
• entre los dos ultimos 19,7517,5 = 1,13 .
Transformamos ay . Comenzando con escala descendente transformarıamos con√y . Aplicamos esta transformacion a la segunda coordenada de los tres puntos
y al recalcular las pendientes obtenemos
• entre los dos primeros es 2,0427,5 = 0,074
• entre los dos ultimos 2,3527,5 = 0,134
Podrıamos probar con la transformacion que sigue en la escala descendente, esdecir −1/y 1/2 . Las nuevas pendientes son: 0.025 y 0.0082⇒ estarıamos empeorando.
De acuerdo con este analisis, nos quedarıamos con la transformacion logaritmo.
Modelo Lineal A. M. Bianco FCEyN 2013 22
## Datos de Stevens
estimulo¡- c( 30,50,60,70,75,80,85,90,95,100)
respuesta.med¡- c( 0.2,1.0,3.0,5.0,8.5,10.0,14.0,20,29,43)
xmed¡- c(50,77.5,95)
ymed¡- c(1,9.25,29)
par(mfrow=c(2,2))
plot(estimulo,respuesta.med)
plot(xmed,ymed)
plot(xmed,sqrt(ymed))
plot(xmed,log(ymed))
Nota ¿Que ocurre si la variable de respuesta toma valores negativos? En esecaso se suma una constante c a Y antes de aplicarle una potencia. Dolby (1963)propuso un metodo grafico para elegir la constante c .
Modelo Lineal A. M. Bianco FCEyN 2013 23
30 40 50 60 70 80 90
010
2030
40
estimulo
resp
uest
a.m
ed
50 60 70 80 90
05
1015
2025
30
xmed
ymed
50 60 70 80 90
12
34
5
xmed
sqrt
(ym
ed)
50 60 70 80 90
0.0
1.0
2.0
3.0
xmed
log(
ymed
)
Modelo Lineal A. M. Bianco FCEyN 2013 24
Cuando hay 2 o mas variables explicativas
El principal problema que se nos presenta en este caso es los graficos de Y vs.cada una de las covariables Xj pueden ser no informativos.
Ası por ejemplo , si consideramos los puntos
y¡- c(2,1,3,1,3,2)
x1¡- c(1,2,2,3,3,4)
x2¡- c(3,1,3,0,2,0)
par(mfrow=c(1,2))
plot(x1,y)
plot(x2,y)
el grafico que obtenemos es:
Modelo Lineal A. M. Bianco FCEyN 2013 25
1.0 2.0 3.0 4.0
1.0
1.5
2.0
2.5
3.0
x1
y
0.0 1.0 2.0 3.0
1.0
1.5
2.0
2.5
3.0
x2
y
Modelo Lineal A. M. Bianco FCEyN 2013 26
No presenta ninguna estructura cuando graficamos Y vs.X1 (aparece un hexagono),aun cuando lo puntos yacen sobre el plano: Y = −3 + X1 + X2Wood (1973) propuso el siguiente metodo.
Supongamos que ajustamos el modelo
Yi = β0 + β1xi1 + · · ·+ βkxik + εiy obtenemos los estimadores (β0, β1, . . . , βk), entonces los residuos seran:
ei = Yi − Yi = Yi − (β0 + β1xi1 + · · ·+ βkxik)Luego:
Yi − β0 −k∑
j 6=mβjxi j = ei + βmxim residuos parciales
Por lo tanto, ei + βmxim es Yi sin el efecto de todas las otras covariables, demanera que graficando ei + βmxim vs. Xim obtenemos un grafico en el que elefecto de las otras covariables ha sido removido.
Modelo Lineal A. M. Bianco FCEyN 2013 27
En estos graficos de residuos parciales podemos aplicar las tecnicas para unasola variable independiente.
Una desventaja de este metodo es que si dos covariables estuvieran muy cor-relacionadas, podrıa ocurrir que los β′s no estuvieran bien estimados y por lotanto los plots de residuos parciales podrıan ser confusos.
Ejemplo
Modelo Lineal A. M. Bianco FCEyN 2013 28
Modelo Lineal A. M. Bianco FCEyN 2013
Diagnóstico en ANOVA
En el caso de Anova 1 Factor computando los residuos ijr una vez calculada la Tabla ANOVA
podemos detectar:
Heterogeneidad de varianzas
Falta de independencia entre las observaciones
Presencia de outliers
Omisión de alguna variable importante
Falta de Normalidad
Podemos investigar la distribución de los residuos a través de diagramas de tallo-hoja,
histogramas, box-plots. Podemos detectar asimetría, presencia de outliers, etc.
Si el tamaño de ni es razonable, es aconsejable realizarlos para cada nivel del factor. Recordemos
que como en regresión, los residuales no son independientes. En general, esta dependencia suele
ser despreciable.
Si el tamaño de ni es razonable, podemos chequear el supuesto de normalidad realizando qq-plots
y aplicando el test de Shapiro-Wilk para la observaciones originales en cada nivel. Si no es así, los
haremos para todos los residuos juntos.
Modelo Lineal A. M. Bianco FCEyN 2013
Si detectásemos residuos grandes o alejados del grueso de los residuos deberíamos estudiar
cuidadosamente la situación.
Otros gráficos
Diagrama de puntos: se construyen graficando los residuos (o las observaciones originales)
de cada nivel del factor en paralelo y nos darán una idea de si el supuesto de homogeneidad
de varianzas entre los niveles es razonable o no.
Valores predichos iY vs. Residuos: en este gráfico podemos apreciar la bondad del ajuste
del modelo y las varianzas de los residuos.
Gráfico de residuos vs. secuencia temporal: si se tiene registrado el orden en que fueron
tomadas las observaciones es aconsejable hacer este gráfico con el fin de detectar alguna
tendencia.
Gráfico de residuales vs. alguna variable de interés: si se midió alguna otra variable (edad,
peso, etc) puede ser útil graficar los residuos vs. esta variable. Esto puede contribuir a:
1. la comprensión del problema
2. sugerir variables a controlar en una nueva experiencia
3. ayudar a detectar un factor confundido si no se aleatorizó correctamente.
Modelo Lineal A. M. Bianco FCEyN 2013
Para detectar heterogeneidad de varianzas en este modelo existen varios tests específicos cuando
la distribución de los datos es normal. Veremos una opción, que es la del Test de Levene, que es
válida en un contexto más general.
Supongamos que tenemos un Anova 1 Factor en el que comparamos k tratamientos.
Las hipótesis a testear son:
Ho: 12 = 2
2 =....=k
2 vs. H1: i
2 j
2 para algún par de índices i j
Test de Levene Modificado
El test de Levene modificado testea la igualdad de varianzas. Puede calcularse fácilmente
transformando la variable de respuesta y calculando una nueva Tabla de ANOVA para las
variables transformadas.
Modelo Lineal A. M. Bianco FCEyN 2013
Los pasos a seguir son:
0) Computamos la mediana de la i-ésima casilla
1) Calculamos las variables transformadas: iijijYYW~
2) Calculamos la Tabla de ANOVA para
3) Rechazamos la hipótesis de igualdad de varianzas si el estadístico F del paso anterior es grande.
Entre las propuestas para testear homogeneidad de varianzas, este test figura entre los más
potentes y resistentes a la violación del supuesto de normalidad.
Si se rechaza la hipótesis de igualdad de varianzas, tenemos algunas alternativas.
Si la varianza no es constante, pero se sustenta el supuesto de normalidad, es recomendable usar
mínimos cuadrados ponderados o pesados.
Muchas veces la heterogeneidad de varianzas está acompañada por la no normalidad de las
observaciones. En este caso, la transformación de la variable de respuesta suele ser un remedio.
Con frecuencia, la misma transformación que estabiliza las varianzas también corrige la falta de
normalidad de los datos.
)(~
ijj
i YmedY
ijW
Modelo Lineal A. M. Bianco FCEyN 2013
Si esto no se puede lograr, puede combinarse una transformación estabilizadora de varianzas con
una alternativa al test de F que sea no paramétrica.
Una posibilidad para encontrar la función transformadora es realizar un gráfico de iY vs. i
S para
visualizar qué tipo de relación tienen.
Veamos un ejemplo.
Modelo Lineal A. M. Bianco FCEyN 2013
Transplante de Corazón
En los transplantes de corazón la similitud entre el tipo de tejido del donante y del receptor es
importante, pues grandes diferencias aumentan la probabilidad de rechazo del corazón
transplantado. Los datos que analizaremos a continuación corresponden al tiempo de
supervivencia de 36 pacientes transplantados. Los datos fueron agrupados en tres categorías de
acuerdo con el grado de incompatibilidad entre el tejido del donante y del receptor (baja=1,
media=2 y alta=3). Los investigadores quieren determinar si el tiempo medio de sobrevida
depende del grado de incompatibilidad.
Las hipótesis a testear son:
Ho: 1 = 2 = 3 vs. H1: no todas las i son iguales
Diagrama de Puntos
El diagrama de puntos sugiere que el tiempo de sobrevida puede disminuir cuando crece la
incompatibilidad.
Modelo Lineal A. M. Bianco FCEyN 2013
Modelo Lineal A. M. Bianco FCEyN 2013
Inicialmente se realizó un ANOVA y se calcularon los residuos con fines de diagnóstico. A
continuación ofrecemos la salida y algunos gráficos.
SOURCE DF SS MS F P
------- ---- --------- --------- ------ ------
BETWEEN 2 455385 227693 2.13 0.1351
WITHIN 33 3530419 106982
TOTAL 35 398580
SAMPLE GROUP
Incompat. MEAN SIZE STD DEV
--------- ---------- ------ ----------
1 334.92 13 421.99
2 281.08 12 347.32
3 69.818 11 81.607
TOTAL 235.97 36 327.08
Modelo Lineal A. M. Bianco FCEyN 2013
Modelo Lineal A. M. Bianco FCEyN 2013
is
El diagrama de puntos de los residuos standarizados sugiere que la distribución de los residuos es
asimétrica a derecha y que la varianza de los residuos podría ser menor cuando hay una alta
incompatibilidad.
El test de Levene modificado fue aplicado obteniéndose un p-valor igual a 0.1504.
Por otro lado, el qq-plot de todos los residuos standarizados revela cierta asimetría a derecha y el
test de Shapiro-Wilk tiene un p-valor menor que 0.0001.
Si realizamos un scatter plot de vs parece haber una relación lineal entre ambos.
iY
Modelo Lineal A. M. Bianco FCEyN 2013
Trabajamos con la nueva variable )log(YY y realizamos el análisis de la varianza para ella.
Tabla de ANOVA
SOURCE DF SS MS F P
------- ---- --------- --------- ------ ------
BETWEEN 2 12.9734 6.48670 3.57 0.0394
WITHIN 33 59.9250 1.81591
TOTAL 35 72.8984
SAMPLE GROUP
IND MEAN SIZE STD DEV
--------- ---------- ------ ----------
1 5.0174 13 1.3338
2 4.8098 12 1.4213
3 3.6281 11 1.2790
TOTAL 4.5237 36 1.3476
El p-valor del test de Levene modificado para la variable transformada es 0.7282. El diagrama de
puntos y el qq-plot de los residuos standarizados (p-valor del test de Shapiro -Wilk = 0.1463)
también sugieren que la transformación logarítmica es apropiada.
En la tabla de ANOVA vemos que el estadístico F = 3.57 con un p-valor = 0.0394. Para un nivel
=0.05 concluiríamos que la media del logaritmo del tiempo de sobrevida de los transplantados
depende del grado de incompatibilidad del tejido entre donante y receptor.
Modelo Lineal A. M. Bianco FCEyN 2013
Modelo Lineal A. M. Bianco FCEyN 2013 30
Transformaciones de Box y Cox
Box y Cox (1964) propusieron una familia de funciones de potencia para lavariable de respuesta con el objetivo de garantizar el cumplimiento de todos lossupuestos de un modelo lineal, es decir:
Y ∼ N(Xβ, σ2I)
Estas transformaciones combinan el objetivo de encontrar una relacion simple,con homogeneidad de varianzas, mejorando la normalidad.
Las transformaciones originales de Box y Cox estan dadas por:
y (λ) =
⎧⎨⎩
yλ−1λ si λ 6= 0log y si λ = 0
Mediante la regla de L’ Hopital podemos probar que
lımλ→0yλ − 1λ
= log y
Modelo Lineal A. M. Bianco FCEyN 2013 31
En ese mismo trabajo estos autores proponen la familia
y (λ) =
⎧⎨⎩
(y+λ2)λ1−1
λ1si λ1 6= 0
log (y + λ2) si λ1 = 0
para contemplar el caso de valores de y negativos. En la practica se elige λ2para que yi + λ2 > 0 para todo i . De manera que solo veremos a λ1 comoparametro de estas transformaciones.
Esta familia es continua en λ y monotona creciente para cada λ, es decir queel orden original entre las y ’s es preservado: si y1 > y2, luego y
(λ)1 ) > y
(λ)2 .
Es claro que no toda distribucion puede ser transformada a una normal. Drapery Smith (1969)estudiaron este problema y concluyeron que aun en aquellasdistribuciones para las que transformando por potencias no es posible lograrexacta normalidad, los estimadores usuales de λ conducen a distribucionescuyos primeros 4 momentos corresponderıan a simetrıa.
John y Draper (1980) propusieron la siguiente modificacion:
Modelo Lineal A. M. Bianco FCEyN 2013 32
y (λ) =
⎧⎨⎩
sg(y) (|y |+1)λ−1
λ si λ 6= 0sg(y) log (|y |+ 1) si λ = 0
que puede funcionar mejor para distribuciones simetricas.
Supongamos que las observaciones transformadas Y(λ) ∼ N(Xβ, σ2I). Nosotrosobservamos la matriz de diseno X, el vector de respuestas Y, de manera quelos parametros del modelo son (λ,β, σ2). Box y Cox (1964) mostraron queλ puede ser estimado por el metodo de maxima verosimilitud. Sin embargo,si plantearamos las tres ecuaciones de scores, resolverlas simultaneamente po-drıa ser complicado. Por este motivo, se suele resolver la busqueda de losestimadores de (β, σ2) para cada λ fijo y luego se elige el λ mas adecuado.
En este caso tendrıamos que la densidad de Y(λ) es
f (y(λ)) =1
(√2πσ2)n
e−
(y(λ)−Xβ
)′(y(λ)−Xβ
)
2σ2
Modelo Lineal A. M. Bianco FCEyN 2013 33
donde
y (λ) =
⎧⎨⎩
yλ−1λ si λ 6= 0log y si λ = 0
¿Cual serıa en este caso f (y)? Tendrıamos
f (y) =1
(√2πσ2)n
e−
(y(λ)−Xβ
)′(y(λ)−Xβ
)
2σ2 J(λ, y)
donde J(λ, y) es el jacobiano de la transformacion de y a y (λ). Por lo tanto:
J(λ, y) = Πni=1∂y(λ)i
∂yi= Πni=1y
λ−1i
Con lo cual, la funcion de verosimilitud, que coincidirıa con f (y), resultarıa:
Modelo Lineal A. M. Bianco FCEyN 2013 34
f (y, λ,β, σ2) =1
(√2πσ2)n
e−
(y(λ)−Xβ
)′(y(λ)−Xβ
)
2σ2 Πni=1yλ−1i
Para cada λ fijo los estimadores de maxima verosimilitud de β y de σ2 son:
ˆβ(λ) = (X′X)−1XY(λ)ˆσ2(λ) = Y(λ)(I− P)Y(λ)/n
Si consideramos la log–versosimilitud y reemplazamos por dichos valores resulta:
log f (y, λ,β, σ2) = cte − n2log
ˆσ2(λ) + (λ− 1) n∑
i=1log yi
= cte − n2logS2(λ)
S2(λ): ¿Por que puede ser visto como un estimador de la escala: ?
Modelo Lineal A. M. Bianco FCEyN 2013 35
Sea g la media geometrica de las observaciones yi : g = (Πni=1yi)
1/n y definimos
y(λ, g) = y (λ)/gλ−1
Si hicieramos la regresion de y(λ, g) ∼ N(Xβ, σ2I), ¿Cuanto darıa S2λ ?Veremos que es la cantidad que
−n2logS2λ =
n
2log σ2(λ) + (λ− 1) n∑
i=1log yi
Por lo tanto, el estimador de λ se obtendra maximizando
−n2logS2(λ)
A partir de la teorıa que conocemos de cociente de verosimilitud, podemos verque si nos interesa testear la hipotesis
H0 : λ = λ0
el estadıstico:
Modelo Lineal A. M. Bianco FCEyN 2013 36
W = 2(−n2logS2(ˆλ) +
n
2logS2(λ0))
tiene distribucion asintotica χ21. En consecuencia:
P (−n2logS2(ˆλ) +
n
2logS2(λ0) ≤
1
2χ21,α)
∼= 1− α
y podemos deducir un intervalo de confianza para λ.
Modelo Lineal A. M. Bianco FCEyN 2013 37
Modelo Lineal A. M. Bianco FCEyN 2013 38
Ejemplo (Draper y Smith, 1981)
Los siguientes datos corresponden a un estudio mas extenso presentado porDraper y Smith (1981) en el que se quiere estudiar la viscosidad en funcion dedos componentes FF = filler y PP = Oil (aceite).
Modelo Lineal A. M. Bianco FCEyN 2013 39
FF PP WW
0 0 26
12 0 38
24 0 50
26 0 76
48 0 108
60 0 157
0 10 17
12 10 26
24 10 37
36 10 53
48 10 83
60 10 124
0 20 13
12 20 20
24 20 27
36 20 37
48 20 57
60 20 87
12 30 15
24 30 22
36 30 27
48 30 41
Modelo Lineal A. M. Bianco FCEyN 2013 40
60 30 63
El modelo propuesto es:
WW = β0 + β1FF + β2PP + ε
Call:
lm(formula = WW ˜ FF + PP)
Residuals:
Min 1Q Median 3Q Max
-15.592 -9.695 -3.722 6.713 35.296
Coefficients:
Estimate Std. Error t value Pr(¿—t—)
(Intercept) 28.1837 6.3322 4.451 0.000245 ***
FF 1.5587 0.1452 10.735 9.48e-10 ***
PP -1.7166 0.2640 -6.502 2.44e-06 ***
Residual standard error: 13.82 on 20 degrees of freedom
Modelo Lineal A. M. Bianco FCEyN 2013 41
Multiple R-squared: 0.8793, Adjusted R-squared: 0.8673
F-statistic: 72.87 on 2 and 20 DF, p-value: 6.543e-10
library(MASS)
boxcox(WW˜FF+PP, data = viscosity,lambda = seq(-1, 1, length = 10))
boxcox(WW˜FF+PP, data = viscosity,lambda = seq(-1, 1, length = 10))
salida.log¡- lm(logww˜FF+PP)
Modelo Lineal A. M. Bianco FCEyN 2013 42
0 20 40 60 80 100 120
−10
010
2030
salida$fit
salid
a$re
s
−0.4 −0.2 0.0 0.2 0.4
−75
−70
−65
−60
−55
−50
λ
log−
Like
lihoo
d
95%
−1.0 −0.5 0.0 0.5 1.0
−90
−80
−70
−60
−50
λ
log−
Like
lihoo
d
95%
2.5 3.0 3.5 4.0 4.5 5.0
−0.
050.
000.
05
salida.log$fit
salid
a.lo
g$re
s
Modelo Lineal A. M. Bianco FCEyN 2013 43
Errores Correlacionados
Consideremos el caso particular en que los errores siguen el siguiente un modeloautorregresivo de orden 1, AR(1), es decir:
εt = ρεt−1 + ut ,
donde ut son i.i.d, E(ut) = 0 y V ar (ut) = σ2u. Asumimos que |ρ| < 1. Ya
hemos probado que
E(εt) = 0
V ar (εt) =σ2u1− ρ2
Cov(εt, εt−r = ρr σ2u1− ρ2
Removiendo la autocorrelacion mediante una transformacion
Modelo Lineal A. M. Bianco FCEyN 2013 44
Supongamos que
yt = α+ βxt + εtεt = ρεt−1 + ut
donde ut son i.i.d. ut ∼ N(0, σ2u). Notemos que:yt = α+ βxt + εtyt−1 = α+ βxt−1 + εt−1
por lo tanto:
yt − ρyt−1 = α(1− ρ) + β(xt − ρxt−1) + εt − ρεt−1
con lo cual
y ∗t = α∗ + β∗x∗t + ut
es decir las nuevas variables satisfacen las condiciones habituales del modelolineal.
Modelo Lineal A. M. Bianco FCEyN 2013 45
¿Como estimar a ρ?
El metodo iterativo de Cochrane–Orcutt propone los siguientes pasos para laestimacion en esta situacion.
1. Computar los estimadores de mınimos cuadrados ordinarios de α y β.
2. Calcular los residuos et y estimar a ρ mediante
ρ =∑nt=2 etet−1∑nt=2 e
2t−1
3. Ajustar el modelo (*) usando ρ.
4. Examinar los nuevos residuos. Si no estan correlacionados terminar com-putando los estimadores de interes:
α = α∗/1− ρ ˆβ = ˆβ∗
De lo contrario, repetir el procedimiento usando como estimadores inicialesα y ˆβ.
Modelo Lineal A. M. Bianco FCEyN 2013 46
Metodo de Prais–Winstein (1954)
Otra posibilidad es el metodo de Prais–Winstein basado en mınimos cuadra-dos generalizados. En funcion de las expresiones vistas para la varianzas y lascorrelaciones de los errores, tenemos que Σepsi lon = σ
2Ω, donde
Ω =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 ρ ρ2 . . . ρn−1
ρ 1 ρ . . . ρn−2
. . .
. . .ρn−1 ρn−2 . . . 1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
Utilizando el estimador del paso [2.] anterior, ρ, podrıamos estimar a Ω por ˆΩ
Modelo Lineal A. M. Bianco FCEyN 2013 47
ˆΩ =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 ρ ρ2 . . . ρn−1
ρ 1 ρ . . . ρn−2
. . .
. . .ρn−1 ρn−2 . . . 1
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
para luego computar el estimador de mınimos cuadrados generalizados:
β = (X′ˆΩ−1X)−1 X′ˆΩ−1Y
.
Modelo Lineal A. M. Bianco FCEyN 2013 48
Deteccion de Puntos Influyentes
Residuos
En general, los puntos con residuos standarizados ri que van mas alla del rango[-2, 2] (o [-2.5,2.5], segun los autores) se consideran sospechosos.
Leverage
El leverage mide cuan extrema es una observacion en el espacio de las covari-ables x′s.
Se llama leverage de una observacion a
pi i = x′i(X′X)−1xi
En la practica probaran propiedades de pi i que son utiles para interpretar que mi-den.
De hecho, si X ∈ <n×p contiene una columna de 1′s, sin perdida de gen-eralidad asumamos que la primera, X = [l,X2] y la matriz de proyeccion
Modelo Lineal A. M. Bianco FCEyN 2013 49
P = X(X′X)−1X′ satisface:
a) P = P1 + P2 donde P1 = n−1l l′ (l ∈ <n, l = (1, 1, .., 1)′) y P2 =
˜X(˜X ′˜X)−1˜
X ′ siendo ˜X = (I−n−1l l′)X2 la matriz con las columnas centradas.
b) pi i ≥ 1n.
c) pi i =1n + pi i donde pi i = (P2)i i .
Con lo cual, pi i mide la distancia de xi a su centro x.
Sabemos quen∑
i=1pi i = p =⇒
1
n
n∑
i=1pi i =
p
n
y por esta razon se sugiere considerar como punto de corte 2p
n(algunos autores
sugieren 3p
n)
Por lo tanto, se estudiaran especialmente aquellos puntos tales que pi i > 2p
n.
Ademas se sugiere considerar los siguientes graficos:
Modelo Lineal A. M. Bianco FCEyN 2013 50
−2 −1 0 1 2 3
−2
−1
01
23
x1
x2
i vs. pi i
tallo y hoja (o histograma) de pi i
boxplots de pi i
Modelo Lineal A. M. Bianco FCEyN 2013 51
Distancia de Cook
Las conclusiones de los metodos de diagnostico podrıan depender de la presenciade puntos influyentes.
Al excluir un punto influyente del analisis, las conclusiones a partir del conjuntorestante podrıan cambiar considerablemente.
En principio, desearıamos que pequenas perturbaciones introdujeran pequenoscambios.
Supongamos que ˆβ es el estimador de mınimos cuadrados obtenidos a partir
de toda la muestra (x1, y1), . . . , (xn, yn), mientras queˆβ(i) es el estimador de
mınimos cuadrados obtenido al excluir la i–esima observacion, (xi , yi), de lamuestra.
Se define la Curva de Influencia Muestral (SIC) como:
SIC =(ˆβ − ˆ
β(i))
1/n= n(ˆβ − ˆ
β(i))
Modelo Lineal A. M. Bianco FCEyN 2013 52
Como SIC es un vector, podrıamos considerar su norma o su norma respectode una matriz simetrica definida positivaM y eventualmente un factor de escala:
Di(M, c) =n−2SIC ′ M SIC
c
=(ˆβ − ˆ
β(i))′M(ˆβ − ˆ
β(i))
c
Si eligieramos M = X′X y c = pσ2 = ps2 obtendrıamos algo conocido:
(ˆβ − ˆβ(i))
′(X′X)(ˆβ − ˆβ(i))
pσ2
De hecho el elipsoide de confianza lo obtenemos como:
(ˆβ − ˆβ(i))
′(X′X)(ˆβ − ˆβ(i))
pσ2≤ Fp,n−p,1−α
La distancia de Cook (1977) es:
Modelo Lineal A. M. Bianco FCEyN 2013 53
Di =(ˆβ − ˆ
β(i))′(X′X)(ˆβ − ˆ
β(i))
ps2
Notemos que
Di =(ˆY − ˆY(i))
′(ˆY − ˆY(i))
ps2
=
n∑
j=1(ˆYj − ˆ
Yj(i))2
ps2
donde ˆY(i) denota al vector de valores predichos obtenido a partir deˆβ(i).
En la practica se mostrara que
Di =1
p
pi i1− pi i
r 2i
donde pi i es el elemento i de la diagonal de la matriz de proyeccion P y ries el i−esimo residuo standarizado. En esta expresion se ve que esta distancia
Modelo Lineal A. M. Bianco FCEyN 2013 54
conjuga tanto el efecto sobre los residuos como el leverage de las observaciones,por lo tanto Di implica residuo o leverage grandes.
Se suele comparar a Di con la distribucion Fp,n−p y se presta especial atenciona aquellos puntos que estan por encima del percentil 50%.
Otras medidas
DFFIT
Una medida bastante natural y cercana a la distancia de Cook es la del cambioen la prediccion al eliminar la observacion i .
Recordemos que
ˆβ − ˆβ(i) = (X
′X)−1xi
ei1− pi i
S2(i) =(n − p)s2 − e2i (1− pi i)
n − p − 1
Por lo tanto el cambio en la prediccion resulta:
Modelo Lineal A. M. Bianco FCEyN 2013 55
DFFITi =ˆYi − ˆYi(i) = x
′iˆβ − x′i ˆβ(i)
=pi i1− pi i
ei
Como ΣY = σ2P, una version standarizada es:
DFFITi =
√pi i
S(i)(1− pi i)ei
Usando las cotas vistas para los residuos y los leverage, se sugiere como puntos
de corte |DFFIT | > 2√pn−p o si n es mucho mayor que p |DFFIT | > 2
√√√√p
n.
DFBETAj
Esta medida considera el cambio en cada coordenada de ˆβ al eliminar la obser-
vacion i .
Modelo Lineal A. M. Bianco FCEyN 2013 56
Como vimos
ˆβ − ˆβ(i) = (X
′X)−1xi
ei1− pi i
Llamemos(a0i , . . . , ap−1i) = (X
′X)−1xi
entonces para i = 1, .., n y j = 0, .., p − 1
DFBETAj =ˆβj − ˆ
βj(i) =aj iei1− pi i
Ver archivo Complemento
Modelo Lineal A. M. Bianco FCEyN 2013 57
Colinealidad
la calidad de los estimadores, medida a traves de su precision, puede ser muyafectada si las covariables estan muy relacionadas entre sı.
Esta situacion tıpicamente puede deberse a:
Las covariables cumplen una restriccion (ejemplo% de cemento)
Se crean variables a partir de otras existentes y se introduce dependencia
En los sistemas bologicos o fısicos o quımicos las variables naturalmentepueden tener dependencia.
Dependencia inadecuada por un muestreo inadecuado.
De todas formas, no siempre puede identificarse el origen de la colinealidad,aunque es importante detectarla y tratar de entender su naturaleza.
Sabemos caraterizar la singularidad: existe c, ‖c‖ = 1 tal que
Xc = 0 (‖Xc‖2 = 0)
Modelo Lineal A. M. Bianco FCEyN 2013 58
Podrıamos decir que la casi–singularidad corresponde a: existe c, ‖c‖ = 1 talque
‖Xc‖2 = δ <<Veamos que efecto tiene esta casi–singularidad. Por Cauchy–Schwartz tenemosque
1 = c′c = c′(X′X)1/2(X′X)−1/2c ≤√c′(X′X)c
√c′(X′X)−1c =
√δ
√c′(X′X)−1c
Por lo tanto:1 ≤ δc′(X′X)−1c
En consecuencia:
V ar (c′ˆβ) = σ2c′(X′X)−1c ≥ σ2/δ >>Como Xc puede ser afectado por las unidades de X vamos a escalar las colum-
Modelo Lineal A. M. Bianco FCEyN 2013 59
nas de X de manera que tengan norma 1:
X = [x[1] . . . x[p]] −→ Xs = [x[1]/‖x[1]‖ . . . x[p]/‖x[p]‖]Notemos que si D−1 = diag(‖x[1]‖, . . . , ‖x[p]‖), entonces
Xs = XD−1
y por lo tanto:
(X′sXs)−1 = D(X′X)−1D
En este sentido podrıamos considerar el modelo equivalente
Y = Xsβs + ε
donde βs = Dβ.
Tenemos que:
Modelo Lineal A. M. Bianco FCEyN 2013 60
ˆβs = D
ˆβ y Σˆ
βs= DΣˆ
βD
Una consecuencia de escalar es que se remueve la casi–singularidad debida aque una columna de X tiene longitud pequena.
Para d = Dc:
c′(X′X)c = c′DD−1(X′X)D−1Dc = d′(X′sXs)d ≥ λmin‖d‖2
siendo dmin es el mınimo autovalor de (X′sXs)
Luego, si hay multicolinealidad c′(X′X)c puede ser pequeno (aun con ‖d‖2 notan pequeno) y por lo tanto λmin sera pequeno.
Deteccion de Colinealidad
Autovalores y Numero de Condicion
Como hemos visto los autovalores pueden darnos indicios de colinealidad.
Sean λ1, . . . , λp los autovalores de (X′sXs) y lllamemos
Modelo Lineal A. M. Bianco FCEyN 2013 61
λmax = maxλi λmin = mınλi
Definimos:
ındice de condicion : δj =
√√√√√√λmaxλj
Un numero de condicion grande indica una matriz pobremente condicionada.
Belsey, Kuh y Welsch (1980) sugieren que ındices δj > 30 o 100 indicarıancolinealidad de moderada o severa
Factor de Inflacion de la Varianza
Podemos medir la relacion entre una variable xj y las demas mediante el coefi-ciente de correlacion multiple R2j .
Se define el Factor de Inflacion de la Varianza como
Modelo Lineal A. M. Bianco FCEyN 2013 62
V IFj =1
1− R2jSi R2j ' 1 entonces V IFj >> y si xj es ortogonal a todas las demas V IFj = 1.Se puede demostrar que si R es la matriz de correlacion de las xj entonces:
(R−1)j j = V IFjTheil (1971) y Berek (1977) probaron que
V (ˆβj) =σ2
xj xjV IFj
donde xj es la j−esima columna centrada y escalada.Se suele tomar como punto de corte V IFj > 10 como indicador de colinealidad.
Ver archivo Complemento
Datos de Salario
Call: lm(formula = monthsal ~ evaluation + sex + years + yearsact +
rating)
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -1293.5661 540.1389 -2.3949 0.0244
evaluation 7.1552 0.8120 8.8119 0.0000
sex 336.5824 205.9956 1.6339 0.1148
years 46.0607 21.4797 2.1444 0.0419
yearsact -16.3686 35.2996 -0.4637 0.6469
rating 29.5137 85.5693 0.3449 0.7330
Residual standard error: 490.9 on 25 degrees of freedom
Multiple R-Squared: 0.8356. F-statistic: 25.42 on 5 and 25 degrees
of freedom, the p-value is 4.716e-009
salario.dd$hat
sa
lario
.dd
$s
td.r
es
0.1 0.2 0.3 0.4 0.5 0.6 0.7
-10
12
6
4
-10
12
indice
sa
lario
.dd
$c
oo
k
0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
4
indice
sa
lario
.dd
$d
fits
0 5 10 15 20 25 30
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
4
leverage<-diag(x.mat%*%solve(t(x.mat)%*%x.mat)%*%t(x.mat))
indice
lev
era
ge
0 5 10 15 20 25 30
0.1
0.2
0.3
0.4
0.5
4
Datos de Cemento
PREDICTOR
VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF
--------- ----------- --------- ----------- ------ -----
CONSTANT 73.6101 105.965 0.69 0.5069
X1 -0.44973 1.13123 -0.40 0.7014 92.7
X2 1.29951 1.06597 1.22 0.2575 70.8
X3 0.56301 1.05868 0.53 0.6093 585.3
X4 -0.17039 1.04937 -0.16 0.8750 642.6
X5 -0.38591 1.52207 -0.25 0.8062 2.2
R-SQUARED 0.9871 RESID. MEAN SQUARE (MSE) 7.29043
ADJUSTED R-SQUARED 0.9790 STANDARD DEVIATION 2.70008
SOURCE DF SS MS F P
---------- --- ---------- ---------- ----- ------
REGRESSION 5 4453.65 890.729 122.18 0.0000
RESIDUAL 8 58.3234 7.29043
TOTAL 13 4511.97
CASES INCLUDED 14 MISSING CASES 0
Seleccion de Modelos
Cuando trabajamos en forma teorica asumimos que tenemos un modelo Y =Xβ+ε y podemos obtener estimadores, test, intervalos de confianza y propiedadesde optimalidad.
Sin embargo, en la practica tenemos una muestra (Y1, x1), . . . (Yn, xn), de ma-nera que la matriz de diseno X tiene como filas a xi ’s y lo primero que debemosdeterminar es cuales de las columnas de X debemos usar.
Un principio general para elegir un modelo es que sea parsimonioso, dondeparsimonia se refiere a que conjugue simpleza con buen ajuste. La idea es hacerlas cosas tan simples como sea posible, pero tampoco no tan simples....
1
Modelo Lineal A. M. Bianco FCEyN 2013 2
Supongamos que realizamos la regresion entre Y y X ∈ IRn×k ajustando delmodelo
Y = Xβ + ε
Cuando consideramos la matriz X podemos obtener 2k − 1 modelos posiblesrelacionados con ella, llamemos 2X a este conjunto.
Si ademas considerasemos las posibles transformaciones de Y y de cada una delas columnas de las covariables, este conjunto aumentarıa considerablemente.
Existen algoritmos rapidos para computar todos estos ajustes y son especial-mente utiles cuando p es grande, pero son necesarios metodos de comparacionpara elegir los mejores y debe tenerse en cuenta que el orden en que entran lasvariables al modelo puede afectar los resultados.
Modelo Lineal A. M. Bianco FCEyN 2013 3
Analisis Exploratorio de Datos
El analisis exploratorio de datos nos puede guiar dandonos un primer esbozo. Atal fin podemos realizar graficos de:
Y vs. cada covariable
Y vs. transformaciones de cada covariable
transformaciones de Y vs. cada covariable
residuos parciales
Recordemos que habıamos visto el coeficiente de regresion multiple y coefi-ciente de regresion multiple ajustado para evaluar la bondad del ajuste. Recorde-mos su definicion:
R2 =
n∑
i=1(yi − y)
2
n∑
i=1(yi − y)
2
Modelo Lineal A. M. Bianco FCEyN 2013 4
R2adj = 1− (1− R2)n
n − p
Sin embargo, estos son solo algunos de los metodos de comparacion de modelosde uso frecuente.
Criterios de Seleccion de Modelos
Criterios basados en el Error de Prediccion
Criterio Cp de Mallows
Criterios de Informacion: AIC (Criterio de Akaike), BIC (Criterio de Infor-macion de Bayes), etc.
Regularizacion
Modelo Lineal A. M. Bianco FCEyN 2013 5
Balance entre Sesgo y Varianza
Volviendo al planteo inicial, supongamos que realizamos la regresion entre Y yX ∈ IRn×k y que
Y = Xβ + ε
donde βs = 0 para un subconjunto de βs de β.
El modelo verdadero incluye solamente las columnas de X para las cuales βs 6=0.
Llamaremos modelo correcto a un modelo verdadero con algunas columnas deX extras.
Llamaremos modelo incorrecto a un modelo que no incluye todas las columnasdel modelo verdadero.
Un criterio que parece razonables es elegir de acuerdo al error de prediccion delmodelo.
Modelo Lineal A. M. Bianco FCEyN 2013 6
Cada uno de los modelos M ∈ 2X conduciran a predicciones
Y(M) = PMY
Si observasemos nuevas respuestas independientes para el mismo diseno X, elError de Prediccion para el modelo M puede calcularse como
‖Y+ − Y(M)‖2 = ‖Y+ − PMY‖
2
Sin embargo, esta norma es una variable aleatoria. Por lo tanto, un criterioposible es elegir el modelo M∗ de acuerdo con el menor Error de PrediccionEsperado (EPE), es decir
mınM∈2X
1
nE‖Y+ − PMY‖
2 = mınM∈2X
EPE
Supongamos que X ∈ IRn×q es el modelo verdadero y sea X ∈ IRn×p el modeloajustado. Ambas X y X son construidas a partir de X.
Modelo Lineal A. M. Bianco FCEyN 2013 7
Como la verdadera relacion entre Y y X es a traves de X, entonces
Y = Xβ + ε = η + ε
Las predicciones usando el modelo M asociado a X seran
Y = (X′X)−1X′Y = PY
Si observasemos nuevas respuestas Y+ que corresponden a la misma matriz dediseno X, como antes, tendrıamos
Y+ = Xβ + ε+ = η + ε+
por lo tanto el Error de Prediccion correspondiente al modelo M sera:
Modelo Lineal A. M. Bianco FCEyN 2013 8
Y+ − Y = η + ε+ − P(η + ε)
= (I− P)η + ε+ − Pε
En consecuencia:
‖Y+ − Y‖2 =
((I− P)η + ε+ − Pε
)′ ((I− P)η + ε+ − Pε
)
= η′(I− P)η + η′(I− P)ε+ 0 + ε′+(I− P)η
+ ε′+ε+ + ε′+Pε+ 0− ε
′Pε+ + ε′Pε
y tomando esperanza obtenemos:
E‖Y+ − Y‖2 = η′(I− P)η + tr (Σε+) + E(εPε)
= η′(I− P)η + σ2n + σ2tr (P)
= η′(I− P)η + σ2n + σ2rg(P)
Modelo Lineal A. M. Bianco FCEyN 2013 9
De esta forma resulta:
EPE =
⎧⎨⎩
(1 + qn)σ2 modelo verdadero
(1 + pn)σ2 modelo correcto
1nη′(I− P)η + (1 + p
n)σ2 modelo incorrecto
De tal forma que si elegimos un modelo correcto incrementamos la varianza,pero si elegimos un modelo incorrecto introducimos un sesgo.
Convalidacion Cruzada (CV )
Obviamente EPE no podemos calcularlo, por lo tanto tendremos que estimar-lo.
Si n es grande se pueden dividir los datos en dos: una parte para ajustar (trainingsample) y la otra para estimar el error de prediccion (validation sample):
Modelo Lineal A. M. Bianco FCEyN 2013 10
⎧⎨⎩
X∗Y∗ para ajustar el modelo
XoYo para estimar a EPE
de manera que
ˆEPE =
1
no‖Yo − Xo ˆ
β‖2
Muchas veces ocurre que n no es lo suficientemente grande como para dividir lamuestra en dos y por esa razon se usa CV basado en el metodo leave–one–outen el que se saca una observacion por vez y se predice con el resto de las n−1observaciones:
ˆEPECV =
1
n
n∑
j=1(yj − xj
ˆβ(j))
2
Modelo Lineal A. M. Bianco FCEyN 2013 11
dondeˆβ(j) se computa sin la observacion j .
En base a la relacion entreˆβ y
ˆβ(j) tenemos que
ˆEPECV =
1
n
n∑
j=1
(yj − xjˆβ)2
1− pj j
La idea es elegir las variables de manera de minimizar elˆEPECV .
Cp de Mallows
Notemos que si
E‖Y+ − Y‖2 = η′(I− P)η + (n + p)σ2
entonces
E‖Y+ − Y‖2
σ2− (n + p) =
η′(I− P)η
σ2
Modelo Lineal A. M. Bianco FCEyN 2013 12
Mallows propone una medida cercana
Cp =‖Y − Y‖2
s2+ 2p − n
Notemos que Cp ' p cuando el modelo es bueno. Un problema de este metodoes que necesita estimar a σ2 y generalmente se hace usando el s2 basado enlas k covariables (es decir suponiendo sesgo pequeno).
13
Métodos Automáticos de Selección de Variables Podemos dividirlos entre aquellos procedimientos de búsqueda que escogen el mejor entre todos los modelos posibles y aquellos que eligen iterativamente, en forma automática. Búsqueda de todos los subconjuntos posibles Este método consiste en evaluar todos los modelos posibles que se pueden construir en un conjunto dado de variables independientes. Es particularmente útil cuando el número de variables no es demasiado grande. En general, uno puede forzar la presencia de ciertas variables y eso reduce el tamaño de la búsqueda. Uno puede imponer el criterio de selección R2, R2
a y Cp. Si bien el Cp parece el más razonable debemos tener en cuenta que asume que el modelo con todas las variables no tiene sesgo. Además, si bien se basa en los errores de predicción no tiene en cuenta que pasaría con futuras observaciones En R contamos con Leaps.
14
Consideremos los datos de cemento. Recordemos que la respuesa y (y.hald) es la temperatura de la mezcla de cemento y las 4 covariables (x.hald) son: x1: tricalcium aluminate x2: tricalcium silicate x3: tetracalcium alumino ferrite x4: dicalcium silicate. Recordemos corr(x1,x3)= -0.824 y corr(x2,x4)= -0.975. library(leaps) library(wle) data(hald) hald
> cor(x.hald)
[,1] [,2] [,3] [,4]
[1,] 1.0000000 0.2285795 -0.8241338 -0.2454451
[2,] 0.2285795 1.0000000 -0.1392424 -0.9729550
[3,] -0.8241338 -0.1392424 1.0000000 0.0295370
[4,] -0.2454451 -0.9729550 0.0295370 1.0000000
15
[,1] [,2] [,3] [,4] [,5]
[1,] 78.5 7 26 6 60
[2,] 74.3 1 29 15 52
[3,] 104.3 11 56 8 20
[4,] 87.6 11 31 8 47
[5,] 95.9 7 52 6 33
[6,] 109.2 11 55 9 22
[7,] 102.7 3 71 17 6
[8,] 72.5 1 31 22 44
[9,] 93.1 2 54 18 22
[10,] 115.9 21 47 4 26
[11,] 83.8 1 40 23 34
[12,] 113.3 11 66 9 12
[13,] 109.4 10 68 8 12
16
all-subsets regression leaps(x=x.hald, y=y.hald, method=c("Cp", "adjr2", "r2"))
leaps(x=x.hald, y=y.hald, method=c("Cp", "adjr2", "r2"))
$which
1 2 3 4
1 FALSE FALSE FALSE TRUE
1 FALSE TRUE FALSE FALSE
1 TRUE FALSE FALSE FALSE
1 FALSE FALSE TRUE FALSE
2 TRUE TRUE FALSE FALSE
2 TRUE FALSE FALSE TRUE
2 FALSE FALSE TRUE TRUE
2 FALSE TRUE TRUE FALSE
2 FALSE TRUE FALSE TRUE
2 TRUE FALSE TRUE FALSE
3 TRUE TRUE FALSE TRUE
3 TRUE TRUE TRUE FALSE
3 TRUE FALSE TRUE TRUE
3 FALSE TRUE TRUE TRUE
4 TRUE TRUE TRUE TRUE
$label
[1] "(Intercept)" "1" "2" "3" "4"
$size
[1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5
$Cp
[1] 138.730833 142.486407 202.548769 315.154284 2.678242 5.495851
[7] 22.373112 62.437716 138.225920 198.094653 3.018233 3.041280
[13] 3.496824 7.337474 5.000000
17
18
> cbind(leap.cem$size,leap.cem$Cp) [,1] [,2] [1,] 2 138.730833 [2,] 2 142.486407 [3,] 2 202.548769 [4,] 2 315.154284 [5,] 3 2.678242 [6,] 3 5.495851 [7,] 3 22.373112 [8,] 3 62.437716 [9,] 3 138.225920 [10,] 3 198.094653 [11,] 4 3.018233 [12,] 4 3.041280 [13,] 4 3.496824 [14,] 4 7.337474 [15,] 5 5.000000
19
leaps(x=x.hald, y=y.hald, method=c("r2")) $which 1 2 3 4 1 FALSE FALSE FALSE TRUE 1 FALSE TRUE FALSE FALSE 1 TRUE FALSE FALSE FALSE 1 FALSE FALSE TRUE FALSE 2 TRUE TRUE FALSE FALSE 2 TRUE FALSE FALSE TRUE 2 FALSE FALSE TRUE TRUE 2 FALSE TRUE TRUE FALSE 2 FALSE TRUE FALSE TRUE 2 TRUE FALSE TRUE FALSE 3 TRUE TRUE FALSE TRUE 3 TRUE TRUE TRUE FALSE 3 TRUE FALSE TRUE TRUE 3 FALSE TRUE TRUE TRUE 4 TRUE TRUE TRUE TRUE $label [1] "(Intercept)" "1" "2" "3" "4" $size [1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5 $r2 [1] 0.6745420 0.6662683 0.5339480 0.2858727 0.9786784 0.9724710 0.9352896 [8] 0.8470254 0.6800604 0.5481667 0.9823355 0.9822847 0.9812811 0.9728200 [15] 0.9823756
20
leaps(x=x.hald, y=y.hald, method=c("adjr2")) $which 1 2 3 4 1 FALSE FALSE FALSE TRUE 1 FALSE TRUE FALSE FALSE 1 TRUE FALSE FALSE FALSE 1 FALSE FALSE TRUE FALSE 2 TRUE TRUE FALSE FALSE 2 TRUE FALSE FALSE TRUE 2 FALSE FALSE TRUE TRUE 2 FALSE TRUE TRUE FALSE 2 FALSE TRUE FALSE TRUE 2 TRUE FALSE TRUE FALSE 3 TRUE TRUE FALSE TRUE 3 TRUE TRUE TRUE FALSE 3 TRUE FALSE TRUE TRUE 3 FALSE TRUE TRUE TRUE 4 TRUE TRUE TRUE TRUE $label [1] "(Intercept)" "1" "2" "3" "4" $size [1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5 $adjr2 [1] 0.6449549 0.6359290 0.4915797 0.2209521 0.9744140 0.9669653 0.9223476 [8] 0.8164305 0.6160725 0.4578001 0.9764473 0.9763796 0.9750415 0.9637599 [15] 0.9735634
21
Datos de Biomasa
UNFORCED INDEPENDENT VARIABLES: (A)K (B)NA (C)PH (D)SAL (E)ZN
ADJUSTED
P CP R SQUARE R SQUARE RESID SS MODEL VARIABLES
-- ----- -------- -------- --------- -----------------------------
1 77.9 0.0000 0.0000 1.917E+07 INTERCEPT ONLY
2 7.4 0.5900 0.5994 7680575 C
2 32.7 0.3757 0.3899 1.169E+07 E
2 70.9 0.0525 0.0740 1.775E+07 B
2 74.8 0.0198 0.0421 1.836E+07 A
2 78.6 -0.0124 0.0106 1.897E+07 D
3 2.3 0.6422 0.6584 6548174 B C
3 3.6 0.6308 0.6476 6755845 A C
3 8.3 0.5896 0.6083 7509642 C E
3 8.9 0.5845 0.6034 7603247 C D
3 15.1 0.5313 0.5526 8576766 D E
4 3.8 0.6378 0.6625 6471149 B C E
4 4.0 0.6355 0.6604 6511089 A B C
4 4.2 0.6341 0.6590 6536396 B C D
4 5.0 0.6268 0.6522 6667664 A C D
4 5.0 0.6267 0.6521 6669300 A C E
5 4.3 0.6424 0.6749 6232954 A C D E
5 4.7 0.6389 0.6718 6292475 B C D E
5 5.6 0.6306 0.6642 6438038 A B C E
5 5.9 0.6279 0.6617 6485307 A B C D
5 16.1 0.5351 0.5773 8102649 A B D E
6 6.0 0.6360 0.6773 6186048 A B C D E
22
23
Procedimientos Stepwise Existen tradicionalmente tres versiones: Forward, Backward y la combinacón de ambos que es la Stepwise. Podríamos decir que hay tantas implementaciones de este método como programas, por lo que es necesario leer detalladamente la descripción del programa que estamos utilizando. Describiremos la implementación de mle.stepwise de wle. Forward: Este procedimiento no incluye inicialmente ninguna covariable, salvo la intercept, y va agregando las variables una a una de acuerdo con la que tiene mayor F parcial en los sucesivos modelos evaluados y superior al valor F.in. Backard: Este procedimiento incluye inicialmente todas las covariables y las va eliminando de a una a medida que el valor del F parcial sea inferior al valor F.out. Stepwise: Es una combinación de los dos anteriores y tiene en cuenta tanto el valor F.in como el F.out.
24
Stepwise Regression: veamos un ejemplo de Forward
library(wle)
data(hald)
result <- mle.stepwise(y.hald~x.hald)
summary(result)
Forward selection procedure
F.in: 4
Last 3 iterations:
(Intercept) x.hald1 x.hald2 x.hald3 x.hald4
[1,] 1 0 0 0 1 22.800
[2,] 1 1 0 0 1 108.200
[3,] 1 1 1 0 1 5.026
> summary(lm(y.hald~x.hald[,1]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 81.4793 4.9273 16.54 4.07e-09 ***
x.hald[, 1] 1.8687 0.5264 3.55 0.00455 **
Residual standard error: 10.73 on 11 degrees of freedom
Multiple R-squared: 0.5339, Adjusted R-squared: 0.4916
F-statistic: 12.6 on 1 and 11 DF, p-value: 0.004552
25
> summary(lm(y.hald~x.hald[,2]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.4237 8.4906 6.763 3.1e-05 ***
x.hald[, 2] 0.7891 0.1684 4.686 0.000665 ***
Residual standard error: 9.077 on 11 degrees of freedom
Multiple R-squared: 0.6663, Adjusted R-squared: 0.6359
F-statistic: 21.96 on 1 and 11 DF, p-value: 0.0006648
> summary(lm(y.hald~x.hald[,3]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 110.2027 7.9478 13.866 2.6e-08 ***
x.hald[, 3] -1.2558 0.5984 -2.098 0.0598 .
Residual standard error: 13.28 on 11 degrees of freedom
Multiple R-squared: 0.2859, Adjusted R-squared: 0.221
F-statistic: 4.403 on 1 and 11 DF, p-value: 0.05976
> summary(lm(y.hald~x.hald[,4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 117.5679 5.2622 22.342 1.62e-10 ***
x.hald[, 4] -0.7382 0.1546 -4.775 0.000576 ***
Residual standard error: 8.964 on 11 degrees of freedom
Multiple R-squared: 0.6745, Adjusted R-squared: 0.645
F-statistic: 22.8 on 1 and 11 DF, p-value: 0.0005762
26
salida.41<-lm(y.hald~ x.hald[,4]+x.hald[,1])
anova(salida.41)
Analysis of Variance Table
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 4] 1 1831.90 1831.90 245.03 2.319e-08 ***
x.hald[, 1] 1 809.10 809.10 108.22 1.105e-06 ***
Residuals 10 74.76 7.48
salida.43<-lm(y.hald~ x.hald[,4]+x.hald[,3])
anova(salida.43)
Analysis of Variance Table
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 4] 1 1831.90 1831.90 104.240 1.314e-06 ***
x.hald[, 3] 1 708.13 708.13 40.295 8.375e-05 ***
Residuals 10 175.74 17.57
salida.42<-lm(y.hald~ x.hald[,4]+x.hald[,2])
anova(salida.42)
Analysis of Variance Table
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 4] 1 1831.90 1831.90 21.0834 0.0009927 ***
x.hald[, 2] 1 14.99 14.99 0.1725 0.6866842
Residuals 10 868.88 86.89
27
salida.412<-lm(y.hald~ x.hald[,4]+x.hald[,1]++x.hald[,2])
anova(salida.412)
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 4] 1 1831.90 1831.90 343.6758 1.771e-08 ***
x.hald[, 1] 1 809.10 809.10 151.7934 6.150e-07 ***
x.hald[, 2] 1 26.79 26.79 5.0259 0.05169 .
Residuals 9 47.97 5.33
salida.413<-lm(y.hald~ x.hald[,4]+x.hald[,1]++x.hald[,3])
anova(salida.413)
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 4] 1 1831.90 1831.90 324.3179 2.285e-08 ***
x.hald[, 1] 1 809.10 809.10 143.2435 7.875e-07 ***
x.hald[, 3] 1 23.93 23.93 4.2358 0.06969 .
Residuals 9 50.84 5.65
> summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+x.hald[,4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 71.6483 14.1424 5.066 0.000675 ***
x.hald[, 1] 1.4519 0.1170 12.410 5.78e-07 ***
x.hald[, 2] 0.4161 0.1856 2.242 0.051687 .
x.hald[, 4] -0.2365 0.1733 -1.365 0.205395
Residual standard error: 2.309 on 9 degrees of freedom
Multiple R-squared: 0.9823, Adjusted R-squared: 0.9764
F-statistic: 166.8 on 3 and 9 DF, p-value: 3.323e-08
28
resultb <- mle.stepwise(y.hald~x.hald,type="Backward")
summary(resultb)
Backward selection procedure
F.out: 4
Last 2 iterations:
(Intercept) x.hald1 x.hald2 x.hald3 x.hald4
[1,] 1 1 1 0 1 0.01823
[2,] 1 1 1 0 0 1.86300
summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+ x.hald[,3]+x.hald[,4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.4054 70.0710 0.891 0.3991
x.hald[, 1] 1.5511 0.7448 2.083 0.0708 .
x.hald[, 2] 0.5102 0.7238 0.705 0.5009
x.hald[, 3] 0.1019 0.7547 0.135 0.8959 (0.135*0.135=0.018225)
x.hald[, 4] -0.1441 0.7091 -0.203 0.8441
Residual standard error: 2.446 on 8 degrees of freedom
Multiple R-squared: 0.9824, Adjusted R-squared: 0.9736
F-statistic: 111.5 on 4 and 8 DF, p-value: 4.756e-07
29
anova(lm(y.hald~ x.hald[,1]+ x.hald[,2]+ x.hald[,4]))
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 1] 1 1450.08 1450.08 272.0439 4.934e-08 ***
x.hald[, 2] 1 1207.78 1207.78 226.5879 1.094e-07 ***
x.hald[, 4] 1 9.93 9.93 1.8633 0.2054
Residuals 9 47.97 5.33
anova(lm(y.hald~ x.hald[,1]+ x.hald[,4]+ x.hald[,2]))
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 1] 1 1450.08 1450.08 272.0439 4.934e-08 ***
x.hald[, 4] 1 1190.92 1190.92 223.4253 1.163e-07 ***
x.hald[, 2] 1 26.79 26.79 5.0259 0.05169 .
Residuals 9 47.97 5.33
anova(lm(y.hald~ x.hald[,2]+ x.hald[,4]+ x.hald[,1]))
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 2] 1 1809.43 1809.43 339.460 1.870e-08 ***
x.hald[, 4] 1 37.46 37.46 7.027 0.02644 *
x.hald[, 1] 1 820.91 820.91 154.008 5.781e-07 ***
Residuals 9 47.97 5.33
30
anova(lm(y.hald~ x.hald[,1]+ x.hald[,2]))
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 1] 1 1450.1 1450.08 250.43 2.088e-08 ***
x.hald[, 2] 1 1207.8 1207.78 208.58 5.029e-08 ***
Residuals 10 57.9 5.79
anova(lm(y.hald~ x.hald[,2]+ x.hald[,1]))
Response: y.hald
Df Sum Sq Mean Sq F value Pr(>F)
x.hald[, 2] 1 1809.43 1809.43 312.48 7.149e-09 ***
x.hald[, 1] 1 848.43 848.43 146.52 2.692e-07 ***
Residuals 10 57.90 5.79
31
results <- mle.stepwise(y.hald~x.hald,type="Stepwise")
summary(results)
mle.stepwise(formula = y.hald ~ x.hald, type = "Stepwise")
Stepwise selection procedure
F.in: 4
F.out: 4
Last 4 iterations:
(Intercept) x.hald1 x.hald2 x.hald3 x.hald4
[1,] 1 0 0 0 1 22.800
[2,] 1 1 0 0 1 108.200
[3,] 1 1 1 0 1 5.026
[4,] 1 1 1 0 0 1.863
32
> summary(lm(y.hald~x.hald[,4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 117.5679 5.2622 22.342 1.62e-10 ***
x.hald[, 4] -0.7382 0.1546 -4.775 0.000576 ***
Residual standard error: 8.964 on 11 degrees of freedom
Multiple R-squared: 0.6745, Adjusted R-squared: 0.645
F-statistic: 22.8 on 1 and 11 DF, p-value: 0.0005762
> summary(lm(y.hald~ x.hald[,1]+x.hald[,4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.09738 2.12398 48.54 3.32e-13 ***
x.hald[, 1] 1.43996 0.13842 10.40 1.11e-06 ***
x.hald[, 4] -0.61395 0.04864 -12.62 1.81e-07 ***
Residual standard error: 2.734 on 10 degrees of freedom
Multiple R-squared: 0.9725, Adjusted R-squared: 0.967
F-statistic: 176.6 on 2 and 10 DF, p-value: 1.581e-08
> summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+x.hald[,4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 71.6483 14.1424 5.066 0.000675 ***
x.hald[, 1] 1.4519 0.1170 12.410 5.78e-07 ***
x.hald[, 2] 0.4161 0.1856 2.242 0.051687 .
x.hald[, 4] -0.2365 0.1733 -1.365 0.205395
Residual standard error: 2.309 on 9 degrees of freedom
Multiple R-squared: 0.9823, Adjusted R-squared: 0.9764
F-statistic: 166.8 on 3 and 9 DF, p-value: 3.323e-08
33
Forward selection procedure
F.in: 4
Last 3 iterations:
(Intercept) x.hald1 x.hald2 x.hald3 x.hald4
[1,] 1 0 0 0 1 22.800
[2,] 1 1 0 0 1 108.200
[3,] 1 1 1 0 1 5.026
############################################################
Backward selection procedure
F.out: 4
Last 2 iterations:
(Intercept) x.hald1 x.hald2 x.hald3 x.hald4
[1,] 1 1 1 0 1 0.01823
[2,] 1 1 1 0 0 1.86300
############################################################
Stepwise selection procedure
F.in: 4
F.out: 4
Last 4 iterations:
(Intercept) x.hald1 x.hald2 x.hald3 x.hald4
[1,] 1 0 0 0 1 22.800
[2,] 1 1 0 0 1 108.200
[3,] 1 1 1 0 1 5.026
[4,] 1 1 1 0 0 1.863