Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo...

Modelo Lineal

En regresion lineal interesa establecer la relacion entre una variable dependienteY y otras p variables: X1, . . . , Xp. Esta metodologıa es ampliamente usada enproblemas de economıa, de la industria y de ciencias en general. Por ejemplo:

• en mujeres de 8 a 25 anos se desea relacionar la edad y la cantidad deesteroides presentes en plasma.

• dadas las evaluaciones de mitad y de fin de ano de alumnos que participanen un estudio de rendimiento, se quiere relacionar la performance de losalumnos en los dos examenes. El objetivo es poder predecir en situacionessimilares como le ira a un alumno en la evaluacion final a partir de lo que seobserva en la evaluacion de mitad de curso.

1

Modelo Lineal A. M. Bianco FCEyN 2013 2

• un ingeniero esta interesado en la relacion entre la cantidad de oxido quese forma en un metal calcinado en un horno y la temperatura de horneadoy el tiempo expuesto a dichas temperaturas.

En los dos primeros ejemplos podrıamos tener graficos como los siguientes:


mitad

final

60 70 80 90 100

6070

8090

edad

nive

l.est

eroi

de

10 15 20 25

510

1520

2530


En los dos primeros ejemplos consideramos solo dos variables, mientras que enel tercero hay 3 variables involucradas.

En general tendremos:

• y : variable dependiente.• x : variables independientes (predictoras, regresoras o covariables).

Buscaremos un modelo que exprese a la variable dependiente en terminos delas variables independientes.

Cuando hablamos de un modelo nos referimos a una expresion matematica quedescriba en algun sentido el comportamiento de la variable de interes en funcionde las demas variables, es decir, las covariables.

En general, identificaremos con la letra Y (y) a la variable dependiente. El mo–delo pretende describir como el comportamiento de E(Y ) varıa bajo condicionescambiantes de las otras variables.


En nuestro caso, supondremos, al menos en un principio, que V (Y ) no esafectada por estas condiciones cambiantes, es decir toma un valor constanteσ.

Bajo el supuesto de que otras variables aportan informacion sobre la variableY , estas variables son incorporadas al modelo como variables independientes.

Identificaremos con X = (X1, . . . , Xp)′ (x = (x1, . . . , xp)′) a las variables

independientes. Estas podrıan ser variables aleatorias o constantes conocidas.En general, trabajaremos bajo este ultimo caso y mas adelante lo extenderemosal caso de variables aleatorias.

Una forma general de plantear el modelo es expresando a la media de la dis-tribucion de Y como una g(x). En el caso de covariables alestorias como

E(Y |X = x) = g(x) para x ∈ D ,

o en el caso de covariables fijas como


Y = g(X1, . . . , Xp) + ε ,

segun el caso, donde la funcion g en general no sera conocida y E(ε) = 0.

Los modelos de este tipo se llaman modelos de regresion. Las posibles funcionesde regresion g pertenecen a una clase G tan grande que es frecuente que sesimplifique el problema suponiendo cierta forma o ciertas propiedades de lafuncion de regresion g.

Una forma de simplificar el problema suponiendo que la familia G puede expre-sarse en funcion de un numero finito de constantes desconocidas, a estimar,llamadas parametros, que controlan el comportamiento del modelo. En estesentido diremos que el modelo de regresion es parametrico.

Se dira que el modelo de regresion es no parametrico si la familia G no puedeexpresarse en un numero finito de parametros.


Algunos ejemplos de modelos parametricos y no parametricos cuando hay dosvariables independientes X1 y X2.

Modelos parametricos

(i) Y = θ1X1 + θ2X2 + θ3 + ε

(ii) Y = θ1eθ2X1 + θ3e

θ4X2 + ε

(iii) Y = θ1Xθ21 X

θ32 + ε

(iv) Y = θ1 logX1 + θ2 logX2 + θ3X31 + θ4 sen X2 + ε

Modelos no parametricos

(i) Y = g(X1, X2) + ε donde g(X1, X2) es una funcion continua.

(ii) Y = g(X1, X2) + ε donde g(X1, X2) es una funcion continua y derivable.

(iii) Y = g(X1, X2) + ε donde g(X1, X2) es monotona creciente en X1 y X2.


Uno de los modelos mas sencillos es el modelo lineal, en el que los parame-tros intervienen como simples coeficientes de las variables independientes o defunciones de estas.

Es el caso de:

(i) Y = θ1X1 + θ2X2 + θ3 + ε

(iv) Y = θ1 logX1 + θ2 logX2 + θ3X31 + θ4 sen X2 + ε

En todos estos ejemplos g(x) es lineal en los parametros. No es el caso,por ejemplo, de g(x) = βoe

−β1x , conocido como creciemiento exponencial, yaque no es lineal como funcion de los parametros βo o β1.

Algunos ejemplos sencillos de modelos lineales dependientes de una sola variableson:

g(x) = βo + β1x

g(x) = βo + β1x + β2x2

g(x) = βo + β1 log x


En las situaciones mas complejas Y depende de un conjunto de p variables(x1, . . . , xp), por lo tanto tendremos

g(x) = β0 + β1x1 + . . .+ βp−1xip−1 .

Eventualmente, las x ′i s podrıan ser funciones de otras variables, tales comoW1 = logX1, W2 = logX2, W3 = X

31 , etc., tal como ocurre en el caso iv).

Tambien podrıamos introducir variables explicativas que sean categoricas comolas dummies que solo toman los valores 0 y 1 y que sirven, como ya veremos,para indicar las distintas categorıas de una variable categorica. Este caso es deespecial interes pues permite tratar en el marco del modelo lineal el problema decomparar la media de mas de dos poblaciones, que se conoce como Analisisde la Varianza.


Una vez establecido el modelo, nos interesara:

• Estimar los parametros desconocidos: βj y σ• Testear hipotesis del tipo

Ho : βj = 0 o Ho : c′β = δ

• Intervalos de confianza para los parametros o combinaciones lineales de losmismos.

• Prediccion• Chequeo de supuestos• Identificacion de datos atıpicos.• Medidas de ajuste• Criterios para la seleccion de modelos.


Enfoque matricial

respuesta y ←→ p − 1 variables explicativas xjPor ahora, supondremos xj , 1 ≤ j ≤ p − 1 determinısticas.Muestra (xi1, . . . , xip−1, yi), 1 ≤ i ≤ n que cumplen el modelo Ω:

yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi i = 1, . . . , n

E(εi) = 0

V (εi) = σ2

cov(εi , εj) = 0 i 6= j

donde, β0, β1, . . . , βp−1 son p parametros desconocidos a estimar.

Este modelo tiene intercept u ordenada al origen, eventualmente podrıamossaber que es 0, en cuyo caso plantearıamos

yi = β1xi1 + . . .+ βp−1xip−1 + εi i = 1, . . . , n


En el caso general tenemos

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y1y2..yn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 x11 x12 . . . x1p−11 x21 x22 . . . x2p−1. . . . . .. . . . . .1 xn1 xn2 . . . xnp−1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

β0β1..

βp−1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

ε =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ε1ε2..εn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

⇓

Y = Xβ + ε


La matriz X ∈ <n×p recibe el nombre de matriz de regresion o de diseno.

En general, se elige de tal forma que tenga rango maximo, es decir rg(X) = p,sin embargo esto no siempre es posible, como en el caso de algunos disenostratados en analisis de la varianza (ANOVA).

La teorıa que veremos no necesita que la primera columna sea de 1’s, es decirque el modelo tenga intercept, por lo tanto estudiaremos el caso general.


Propiedades de vectores y matrices aleatorias

Dada una matriz V (r × s) de variables aleatorias conjuntamente distribuidasVi j con esperanza finita, definimos la matriz o vector de esperanzas como:

E(V)i j = E(Vi j)

En el caso delo modelo Ω, esto nos permite decir que el vector de errores estal que

E(ε) = 0

y que

E(εε′) = E

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ε1ε1 ε1ε2 . . . ε1εnε2ε1 ε2ε2 . . . ε2εn. . . . . .. . . . . .εnε1 εnε2 . . . εnεn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

= σ2I


Lema: Sean A ∈ <q×r , B ∈ <s×t y C ∈ <q×t matrices constantes y V unamatriz aleatoria de dimension r × s , entonces:

E(AVB + C) = AE(V)B + C.

Matriz de Covarianza

Sea v = (v1, . . . , vn)′ un vector aleatorio de variables con E(vi) = µi y varianza

finita. Definimos la matriz de covarianza de v como:

Σvi j = Cov(vi , vj) = E[(vi − µi)(vj − µj)]

Podemos escribirla como:

Σv = E[(v − µ)(v − µ)′]donde µ = (µ1, . . . , µn)

′.

En este sentido, como E(ε) = 0, entonces hemos visto que

Σε = E(εε′) = σ2I


Usaremos frecuentemente el siguiente

Lema: Sean A ∈ <m×n, una matriz constante, d un vector de constantes y vun vector aleatorio n–dimensional con matriz de covarianza Σv. Si w = Av+d,entonces:

Σw = AΣvA′ .

El modelo que presentamos mas arriba puede escribirse como:

Ω : Y = Xβ + ε E(ε) = 0 Σε = σ2I

o equivalentemente

Ω : E(Y) = Xβ ΣY = σ2I


¿Como estimamos los parametros?

Mınimos Cuadrados

Si los puntos en un grafico parecen seguir una recta, el problema es elegir larecta que mejor ajusta los puntos.

a) tomar una distancia promedio de la recta a todos los puntos

b) mover la recta hasta que esta distancia promedio sea la menor posible.

Si tenemos(xi , yi), 1 ≤ i ≤ n, y queremos predecir y a partir de x usandouna recta, podrıamos definir el error cometido en cada punto como la distanciavertical del punto a la recta.


Supongamos que tenemos un modelo que depende de p parametros. Sean(xi , yi) tales que

yi = g(xi , β1 . . . βp) + εi

E(εi) = 0, V (εi) = σ2, εi son independientes y la funcion g es conocidasalvo por los parametros β1 . . . βp.

Estimamos β1 . . . βp minimizando la suma de cuadrados residual, o seaˆβ = ( ˆ

β1, . . . ,ˆβp) es el estimador de mınimos cuadrados si minimiza

n∑

i=1(yi − g(xi , β1 . . . βp))2

En el caso de la regresion simple en el que g(x, β1, β2) = β1 + β2 x , mini-mizaremos:

1

n

n∑

i=1[yi − (β1 + β2xi)]2 .

Esta medida promedio se llama la suma de cuadrados residual del error para larecta. Fue inicialmente propuesta por Gauss. La recta de regresion ası definidaproduce la menor suma de cuadrados residual para el error de predecir y a partir


de x y por esta razon se la suele llamar recta de mınimos cuadrados.

Consideremos para cada vector b ∈ <p el vector de residuosY − Xb .

El estimador de mınimos cuadrados de β1 . . . βp minimizan∑

i=1(yi − b1xi1 − . . .− bpxip)2 = ‖Y − Xb‖2 ,

donde ‖u‖2 = u′u = n∑

i=1u2i .

LlamemosS(b) = ‖Y − Xb‖2 = (Y − Xb)′(Y − Xb)

Definicion: un conjunto de funciones de Y, ˆβ1 =

ˆβ1(Y),

ˆβ2 =

ˆβ2(Y), . . .

ˆβp =

ˆβp(Y) que minimice S(b) es el estimador de mınimos cuadrados de β

(LS).


Veremos que el LS siempre existe, pero no siempre es unico.

Derivando e igualando a 0 obtenemos las ecuaciones normales . Los esti-madores de mınimos cuadrados ˆ

β1, . . . ,ˆβp cumplen:

∂S(b)∂bk

= −2 n∑

i=1(Yi −

p∑

j=1xi jbj)xik = 0

Por lo tanto, para 1 ≤ k ≤ pn∑

i=1Yixik =

n∑

i=1

p∑

j=1xi jxikbj

n∑

i=1Yixik =

p∑

j=1bj

n∑

i=1xi jxik

Si el modelo tiene intercept, y lo escribimos como antes en terminos deβ0, . . . , βp−1, los estimadores

ˆβi cumplen

nˆβ0 +

ˆβ1

n∑

i=1xi1 + . . .+

ˆβp−1

n∑

i=1xip−1 =

n∑

i=1yi

nˆβ0

n∑

i=1xik +

ˆβ1

n∑

i=1xi1xik + . . .+

ˆβp−1

n∑

i=1xip−1xik =

n∑

i=1yixik k = 1, . . . , p − 1


Estas p ecuaciones pueden escribirse como

X′Xˆβ = X′Y ,

que se conocen como ecuaciones normales.

Si X′X es no singular, la solucion es unica y resulta

ˆβ = (X′X)−1X′Y .

Ejemplo: En el caso de regresion simple tendrıamos

X′X =

⎛⎜⎜⎝1 1 1 . . . 1x1 x2 x3 . . . xn

⎞⎟⎟⎠

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 x11 x2. .. .1 xn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠


X′X =

⎛⎜⎜⎜⎜⎜⎜⎝

nn∑

i=1xi

n∑

i=1xi

n∑

i=1x2i

⎞⎟⎟⎟⎟⎟⎟⎠

El sistema serıa ⎛⎜⎜⎜⎜⎜⎜⎝

nn∑

i=1xi

n∑

i=1xi

n∑

i=1x2i

⎞⎟⎟⎟⎟⎟⎟⎠

⎛⎜⎜⎝b0b1

⎞⎟⎟⎠ =

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1yi

n∑

i=1xiyi

⎞⎟⎟⎟⎟⎟⎟⎠

La inversa resulta

(X′X)−1 =1

n∑ni=1 x

2i − n2x2

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1x2i −

n∑

i=1xi

− n∑

i=1xi n

⎞⎟⎟⎟⎟⎟⎟⎠

y ademas


X′Y =

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1yi

n∑

i=1xiyi

⎞⎟⎟⎟⎟⎟⎟⎠

y por lo tanto

ˆβ =

⎛⎜⎜⎝

ˆβ0ˆβ1

⎞⎟⎟⎠ =

1

nn∑

i=1(xi − x)2

⎛⎜⎜⎜⎜⎜⎜⎝

(n∑

i=1yi)(

n∑

i=1x2i )− (

n∑

i=1xi)(

n∑

i=1xiyi)

nn∑

i=1xiyi − (

n∑

i=1yi)(

n∑

i=1xi)

⎞⎟⎟⎟⎟⎟⎟⎠

entonces

b0 = y − xb1

y por otro lado

b1 =

n∑

i=1xiyi − nx y

n∑

i=1x2i − nx2

=

n∑

i=1(xi − x)(yi − y)n∑

i=1(xi − x)2


Interpretacion Geometrica

Nuestro modelo plantea

Ω : E(Y) = Xβ

ΣY = σ2I

Luego, siη = E(Y) = Xβ

si xi es la i–esima columna de X entonces

η = β1x1 + β2x

2 + . . .+ βpxp

es decir que η ∈ Vr= subespacio generado por las p columnas de X: x1, . . . , xpy r es rg(X).

EntoncesmınbS(b) = mın

b‖Y − Xb‖2 = mın

z∈Vr‖Y − z‖2


y sabemos que se alcanza en η = b1x1 + b2x

2 + . . . + bpxp la proyeccion

ortogonal de Y sobre Vr , que sabemos que siempre existe y es unica, aunquelos bi pueden no serlo.

En terminos de las ecuaciones normales tenemos que:

X′Xb = X′Y

X′η = X′Y

Dados b1, . . . , bp funciones de Y seran un conjunto de estimadores de mıni-mos cuadrados (EMC) si y solo si X′b = η, es decir satisfacen las ecuacionesnormales.


Caso en que rg(X) = p

En este caso existe la inversa de X′X, pues rg(X′X) = rg(X) = p.

De las ecuaciones normales queda:

X′Xˆβ = X′Y

ˆβ = (X′X)−1X′Y

entonces

Xˆβ = X(X′X)−1X′Y = PY = ˆY

En consecuencia el vector de residuos es:

r = Y − ˆY

= Y − Xˆβ

= Y − X(X′X)−1X′Y= Y − PY= (I− P)Y


donde P = X(X′X)−1X′ ∈ <n×n es la matriz de proyeccion sobre el espaciogenerado por las columnas de X. Suele llamarse a esta matriz de proyeccionP o H (hat matrix).

Propiedades de P

Matriz simetrica e idempotente, es decir: P = P′ = P2. I − P tambien essimetrica es idempotente, es decir tambien es una matriz de proyeccion yproyecta sobre el ortogonal de Vr .

Lema:

i) P y I− P son simetricas e idempotentesii) rg(P) = tr(P) = p y rg(I− P) = tr(I− P) = n − piii) (I− P)X = 0


Suma de Cuadrados

Tenemos quen∑

i=1(yi − yi)2 = ‖Y − PY‖2

Notemos que obtenemos el Teorema de Pitagoras. En efecto,

‖Y − ˆY‖2 = ‖Y − PY‖2 = ‖(I− P)Y‖2= Y′(I− P)′(I− P)Y= Y′(I− P)Y= Y′Y − Y′PY= Y′Y − Y′P′PY= ‖Y‖2 − ‖PY‖2

= ‖Y‖2 − ‖ˆY‖2 = ‖Y‖2 − ‖η‖2



Propiedades del Estimador de Mınimos Cuadrados

Usando la notacion matricial podemos escribir el modelo como

Ω : Y = Xβ + ε

E(ε) = 0

Σε = σ2I

Lema: Si se cumple el modelo Ω, tenemos que

ˆβ es un estimador insesgado de β, es decir E(ˆβ) = β.

Σˆβ= σ2(X′X)−1



Propiedades

Bajo el modelo Ω

Y = Xβ + ε

E(ε) = 0

Σε = σ2I

tenemos que

• E(ˆY) = Xβ• ΣY = σ2P• E(r) = 0• Σr = σ2(I− P)


Si llamamos pi j a los elementos de P = X(X′X)−1X′ tenemos que

pi j = x′i(X′X)−1xj

donde xi representa la i–esima fila de X.

Luego:

V ar (yi) = σ2pi iV ar (ri) = σ2(1− pi i)

Cov(ri , rj) = −σ2pi j ,por lo tanto

Corr (ri , rj) = −pi j√

1− pi i√1− pj j


Proposicion: Dados 1 ≤ i , j ≤ n tenemos que

i) 0 ≤ pi i ≤ 1ii) −12 ≤ pi j ≤ 12 si i 6= j

Como ya vimos V ar (yi) = σ2pi i , una consecuencia inmediata es que

V ar (yi) ≤ V ar (yi) = σ2 .


Una propiedad interesante es que P es invariante por transformaciones linealesno singulares de la forma X → XA, donde A ∈ <p×p y rg(A) = p. Este tipode transformaciones es util, por ejemplo, si queremos realizar un cambio deunidades en las covariables.

Respecto a las propiedades de invariancia, podemos ver que si

ˆβ = ˆβ(X,Y) = (X′X)−1X′Y ,

para A ∈ <p×p no singular, λ ∈ < y γ ∈ <p, entoncesˆβ(XA,Y) = A−1ˆ

β Invariancia por transformaciones afinesˆβ(X, λY) = λˆ

β Invariancia por cambios de escalaˆβ(X,Y + Xγ) = ˆ

β + γ Invariancia por cambios de regresion


Estimacion de σ2

Las varianzas de los estimadores dependen del diseno y σ2, que es desconocida.Dado que σ2 = E(ε2), parece natural estimarla mediante el promedio de loscuadrados de los residuos. El vector de residuos es

r = Y − ˆY

= Y − PY ,Bajo el modelo Ω, tenemos que

s2 =‖Y − ˆY‖2n − p =

‖Y − PY‖2n − p

es un estimador insesgado de σ2.

Lema Auxiliar: Sea x un vector aleatorio n–dimensional y sea A ∈ <n×n unamatriz simetrica. Si E(x) = µ y su matriz de covarianza es Σx entonces

E(x′Ax) = tr (AΣ) + µ′Aµ


Respecto del diseno

• Covariables aleatoriasSi las covariables son aleatorias suponemos que tenemos los vectores (xi , yi)i.i.d. que satisfacen el modelo

yi = xiβ + εi

donde los εi son i.i.d., con E(εi) = 0 y V ar (εi) = σ2 e independientes dexi ∼ F .El analogo de suponer que X tiene rango completo es asumir que la distribucionde x no esta concentrada en ningun hiperplano, es decir

P (a′x = 0) < 1 ∀a 6= 0Esta condicion se cumple, por ejemplo, si x tiene densidad.

En este caso, ˆβ esta bien definido y las formulas que vimos para esperanza y

varianza de ˆβ son validas condicionalmente:

E(ˆβ|X = x) = β Σˆβ|X=x = σ

2(X′X)−1


Se puede ver que si Vx = E(xx′) existe, entonces para n grande la distribucion

aproximada de ˆβ sera

Np

⎛⎜⎜⎝β,

σ2V−1xn

⎞⎟⎟⎠

Cuando el modelo tiene intercept, podemos escribirlo como:

yi = β0 + x′iβ1 + εi

donde β0 es la intercept y β1 es el vector de pendientes. En este caso resulta

σ2V−1x = σ2

⎛⎜⎜⎜⎜⎜⎜⎝

1 + µ′xΣ−1x µx −µ′xΣ−1x

−Σ−1x µx Σ−1x

⎞⎟⎟⎟⎟⎟⎟⎠

con µx = E(x) y Σx matriz de covarianza de x.


• Estructura Ortogonal en la matriz de DisenoSupongamos que podemos dividir a la matriz X en k conjuntos de columnasortogonales: X1, . . . ,Xk , de manera que

X = [X1 . . .Xk ]

La correspondiente division en los parametros darıa

β = (β1, . . . ,βk)′

Luego podemos escribir:

E(Y) = X1β1 + . . .+ Xkβk

Como las columnas de Xi son ortogonales a las de Xj si i 6= j , tenemos queX′iXj = 0, luego


ˆβ = (X′X)−1X′Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

X′1X1 0 . . . 00 X′2X2 . . . 0. . . . . . . . . . . .. . . . . . . . . X′kXk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

−1 ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

X′1YX′2Y. . .X′kY

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

entonces

ˆβ = (X′X)−1X′Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

(X′1X1)−1X′1Y

(X′2X2)−1X′2Y

. . .(X′kXk)

−1X′kY

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ˆβ1ˆβ2. . .ˆβk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

en consecuencia el estimador de βi no cambiara si alguno de los otros βj seiguala a 0, es decir si se remueve del modelo.

¿Como resulta la suma de cuadrados?


Y′Y − ˆY′ˆY = Y′Y − ˆβ′X′Y = Y′Y − k∑

j=1

ˆβ′jX′jY

Por lo tanto si en el modelo ponemos algun βi = 0, el unico cambio en la sumade cuadrados es que el termino de ˆ

β′iX′iY no aparece:

Y′Y − k∑

j = 1

j 6= i

ˆβ′jX′jY

En el caso mas sencillo, cada Xi consta de una unica columna y resulta:

ˆβi =

X′iY

X′iXi

y la suma de cuadrados queda

Y′Y − k∑

j=1

ˆβ′jX′jY = Y

′Y − k∑

j = 1

ˆβ2jX′jXj


Teorema de Gauss–Markov

En muchas aplicaciones estamos mas interesado en estimar funciones linealesde β que en estimar β en sı mismo.

Estas funciones incluyen el valor esperado de y en una futura observacion xo,por ejemplo.

Si bien puede haber muchos estimadores de una funcion lineal c′β o Cβ, estu-diaremos los estimadores lineales, es decir funciones lineales de las observacionesy1, . . . , yn.

Primero veremos cuando una funcion parametrica es estimable.

Definicion: Una funcion parametrica ψ se dice que es una funcion lineal delos parametros β1, . . . , βp si existen c1, . . . , cp constantes conocidas talque

ψ = c′β =p∑

j=1cjβj

donde c = (c1, . . . , cp)′.


Definicion: Decimos que una funcion parametrica ψ = c′β es estimable sitiene un estimador lineal (en Y) insesgado, es decir si existe a ∈ <n tal que

E(a′Y) = ψ = c′β ∀β ∈ <p

¿Hay funciones que no son estimables?

Veamos un ejemplo de una funcion parametrica no estimable.


Supongamos que queremos comparar la respuesta media de dos tratamientosy un control y que para ello observamos

T1: y11, y12, . . . , y1k y1j ∼ N(β1, σ2)

T2: y21, y22, . . . , y2k y2j ∼ N(β2, σ2)

Co: y31, y32, . . . , y3k y3j ∼ N(β3, σ2)

Suponemos igual cantidad de observaciones por tratamiento para simplificar lanotacion.

Podemos escribir esto como

yi j = βi + εi j

Podrıamos escribir esto como un modelo lineal:


Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .y1ky21y22. . .y2ky31y32. . .y3k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 0 01 0 0. . .1 0 00 1 00 1 0. . .0 1 00 0 10 0 1. . .0 0 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎝

β1β2β3

⎞⎟⎟⎟⎟⎟⎟⎠

Por ejemplo, T1, T2 y el control podrıan ser distintas dosis de una droga demanera que T1 es menor que la dosis del control y T2 mayor que la dosis


control. Tendrıa sentido preguntarse si

β3 =β1 + β22

lo que implicarıa cierta linealidad en el efecto medio. En ese caso nos interesarıasaber si

(−12,−12, 1

)

⎛⎜⎜⎜⎜⎜⎜⎝

β1β2β3

⎞⎟⎟⎟⎟⎟⎟⎠= 0

Otra manera de escribir el modeo serıa

yi j = µ+ αi + εi j

donde:

µ es el efecto general

αi es el efecto del tratamiento i


En ese caso tendrıamos

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .y1ky21y22. . .y2ky31y32. . .y3k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 1 0 01 1 0 0. . . .1 1 0 01 0 1 01 0 1 0. . . .1 0 1 01 0 0 11 0 0 1. . . .1 0 0 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

µα1α2α3

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

¿Son todas las funciones estimables en este modelo?


Consideremos

α1 =(0, 1, 0, 0

)

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

µα1α2α3

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Veremos que α1 no es estimable.

Veamos el siguiente resultado que caracteriza las funciones parametricas es-timables suponiendo el modelo

Ω : E(Y) = Xβ ΣY = σ2I

Teorema: La funcion parametrica ψ = c′β es estimable si y solo si c es unacombinacion lineal de las filas de X, o sea si existe a ∈ <n tal que

c′ = a′X


Lema: Supongamos que vale el modelo Ω. Sean ψ = c′β una funcion es-timable y Vr el espacio generado por las columnas de X (r = rg(X) ≤ p).Luego, existe un unico estimador lineal insesgado de ψ, digamos a∗

′Y con

a∗ ∈ Vr . Mas aun, si a′Y es un estimador insesgado de ψ, a∗ es la proyeccionortogonal de a sobre Vr .

Teorema de Gauss–Markov:Supongamos que vale el modelo Ω : E(Y) = Xβ ΣY = σ

2I.Toda funcion estimable ψ = c′β tiene un unico estimador ˆ

ψ lineal insesgado demıınima varianza (BLUE). Este estimador ˆ

ψ se puede obtener reemplazando aβ en c′β por ˆ

β, el estimador de mınimos cuadrados.


Definicion: Dada una funcion estimable ψ su unico estimador lineal insesgadode mınima varianza ˆ

ψ, cuya existencia y calculo estan dados por el Teorema deGauss–Markov, es el estimador de mınimos cuadrados de ψ.

Tenemos el siguiente resultado:

Corolario: Si ψ1, . . . , ψq son q funciones estimables toda combinacion linealΨ =

∑qi=1 hiψi es estimable y su estimador de mınimos cuadrado esta dado por

∑qi=1 hi

ˆψi .


¿Que ocurre cuando el rg(X) < p

Si rg(X) = r < p tenemos que ˆβ1, . . . ,ˆβp no son unicos. Esta misma inde-

terminacion afecta a los parametros β1, . . . , βp, en el sentido de que distintosconjuntos b1, . . . , bp darıan origen al mismo η y por lo tanto al mismo modelo

Y = η + ε = E(Y) + ε .

Sin embargo, tal como vimos si c′β es una funcion estimable tendra el mismovalor independientente del β que usemos, en tanto

c′β = a′Xβ = a′η

expresion que solo depende de η, que es unico.

¿Como podemos eliminar esta indeterminacion?


a) Considerar un problema reducido con solo r parametros

Podrıamos considerar r columnas l.i. de X que generen a Vr y mantener en elmodelo solo aquellos βj asociados a estas columnas.

Ası tendrıamos una nueva matriz de diseno X1 ∈ <n×r con rango maximo. Eneste caso tendrıamos el modelo

Y = η + ε con η ∈ VrEl estimador serıa

α = (X′1X1)−1X′1Y

y la matriz de proyeccion corresponiente P = X1(X′1X1)

−1X′1.

Si asumimos, s.p.g., que las columnas elegidas son las primeras r , tendrıamosque

X = [X1X2]

donde X2 ∈ <n×(p−r) y ademas X2 = X1B. Por lo tantoX = X1[Ir B] = KL

con K ∈ <n×r , L ∈ <r×p y rg(L) = r .


Por lo tanto el modelo original se obtiene como:

Xβ = KLβ = Kα

b) Considerar condiciones de contorno adecuadas para los βj’s y susestimadores

Ası podrıamos pedir que βr+1 = . . . = βp = 0 y en este caso obtendrıamos elmismo que en la situacion a) (suponiendo que las r primeras son las columnasl.i.).

Sin embargo, en otras situaciones, como en la de ANOVA, es frecuente que seimpongan otras restricciones lineales de manera de obtener la unicidad.

Consideremos el caso en que imponemos t ≥ p − r restricciones lineales a losβj , es decir

Hβ = 0 con H ∈ <t×p

Queremos encontrar dentro del conjunto de soluciones de Xβ = η una sola


que cumpla Hβ = 0, es decir buscamos β que sea unica solucion de

Xβ = Xβ (= η)

Hβ = 0

De esta forma las primeras ecuaciones establecen que encontraremos una solu-cion del sistema que nos interesa y las segundas que esta solucion sera unica.

Lo que queremos es que

• toda funcion estimable del nuevo sistema lo sea en el viejo problema,• un unico conjunto de estimadores de mınimos cuadrados que satisfaga lascondiciones de contorno.

El siguiente teorema nos dice como elegir H para cumplir con este objetivo:


Teorema: Sean X ∈ <n×p y H ∈ <t×p con rg(X) = r , p > r y t ≥ p − r .Consideremos VX el espacio generado por las columnas de X. El sistema

Xb = z

Hb = 0 (1)

tiene solucion unica b para todo z ∈ VX si y solo si se cumplen las siguientesdos condiciones:

i) si rg(G) = rg

⎛⎜⎜⎝XH

⎞⎟⎟⎠ = p

ii) ninguna combinacion lineal de las filas de H es combinacion lineal de las deX, excepto el 0.

Corolario: Si el sistema (1) cumple la condiciones i) y ii) del Teorema ante-rior, entonces existe un unico conjunto de estimadores de mınimos cuadrados(solucion de las ecuaciones normales) β1, . . . , βp para el cual H

ˆβ = 0.


Observacion:

En terminos estadısticos la condicion ii) del Teorema nos dice que si hi esla iesima fila de H, entonces no existe a tal que hi = a

′X, por lo tanto lash′iβ no es una funcion estimable de los parametros.

Se puede demostrar que:

Si se cumplen las condiciones i) y ii) del Teorema, entonces los βj sonfunciones estimables.

De hecho, si Gβ =

⎛⎜⎜⎝Xβ0

⎞⎟⎟⎠, entonces

G′Gβ = G′⎛⎜⎜⎝Xβ0

⎞⎟⎟⎠ = (X′ H′)

⎛⎜⎜⎝Xβ0

⎞⎟⎟⎠ = X′Xβ .

Luego, (X′X + H′H)β = X′Xβ y como rg(G′G) = rg(G) = p tenemosque


β = (X′X+H′H)−1X′Xβ

y tiene un estimador lineal insesgado dado por

(X′X+H′H)−1X′Y

dada una funcion estimable ψ, para cualquier H que elijamos en las condi-ciones del Teorema anterior, V ar (ˆψ) es la misma.

c) Computar una inversa generalizada de X′X: (X′X)−

En este caso tendrıamos que (X′X)−XY es solucion de las ecuaciones normales,por lo tanto otra forma de solucionar nuestro problema. En realidad puede verseque la opcion b) y c) quedan ligadas a traves del siguiente resultado:

Proposicion: Sea G =

⎛⎜⎜⎝XH

⎞⎟⎟⎠ una matriz que satisface las condiciones i) y ii)

del Teorema anterior. Luego (G′G)−1 es una inversa generalizada de X′X, porlo tanto:

(X′X)(G′G)−1(X′X) = X′X


En efecto, ∀Y:(G′G)(G′G)−1H′Y = H′Y

(X′X+H′H)(G′G)−1H′Y = H′Y

X′X(G′G)−1H′Y = H′(I−H(G′G)−1H′)Y

entonces como X′α = H′β tenemos que

X′X(G′G)−1H′Y = 0

luego

X(G′G)−1H′Y ∈ V⊥ry al mismo tiempo

X(G′G)−1H′Y ∈ Vrpor lo tanto

X(G′G)−1H′ = 0


Finalmente:

(X′X)(G′G)−1(X′X) = (X′X+H′H)(G′G)−1(X′X) = X′X ,

con lo cual es una inversa generalizada.

Mınimos Cuadrados Pesados y Mınimos Cuadrados Generalizados

¿ Que ocurre cuando ΣY = σ2V donde V 6= I?

Supongamos que V ∈ <n×n es una matriz definida positiva de constantes.Podemos entonces escribir: V = KK′ con K una matriz invertible.

Y = Xβ + ε

K−1Y = K−1Xβ +K−1ε


donde E(K−1ε) = 0 y ΣK−1ε = σ2I.

Por lo tanto, tenemos un nuevo problema:

Y = Xβ + ε

que satisface las condiciones de Ω.

Hallar el estimador de mınimos cuadrados en el problema transformado equivalea:

mınb‖Y − Xb‖2 = mın

b(Y − Xb)′(Y − Xb)

= mınb(Y − Xb)′K−1′K−1(Y − Xb)

= mınb(Y − Xb)′V−1(Y − Xb)

Si V es una matriz diagonal decimos que tenemos un problema de Mıni-mos Cuadrados Pesados, mientras que si V es una matriz definida positivacualquiera, es de Mınimos Cuadrados Generalizados.

Las ecuaciones normales quedan:

X′Xb = X′Y


X′K−1′K−1Xb = X′K−1

′K−1Y

X′V−1Xb = X′V−1Y

Observemos que si X′V−1X tiene inversa, entonces

β = (X′V−1X)−1X′V−1Y

y ademas

β es un estimador insesgado de β, es decir E(β) = β.

Σ ˜β= σ2(X′X)

−1= σ2(X′V−1X)−1

Veamos un ejemplo.

Consideremos el caso sencillo de una regresion simple por el origen:

Y = xβ + ε

donde Y = (y1, . . . , yn)′, x = (x1, . . . , xn)′ y ε = (ε1, . . . , εn)′ con E(ε) = 0 y

Σε = σ2V = σ2diag(w1, . . . , wn) con wi > 0.


Probaremos que

β =∑ni=1 yixi/wi

∑ni=1 x

2i /wi

y ademas

Σ ˜β= σ2(X′V−1X)−1 =

σ2

∑ni=1 x

2i /wi

Si rg(X) = p se puede probar facilmente que el estimador β conserva laspropiedades del estimador de mınimos cuadrados: dada una funcion lineal es-timable c′β tenemos que

• c′β es el estimador lineal insesgado de c′β de menor varianza.

Una pregunta muy natural es:


¿ Hay situaciones en las que β y ˆβ coinciden?

Los siguientes resultados nos dan la respuesta

Teorema: Una condicion necesaria y suficiente para que β y ˆβ coincidan es

que VV−1X = VX.

Corolario: β y ˆβ coinciden ⇐⇒ VVX = VX.

Corolario: Si tenemos un modelo de regresion simple por el origen,Y = xβ + ε,entonces

β = ˆβ ∀x⇐⇒ V = cIn


Forma Canonica del Modelo Ω

Dada una base ortonormal de Vr = VX, digamos α1, . . .αr , sabemos quepodemos extenderla a una base ortonormal de<n: α1, . . . ,αr ,αr+1, . . . ,αn.Por lo tanto,

y ∈ <n : y = n∑

j=1zjαj

y tenemos que

α′iy =n∑

j=1zjα

′iαj = ziα

′iαi = zi ∀i = 1, . . . , n

Luego, si definimos a T como la matriz que tiene filas α′i , entonces

z = Ty

Observemos que

E(zi) =

⎧⎨⎩

α′iη = ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Σz = TΣyT′ = σ2I


Por lo tanto, ahora podemos reescribir a Ω como

Ω :

E(zi) =

⎧⎨⎩

ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Σz = σ2I

donde ξ y σ2 son parametros desconocidos.

En terminos de esta forma caonica es sencillo demostrar que

s2 =‖Y − ˆY‖2n − r ==

‖Y − η‖2n − r

es un estimador insesgado de σ2. Solo habıamos demostrado hasta ahora elcaso de rango completo.


Distribucion Normal Multivariada

Definicion 1: Se dice que un vectorX, k−dimensional tiene distribucion normalmultivariada Nk(µ,Q) donde µ es un vector k−dimensional, Q una matriz dek × k definida positiva, si su densidad es de la forma

fX(x) =1

(√2π)k |Q|1/2 e

− (x−µ)′Q−1(x−µ)2

donde |Q| indica determinante de Q.

Por ejemplo, si Xi son k v.a. independientes tales que Xi ∼ N(µi , σ2i ), entoncesel vector X′ = (X1, . . . , Xk) tiene densidad

fx(x) =1

(√2π)k

∏kj=1(σ

2i )1/2

e−1/2Σki=1(xi−µi)2/σ2i

Luego, resulta que X es Nk(µ,Q) donde µ′ = (µ1, . . . , µk) y

Q = diag(σ21, . . . , σ2k) =

⎛⎜⎜⎜⎜⎜⎜⎝

σ21. . .

σ2k

⎞⎟⎟⎟⎟⎟⎟⎠


Mas aun, en el caso en que las k v.a. Xi son todas N(0, 1), X es N(0k, Ik)donde 0′k = (0, . . . , 0) ∈ <k y Ik es la matriz identidad de k × k .Recordemos el enunciado del Teorema de Cambio de Variable:

Sean x es un vector aleatorio con densidad f y y = g(x), tal que g−1(y) = x.

Supongamos que en un abierto G existen las derivadas parciales ∂xi∂yjy sea

J = det

⎧⎨⎩

∂xi∂yj

⎫⎬⎭, entonces

fY(y) = fX(g−1(y))|J|

Teorema N1: Si X es un vector aleatorio k−dimensional con distribucionNk(µ,Q), A es una matriz no singular de k × k y b un vector k−dimensional,entonces

Y = AX+ b es Nk(Aµ+ b, AQA′)


Teorema N2:

i) Un vector aleatorio k−dimensional X es Nk(µ,Q) si y solo si X = BY+µ,donde Y es Nk(0k, Ik) y B es una matriz de k×k no singular tal que BB′ = Q.

ii) Si X es Nk(µ,Q) entonces

E(X) = µ y ΣX = Q

Teorema N3: Sea X un vector aleatorio k−dimensional Nk(µ,Q) y A unamatriz de h × k con rango h, luego si Y = AX+ b entonces

Y ∼ Nh(Aµ+ b,AQA′)


Teorema N4: Sea X′ = (X1, . . . , Xk) un vector k−dimensional con distribu-cion normal multivariada, luego la distribucion marginal de cualquier subconjun-to de componentes tiene distribucion normal multivariada. En particular cadacomponente es normal.

Demostracion: Sea X∗ = (Xk1, . . . , Xkh), k1 < k2 < . . . < kh, luego se tieneque X∗ = AX, donde A es la matriz de h × k dada por:

ai j =

⎧⎨⎩

1 si j = ki0 si j 6= ki

1 ≤ i ≤ h, 1 ≤ j ≤ k .Es facil ver que A es una matriz de rango h.


Teorema N5: Si X es un vector k−dimensional con distribucion Nk(µ,Q),luego

(X− µ)′Q−1(X− µ) ∼ χ2k.

Demostracion: Por lo ya visto, resulta que X = BY+µ donde Y es N(0k, Ik)

Y = B−1(X− µ)y ademas

BB′ = Q

Luego

YY′ = (X− µ)′B′−1B−1(X− µ) = (X− µ)′Q−1(X− µ)El teorema resulta del hecho que

Y′Y =k∑

i=1Y 2i

tiene distribucion χ2k , ya que las Yi son variables aleatorias independientes condistribucion N(0, 1).


Teorema N6: Si X es un vector k−dimensional con distribucion Nk(µ, σ2Ik)y P una matriz simetrica e idempotente de rango r , entonces

(X− µ)′P(X− µ)σ2

∼ χ2r.


Tests y Regiones de Confianza

Hasta ahora hemos trabajado solo con las hipotesis Ω. Sin embargo para deducirtests y regiones de confianza con nivel exacto sera necesario que hagamos unsupuesto adicional: normalidad conjunta de los errores

Supondremos que las yi ’s se distribuyen conjuntamente segun unanormal multivariada.

Podremos deducir:

intervalos de confianza de nivel exacto para funciones parametricas es-timables

tests de nivel exacto para hipotesis que involucran a los parametros

conjuntos o regiones de confianza para la estimacion simultanea de mas deuna funcion parametrica estimable.


Nuestro nuevo modelo sera:

Ω : Y ∼ Nn(Xβ, σ2I) rg(X) = r β ∈ <p

Observemos que en este caso suponer que ΣY = σ2I es equivalente a asumir

que las yi , 1 ≤ i ≤ n, son independientes.


Bajo estas condiciones se obtiene el siguiente resultado:

Teorema: Supongamos que se tiene el modelo

Ω : Y ∼ Nn(Xβ, σ2I) rg(X) = p β ∈ <p .Luego, ˆ

β y s2 son funciones de estadısticos suficientes y completos y por lotanto, ˆ

β y s2 son estimadores IMVU de β y σ2, respectivamente.

Si nuestro modelo es

E(Y) = β0 + β1x1 + β2x2 + . . .+ βpxp

podrıamos tener interes en testear hipotesis como las que siguen:

Ho : βj = 0 vs. H1 : βj 6= 0Ho : β1 − β2 = 0 vs. H1 : β1 − β2 6= 0

Ho : β1 = β2 = . . . = βp = 0 vs. H1 : existe j : βj 6= 0

Todas estas hipotesis son de la forma c′β = 0 o Cβ = 0.


Supongamos que tenemos q funciones estimables ψ1, ψ2, . . . , ψq donde:

ψi =p∑

j=1ci jβj 1 ≤ i ≤ q

Por ser estimables, por el Teorema de Gauss–Markov tenemos que

ˆψi =

n∑

j=1a∗i jyj 1 ≤ i ≤ q ,

donde a∗i ∈ Vr ⊂ <n; de manera queΨ = Cβ C ∈ <q×pˆΨ = A∗Y A∗ ∈ <q×n

Mas aun, sabemos que

ˆΨ = Cˆβ

ΣΨ = σ2A∗A∗′


Estimamos a σ2 por

s2=‖Y − ˆY‖2n − r

Bajo estas nuevas hipotesis obtenemos el siguiente resultado:

Teorema: Supongamos que se cumple Ω, es decir Y ∼ Nn(Xβ, σ2I), rg(X) =r , β ∈ <p y que ademas que ψ1, ψ2, . . . , ψq son q funciones estimables l.i.,de manera que rg(C) = q. Entonces,

i) ˆΨ ∼ Nq(Ψ,ΣΨ) ( o lo que es igual Nq(Ψ, σ2A∗A∗′))

ii) ˆΨ ys2(n − r )

σ2son independientes

iii)(n − r )s2

σ2∼ χ2n−r


En el caso de rango completo, es decir cuando r = p, obtenemos el siguienteresultado:

Teorema: Supongamos que se cumple Ω, es decir Y ∼ Nn(Xβ, σ2I), rg(X) =p, β ∈ <p. Entonces,

i) ˆβ ∼ Np(β, σ2(X′X)−1)

ii)(ˆβ − β)′(X′X)(ˆβ − β)

σ2∼ χ2p

iii) ˆβ y(n − p)s2

σ2son independientes

iv)(n − p)s2

σ2∼ χ2n−p

Estos resultados nos permiten deducir intervalos de confianza o tests para cadauno de los coeficientes del modelo lineal:


Como ˆβ ∼ Np(β, σ

2(X′X)−1), entonces ˆβi = e

′iˆβ ∼ N(βi , σ

2e′i(X′X)−1ei).

Si denotamos Σˆβ= σ2D

ˆβi ∼ N(βi , σ2di i)

siendo di i el i -esimo elemento diagonal de D.

Si para un i fijo queremos testear

Ho : βi = 0 vs. H1 : βi 6= 0

tenemos que bajo Hoˆβi

s√di i∼ tn−p

Por lo tanto, rechazaremos Ho con nivel α si

∣∣∣∣∣∣∣∣

ˆβi

s√di i

∣∣∣∣∣∣∣∣> tn−p,α2


En el caso de regresion simple tendrıamos

yi = β0 + β1xi + εi , 1 ≤ i ≤ n, εi ∼ N(0, σ2)Entonces:

X′X =

⎛⎜⎜⎜⎜⎜⎜⎝

nn∑

i=1xi

n∑

i=1xi

n∑

i=1x2i

⎞⎟⎟⎟⎟⎟⎟⎠

y la inversa resulta

(X′X)−1 =1

n∑ni=1 x

2i − n2x2

⎛⎜⎜⎜⎜⎜⎜⎝

n∑

i=1x2i −

n∑

i=1xi

− n∑

i=1xi n

⎞⎟⎟⎟⎟⎟⎟⎠


ˆβ0 = −x ˆ

β1 + y

y

ˆβ1 =

n∑

i=1xiyi − nx y

n∑

i=1x2i − nx2

=

n∑

i=1(xi − x)(yi − y)n∑

i=1(xi − x)2

Luego, si queremos testear

Ho : β1 = 0 vs. H1 : β1 6= 0el estadıstico sera

T =

∣∣∣∣∣∣∣∣

ˆβ1s√d11

∣∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∣

ˆβ1

s/√∑n

i=1(xi − x)2∣∣∣∣∣∣∣∣

y rechazaremos Ho si

|T | > tn−2,α2


Veamos un ejemplo: Precio del papel.

Y: ganancia en 1972

x: precio de papel en 1973

¿ Ejemplo Precio del Papel

precio ganancia

x y

1 1.83 28

2 3.35 45

3 0.64 12

4 2.30 35

5 2.39 45

6 1.08 14

7 2.92 39

8 1.11 12

9 2.57 43

10 1.22 23


1.0 1.5 2.0 2.5 3.0

1520

2530

3540

45

precio

gana

ncia


¿ sal.lm

Coefficients:

(Intercept) x

2.027775 14.20517

Degrees of freedom: 10 total; 8 residual

Residual standard error: 5.025083

¿ summary(sal.lm)

Call: lm(formula = y ˜ x, x = T)

Residuals:

Min 1Q Median 3Q Max

-5.796 -4.222 0.1386 2.952 9.022


Coefficients:

Value Std. Error t value Pr(¿—t—)

(Intercept) 2.0278 3.9383 0.5149 0.6206

x 14.2052 1.8565 7.6516 0.0001

Residual standard error: 5.025 on 8 degrees of freedom

Multiple R-Squared: 0.8798

F-statistic: 58.55 on 1 and 8 degrees of freedom, the p-value

is 0.00006008

Correlation of Coefficients:

(Intercept)

x -0.915

X’X=

(Intercept) x

(Intercept) 10.00 19.4100

x 19.41 45.0013


(X’X)ˆ(-1)=

(Intercept) x

(Intercept) 0.6142273 -0.264929

x -0.2649290 0.136491

¿ matriz de covarianza de coeficientes

(Intercept) x

(Intercept) 15.510133 -6.689844

x -6.689844 3.446597


Tambien podrıamos interesarnos realizar in I. de C. para la esperanza de unanueva observacion independiente de las demas que cumpla el modelo

yi = β1x1 + β1x2 + . . .+ βpxp + εi

en xo = (xo1, xo2, . . . , xop)′ donde εi ∼ N(0, σ2) independientes.

Como E(yo) = x′oβ, podemos estimarlo por

ˆE(yo) = x

′o

ˆβ = yo

Por lo tanto, de acuerdo con lo que hemos visto

yo = x′o

ˆβ ∼ N(x′oβ, σ2x′o(X′X)−1xo)

y es independiente de(n − p)s2

σ2∼ χ2n−p

por lo tanto

T =yo − x′oβ

s√x′o(X

′X)−1xo∼ tn−p


En consecuencia,

yo ± tn−p,α2 s√x′o(X

′X)−1xo

es un intervalo de nivel exacto 1− α.

Asimismo, podrıamos estar interesados en la prediccion de yo, una nueva ob-servacion que cumpla el modelo, y en un intervalo para ella, que llamaremosintervalo de prediccion.

Observemos que el predictor de yo es yo = x′o

ˆβ. En efecto,

E(yo − yo) = 0. ¿Que distribucion tiene yo − yo?Tenemos que

yo ∼ N(x′oβ, σ2x′o(X

′X)−1xo)

yo ∼ N(x′oβ, σ2)


y dado que yo es independiente de las restantes yi ’s con las que estimamos,entonces por la independencia entre estas dos normales queda que

yo − yo ∼ N(0, σ2(1 + x′o(X′X)−1xo))

Por lo tanto, el intervalo de prediccion de nivel 1− α estara dado poryo ± tn−p,α2 s

√1 + x′o(X

′X)−1xo


Ejemplo. Los siguientes son datos que corresponden a 10 porcentajes yi de

una sustancia que fueron medidos en experiencias de laboratorio y que se deseanrelacionar con la temperatura xi a la que fueron realizados dichas experiencias.

i x y

1 100 452 110 523 120 544 130 635 140 626 150 687 160 758 170 769 180 9210 190 88


La tabla con los estadısticos calculados es:

Coeficiente Estimacion Error Standard Valor de t

β0 -4.47273 5.63433 -0.79β1 0.49636 0.03812 13.02

s 3.46213 g.l.=8


Intervalos de Estimacion y de Prediccion


Tabla de Resultados


• El valor estimado de ˆβ1 ' 0,5,⇒ esperamos que el porcentaje aumente 0.5

por cada incremento de un grado en la temperatura.

• sβ1 = 0,03812

• Si testeamos H0 : β1 = 0 t = 0,496360,038112 = 13,02 y t8,0,025 = 2,306004

⇒ los datos nos dan evidencia suficiente al nivel 5% como para concluir quela pendiente es no nula.


Observemos que en el grafico la recta ajustada esta encerrada entre 2 curvasinteriores y 2 exteriores. Las exteriores corresponden al intervalo de prediccionde nivel 0.95 y las interiores a los intervalos de confianza de nivel 0.95 para lamedia.

Notemos que el nivel de confianza 0.95 se aplica a cada punto y no esglobal


Supongamos que queremos plantear un test de nivel α para

Ho : Cβ = δ vs. H1 : Cβ 6= δ

siendo rg(C) = q , C ∈ <q×p.Sea Ψ = C′β. Sabemos que ˆΨ ∼ Nq(Ψ, σ

2A∗A∗′) = Nq(Ψ, σ

2B). Por lotanto, tenemos que

(1) : Q =1

q(ˆΨ− δ)′B−1(ˆΨ− δ)

es independiente de

(2) : s2 =‖Y − ˆY‖2n − r

Veremos queE(Q) = σ2 + η2

y que η2 = 0 solo cuando Ho es cierta.


Bajo Ho, (1) y (2) son estimadores insesgados de σ2, es decir que bajo Ho

esperamos que(1)

(2)' 1,

pero si Ho no es cierta, esperamos que

(1)

(2)> 1.

Luego, el cociente(ˆΨ− δ)′B−1(ˆΨ− δ)

qs2nos dara una idea de la veracidad de

HO, de manera que rechazaremos Ho si el cociente es grande.

¿ Cuan grande?


Bajo Ho(ˆΨ− δ)′B−1(ˆΨ− δ)

σ2∼ χ2q

independiente de(n − r )s2

σ2∼ χ2n−r

En consecuencia:

F =(ˆΨ− δ)′B−1(ˆΨ− δ)

qs2∼ Fq,n−r

Rechazaremos Ho si

F > Fq,n−r,αVeamos dos situaciones frecuentes para el caso de rango completo.


1. Una hipotesis simple.

C = c consiste en una sola fila, de manera que c′(X′X)−1c es un escalar, conlo cual el estadıstico resulta

F =(c′ˆβ − δ)2s2 c′(X′X)−1c

que bajo Ho tiene distribucion F1,n−p

En funcion de la relacion entre las distribuciones t y F podrıamos utilizar ladistribucion t de Student y

rechazamos Ho si

∣∣∣∣∣∣∣∣

c ′ˆβ − δs

√c′(X′X)−1c

∣∣∣∣∣∣∣∣> tn−p,α/2


2. Tests para k coeficientes iguales a 0.

Ho : Ψ = Cβ = 0, donde C =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ei1··eik

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

, para i1 ≤ 1 < . . . < ik ≤ p.

El numerador sera:(Cˆβ)′(C(X′X)−1C′)−1(Cˆ

β)

donde C(X′X)−1C′ es una submatriz de D = (X′X)−1 que solo involucra loscoeficientes correspondientes a aquellos βi presentes en la hipotesis a testear.

Ası supongamos que tenemos 5 coeficientes β1, . . . , β5 y queremos testear

Ho : β1 = 0

β3 = 0

β5 = 0


luego,

C(X′X)−1C′ =

⎛⎜⎜⎜⎜⎜⎜⎝

d11 d13 d15d13 d33 d35d15 d35 d55

⎞⎟⎟⎟⎟⎟⎟⎠

y en el numerador tendremos

( ˆβ1,

ˆβ3,

ˆβ5

)

⎛⎜⎜⎜⎜⎜⎜⎝

d11 d13 d15d13 d33 d35d15 d35 d55

⎞⎟⎟⎟⎟⎟⎟⎠

−1 ⎛⎜⎜⎜⎜⎜⎜⎝

ˆβ1ˆβ3ˆβ5

⎞⎟⎟⎟⎟⎟⎟⎠


Test de Cociente de Verosimilitud

El test de F tambien puede motivarse como test de cociente de verosimilitud.

Sea Ω el conjunto de supuestos generales y supongamos que bajo este modelotesteamos la hipotesis H, llamemos ω = Ω ∩H. Ası, por ejemplo, si

Ω : Y ∼ Nn(Xβ, σ2I) β = (β0, β1, . . . , βp−1)′

yH : β1 = . . . = βp−1 = 0

entonces ω = Ω ∩H equivale aY ∼ Nn(β0, σ2I) .

Si p(y) es la funcion de densidad o de probabilidad de Y definimos λ el es-tadıstico del cociente de verosimilitud como

λ =maxω p(y)

maxΩ p(y)

Notemos que 0 ≤ λ ≤ 1 ya que ω ∈ Ω y por lo tanto maxω p(y) ≤ maxΩ p(y).


H sera rechazada cuando maxω p(y) es mucho mas chico que maxΩ p(y), porlo tanto rechazaremos H si λ < λα.

Existen dos formas equivalentes de plantear las hipotesis:

• 1)Ω : Y ∼ Nn(Xβ, σ2I) rg = rH : Ψ1 = Ψ2 = . . . = Ψq = 0

donde Ψi son l.i. funciones estimables• 2)

Ω : Y ∼ Nn(η, σ2I) η ∈ VrH : η ∈ Vr−q

donde Vr es un subespacio de dimension r en <n y Vr−q es un subespaciode dimension r − q en Vr .

Vr es el espacio generado por las columnas de X y Vr−q es el espacio al cual


esta restringido η a yacer al imponerle las restricciones Ψ1 = Ψ2 = . . . =Ψq = 0.

Las dos formas son equivalentes, nosotros probaremos que • 1) =⇒ • 2).Tenemos que Y ∼ Nn(η, σ

2I) η ∈ Vr . Llamemos C a la matriz tal queΨ = Cβ. Luego:

Vω = v = Xβ tal que Cβ = 0 = v = Xβ tal que A∗Xβ = 0= v = Xβ tal que A∗v = 0

A∗ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

a∗1...a∗q

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

. Es decir, v ⊥ a∗i 1 ≤ i ≤ q.

Como rg = q entonces a∗1, . . . , a∗q son l.i. Por lo tanto, v ∈ V⊥<a∗1...a∗q> :

complemento ortogonal de V<a∗1...a∗q> en Vr .


Ademas, tenemos que

r = dim(V<a∗1...a∗q>) + dim(V⊥<a∗1...a∗q>

)

por lo tanto,dim(V⊥<a∗1...a∗q>) = dim(Vω) = r − q

Calculemos λ. Para ello deberemos calcular el maximo de de p(y) en c/u delos subespacios.

Veremos que λ =⎛⎝ ‖y−η‖2‖y−ηω‖2

⎞⎠n/2

y por lo tanto rechazamos H0 si

λ =

⎛⎜⎜⎝‖y − η‖2‖y − ηω‖2

⎞⎟⎟⎠

n/2

< kα

Si aplicamos a este cociente la funcion g(t) = n−rq

(t−2/n − 1

), resulta

F =n − rq

‖y − ηω‖2 − ‖y − η‖2‖y − η‖2

=1

q

‖y − ηω‖2 − ‖y − η‖2s2


Como veremos

F =1

q

‖ηω − η‖2s2

Luego, rechazaremos H si

1

q

‖ηω − η‖2s2

> λα

Una interpretacion intuitiva para este test es que ‖y− ηω‖2 y ‖y− η‖2 midencuan bien ajustan los modelos ω y Ω, respectivamente. Por lo tanto, su cocientecompara el ajuste de ω con el de Ω y rechazamos H si este cociente es grande:

F > λα

¿ Que distribucion tiene el cociente F?

Tenemos que Vr−q ∈ Vr ∈ <n. Tomemos una base ortonormal de Vr−q :αq+1, . . .αr y la extendemos a una base ortonormal deVr : α1, . . . ,αq,αq+1, . . . ,αr y finalmente a una de <n:α1, . . . ,αr ,αr+1, . . . ,αn.


α1, . . . ,αq,αq+1, . . . ,αr ,αr+1, . . . ,αn

Por lo tanto,

y ∈ <n : y = n∑

j=1zjαj

y tenemos que

α′iy =n∑

j=1zjα

′iαj = ziα

′iαi = zi ∀i = 1, . . . , n

Luego, si definimos a T como la matriz que tiene filas α′i , entonces

z = Ty

Observemos que bajo el modelo Ω

E(zi) =

⎧⎨⎩

α′iη = ξi si 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Σz = TΣyT′ = σ2I


Bajo el modelo ω, tenemos que η = E(Y) ∈ Vr−q, es decir α′iη = 0 parai = 1, . . . , q.

E(zi) =

⎧⎨⎩

0 si 1 ≤ i ≤ qξi si q + 1 ≤ i ≤ r0 si r + 1 ≤ i ≤ n

Entonces podemos escribir:

Ω : z ∼ Nn(ξ, σ2I) ξi = 0 i ≥ r + 1ω : z ∼ Nn(ξ, σ2I) ξi = 0 1 ≤ i ≤ q y i ≥ r + 1

Utilizando la notacion de Scheffe tendremos

SΩ = ‖y − η‖2 =n∑

i=r+1z2i

Sω = ‖y − ηω‖2 =q∑

i=1z2i +

n∑

i=r+1z2i

y ademas

Sω − SΩ =q∑

i=1z2i


‖y − ηω‖2 − ‖y − η‖2 = ‖η − ηω‖2 =q∑

i=1z2i

Ademas, bajo H tenemos que Sω−SΩσ2∼ χq independiente de s

2 y en conse-cuencia

1

q

Sω − SΩs2

∼ Fq,n−r

Rechazamos H si1

q

Sω − SΩs2

> Fq,n−r,α

Observacion: Puede demostrarse que este test es equivalente al tests de Fya visto.


Ejemplo:

Significacion de la Regresion. Tabla de Analisis de la Varianza

Supongamos que tenemos el modelo con intercept dado por

E(Y) = β0 + β1x1 + β2x2 + . . .+ βp−1xp−1

y queremos testear

Ho : β1 = β2 = . . . = βp−1 = 0

de manera que ω = Ω ∩ H. H impone p − 1 restricciones l.i. Trataremos elcaso en que rg(X) = p

¿Quien es Vω?dim(Vω) = r − (p − 1) = p − (p − 1) = 1 y tenemos que V1 ∈ Vp¿Quien es ηω?

Bajo ω, β1 = . . . = βp−1 = 0, E(Y) = β0.

Tenemos que:


Xω =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

11..1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

→ ˆβ0 = (X

′ωXω)

−1X′ωY =1

n

n∑

i=1yi = Y.

Luego: ηω = X′ωˆβ0 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

YY..Y

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Ademas:‖Y‖2 = ‖Y − η‖2 + ‖η − ηω‖2 + ‖ηω‖2

Bajo Ω si rg(X) = p

ˆβΩ = (X

′X)−1X′Y → η = PY donde P = X(X′X)−1X′


En efecto, ηω es la proyeccion ortogonal de η sobre Vω = V1. Si fuera ası,entonce η − ηω ⊥ ηω.

η = PY y ηω = 1(1′1)−11′Y = P1Y

luego,

(η−ηω)′ηω = Y′(P−Pω)PωY = Y′(PPω−P′ωPω)Y = Y′(Pω−Pω)′PωY = 0


‖Y‖2 = ‖Y − η‖2 + ‖η − ηω‖2 + ‖ηω‖2Llamaremos

‖Y‖2: suma de cuadrados total‖Y − η‖2: suma de cuadrados residual‖η − ηω‖2: suma de cuadrados de la regresion‖Y − ηω‖2: suma de cuadrados total corregida

Tenemos las siguientes igualdades

‖Y‖2 = Y′Y g.l=n

‖Y − η‖2 = Y′Y − ˆβ′XY g.l=n − p

‖η − ηω‖2 = ˆβ′XY − n(Y)2 g.l=p − 1

‖Y − ηω‖2 = Y′Y − n(Y)2 g.l=n − 1


Si quisieramos verificar la significacion de la regresion, harıamos

F =‖η − ηω‖2/p − 1‖Y − η‖2/n − p

Muchos programas ofrecen en su salida una tabla como la que sigue

Fuente g.l. M.S. F p-valor

Regresion ‖η‖2 − n(Y)2 p − 1 (1) = ‖η‖2−n(Y)2p−1

Residual ‖Y − η‖2 n − p (2) = ‖Y−η‖2n−p (1)/(2)

Tot. Cor. ‖Y‖2 − n(Y)2 n − 1Cuadro 1: Tabla de ANOVA


Datos de Biomasa

Produccion de biomasa en el estuario de Cape Fear: los datos corresponden aun estudio de la Universidad de North Carolina en el que se muestrearon 3 tiposde vegetacion en tres localidades. En cada una se muestreo al azar 5 lugarescon un total de 45 observaciones. Analizaremos las variables del sustrato:

x1=SAL: Salinidad

x2=pH: Acidez

x3= K: Potasio

x4=Naa: Sodio

x5=Zn: Zinc

y : Biomasa Aerea

En esta etapa nos concentraremos en identificar aquellas variables que muestranmayor relacion con y . Ajustaremos el modelo

E(y) = β0 + β1SAL+ β2pH + β3K + β4Naa + β5Zn


SALIDA DE S-PLUS

DATOS DE BIOMASA

¿ sal.lm

Call:

lm(formula = BIO ˜ ., data = bio)

Coefficients:

(Intercept) K NAA PH SAL ZN

1252.589 -0.2853166 -0.008662343 305.4821 -30.28808 -20.67844

Degrees of freedom: 45 total; 39 residual

Residual standard error: 398.2671

¿ summary(sal.lm)

Call: lm(formula = BIO ˜ ., data = bio)

Residuals:


-748.1 -223.7 -85.22 139.1 1072


Coefficients:


(Intercept) 1252.5895 1234.7294 1.0145 0.3166

K -0.2853 0.3483 -0.8191 0.4177

NAA -0.0087 0.0159 -0.5438 0.5897

PH 305.4821 87.8831 3.4760 0.0013

SAL -30.2881 24.0298 -1.2604 0.2150

ZN -20.6784 15.0544 -1.3736 0.1774



F-statistic: 16.37 on 5 and 39 degrees of freedom, the p-value is 1.082e-008

Correlation of Coefficients:

(Intercept) K NAA PH SAL

K -0.3122

NAA 0.3767 -0.8103

PH -0.8406 0.1212 -0.2442

SAL -0.9180 0.3047 -0.4324 0.6045

ZN -0.8809 0.1908 -0.3386 0.8350 0.7113


SALIDA DE SX

PREDICTOR

VARIABLES COEFFICIENT STD ERROR STUDENT’S T P VIF

--------- ----------- --------- ----------- ------ -----

CONSTANT 1252.59 1234.73 1.01 0.3166

K -0.28532 0.34832 -0.82 0.4177 3.0

NAA -0.00866 0.01593 -0.54 0.5897 3.3

PH 305.482 87.8831 3.48 0.0013 3.3

SAL -30.2881 24.0298 -1.26 0.2150 2.2

ZN -20.6784 15.0544 -1.37 0.1774 4.3

R-SQUARED 0.6773 RESID. MEAN SQUARE (MSE) 158617

ADJUSTED R-SQUARED 0.6360 STANDARD DEVIATION 398.267

SOURCE DF SS MS F P

---------- --- ---------- ---------- ----- ------

REGRESSION 5 1.298E+07 2596983 16.37 0.0000

RESIDUAL 39 6186050 158617

TOTAL 44 1.917E+07

CASES INCLUDED 45 MISSING CASES 0


Hipotesis Anidadas

La interpretacion del test de F en terminos de las hipotesis anidadas.

Supongamos que tenemos H1, H2, . . . , Hk un conjunto de hipotesis que im-ponen q1, q2, . . . , qk restricciones independientes, respectivamente. Luego, lasq1+q2+. . .+qk funciones estimables son l.i. La secuencia de hipotesis anidadasestara dada por

Ω, ω1 = Ω ∩H1, ω2 = Ω ∩ H1 ∩H2, . . . , ωk = Ω ∩H1 ∩H2 . . . ∩HkSi lamamos V(j) a los espacios asociados cada uno de dimensionr − q1 − q2 − . . .− qj

V(r) ⊃ V(r−q1) ⊃ . . .V(r−q1−q2−...−qk)

Sea ηωj la proyeccion ortogonal de Y sobre V(j), por lo tanto tenemos que

Y = Y − η + η − ηω1 + ηω1 − ηω2 + . . .+ ηωk−1 − ηωk + ηωk


y en consecuencia

‖Y ‖2 = ‖Y −η‖2+‖η−ηω1‖2+‖ηω1−ηω2‖2+. . .+‖ηωk−1−ηωk‖2+‖ηωk‖

2

donde cada suma tiene una distribucion χ2 no central bajo Ω con n−r, q1, q2, . . . , qk,r − q1 − q2 − . . .− qk grados de libertad.


Intervalos Simultaneos y Regiones de Confianza

Metodo de Bonferroni

Queremos hallar intervalos de confianza para q combinaciones lineales de laforma c′iβ i = 1, 2, . . . , q.

Bajo normalidad, para cada combinacion lineal el intervalo de la forma

c′iˆβ ± tn−r,δ/2σc′i ˆβ

tiene nivel 1− δ.

Definamos los eventos

Ei : c′iβ pertenece al intervalo i

tenemos que P (Ei) = 1− δLuego,

1− α = P (todos los intervalos son correctos) = P (∩qi=1Ei)


= 1− P ((∩qi=1Ei)c) = 1− P (∪qi=1Eci )≥ 1−

q∑

i=1P (Eci ) = 1− qδ

Ası, por ejemplo si cada intervalo tiene nivel 0.95 (δ = 0.05) y q = 10 ten-drıamos que

1− α ≥ 1− qδ = 1− 10 ∗ 0.05 = 0.50¿ Como podrıamos mejorar esto?

Si cada δ =α

q, entonces preservarıamos un nivel global superior a 1− α.

Una clara desventaja de este metodo es que si q es grande al exigir que cadaintervalo tenga nivel 1 − α

q , podemos obtener intervalos muy anchos y por lotanto, de escaso valor practico.


Metodo de Scheffe

Supondremos s.p.g. que c1, c2, . . . , cq son l.i. Sea Ψ = Cβ, donde C ∈ IRq×p.Inicialmente supondremos que rg(X) = p. En este caso, sabemos que

(ˆΨ−Ψ)′(C(X′X)−1C′)−1(ˆΨ−Ψ)qs2

∼ Fq,n−pentonces

1− α = P (Fq,n−p ≤ Fq,n−p,α)

= P((ˆΨ−Ψ)′(C(X′X)−1C′)−1(ˆΨ−Ψ) ≤ qs2Fq,n−p,α

)

= P((ˆΨ−Ψ)′L−1(ˆΨ−Ψ) ≤ m

)

= P(b′L−1b ≤ m

)


Recordemos que dada L una matriz definida positiva tenemos que

suph6=0

(h′b)2

h′Lh= b′L−1b

con lo cual, tenemos

1− α = P

⎛⎜⎜⎜⎝suph6=0

(h′b)2

h′Lh≤ m

⎞⎟⎟⎟⎠

= P

⎛⎜⎜⎜⎝(h′b)2

h′Lh≤ m ∀h 6= 0

⎞⎟⎟⎟⎠

= P

⎛⎜⎜⎝

∣∣∣∣h′ˆΨ− h′Ψ∣∣∣∣

s(h′Lh)1/2≤

√qFq,n−p,α ∀h 6= 0

⎞⎟⎟⎠

= P(∣∣∣∣h′ˆΨ− h′Ψ

∣∣∣∣ ≤√qFq,n−p,α s(h

′Lh)1/2 ∀h 6= 0)


Luego, para cualquier funcion lineal h′Ψ tenemos el intervalo de confianza

h′ˆΨ±√qFq,n−p,α s(h

′Lh)1/2

siendo la probabilidad total de la clase 1− α.

Supongamos que r = p y C = Ip, en ese caso tendrıamos

(ˆβ − β)′(X′X)(ˆβ − β) ≤ ps2Fp,n−p,αque define lo que se conoce como el elipsoide de confianza.


¿Como es en el caso general en el que rg(X) = r?

Tenemos que c′1β, c′2β, . . . , c

′qβ son l.i. Sea Ψ = Cβ, donde C ∈ IRq×p,

rg(C) = q.

Recordemos que(ˆΨ−Ψ)′B−1(ˆΨ−Ψ)

qs2∼ Fq,n−r

donde ˆΨ ∼ N(Ψ,ΣΨ),ΣΨ = σ2B = σ2A∗A∗′.

Como rg(C) = q, entonces B tiene inversa, por lo tanto

1− α = P ((ˆΨ −Ψ)′B−1(ˆΨ−Ψ) ≤ qs2Fq,n−r,α)= P ((ˆΨ −Ψ)′B−1(ˆΨ−Ψ) ≤ m)

= P (suph6=0

(h′b)2

h′Bh≤ m)

= P (

∣∣∣∣h′ˆΨ− h′Ψ∣∣∣∣

s(h′Bh)1/2≤

√qFq,n−r,α ∀h 6= 0)


De esta forma,h′ˆΨ±

√qFq,n−r,α s(h

′Bh)1/2

resulta un intervalo de confianza para la funcion lineal h′Ψ y la probabilidadtotal de la clase es 1− α. Observemos que este intervalo es de la forma:

h′ˆΨ±√qFq,n−r,α σh′Ψ


Volvamos al ejemplo de Biomasa

¿ cor(xx)

BIO K NAA PH SAL ZN

BIO 1.0000000 -0.20511626 -0.27206950 0.77418613 -0.10316780 -0.62440784

K -0.2051163 1.00000000 0.79213460 0.01869352 -0.02049881 0.07396686

NAA -0.2720695 0.79213460 1.00000000 -0.03771997 0.16226567 0.11704693

PH 0.7741861 0.01869352 -0.03771997 1.00000000 -0.05133280 -0.72216711

SAL -0.1031678 -0.02049881 0.16226567 -0.05133280 1.00000000 -0.42083353

ZN -0.6244078 0.07396686 0.11704693 -0.72216711 -0.42083353 1.00000000

Analisis con todas las variables: lm(formula = BIO ˜ K + NAA + PH + SAL + ZN)


(Intercept) 1252.5895 1234.7294 1.0145 0.3166

K -0.2853 0.3483 -0.8191 0.4177

NAA -0.0087 0.0159 -0.5438 0.5897

PH 305.4821 87.8831 3.4760 0.0013

SAL -30.2881 24.0298 -1.2604 0.2150

ZN -20.6784 15.0544 -1.3736 0.1774





lm(formula = BIO ˜ K + PH + SAL + ZN)


(Intercept) 1505.4479 1133.6647 1.3279 0.1917

K -0.4388 0.2023 -2.1688 0.0361

PH 293.8169 84.4685 3.4784 0.0012

SAL -35.9374 21.4758 -1.6734 0.1021

ZN -23.4497 14.0396 -1.6703 0.1027




lm(formula = BIO ˜ K + PH + SAL)


(Intercept) -131.1184 582.5120 -0.2251 0.8230

K -0.4900 0.2043 -2.3985 0.0211

PH 410.1454 48.8253 8.4003 0.0000

SAL -12.0533 16.3687 -0.7364 0.4657





lm(formula = BIO ˜ K + PH)


(Intercept) -506.7131 279.8016 -1.8110 0.0773

K -0.4871 0.2031 -2.3977 0.0210

PH 411.9779 48.4954 8.4952 0.0000




Los intervalos de confianza de nivel individual 95% obtenidos a partir del ultimomodelo ajustado serıan tal como vimos de la forma

ˆβi ± t42,0.025σβi siendo t42,0.025 = 2.018

En este caso resultan:

-1.072 < β0 < 58

314 < βPH < 510

-0.898 < βK < -0.077


Si los calculamos con el metodo de Bonferroni como para que el nivel globalresulte 95% usarıamos t42,0.025/3 = 2.50 y estos resultan

-1.206 < β0 < 192

291 < βPH < 533

-0.995 < βK < 0.021

La region de confianza obtenida a partir de metodo de Scheffe serıa


Comparacion entre los metodos

Se puede ver que si las q combinaciones son l.i. entonces

tν, α2q <√qFq,ν,α

Por ejemplo, si α = 0,05, q = 5 y n = 26, entonces

√qFq,ν,α = 3,68 tν, α2q = 2,85

En general, si se quieren realizar intervalos simultaneos para k funciones parametri-cas de las cuales q son l.i.,para α = 0,05 se puede ver que si q ≤ k y k nomucho mas grande que q, entonces

tν, α2k <√qFq,ν,α

Cuando k es mucho mas grande que q, entonces la desigualdad se invierte.


Relacion entre el tests de F y el metodo de Scheffe

Los intervalosh′ˆΨ±

√qFq,n−r,α s(hBh)

1/2 (∗)y el test de F para chequear H : Ψ = δ estan relacionados.

El test de F no es significativo al nivel α si y solo si

(ˆΨ− δ)′B−1(ˆΨ− δ)qs2

≤ Fq,n−r,α

que es cierto si y solo si Ψ = δ esta en la region (ˆΨ−Ψ)′B−1(ˆΨ−Ψ) ≤ m,o sea si y solo si h′δ esta contenido en (*).

Dicho de otra forma, F es significativo si uno o mas intervalos (*) no contienena h′δ, el problema es identificar cual de las combinaciones lineales es la que noesta contenida.


Coeficiente de Correlacion Multiple ( o coeficiente de determinacion)

Supongamos que tenemos el modelo

yi = β0 + β1xi1 + β2xi2 + . . .+ βp−1xip−1 + εi

y nos interesa testear

H : β1 = . . . = βp−1 = 0

Consideremos Ω y ω = Ω ∩ H. Llamaremos η a la proyeccion de Y sobre elsubespacio asociado a Ω y ηω a la proyeccion sobre el subespacio asociado aω.

¿Cual es la correlacion muestral entre el vector de observaciones Y y el vectorde predichos ˆY (o η) ?

R =

n∑

i=1(yi − y)(yi − y)

n∑

i=1(yi − y)2

n∑

i=1(yi − y)21/2


Recordemos que cuando hay ordenada al origen, tenemos que

∂

∂β0‖Y−Xβ‖2 = n∑

i=1(yi−(β0+β1xi1+β2xi2+. . .+βp−1xip−1) =

n∑

i=1(yi−yi)2 = 0

entoncesy = y

y en consecuencia

R =

n∑

i=1(yi − y)(yi − y)

n∑

i=1(yi − y)2

n∑

i=1(yi − y)21/2

Visto en terminos de proyecciones y productos internos, tendrıamos

R =〈Y − ηω, η − ηω〉‖Y − ηω‖‖η − ηω‖

Como

〈Y − ηω, η − ηω〉 = 〈Y − η, η − ηω〉+ 〈η − ηω, η − ηω〉= ‖η − ηω‖2


obtenemos que

R2 =‖η − ηω‖2‖Y − ηω‖2

=Suma Cuadrados Total Regresion

Suma Cuadrados Total Corregida

es decir

R2 =

n∑

i=1(yi − y)2

n∑

i=1(yi − y)2

La relacion entre el estadıstico F y el coeficiente de correlacion multiple esta da-da por el siguiente resultado


Teorema: Supongamos que deseamos testear H : Cβ = 0, que no involucraal intercept β0, es decir C es de la forma [0,C1]. Consideremos ω1 = Ω ∩ H.Sea

R2ω1 =

n∑

i=1(yiω1 − y)2n∑

i=1(yi − y)2

entonces el estadıstico F para testear H sera

F =(R2 − R2ω1)(n − p)(1− R2)q

Como corolario de este teorema obtenemos que R2 − R2ω1 ≥ 0 pues F ≥ 0 ypor lo tanto, el coeficiente de correlacion multiple o de determinacion R2 nuncadecrece al agregar una variable regresora extra.

Esta es una deventaja de R2 si uno lo quiere usar para comparar el ajuste demodelos de distinto numero de covariables, y por esta razon se suele utilizar elcoeficiente de determinacion ajustado definido por


R2adj = 1− (1− R2)n

n − pque no crece necesariamente con p y de hecho se puede demostrar que R2adjaumenta al agregar una covariable solo si el estadıstico F que testea que losparametros agregados son 0 es mayor a 1.


Distribuciones χ2, F y t no centrales

Def: Sean X1, · · · , Xν va. independientes tales que Xi ∼ N(ξi , 1). Luego:

U =ν∑

i=1X2i ∼ χ

′2ν,δ

donde el parametro de no centralidad es δ =

⎛⎜⎝ν∑

i=1ξ2i

⎞⎟⎠1/2

.

Se puede ver que si Yi ∼ N(0, 1) independientes entonces:

U = (Y1 + δ)2 +

ν∑

i=2Y 2i

U = (Y1 + δ)2 + χ2ν−1

Propiedades:

E(χ′2ν,δ) = ν + δ


V ar (χ′2ν,δ) = 2ν + 4δ

2

Suma de χ2 no centrales independientes:

Si U1 ∼ χ′2ν1,δ1independiente de U2 ∼ χ

′2ν2,δ2, entonces

U1 + U2 ∼ χ′2ν1+ν2,(δ

21+δ

22)1/2

Distribucion F no central:

Def: Si U1 ∼ χ′2ν1,δ1independiente de U2 ∼ χ2ν2, tenemos que

U1/ν1U2/ν2

∼ F ′ν1,ν2,δ1es decir, F no central de ν1 y ν2 grados de libertad y parametro de no cen-


tralidad δ1.

Distribucion t no central:

Def: Sean X ∼ N(δ, 1) independiente de U ∼ χ2ν, tenemos queX

√U/ν

∼ t ′ν,δ

es decir, t no central con ν y parametro de no centralidad δ.

Observacion: Notemos que t′ν,δ = F

′1,ν,δ

Potencia del test de F

Consideremos la base ortonormal de IRn:

α1, . . . ,αq,αq+1, . . . ,αr ,αr+1, . . . ,αn


dondeVr−q : αq+1, . . . ,αr

Vr : α1, . . . ,αq,αq+1, . . . ,αrPor lo tanto,

y ∈ <n =⇒ y = n∑

j=1zjαj =⇒ α′iy = zi

y si definimos a T como la matriz que tiene filas α′i , entonces

z = Ty

Observemos que bajo el modelo Ω

zi independientes y zi ∼ N(ξi , σ2)donde

ξr+1 = ξr+2 = · · · = ξn = 0Bajo el modelo restringido ω, tenemos que

ξ1 = ξ2 = · · · = ξq = 0


Usamos el estadıstico F :

‖η − ηω‖2qs2

=∑qi=1 z

2i

qs2

donde

s2 =

n∑

i=r+1z2i

n − rYa probamos que z1, · · · , zq y zr+1, · · · , zn son independientes y comoE(zi) = 0 si i ≥ r + 1 =⇒

n∑

i=r+1

⎛⎝ziσ

⎞⎠2

=(n − r )s2

σ2∼ χ2n−r

Sin embargo, si H0 es ciertaq∑

i=1

⎛⎝ziσ

⎞⎠2

∼ χ2qde lo contrario

ziσ∼ N(ξi

σ, 1)


⇓

q∑

i=1

⎛⎝ziσ

⎞⎠2

∼ χ′2q,δ con δ2 =q∑

i=1

⎛⎜⎝ξiσ

⎞⎟⎠

2

Por lo tanto, si H0 no es cierta

F =‖η − ηω‖2

qs2∼ F ′q,n−r,δ

y la potencia del test sera:

P (F′q,n−r,δ ≥ Fq,n−r,α)

donde

δ =

√√√√√√q∑

i=1

⎛⎜⎝ξiσ

⎞⎟⎠

2


¿Como se calcula δ en terminos de los parametros originales?

z = Ty =⇒ zi = α′iy =

n∑

j=1αi jyj =⇒ ξi = E(zi) = α

′iη

en consecuenciaξi = E(zi) =

n∑

j=1αi jηj

Tenemos las siguientes igualdades:

‖η − ηω‖2 =q∑

i=1z2i

σ2δ2 =q∑

i=1ξ2i

y reemplazando a las zi ’s obtenemos

‖η − ηω‖2 =q∑

i=1

⎛⎜⎝n∑

j=1αi jyj

⎞⎟⎠2

σ2δ2 =q∑

i=1

⎛⎜⎝n∑

j=1αi jηj

⎞⎟⎠2


Con lo cual obtenemos la Regla 1: Bajo el modelo Ω

obtenemos σ2δ2 reemplazando en la suma de cuadrados ‖η − ηω‖2 cada Yipor su valor esperado.

Cuadrados Medios

En el denomirador del estadıstico F tenemos: s2 = ‖y−η‖2n−r y su esperanza es

σ2.

En el numerador del estadıstico F tenemos:‖η − ηω‖2

q=

∑qi=1 z

2i

qluego

E

⎛⎜⎜⎝‖η − ηω‖2

q

⎞⎟⎟⎠ = E

⎛⎜⎜⎝

∑qi=1 z

2i

q

⎞⎟⎟⎠

=1

q

q∑

i=1E(z2i )


=1

q

q∑

i=1(σ2 + ξ2i )

= σ2 + q−1σ2δ2

Podemos calcular σ2δ2 con la Regla 1. Observemos que en realidad aquı noes necesaria la normalidad, solo alcanza con tener el modelo

Ω′ : E(Y) = Xβ Σ = σ2I

¿Como quedarıa en el caso de regresion lineal?

Ω : Yi = β0 + β1xi + εi εi ∼ N(0, σ2) independientes

ConsideremosH0 : β1 = 0 H1 : β1 6= 0


Bajo ω = Ω∩H0 tenemos que Yi = β0+ εi , entonces el estimador de mınimoscuadrados sera ˆ

β0 = Y .

Para calcular la potencia necesitamos:

‖η − ηω‖2 =n∑

i=1(ˆβ0 +

ˆβ1xi − Y )2

Usando la Regla 1, reemplazamos por los valores esperados bajo Ω:

σ2δ2 =n∑

i=1

⎛⎜⎜⎜⎜⎜⎜⎜⎝β0 + β1xi −

n∑

i=1(β0 + β1xi)

n

⎞⎟⎟⎟⎟⎟⎟⎟⎠

2

=n∑

i=1(β0 + β1xi − β0 − β1x)2

=n∑

i=1β12 (xi − x)2

= β12 n∑

i=1(xi − x)2


por lo tanto

δ2 =β12 n∑

i=1(xi − x)2

σ2

Analisis de la Varianza de 1 Factor (ANOVA 1)

En el Analisis de la Varianza de 1 Factor nos interesa comparar las medias de kpoblaciones . Supongamos que tenemos k poblaciones y llamamos β1, · · · , βka sus medias y que ademas cada poblacion se distribuye segun una normal ytodas tienen la misma varianza σ2.

Es decir, observamos

y11, y12, . . . , y1j . . . , y1n1 ∼ N(β1, σ2)

y21, y22, . . . , y2j . . . , y2n2 ∼ N(β2, σ2)

· · ·yk1, yk2, . . . , ykj . . . , yknk ∼ N(βk , σ

2)


donde yi j es la j-esima observacion de la i-esima poblacion, todas independientes.En total se tienen n =

∑ki=1 ni observaciones.

Podemos escribir este modelo como.

yi j = βi + εi j i =, · · · , k j = 1, · · · , niεi j ∼ N(0, σ2) independientes

Deseamos testear:

H0 : β1 = · · · = βk H1 : existen i 6= j : βi 6= βj

Podrıamos escribir esto en forma matricial definiendo:


Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .

y1n1y21y22. . .

. . .

. . .

y2n2· · ·yk1yk2. . .

yknk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 0 0 ... 0

1 0 0 ... 0

. . . . .

1 0 0 ... 0

0 1 0 ... 0

0 1 0 ... 0

. . . . .

. . . . .

. . . . .

0 1 0 ... 0

. . . . .

0 0 0 ... 1

0 0 0 ... 1

. . . . .

0 0 0 ... 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

β1β2...

...

...

βk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

donde rg(X) = k . En consecuencia en este modelo todas las funciones de laforma c′β son estimables.


Ejemplo (ANOVA 1) En la siguiente tabla se muestran los porcentajes decontenido de acidos grasos no saturados activos (PAPFUA) presentes en 6margarinas dieteticas:

IMPERIAL PARKAY BLUE BONNET CHIFFON MAZOLA FLEISCHMANN’S

14.1 12.8 13.5 13.2 16.8 18.1

13.6 12.5 13.4 12.7 17.2 17.1

14.4 13.4 14.1 12.6 16.4 18.3

14.3 13 14.3 13.9 17.3 18.4

12.3 18

Las preguntas que se plantean los investigadores son:

a) Se desea saber si hay diferencias en los contenidos medios de PAPFUA delas 6 margarinas consideradas.

b) La margarinas Mazola y Fleischmann’s son de tipo cereal, mientras quelas otras son de tipo soja. Interesa obtener un intervalo de confianza paraβ1+β2+β3+β4

4 − β5+β62 .


En este caso k = 6, n1 = n3 = n4 = n6 = 4 y n2 = n5 = 5, por lo tanton = 26

Volvamos al caso general

Buscamos minimizar:

S(β) = k∑

i=1

ni∑

j=1(yi j − βi)2

luego∂S(β)∂βr

= −2nr∑

j=1(yr j − βr) = 0 r = 1, · · · , k

Por lo tanto, para cada r = 1, . . . , k

ˆβr =

∑nrj=1 yr jnr

= Y r.

Por otro lado, minimizar bajo ω = Ω ∩H0 es buscar el mınimo de

S∗(β) = k∑

i=1

ni∑

j=1(yi j − β)2


luego∂S∗(β)∂β

= −2 k∑

i=1

ni∑

j=1(yi j − β) = 0

y en consecuencia

ˆβ =

∑ki=1

∑nij=1 yi jn

= Y .. (=∑ki=1 niy i .n

)

Para calcular el estadıstico F necesitamos:

‖η − ηω‖2 =k∑

i=1

ni∑

j=1(Y i . − Y ..)2 =

k∑

i=1ni(Y i . − Y ..)2

‖Y − η‖2 = k∑

i=1

ni∑

j=1(Yi j − Y i .)2 =

k∑

i=1(ni − 1)s2i

Suma de Cuadrados Entre Grupos=‖η−ηω‖2: es una medida pesada dispersionde las k poblaciones respecto de la media general.

Suma de Cuadrados Dentro de los Grupos=‖Y−η‖2: es una medida combinada


de la dispersion dentro de cada muestra.

La hipotesis nula a testear

H0 : β1 = · · · = βk

se puede escribir

H0 : β2 − β1 = · · · = βk − β1 = 0


que es de la forma

Cβ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

−1 1 0 ... 0−1 0 1 ... 0. . .. . .. . .−1 0 0 ... 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

β1....βk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0....0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

donde rg(C) = k − 1, luego q = k − 1 y por lo tanto, el estadıstico del testsera:

F =‖η − ηω‖2/(k − 1)‖Y − ηω‖2/(n − k)

y rechazaremos H0 si

F > Fk−1,n−k,α


Con todo esto podemos armar la Tabla de Analisis de la Varianza de 1 Factorque es la salida tıpica de muchos programas que se utilizan para calcular estetest (ver Cuadro 2).

SC g.l. M.S. E(M.S.) F

Entrek∑

i=1

ni(Y i . − Y ..)2 k − 1 (1) =

k∑

i=1

ni(Y i . − Y ..)2

k−1 σ2 + (k − 1)−1k∑

i=1

ni(βi − β..)2

(1)/(2)

Dentrok∑

i=1

ni∑

j=1

(Yi j − Y i .)2 n − k (2) =

k∑

i=1

ni∑

j=1

(Yi j − Y i .)2

n−p σ2

Tot. Cor.k∑

i=1

ni∑

j=1

(Yi j − Y ..)2 n − 1

Cuadro 2: Tabla de ANOVA

Bajo Ω, F tiene una distribucion F no central con parametro de no centralidad


dado por la Regla 1:

σ2δ2 =k∑

i=1ni(βi − β..)2

donde β.. =∑ki=1

ninβi

Si la hipotesis de igualdad de medias es rechazada, seguramente nos deseare-mos identificar aquellas βi que difieren entre sı, estaremos interesados en lasdiferencias βi − βj .Otras veces, como en el ejemplo, podrıan interesarnos algunas combinacionesparticulares, tales como

β1 −β2 + β32

o1

2(β1 + β2)−

1

3(β3 + β4 + β5)

Estas son combinaciones lineales de los parametros de la forma:

p∑

i=1ciβi con

p∑

i=1ci = 0

Estas combinaciones reciben el nombre de contrastes. Podrıamos utilizar cualquiera


de los metodos vistos, si estuvieramos interesados en muchos contrastes elmetodos de Scheffe podrıa ser el mas adecuado. Para algunos casos particu-lares veremos el metodo introducido por Tukey.

Por ahora volvamos al ejemplo:

margarinas¡-read.table(”C:““Users““Ana““ModeloLineal““doctex““margarinas.txt”,header=T)

margarinas

PAPFUA TIPO

1 14.1 1

2 13.6 1

3 14.4 1

4 14.3 1

5 12.8 2

6 12.5 2

7 13.4 2

.

.

25 18.3 6

26 18.4 6

attach(margarinas)

tipo.f¡- factor(TIPO)

plot(tipo.f,PAPFUA)


1 2 3 4 5 6

1314

1516

1718

salida¡- aov(PAPFUA˜tipo.f)

anova(salida)

Analysis of Variance Table

Response: PAPFUA


Df Sum Sq Mean Sq F value Pr(¿F)

tipo.f 5 104.992 20.9984 79.736 1.642e-12 ***

Residuals 20 5.267 0.2634

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Como el p-valor es pequenısimo el test de F rechaza la hipotesis de igualdad de medias.

Tests simultaneos para diferencias de medias

Bonferroni: α = 0,05 α

2(62)= 0,05/30 = 0,002. Cada intervalo es de la

forma:

y i . − y j. ± t20,0,002 s√√√√√√1

ni+1

njdonde t20,0,002 = 3,331

6 5 1 3 4 2

17,975 17,140 14,100 13,825 13,100 12,800

- - - - - - - - - - - - - - - - -


Hay tres grupos de medias que no son significativamente diferentes.

Scheffe: α = 0,05

Vamos a probar que en contxto del modelo yi j = βi+εi j , βj−β1., j = 2, . . . , kes una base de dimension k−1 que genera el subespacio de todos los contrastesy por lo tanto

la probabilidad de que todos los contrastes satisfagan simultaneamente lasdesigualdades

ˆψ ±

√(k − 1)Fk−1,n−k,αs

√√√√√k∑

i=1c2i /ni

es 1− αCada intervalo es de la forma:

y i . − y j. ±√(k − 1)Fk−1,n−k,0,05 s

√√√√√√1

ni+1

nj


y i . − y j. ±√5F5,20,0,05 s

√√√√√√1

ni+1

nj

donde F5,20,0,05 = 2,71

6 5 1 3 4 2

17,975 17,140 14,100 13,825 13,100 12,800

- - - - - - - - - - - - - - - - -

La conclusion es la misma.

Ejercicio Adicional de la Practica 3: programar estos dos tipos deintervalos.


Intervalo de Confianza para el contraste buscado en b)

Bonferroni: α = 0,05

El intervalo es de la forma general:

ˆψ ± tn−r,0,05/2

√ˆvar(ˆψ)

y en este casoˆψ ± tn−k,0,05/2

√ˆvar(ˆψ)

donde t20,0,05 = 2,086

Tenemos que

ˆψ =

β1 + β2 + β3 + β44

− β5 + β62

=y 1. + y 2. + y 3. + y 4.

4− y 5. + y 6.

2= −4,1015


Ademas:

ˆvar(ˆψ) = s2⎛⎜⎝1

16

⎛⎜⎝1

4+1

5+1

4+1

4

⎞⎟⎠+1

4

⎛⎜⎝1

5+1

4

⎞⎟⎠

⎞⎟⎠ = 0,0473

El inetervalo resultante es

(−4,1015−2,086∗0,0217,−4,1015+2,086∗0,0217) = (−4,199972,−4,002528)

Otra parametrizacion

Otra manera de escribir el modelo serıa

yi j = µ+ αi + εi j

donde:

µ: es el efecto general

αi : es el efecto del tratamiento i


En ese caso tendrıamos

Y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

y11y12. . .y1n1y21y22. . .y2n2..yk1yk2. . .yknk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 1 0 01 1 0 0. . . .1 1 0 01 0 1 01 0 1 0. . . .1 0 1 0. . . .. . . .1 0 0 11 0 0 1. . . .1 0 0 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

;β =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

µα1α2...αk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

¿Son todas las funciones estimables en este modelo?


Es claro que la matriz de diseno X tiene rg(X) = k < p = k + 1 y por lotanto no toda funcion parametrica es estimable.

Ya vimos en el caso k = 3 que, por ejemplo, α1 no es estimable.

De acuerdo con el Teorema que probamos muchas clases atras deberıamosincluir una restriccion adicional. Para lograr la identificabilidad de los parametrosson frecuentes:

αk = 0 ok∑

i=1αi = 0 etc.

Es muy usada la restriccion∑ki=1αi = 0, que es natural ya que:

ηi j = E(yi j) = µ+ αi = µ+ α+ αi − α= µ+ αi

dondek∑

i=1αi = 0

Notemos que usando esta restriccion tenemos que:

ηi j = E(yi j) = µ+ αi =⇒ η.j = kµ


=⇒ µ = η.j

por lo tanto

αi = ηi j − η.jµ y αi estan unıvocamente determinados por los ηi j :

µ = η.j αi = ηi j − η.jSi quisieramos plantear las ecuaciones normales para estimar los parametrospodrıamos plantear:

∂S

∂µ= −2 k∑

i=1

ni∑

j=1(yi j − µ− αi) = 0

∂S

∂αi= −2

ni∑

j=1(yi j − µ− αi) = 0

k∑

i=1αi = 0 ← restriccion adicional


Por lo tanto:

nµ+k∑

i=1niαi =

k∑

i=1niy i .

µ+ αi = y i .k∑

i=1αi = 0

Notemos que la primera ecuacion es dependiente de las k siguientes. Luego:

µ =k∑

i=1

y i .k

αi = y i . −k∑

j=1

y j.k

que estan unıvocamente determinados por los yi j

Volviendo al tema de comparaciones multiples

Metodo de Tukey

Mientras el metodo S de Scheffe utiliza la distribucion F , este metodo usa ladistribucion del rango studientizado ql ,ν, que presentaremos a continuacion.


El metodo T sirve para realizar contrastes simultaneos que involucran I parame-tros (θ1, . . . , θI) con la restriccion de que sus estimadores θi tengan igual vari-anza. De allı, que en principio en el contexto de ANOVA 1 Factor asumiremosque ni = m ∀i = 1, ..., kDeduciremos el metodo para el caso en que θi son independientes y los con-trastes de interes de la forma θi − θj .Def.: Distribucion del rango studientizado qI,ν: Sean x1, x2, . . . , xI v.a. inde-pendientes tales que xi ∼ N(0, 1), R = max1≤i≤I xi − mın1≤i≤I xi y U ∼ χ2νindependiente de las x ′i s. Entonces:

max1≤i≤I xi − mın1≤i≤I xi√Uν

=R√Uν

∼ qI,ν

Teorema de Tukey

Sean θi v.a. independientes 1 ≤ i ≤ I, tales que θi ∼ N(θi , a2σ2), con a > 0constante conocida y s2 un estimador de σ2, independiente de θi ∀i , y tal que


νs2

σ2∼ χ2ν. Entonces

La probabilidad de que todas los 12I(I − 1) diferencias θi − θj satisfagan si-multaneamente

θi − θj − Ts ≤ θi − θj ≤ θi − θj + Tsdonde T = aqI,ν,α es 1− α.Ejemplo: Supongamos que queremos comparar las medias de 4 tratamientos:T1, T2, T3 y T4 y nos interesan los contrastes:

αi − αjque es equivalente a comparar βi − βj .Sabemos que βi = y i . y que y 1., . . . , y 4. son independientes. Ademas y i . ∼N(βi ,

σ2

ni). Para poder usar Tukey, entonces ni = m ∀i .

Por lo tanto:

P (∩i ,j y i . − y j. − q4,4m−4,αs√√√√√1

m≤ βi − βj ≤ y i . − y j. − q4,4m−4,αs

√√√√√1

m)


Extensiones del Metodo de Tukey

1. Teorema de Tukey

Bajo las condicones del Teorema anterior la probabilidad de que todos loscontrastes de la forma ψ =

∑Ii=1 ciθi ,

∑Ii=1 ci = 0 satisfagan simultaneamente

ψ − Ts I∑

i=1|ci |/2 ≤ ψ ≤ ψ − Ts

I∑

i=1|ci |/2

donde T = aqI,ν,α y ψ =∑Ii=1 ci θi , es 1− α.

2. Metodo de Tukey–Kramer Para el caso de muestras de diferente tamanohay diferentes propuestas para extender el metodo de Tukey. El metodo T–Kaplicado al problema de ANOVA 1 Factor para ni observaciones para cada niveli , i = 1, · · · , k , propone los intervalos

y i .− y j.− qk,n−k,αs√√√√√√1

2(1

ni+1

nj) ≤ βi −βj ≤ y i .− y j.− qk,n−k,αs

√√√√√√1

2(1

ni+1

nj))


Volvamos a nuestro ejemplo de las margarinas

salida¡- aov(PAPFUA˜tipo.f)

anova(salida)

FLUOR.tuk¡-TukeyHSD(salida,”tipo.f”,ordered=FALSE,conf.level=0.99)

plot(FLUOR.tuk)


−2 0 2 4 6

6−5

5−4

5−3

6−2

4−2

6−1

4−1

2−1

99% family−wise confidence level

Differences in mean levels of tipo.f


Comparacion de los metodos para ANOVA 1 Factor

Notemos que ls tres tipos de intervalos son de la misma forma y que paracomparar sus longitudes basta considerar:

rT,S =long.Tukey

long.Schef f e=

qk,ν,αk∑

i=1|ci |/2

√√√√√(k − 1)Fk−1,ν,αk∑

i=1c2i

rB,S =long.Bonf er roni

long.Schef f e=

tν,α/(k(k−1))√(k − 1)Fk−1,ν,,α

rT,B =long.Tukey

long.Bonf er roni=rT,SrB,S

En la siguiente tabla extraıda de Stapleton (1995) mostramos los cocientespara contrastes de la forma βi−βj para α = 0,05, k = 3, 5, 7, 10, ν = 10,∞.

Modelo Lineal 203 Ana M. Bianco 1

Análisis de la Varianza de dos factores con replicaciones:

Caso Balanceado (Scheffé, 1959)

En este ejemplo nos interesa el tiempo de coagulación (en minutos) del plasma sanguíneo para 3

tratamientos y 2 concentraciones de adrenalina mezclada con el plasma.

Para cada combinación de tratamiento y concentración de adrenalina, se tomaron 3 observaciones

independientes. Se obtuvieron los siguientes datos:

Concentración

Tratamiento 1 2

1 9.8

10.1

9.8

11.3

10.7

10.7

2 9.2

8.6

9.2

10.3

10.7

10.2

3 8.4

7.9

8.0

9.8

10.1

10.1


En este caso tenemos dos factores:

Factor A: Tratamiento (con tres niveles)

Factor B: Concentración (dos niveles)

y dentro de cada casillero tenemos la misma cantidad de replicaciones K, en este caso K=3.

Podemos pensar que nuestros datos se disponen en una tabla de doble entrada como la anterior

(una entrada para el factor A y otra para B) y en la que en cada casilla tendremos las

replicaciones de cada una de las combinaciones de los factores A y B.


Factor B

Factor A 1 2 . . J

1

Y111

Y112

.

.

Y11K

Y121

Y122

.

.

Y12K

. . . Y1J1

Y1J2

.

.

Y1JK

2

Y211

Y212

.

.

Y21K

Y221

Y222

.

.

Y22K

. . . Y2J1

Y2J2

.

.

Y2JK

.

. . .

Yijl

. .

. . . . . .

I

YI11

YI12

.

.

YI1K

YI21

YI22

.

.

YI2K

. . . YIJ1

YIJ2

.

.

YIJK


Cada observación Yijkpuede escribirse como:

Yijk = ij + ijk

donde ijk representa el error, la media ij (que depende del cada nivel i del Factor A (Filas) y de

cada j nivel del Factor B (Columnas)) y el subíndice k identifica la replicación dentro de cada

casillero.

Asumiremos que ijk N(0,2) independientes.

Cuando el número de observaciones dentro de cada casillero es constante decimos que el diseño

es balanceado. Vamos a considerar el caso balanceado.

Para cada observación, podríamos considerar un modelo que involucre una media general, el

efecto del tratamiento y el efecto de la concentración de adrenalina:

Yijk = + i + j + ijk

Esto es lo que conocemos como Modelo Aditivo.

Veamos que podría ocurrir con ij .


Sin embargo, podría ocurrir que el efecto de cierto tratamiento no sea el mismo para los

distintos niveles de concentración de adrenalina. En este caso diríamos que hay interacción.


¿Cómo representar esto en el modelo? Deberíamos pensar en un Modelo No Aditivo.

Escribimos cada observación Yijk puede escribirse como:

Yijk = ij + ijk


Podemos pensar que cada ij es una suma de 4 términos:

Una media general,

Efecto del nivel i del Factor A: i

Efecto del nivel j del Factor B: j

Interacciones ij: ij

Luego

Yijk = + i + j + ij + ijk

Notemos que

)()()( ............ jiijjiij

que es de la forma + i + j + ij donde

0 j

ij

i

ij

j

j

i

i


Estimación

Tenemos que minimizar

ji

ij

k

ijkY,

2)(S

Obtenemos el estimador de mínimos cuadrados de ij resolviendo

0)()2(S

ij

k

ijk

ij

Y

con lo cual

.ˆ

ijij Y

y queda 2

.

,

)(S ij

ji

ijk

k

YY


Notemos que en este caso la matriz de diseño X es:

Por lo tanto todas funciones paramétricas son estimables, en particular:

, i , j y ij

IJprg(X) :

:

1..:0

1..0:

:..10

:..::

0..10

:..01

0..::

0..01

11

IJ


ijLuego, por el Teorema de Gauss-Markov, los estimadores de mínimos cuadrados de , i ,j y ij

los obtenemos reemplazando a ij por su estimador

Así obtenemos:

)ˆˆˆˆ(ˆ

)ˆˆ(ˆ

)ˆˆ(ˆ

ˆˆ

....

...

...

..

jiijij

jj

ii

Resultando

)(ˆ

)(ˆ

)(ˆ

ˆ

........

.....

.....

...

yyyy

yy

yy

y

jiijij

jj

ii


La hipótesis de igualdad de los efectos de los I niveles del Factor A (filas) puede plantearse

mediante la hipótesis nula:

HA: 1 = 2 = ......= I = 0,

la hipótesis de igualdad de los J niveles del Factor B (columnas) se plantea como:

HB: 1 = 2 = ......= J = 0,

mientras que la ausencia de interacciones, la testearíamos a través de la hipótesis

HAB: 11 = 12 = ......= IJ = 0.

La ausencia de interacciones implica que la diferencia de medias de dos niveles de un factor

es la misma para todos los niveles del otro factor.


La suma de cuadrados puede ser reescrita como:

ji k

ijijjjiiijjiijk

ijji

ji

ijk

k

ij

ji

ijk

k

Y

YY

,

2

2

,

2

,

))ˆ()ˆ()ˆ()ˆ()ˆˆˆˆ((

)()(S

y usando las restricciones

0 j

ij

i

ij

j

j

i

i

queda

ji

ijij

j

jj

i

ii KIKJKIJKS,

2222 )ˆ()ˆ()ˆ()ˆ(S

Esta expresión es muy útil pues bajo HA, HB, o HAB permite ver que los estimadores son los

mismos que bajo .


Por ejemplo, bajo HA: 1 = 2 = ......= I = 0, tendríamos

ji

ijij

j

jj

i

i KIKJKIJKS,

2222 )ˆ()ˆ(ˆ)ˆ(S

Por lo tanto, S se minimiza cuando

ijijjj ˆ ademasy ˆ ,ˆ

En este caso además tendríamos

i

iA JKS2

ˆS

Análogamente


ji

ijAB

j

jB

KS

IKS

,

2

2

ˆS

ˆS

Para testear, por ejemplo HA

ji

ij

k

ijk

i

i

i

i

A

YY

JK

S

JK

S

S

,

2

.

22

)(

ˆ

1-I

IJ-nˆ

1-I

IJ-n

S

q

r-n

En cuanto a los grados de libertad de cada una, es decir q, es el número de condiciones l.i.

estimables impuestas por cada hipótesis.


Los grados de libertad de cada una de estas sumas son:

SA: I-1

SB: J-1

SAB: (I-1)(J-1)

SE: IJ(K-1)

ST: n-1=I*J*K-1

Por lo tanto la Tabla de Análisis de la Varianza será:


(Extraída de Scheffé, 1959)


EJEMPLO: 2 factores con replicaciones.

Supongamos que nos interesa estudiar el efecto del porcentaje de grasa corporal (factor A, 3

niveles) y del sexo (factor B) en la tolerancia al ejercicio físico en personas de 25 a 35 años de

edad. Esta tolerancia se mide en minutos antes de que ocurra la fatiga en sujetos realizando

bicicleta fija.

Dos sujetos fueron sometidos al test de tolerancia para cada grupo de sexo-grasa. A partir de los

datos obtenidos se calculó la siguiente tabla de análisis de la varianza para el modelo:

Yijk = + i + j + ij + ijk i=1, 2, 3 j=1, 2, k=1, 2


grasa<-

read.table("C:\\Users\\Ana\\ModeloLineal\\doctex\\grasa.txt",header=T)

grasa

attach(grasa)

names(grasa)

plot(Tolera~ SEXO + GRASA, data=grasa)


interaction.plot(SEXO,GRASA,Tolera,col=2:3)


ANALYSIS OF VARIANCE TABLE FOR TOLERA

g <- lm(Tolera~GRASA*SEXO, grasa)

anova(g)


Response: Tolera

Df Sum Sq Mean Sq F value Pr(>F)

GRASA 2 1544 772.00 74.7097 5.754e-05 ***

SEXO 1 12 12.00 1.1613 0.3226

GRASA:SEXO 2 24 12.00 1.1613 0.3747

Residuals 6 62 10.33

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Comenzamos por testear la hipótesis de ausencia de interacciones

HAB: 11 = 12 = ......= 0

Como el p-valor obtenido para el test de F correspondiente es 0.3747, no podemos rechazar HAB,


¿Por qué testeamos primero HAB?

No tiene tiene sentido testear los efectos principales cuando hay interacción, a menos que hubiera

un interés específico. Un p-valor bajo en el test para HAB sugiere que cada factor tiene un efecto en

la variable de respuesta, pero el tamaño de este efecto depende del nivel del otro factor. Por esta

razón testeamos en primer término HAB.

Si el p-valor para testear HAB no es pequeño, testeamos HA y HB.

Si en cambio, el p-valor es pequeño, no podemos descartar la presencia de interacciones y

comparamos las medias entre los distintos niveles de un factor, fijado el nivel del otro factor.

Como en este ejemplo p-valor es 0.3747 y no podemos rechazar HAB, estamos en condiciones de

testear HA y HB.

Si deseáramos verificar si el sexo tiene algún efecto sobre la tolerancia al ejercicio físico

deberíamos testear

HB: 1 = 2 = 0,

y como el p-valor del test correspondiente es 0.3226, no podemos rechazar la hipótesis de que

el efecto del sexo sea nulo.


Por otra parte, podría interesarnos testear

HA: 1 = 2 = 3 = 0.

El p-valor obtenido para el test de F correspondiente es 0.0001, en consecuencia rechazamos la

hipótesis de que el efecto del porcentaje de grasa es el mismo para los tres niveles.

Si nos interesase realizar intervalos de confianza simultáneos para las diferencias entre las medias

de los niveles de porcentaje de grasa podemos calcular los intervalos mediante el método de

Tukey con un nivel global de 95%:


salida<-aov(Tolera~SEXO*GRASA)

tolera.tuk<-TukeyHSD(salida,"GRASA",ordered=FALSE,conf.level=0.95)

plot(tolera.tuk)


EJEMPLO: 2 factores con replicaciones

plasma<-

read.table("C:\\Users\\Ana\\ModeloLineal\\doctex\\plasma.txt",header=T)

attach(plasma)

names(plasma)

trat<- factor(TRATA)

concentra<- factor(CONCENTRA)

plot(Tiempo~trat + concentra, data=plasma)


Yijk = + i + j + ij + ijk i=1, 2, 3 j=1, 2, k=1, 2,3

interaction.plot(trat,concentra,Tiempo,col=2:3)


interaction.plot(concentra,trat,Tiempo,col=2:4)


g <- lm(Tiempo~trat*concentra, plasma)

anova(g)


Response: Tiempo


trat 2 5.470 2.7350 37.2955 7.084e-06 ***

concentra 1 9.245 9.2450 126.0682 1.011e-07 ***

trat:concentra 2 0.610 0.3050 4.1591 0.04244 *

Residuals 12 0.880 0.0733

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Como antes comenzamos por testear la hipótesis nula HAB. En este caso la hipótesis nula es

rechazada al 5%. Compararemos las medias de todas las combinaciones.


tiempo.tuk<-TukeyHSD(salida,ordered=FALSE,conf.level=0.95)

par(cex=0.5)

plot(tiempo.tuk,cex=2)

Tambien podria escribirse:

tiempo.tuk<-

TukeyHSD(salida,"trat:concentra",ordered=FALSE,conf.level=0.95)


Una forma de resumir esta información es considerando:

TRAT CONCENTRA MEAN GROUPS

--------- --------- ---------- -----------

1 2 10.900 I

2 2 10.400 I I

3 2 10.000 .. I

1 1 9.9000 .. I

2 1 9.0000 .... I

3 1 8.1000 ...... I

Donde se ve que hay cuatro grupos de medias que no difieren significativamente unas de otras.

Modelo Lineal: Diagnostico

Verificacion de Supuestos y Diagnostico Supongamos que tenemos una

muestra (yi , xi), i = 1, . . . , n que cumple:

yi = x′iβ + εi

donde εi = N(0, σ2) son independientes y estimamos por el metodo de mınimos

cuadrados a β y realizamos todas las inferencias que necesitamos.

¿Como verificamos todos los supuestos que hemos realizado?

1


Los 4 supuestos que revisaremos son:

1. Linealidad: E(Y ) = Xβ

2. Homoscedasticidad: V ar (εi) = σ2 = cte.

3. Normalidad: εi tienen distribucion Normal

4. Independencia de los errores: εi independiente de εj si i 6= j .

Comencemos por considerar los residuos:

ei = yi − yi i = 1, . . . , n

Como sabemose = (I− P)Y

por lo tantoE(e) = 0 Σe = σ

2(I− P)

Por lo tanto, V (ei) = σ2(1−pi i), con lo cual los residuos son heteroscedasticos.


Si ademas, los errores son normales, como hemos supuesto antes

ei ∼ N(0, σ2(1− pi i))

Observemos ademas, que los residuos no son independientes, en tanto:

Cov(ei , ej) = −σ2pi j

Definimos otros residuos relacionados:

ri =yi − yi

s√(1− pi i)

residuo standarizado

r ∗i =yi − yi

s(i)√(1− pi i)

residuo studentizado

donde s(i) es el desvıo standard muestral computado partir de una regresionajustada sin la observacion i .

Sea X(i) la matriz X sin la i−esima fila: xi . Probaran en la practica que sonciertas las siguientes igualdades:


X′(i)X(i) = X′X− xix

′i

(

X′(i)X(i)

)−1= (X′X)

−1+(X′X)−1 xix

′i (X

′X)−1

1− pi i

con lo cual

ˆβ − ˆβ(i) = (X

′X)−1xi

ei1− pi i

s2(i) =(n − p)s2 − e2i (1− pi i)

n − p − 1

Distribucion de los Residuos

A fin de estudiar la distribucion de estos residuos podrıamos graficar:

Esquemas de Tallo y Hoja

Histogramas


Boxplots

De esta forma podrıamos evaluar:

simetrıa

valores extremos

valores centrales

outliers

posibles agrupamientos

normalidad

summary(salida)

Call:

lm(formula = BIO ˜ K + PH)

Residuals:



-679.25 -253.50 -95.44 259.45 1135.80

Coefficients:

Estimate Std. Error t value Pr(¿—t—)

(Intercept) -506.7131 279.8016 -1.811 0.0773 .

K -0.4871 0.2031 -2.398 0.0210 *

PH 411.9779 48.4954 8.495 1.15e-10 ***


Multiple R-squared: 0.6476, Adjusted R-squared: 0.6308

F-statistic: 38.59 on 2 and 42 DF, p-value: 3.074e-10

names(salida)

[1] ”coefficients” ”residuals” ”effects” ”rank” ”fitted.values” ”assign”

[8] ”df.residual” ”xlevels” ”call” ”terms” ”model”

names(lm.influence(salida))

[1] ”hat” ”coefficients” ”sigma” ”wt.res”


stem(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))

The decimal point is at the —

-1 — 9

-1 — 332

-0 — 9888777766655555

-0 — 332211111

0 — 022

0 — 677778

1 — 04

1 — 69

2 — 01

2 — 9

boxplot(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))

qqnorm(salida$res/( 401.1*sqrt(1-lm.influence(salida)$hat)))

Chequeando la Normalidad

El QQ–plot es un grafico de percentiles muestrales vs. percentiles teoricos (bajo una cierta

distribucion asumida F ).


−2

−1

01

23

Figura 1: Boxplot de ri : Datos de Biomasa


Si la muestra proviniese de una poblacion con distribucion F los percentiles muestrales vs. los

teoricos caerıan aproximadamente sobre una recta a 45.

Para esto ordenamos los residuos standarizados

r(1) ≤ r(2) ≤ . . . ≤ r(n)

y graficamos los percentiles muestrales 1/(n + 1), 2/(n + 1), . . . , n/(n + 1) contra los per-

centiles teoricos de una N(0, 1)φ−1(1/(n + 1)), φ−1(2/(n + 1)), . . . , φ−1(n/(n + 1))

.

Si el grafico se desviase de la recta, estarıamos encontrando evidencia contra la normalidad.


−2 −1 0 1 2

−2

−1

01

23

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Figura 2: QQ-plot de ri : Datos de Biomasa


Linealidad

yi vs. ei

Uno de los graficos que se realiza despues de realizar el ajuste es el de yi vs. ei

¿Que esperamos observar? Consideremos el modelo yi = β0 + β1xi1 + . . .+ βp−1xi(p−1)

Si quisieramos hacer una regresion entre ei vs. yi el estimador de la pendiente tendrıa como

numerador:

n∑

i=1(ei − e)(yi − y ) =

n∑

i=1ei yi = Y(I− P)PY = 0

En cambio si la regresion la hiciesemos entre ei vs. yi el estimador de la pendiente tendrıa como

numerador:

n∑

i=1(ei − e)(yi − y) =

n∑

i=1ei yi = Y

′(I− P)Y = Y′(I− P)(I− P)Y = e′e = ‖e‖2

es decir, la suma de cuadrados de los residuos.

Mas aun, el estimador del coeficiente correspondiente a la pendiente en este caso serıa:


−4 0 2 4 6 8 10

−10

05

10

yhat

std.

res

0 1 2 3 4

−10

05

10

x1

std.

res

−2 −1 0 1

−10

05

10

x2

std.

res

Figura 3: Linealidad: OK!!


0 1 2 3 4

−10

−5

05

1015

x1

std.

res

−2 −1 0 1 2

−20

−15

−10

−5

05

1015

x3

std.

res

Figura 4: Linealidad: MAL!!


(a)Representa la situación esperable si el modelo se cumple: una nube de residuos alrededor del 0 sin estructura.

(b) y (c) Muestran gráficos en los que el supuesto de igualad de varianzas no se cumple.

(d) El supuesto de linealidad no se satisface.


−4 −2 0 2 4 6 8

−20

−10

010

20

yhat

std.

res

Figura 6: Boxplot de ri : Heteroscedaticidad


e′en∑

i=1(yi − y)

2=

n∑

i=1(yi − yi)

2

n∑

i=1(yi − y)

2=

n∑

i=1(yi − y )

2 −n∑

i=1(yi − y)

2

n∑

i=1(yi − y)

2= 1− R2

Es decir que esta pendiente serıa 0 solo en el caso de ajuste perfecto.

El caso (d) corresponderıa a un modelo inadecuado. Por ejemplo, supongamos que ajustamos

yi = β0 + β1xi1 + εi , pero en realidad es:

yi = β0 + β1xi1 + β2xi2 + εi

Luego:

E(ei) = E(yi − yi)

= E(yi − β0 + β1xi1)

= h + gxi1 + kxi2

o sea tanto ei como yi varıan con xi1.

ei vs. cada variable regresora

Tengamos en cuenta que por las ecuaciones normales:


n∑

i=1(ei−e)(xi j−x .j) =

n∑

i=1ei (xi j−x .j) =

n∑

i=1ei xi j =

n∑

i=1(yi−β0−β1xi1+. . .−βp−1xi(p−1))xi j = 0

De manera que, si el modelo elegido fuera correcto no deberıa aparecer ninguna estructura en

el grafico de ei vs. xi j . Por lo tanto, los graficos anteriores tambien nos sirven de guıa en este

caso.

Por ejemplo, si en el razonamiento anterior reemplazasemos xi2 por x2i1 tendrıamos:

E(ei) = h + gxi1 + kx2i1

el grafico quedarıa cercano a una parabola.

ei vs. tiempo

En principio cualquier factor podrıa influir en Y y deberıa incluirse en la regresion como variable

explicativa. Si un factor ha sido omitido, podrıa graficarse ei vs. factor y ver si hay alguna

tendencia o patron particular.

A veces con los datos se registra el tiempo o el orden en que han sido tomadas las mediciones.

Puede ser de interes estudiar si los residuos tienen alguna dependencia en el tiempo.


Algunos Tests

Test de Rachas

Si tenemos observaciones positivas y negativas ordenadas secuencialmente segun el tiempo,

podrıamos preguntarnos si tienen algun patron particular o si se presentan en forma aleatoria.

Por ejemplo: si tuvieramos la sucesion de residuos siguiente:

+ + − + − − − − + + − + + +

con n1 = 8 residuos positivos, n2 = 6 residuos positivos, n = 14 residuos en total y u = 7

rachas, ¿hemos observado algo muy poco probable bajo el supuesto de aleatoriedad? ¿Podrıa

haber alguna variable oculta que justifique esto?

Vamos a analizar un caso mas sencillo con solo 6 residuos: 2+ y 4−.

Un numero bajo de rachas hara pensar en una correlacion positiva, mientras que un numero

alto harıa sospechar una correlacion negativa.

Si n1 > 10 y n2 > 10 puede usarse una aproximacion normal para el estadıstico del test. Si

n1 ≤ n2 ≤ 10 se usan las tablas exactas de Sweed y Hasenhart (1943).

El test aproximado resulta de calcular:


Z =u − µ± 1/2

σ

µ =2n1n2n1 + n2

+ 1

σ =2n1n2(2n1n2 − n1 − n2)

(n1 + n2)2(n1 + n2 − 1)

(Para muchas chances usar el factor de correccion −1/2 y para muy pocas 1/2)

Veamos un ejemplo

Consideremos el caso en que examinamos 27 residuos de los cuales 15 son de un signo y 12

son de otro y ordenados secuencialmente de acuerdo con el tiempo presentan 7 rachas. ¿Hay

muy pocas rachas?

Supongamos que hubiera n1 = 15 residuos positivos, n2 = 12 residuos positivos, entonces

n = 27 residuos en total y u = 7 rachas, ¿Hay pocas rachas?

µ =43

3


σ =740

117

Z =7− 43/3 + 1/2

√740117

= −2,713

Usando la aproximacion normal tenemos:

P (Z ≤ −2,713) ∼= 0,0033

por lo tanto bajo el supuesto de aleatoriedad estarıamos observando un numero inusualmente

bajo de rachas, por lo tanto rechazarıamos la hipotesis de que las rachas de signos han ocurrido

simplemente por azar a los niveles habituales.


Test de Durbin–Watson

Es un test muy conocido que es util para detectar cierto tipo de correlacion en una serie.

Supongamos que postulamos el modelo:

yi = βo + β1xi1 + ...+ βp−1xip−1 + εi

donde εi ∼ N(0, σ2) independientes.

En este caso, tenemos que ρs = Corr(yi , yi−s) = 0 ∀s.

Supongamos que εi ∼ N(0, σ2), pero en realidad hay cierta estructura en los errores:

εi = ρεi−1 + ui Modelo Autorregresivo

donde ρ representa la correlacion y ui las innovaciones, que son independientes de todo el

pasado.


Si εi = ρεi−1 + ui entonces

Cov(εi , εi−1) = Cov(ρεi−1 + ui , εi−1)

= ρσ2

⇓

Corr(εi , εi−1) = ρ

¿Cuanto vale Corr(εi , εi−s)? Veamos que Corr(εi , εi−s) = ρs

Nuestro objetivo es testear:

H0 : ρs = 0 v . H0 : ρs = ρs

para ρ 6= 0, |ρ| < −1. Esta alternativa surge del modelo εi = ρεi−1 + ui , donde ui ∼ N(0, σ2

e independientes de εi−1, εi−1, ..... y de ui−1, ui−1, ...... Se asume ademas que la media y la

varianza de las εi son constantes, mas aun: εi ∼ N(0, σ2/(1− ρ2)

El estadıstico del test esta basado en los residuos e1, . . . , en:


d =

∑ni=2(ei − ei−1)

2

∑ni=1 e

2i

¿Cual es la zona de rechazo? Las tablas de Durbin-Watson proveen paraα = 0,05, 0,0025y0,01

valores dL y dU para distintos valores de n y de p (cantidad de covariables).

Pueden encontrarse las tablas que usaremos en:

http://www.imm.bwl.uni-muenchen.de/dateien/3˙lehre/market˙analysis/durbin˙watson˙tables.pdf


Test de una cola contra alternativas ρ > 0 de nivel α:

si d < dL ⇒ d es significativo

si d > dU ⇒ d no es significativo

si dL ≤ d ≤ dU ⇒ d no hay conclusion

Test de una cola contra alternativas ρ < 0 de nivel α:

idem usando 4− d

Test de una cola contra alternativas ρ 6= 0 de nivel 2α:

si d < dL o 4− d < dL ⇒ d es significativo

si d > dU y 4− d > dU ⇒ d no es significativo

en otro caso no hay conclusion

Veamos un ejemplo extraıdo de Draper y Smith (1980):

Una companıa de gaseosas quiere predecir la venta regional a partir de los gastos mensuales

regionales realizados en propagandas. Se dispone de datos de 20 anos.


Test de Normalidad de Shapiro–Wilk

Dada una distribucion Go, sea F la familia de diferencias que se obtiene por cambios de posicion

o escala a partir de G − o. Asumiremos que G − o esta estandarizada.

Sea X1, X2, . . . , Xn una m.a. con distribucion en F , tal que E(xi) = µ y V (xi) = σ2.

Consideremos los estadısticos de orden de la muestra:

Xo = (X(1), X(2), . . . , X(n))

Por otro lado, sea

Zo = (Z(1), Z(2), . . . , Z(n))

una muestra ordenada de Go, m = (m1, . . . , mn)′ y V = vi j , el vector de medias y la matriz

de covarianzas de Zo:

mi = E(Z(i)) vi j = Cov(Z(i), Z(j))

Por lo tanto, para i = 1, . . . , n: X(i) ' µ+ σZ(i)

En consecuencia, el plot de (X(1), X(2), . . . , X(n)) vs. (m1, m2, . . . , mn) deberıa ser aproxi-

madamente lineal.


Una manera de chequear esto es mediante el coeficiente de correlacion lineal en este grafico.

El estadıstico del test de Shapiro-Wilk W corresponde a la correlacion entre V−1m y Xo para

el caso de la familia Normal.

La zona de rechazo es: W < kα

En R la instruccion shapiro.test ejecuta este test devolviendo el p-valor y el estadıstico W .

biomasa¡- read.table(”C:““Users““Ana““ModeloLineal““doctex““biomasa.txt”,header=T)

attach(biomasa)

salida¡- lm(formula = BIO ˜ K + PH)

salida$res

1 2 3 4 5 6 7 8 9

-174.95788 -301.36355 390.63567 71.08915 -517.69012 -517.70400 -44.40357 -35.84008 -204.90345

10 11 12 13 14 15 16 17 18

-271.47716 71.29876 726.37064 618.06946 831.79843 267.83356 -121.24039 -271.03566 -312.78027

19 20 21 22 23 24 25 26 27

-239.67658 -333.85551 -179.22424 -325.37695 -290.55431 -253.49593 -206.01746 273.70705 -31.03141

28 29 30 31 32 33 34 35 36

-223.97267 -679.25157 -27.23251 -211.33982 243.45516 782.95205 1135.79900 565.85631 -473.63371

37 38 39 40 41 42 43 44 45

-241.24364 -55.82630 -95.44412 -102.26077 306.69000 -84.42299 17.49883 264.75622 259.44632


shapiro.test(salida$res)

Shapiro-Wilk normality test

data: salida$res

W = 0.9217, p-value = 0.004813

Diagnostico

En general, en presencia de heteroscedasticidad se suelen tomar una de lassiguientes medidas: utilizar pesos o transformar las variables.

En muchas ocasiones la transformacion de la variable dependiente o una de lasindependientes puede ser mucha utilidad. En general, las transformaciones sonusadas para estabilizar varianzas, simplificar modelos u obtener normalidad.

Deteccion de Heteroscedasticidad

En algunos casos el reconocer la naturaleza de la variable dependiente puedeprevenirnos sobre la heterogeneidad de varianzas.

De hecho, si la variable de respuesta fuese una variable de conteo de tipoPoisson, tendrıamos que σ2i ' E(Yi) y por lo tanto no podrıamos esperar que

1


se cumpla el supuesto de homoscedasticidad.

Aun cuando no conozcamos la distribucion de Yi podemos tener una idea aprox-imada del comportamiento de su varianza.

Ejemplos

Mercado inmobiliario: Variacion de precio de venta de casas.

σ constante:

50,000$ ←→ 100,000$1,000,000$ ←→ 1,050,000$

σ No constante:

50,000$ ←→ 60,000$1,000,000$ ←→ 1,200,000$


Ejemplo Los siguientes datos representan el tiempo de viaje (y ) al centro de

una ciudad y la distancia recorrida (x).

Distancia (en millas) .5 1 1.5 2 3 4 5 6 8 10Tiempo viajado (en minutos) 15 15.1 16.5 19.9 27.7 29.7 26.7 35.9 42 49.4

Supongamos yi = β0 + β1 xi + εi

No parece razonable suponer que la varianza sea constante.

De hecho, si la longitud de una cuadra en esta ciudad es d , el viaje de x millascomprende x/d cuadras. Luego, y puede ser expresada como

y = z1 + z2 + . . .+ zx/d ,

donde zj , j = 1, . . . , x/d es el tiempo en recorrer la j–esima cuadra.

Si suponemos que las zj son v.a. independientes y con la misma varianza ten-


drıamos que:

v(y) = v(z1) + v(z2) + . . .+ v(zx/d) = (x/d)v(zj)

∝ xσ2 .

Usando el metodo de mınimos cuadrados ponderados con pesos wi = 1/xiobtenemos los estimadores ˆ

β0 = 12,561 yˆβ1 = 3,714.

Por lo tanto:

si yi v.a. conteo −→ σ2i ' E(Yi)

si yi =mini−→ σ2i =

E(Yi)(1− E(Yi))ni

si yi =ni∑

i=1

zi jni−→ σ2i =

σ2

nisi zi j homoscedasticos


¿Como diagnosticar?

Hemos recomendado el grafico de ri vs. Yi para detectar heteroscedasticidad,¿como podemos ver en el la relacion entre V (Yi) y E(Yi) ?

Consideremos el siguiente ejemplo.

El siguiente plot corresponde a datos de velocidad (SP ) y distancia de frenadoen un automovil (D).

En este grafico se puede ver cierta heteroscedaticidad que es mucho mas evidenteen el grafico de ri vs. Yi obtenidos despues de ajustar a los datos el modelo

Di = β1SPi + β2SP2i + εi .


5 10 15 20 25 30 35 40

020

4060

8010

012

014

0

SP

D


0 20 40 60 80 100 120

−20

−10

010

20

salida$fit

salid

a$re

s


¿Como podemos determinar la relacion entre V (Yi) y E(Yi) ?

Un procedimiento es obtener estimadores de E(Yi) y de V (Yi) por regiones ytratar de establecer que relacion hay entre ellas.

Para ello, se recomienda dividir el rango de Yi en tres regiones de manerade hacer un compromiso entre que las regiones tengan igual tamano e igualcantidad de puntos cada una.

En el ejemplo de velocidad, estas regiones podrıan estar delimitadas por losvalores 25 y 72.

Luego calcularıamos

la mediana de cada region: Y (1), Y (2) y Y (3)

la distancia intercuartil de cada una: d (1), d (2) y d (3)

graficamos Y (i) vs. d (i)

En nuestro ejemplo, obtendrıamos

(Y (1), Y (2), Y (3)) = (10,22315; 29,13797; 96,30877)


(d (1), d (2), d (3)) = (6,778; 9,421; 25,500)

graficando, obtenemos

20 40 60 80

1015

2025

medyhat

dint

er


Este grafico sugiere que√V (Yi) ∼= αE(Yi) y por lo tanto

V (Yi) ∝ E2(Yi)Recordemos que cuando ΣY 6= σ2I aplicabamos el metodo de mınimos cuadra-dos generalizados o ponderados:

Supongamos que ΣY = σ2V , donde V ∈ <n×n es una matriz definida pos-

itiva de constantes. Podemos entonces escribir: V = KK′ con K una matrizinvertible.

Y = Xβ + ε

K−1Y = K−1Xβ +K−1ε

Por lo tanto, tenemos un nuevo problema transformado es:

Y = Xβ + ε


que satisface las condiciones de Ω.

Hallar el estimador de mınimos cuadrados, β, en el problema transformadoequivale a:

mınb‖Y − Xb‖2 = mın

b(Y − Xb)′V−1(Y − Xb)

Para el modelo transformado, los residuos serıan

r = Y − ˆY

= Y − Xβ= K−1Y −K−1Xβ= K−1(Y − Xβ)

Volviendo al ejemplo de velocidad

Si ajustamos nuevamente los datos usando pesos.

speed¡-read.table(”C:/Users/Ana/ModeloLineal/datos/Speed.txt”, header=T)

attach(speed)


plot(SP,D)

SP2=SP*SP

salida¡- lm(D˜SP+SP2-1)

summary(salida)

Coefficients:


SP 0.576599 0.200804 2.871 0.00564 **

SP2 0.062145 0.006904 9.001 9.83e-13 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1



F-statistic: 813.5 on 2 and 60 DF, p-value: ¡ 2.2e-16

plot(salida$fit,salida$res)

EY=0.200804*SP+0.006904*SP2

plot(SP,EY)


5 10 15 20 25 30 35 40

510

15

SP

EY

Como vemos en el grafico, E(Yi) serıa proporcional a SP , por lo tanto deacuerdo a lo visto V (Yi) ∝ E2(Yi) y en consecuencia usarıamos pesos de laforma 1/SP 2.


salida3¡- lm(D˜SP+SP2,weight=peso)

summary(salida3)

Call:

lm(formula = D ˜ SP + SP2, weights = peso)

Residuals:


-0.79915 -0.32983 -0.02599 0.27541 0.92972

Coefficients:


(Intercept) 1.50605 2.03544 0.740 0.462

SP 0.41968 0.34326 1.223 0.226

SP2 0.06557 0.01057 6.205 5.9e-08 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1



F-statistic: 309.8 on 2 and 59 DF, p-value: ¡ 2.2e-16

plot(salida3$fit/SP,salida3$res/SP)


1.0 1.5 2.0 2.5 3.0

−0.

50.

00.

5

salida3$fit/SP

salid

a3$r

es/S

P

Transformaciones Estabilizadoras de la Varianza

Podrıamos preguntarnos si alguna transformacion podrıa estabilizar la varianza.


Supongamos que f es continua, con seunda derivada f ′′ finita, entonces veremosque

V (f (Yi)) ∼= (f ′(µi))2 σ2i (µi) donde µi = E(Yi)

Por lo tanto, para que V (f (Yi)) = cte , necesitamos que

(f ′(µi))2 ∼= c

σ2i (µi)donde c = cte.

Una funcion f con esta propiedad se llama funcion estabilizadora de la vari-

anza.

Por ejemplo:

yi v.a. de conteo tipo Poisson −→ f (µi) =√µi

yi =mini

(v.a. tipo Binomial) −→ f ′(µi) = cn1/2i /√µi(1− µi)

−→ f (µi) = 2cn1/2i arcsen(√µi)


Otra forma de elegir una transformacion

Cuando tenemos una sola variable independiente el diagrama de dispersionde las observaciones puede sugerirnos inmediatamente que es necesaria unatransformacion de los datos y cual elegir.

Si no es ası, Tukey y Mosteller (1977) sugieren la siguiente estrategia:

• Dividimos el rango de las x ′s en tres regiones haciendo un compromiso entreel numero de observaciones en cada region y un tamano homogeneo de lasmismas.

• En cada region calculamos la mediana de las x ′s y de las correspondientesy ′s .

• Hallamos la pendiente de la recta de los dos primeros puntos y de los dosultimos.

• Si las pendientes son iguales entonces los puntos estan sobre una recta. Sino, el punto del medio estara por debajo de los otros dos (convexo) o masarriba de los otros dos (concavo).


• Transformamos a x o a y usando el cuadro que se encuentra mas abajo.

Podemos aplicar la transformacion elegida a los tres puntos y verificar si laspendientes dan iguales. En este caso habrıamos encontrado una transformacionadecuada.

Cuadro de Transformaciones

. .

−1/y 2 .

−1/y x5

−1/y 1/2 x4

log(y) ⇑ x3

y 1/2 convexo x2

y ⇐⇒ x

y 2 ⇓ x1/2

y 3 concavo log(x)

y 4 −1/x1/2y 5 −1/x. .


Ejemplo Stevens (1956) pidio a un conjunto de individuos que comparasen

notas de varios decibeles contra un standard (80 decibeles) y que les asignaranun rango de sonoridad, donde el rango standard era 10. Obtuvo los siguientesdatos

Estımulo (x) 30 50 60 70 75 80 85 90 95 100Respuesta mediana (y ) 0.2 1.0 3.0 5.0 8.5 10.0 14.0 20 29 43


Consideramos: (50,1), (77.5,9.25) y (95,29).


(50,1), (77.5,9.25) y (95,29)

pendiente y2−y1x2−x1 ⇒• entre los dos primeros es 8,2527,5 = ,3

• entre los dos ultimos 19,7517,5 = 1,13 .

Transformamos ay . Comenzando con escala descendente transformarıamos con√y . Aplicamos esta transformacion a la segunda coordenada de los tres puntos

y al recalcular las pendientes obtenemos

• entre los dos primeros es 2,0427,5 = 0,074

• entre los dos ultimos 2,3527,5 = 0,134

Podrıamos probar con la transformacion que sigue en la escala descendente, esdecir −1/y 1/2 . Las nuevas pendientes son: 0.025 y 0.0082⇒ estarıamos empeorando.

De acuerdo con este analisis, nos quedarıamos con la transformacion logaritmo.


## Datos de Stevens

estimulo¡- c( 30,50,60,70,75,80,85,90,95,100)

respuesta.med¡- c( 0.2,1.0,3.0,5.0,8.5,10.0,14.0,20,29,43)

xmed¡- c(50,77.5,95)

ymed¡- c(1,9.25,29)

par(mfrow=c(2,2))

plot(estimulo,respuesta.med)

plot(xmed,ymed)

plot(xmed,sqrt(ymed))

plot(xmed,log(ymed))

Nota ¿Que ocurre si la variable de respuesta toma valores negativos? En esecaso se suma una constante c a Y antes de aplicarle una potencia. Dolby (1963)propuso un metodo grafico para elegir la constante c .


30 40 50 60 70 80 90

010

2030

40

estimulo

resp

uest

a.m

ed

50 60 70 80 90

05

1015

2025

30

xmed

ymed

50 60 70 80 90

12

34

5

xmed

sqrt

(ym

ed)

50 60 70 80 90

0.0

1.0

2.0

3.0

xmed

log(

ymed

)


Cuando hay 2 o mas variables explicativas

El principal problema que se nos presenta en este caso es los graficos de Y vs.cada una de las covariables Xj pueden ser no informativos.

Ası por ejemplo , si consideramos los puntos

y¡- c(2,1,3,1,3,2)

x1¡- c(1,2,2,3,3,4)

x2¡- c(3,1,3,0,2,0)

par(mfrow=c(1,2))

plot(x1,y)

plot(x2,y)

el grafico que obtenemos es:


1.0 2.0 3.0 4.0

1.0

1.5

2.0

2.5

3.0

x1

y

0.0 1.0 2.0 3.0

1.0

1.5

2.0

2.5

3.0

x2

y


No presenta ninguna estructura cuando graficamos Y vs.X1 (aparece un hexagono),aun cuando lo puntos yacen sobre el plano: Y = −3 + X1 + X2Wood (1973) propuso el siguiente metodo.

Supongamos que ajustamos el modelo

Yi = β0 + β1xi1 + · · ·+ βkxik + εiy obtenemos los estimadores (β0, β1, . . . , βk), entonces los residuos seran:

ei = Yi − Yi = Yi − (β0 + β1xi1 + · · ·+ βkxik)Luego:

Yi − β0 −k∑

j 6=mβjxi j = ei + βmxim residuos parciales

Por lo tanto, ei + βmxim es Yi sin el efecto de todas las otras covariables, demanera que graficando ei + βmxim vs. Xim obtenemos un grafico en el que elefecto de las otras covariables ha sido removido.


En estos graficos de residuos parciales podemos aplicar las tecnicas para unasola variable independiente.

Una desventaja de este metodo es que si dos covariables estuvieran muy cor-relacionadas, podrıa ocurrir que los β′s no estuvieran bien estimados y por lotanto los plots de residuos parciales podrıan ser confusos.

Ejemplo

Modelo Lineal A. M. Bianco FCEyN 2013

Diagnóstico en ANOVA

En el caso de Anova 1 Factor computando los residuos ijr una vez calculada la Tabla ANOVA

podemos detectar:

Heterogeneidad de varianzas

Falta de independencia entre las observaciones

Presencia de outliers

Omisión de alguna variable importante

Falta de Normalidad

Podemos investigar la distribución de los residuos a través de diagramas de tallo-hoja,

histogramas, box-plots. Podemos detectar asimetría, presencia de outliers, etc.

Si el tamaño de ni es razonable, es aconsejable realizarlos para cada nivel del factor. Recordemos

que como en regresión, los residuales no son independientes. En general, esta dependencia suele

ser despreciable.

Si el tamaño de ni es razonable, podemos chequear el supuesto de normalidad realizando qq-plots

y aplicando el test de Shapiro-Wilk para la observaciones originales en cada nivel. Si no es así, los

haremos para todos los residuos juntos.


Si detectásemos residuos grandes o alejados del grueso de los residuos deberíamos estudiar

cuidadosamente la situación.

Otros gráficos

Diagrama de puntos: se construyen graficando los residuos (o las observaciones originales)

de cada nivel del factor en paralelo y nos darán una idea de si el supuesto de homogeneidad

de varianzas entre los niveles es razonable o no.

Valores predichos iY vs. Residuos: en este gráfico podemos apreciar la bondad del ajuste

del modelo y las varianzas de los residuos.

Gráfico de residuos vs. secuencia temporal: si se tiene registrado el orden en que fueron

tomadas las observaciones es aconsejable hacer este gráfico con el fin de detectar alguna

tendencia.

Gráfico de residuales vs. alguna variable de interés: si se midió alguna otra variable (edad,

peso, etc) puede ser útil graficar los residuos vs. esta variable. Esto puede contribuir a:

1. la comprensión del problema

2. sugerir variables a controlar en una nueva experiencia

3. ayudar a detectar un factor confundido si no se aleatorizó correctamente.


Para detectar heterogeneidad de varianzas en este modelo existen varios tests específicos cuando

la distribución de los datos es normal. Veremos una opción, que es la del Test de Levene, que es

válida en un contexto más general.

Supongamos que tenemos un Anova 1 Factor en el que comparamos k tratamientos.

Las hipótesis a testear son:

Ho: 12 = 2

2 =....=k

2 vs. H1: i

2 j

2 para algún par de índices i j

Test de Levene Modificado

El test de Levene modificado testea la igualdad de varianzas. Puede calcularse fácilmente

transformando la variable de respuesta y calculando una nueva Tabla de ANOVA para las

variables transformadas.


Los pasos a seguir son:

0) Computamos la mediana de la i-ésima casilla

1) Calculamos las variables transformadas: iijijYYW~

2) Calculamos la Tabla de ANOVA para

3) Rechazamos la hipótesis de igualdad de varianzas si el estadístico F del paso anterior es grande.

Entre las propuestas para testear homogeneidad de varianzas, este test figura entre los más

potentes y resistentes a la violación del supuesto de normalidad.

Si se rechaza la hipótesis de igualdad de varianzas, tenemos algunas alternativas.

Si la varianza no es constante, pero se sustenta el supuesto de normalidad, es recomendable usar

mínimos cuadrados ponderados o pesados.

Muchas veces la heterogeneidad de varianzas está acompañada por la no normalidad de las

observaciones. En este caso, la transformación de la variable de respuesta suele ser un remedio.

Con frecuencia, la misma transformación que estabiliza las varianzas también corrige la falta de

normalidad de los datos.

)(~

ijj

i YmedY

ijW


Si esto no se puede lograr, puede combinarse una transformación estabilizadora de varianzas con

una alternativa al test de F que sea no paramétrica.

Una posibilidad para encontrar la función transformadora es realizar un gráfico de iY vs. i

S para

visualizar qué tipo de relación tienen.

Veamos un ejemplo.


Transplante de Corazón

En los transplantes de corazón la similitud entre el tipo de tejido del donante y del receptor es

importante, pues grandes diferencias aumentan la probabilidad de rechazo del corazón

transplantado. Los datos que analizaremos a continuación corresponden al tiempo de

supervivencia de 36 pacientes transplantados. Los datos fueron agrupados en tres categorías de

acuerdo con el grado de incompatibilidad entre el tejido del donante y del receptor (baja=1,

media=2 y alta=3). Los investigadores quieren determinar si el tiempo medio de sobrevida

depende del grado de incompatibilidad.

Las hipótesis a testear son:

Ho: 1 = 2 = 3 vs. H1: no todas las i son iguales

Diagrama de Puntos

El diagrama de puntos sugiere que el tiempo de sobrevida puede disminuir cuando crece la

incompatibilidad.


Inicialmente se realizó un ANOVA y se calcularon los residuos con fines de diagnóstico. A

continuación ofrecemos la salida y algunos gráficos.

SOURCE DF SS MS F P

------- ---- --------- --------- ------ ------

BETWEEN 2 455385 227693 2.13 0.1351

WITHIN 33 3530419 106982

TOTAL 35 398580

SAMPLE GROUP

Incompat. MEAN SIZE STD DEV

--------- ---------- ------ ----------

1 334.92 13 421.99

2 281.08 12 347.32

3 69.818 11 81.607

TOTAL 235.97 36 327.08


is

El diagrama de puntos de los residuos standarizados sugiere que la distribución de los residuos es

asimétrica a derecha y que la varianza de los residuos podría ser menor cuando hay una alta

incompatibilidad.

El test de Levene modificado fue aplicado obteniéndose un p-valor igual a 0.1504.

Por otro lado, el qq-plot de todos los residuos standarizados revela cierta asimetría a derecha y el

test de Shapiro-Wilk tiene un p-valor menor que 0.0001.

Si realizamos un scatter plot de vs parece haber una relación lineal entre ambos.

iY


Trabajamos con la nueva variable )log(YY y realizamos el análisis de la varianza para ella.

Tabla de ANOVA

SOURCE DF SS MS F P

------- ---- --------- --------- ------ ------

BETWEEN 2 12.9734 6.48670 3.57 0.0394

WITHIN 33 59.9250 1.81591

TOTAL 35 72.8984

SAMPLE GROUP

IND MEAN SIZE STD DEV

--------- ---------- ------ ----------

1 5.0174 13 1.3338

2 4.8098 12 1.4213

3 3.6281 11 1.2790

TOTAL 4.5237 36 1.3476

El p-valor del test de Levene modificado para la variable transformada es 0.7282. El diagrama de

puntos y el qq-plot de los residuos standarizados (p-valor del test de Shapiro -Wilk = 0.1463)

también sugieren que la transformación logarítmica es apropiada.

En la tabla de ANOVA vemos que el estadístico F = 3.57 con un p-valor = 0.0394. Para un nivel

=0.05 concluiríamos que la media del logaritmo del tiempo de sobrevida de los transplantados

depende del grado de incompatibilidad del tejido entre donante y receptor.


Transformaciones de Box y Cox

Box y Cox (1964) propusieron una familia de funciones de potencia para lavariable de respuesta con el objetivo de garantizar el cumplimiento de todos lossupuestos de un modelo lineal, es decir:

Y ∼ N(Xβ, σ2I)

Estas transformaciones combinan el objetivo de encontrar una relacion simple,con homogeneidad de varianzas, mejorando la normalidad.

Las transformaciones originales de Box y Cox estan dadas por:

y (λ) =

⎧⎨⎩

yλ−1λ si λ 6= 0log y si λ = 0

Mediante la regla de L’ Hopital podemos probar que

lımλ→0yλ − 1λ

= log y


En ese mismo trabajo estos autores proponen la familia

y (λ) =

⎧⎨⎩

(y+λ2)λ1−1

λ1si λ1 6= 0

log (y + λ2) si λ1 = 0

para contemplar el caso de valores de y negativos. En la practica se elige λ2para que yi + λ2 > 0 para todo i . De manera que solo veremos a λ1 comoparametro de estas transformaciones.

Esta familia es continua en λ y monotona creciente para cada λ, es decir queel orden original entre las y ’s es preservado: si y1 > y2, luego y

(λ)1 ) > y

(λ)2 .

Es claro que no toda distribucion puede ser transformada a una normal. Drapery Smith (1969)estudiaron este problema y concluyeron que aun en aquellasdistribuciones para las que transformando por potencias no es posible lograrexacta normalidad, los estimadores usuales de λ conducen a distribucionescuyos primeros 4 momentos corresponderıan a simetrıa.

John y Draper (1980) propusieron la siguiente modificacion:


y (λ) =

⎧⎨⎩

sg(y) (|y |+1)λ−1

λ si λ 6= 0sg(y) log (|y |+ 1) si λ = 0

que puede funcionar mejor para distribuciones simetricas.

Supongamos que las observaciones transformadas Y(λ) ∼ N(Xβ, σ2I). Nosotrosobservamos la matriz de diseno X, el vector de respuestas Y, de manera quelos parametros del modelo son (λ,β, σ2). Box y Cox (1964) mostraron queλ puede ser estimado por el metodo de maxima verosimilitud. Sin embargo,si plantearamos las tres ecuaciones de scores, resolverlas simultaneamente po-drıa ser complicado. Por este motivo, se suele resolver la busqueda de losestimadores de (β, σ2) para cada λ fijo y luego se elige el λ mas adecuado.

En este caso tendrıamos que la densidad de Y(λ) es

f (y(λ)) =1

(√2πσ2)n

e−

(y(λ)−Xβ

)′(y(λ)−Xβ

)

2σ2


donde

y (λ) =

⎧⎨⎩

yλ−1λ si λ 6= 0log y si λ = 0

¿Cual serıa en este caso f (y)? Tendrıamos

f (y) =1

(√2πσ2)n

e−

(y(λ)−Xβ

)′(y(λ)−Xβ

)

2σ2 J(λ, y)

donde J(λ, y) es el jacobiano de la transformacion de y a y (λ). Por lo tanto:

J(λ, y) = Πni=1∂y(λ)i

∂yi= Πni=1y

λ−1i

Con lo cual, la funcion de verosimilitud, que coincidirıa con f (y), resultarıa:


f (y, λ,β, σ2) =1

(√2πσ2)n

e−

(y(λ)−Xβ

)′(y(λ)−Xβ

)

2σ2 Πni=1yλ−1i

Para cada λ fijo los estimadores de maxima verosimilitud de β y de σ2 son:

ˆβ(λ) = (X′X)−1XY(λ)ˆσ2(λ) = Y(λ)(I− P)Y(λ)/n

Si consideramos la log–versosimilitud y reemplazamos por dichos valores resulta:

log f (y, λ,β, σ2) = cte − n2log

ˆσ2(λ) + (λ− 1) n∑

i=1log yi

= cte − n2logS2(λ)

S2(λ): ¿Por que puede ser visto como un estimador de la escala: ?


Sea g la media geometrica de las observaciones yi : g = (Πni=1yi)

1/n y definimos

y(λ, g) = y (λ)/gλ−1

Si hicieramos la regresion de y(λ, g) ∼ N(Xβ, σ2I), ¿Cuanto darıa S2λ ?Veremos que es la cantidad que

−n2logS2λ =

n

2log σ2(λ) + (λ− 1) n∑

i=1log yi

Por lo tanto, el estimador de λ se obtendra maximizando

−n2logS2(λ)

A partir de la teorıa que conocemos de cociente de verosimilitud, podemos verque si nos interesa testear la hipotesis

H0 : λ = λ0

el estadıstico:


W = 2(−n2logS2(ˆλ) +

n

2logS2(λ0))

tiene distribucion asintotica χ21. En consecuencia:

P (−n2logS2(ˆλ) +

n

2logS2(λ0) ≤

1

2χ21,α)

∼= 1− α

y podemos deducir un intervalo de confianza para λ.


Ejemplo (Draper y Smith, 1981)

Los siguientes datos corresponden a un estudio mas extenso presentado porDraper y Smith (1981) en el que se quiere estudiar la viscosidad en funcion dedos componentes FF = filler y PP = Oil (aceite).


FF PP WW

0 0 26

12 0 38

24 0 50

26 0 76

48 0 108

60 0 157

0 10 17

12 10 26

24 10 37

36 10 53

48 10 83

60 10 124

0 20 13

12 20 20

24 20 27

36 20 37

48 20 57

60 20 87

12 30 15

24 30 22

36 30 27

48 30 41


60 30 63

El modelo propuesto es:

WW = β0 + β1FF + β2PP + ε

Call:

lm(formula = WW ˜ FF + PP)

Residuals:


-15.592 -9.695 -3.722 6.713 35.296

Coefficients:


(Intercept) 28.1837 6.3322 4.451 0.000245 ***

FF 1.5587 0.1452 10.735 9.48e-10 ***

PP -1.7166 0.2640 -6.502 2.44e-06 ***





library(MASS)

boxcox(WW˜FF+PP, data = viscosity,lambda = seq(-1, 1, length = 10))

boxcox(WW˜FF+PP, data = viscosity,lambda = seq(-1, 1, length = 10))

salida.log¡- lm(logww˜FF+PP)


0 20 40 60 80 100 120

−10

010

2030

salida$fit

salid

a$re

s

−0.4 −0.2 0.0 0.2 0.4

−75

−70

−65

−60

−55

−50

λ

log−

Like

lihoo

d

95%

−1.0 −0.5 0.0 0.5 1.0

−90

−80

−70

−60

−50

λ

log−

Like

lihoo

d

95%

2.5 3.0 3.5 4.0 4.5 5.0

−0.

050.

000.

05

salida.log$fit

salid

a.lo

g$re

s


Errores Correlacionados

Consideremos el caso particular en que los errores siguen el siguiente un modeloautorregresivo de orden 1, AR(1), es decir:

εt = ρεt−1 + ut ,

donde ut son i.i.d, E(ut) = 0 y V ar (ut) = σ2u. Asumimos que |ρ| < 1. Ya

hemos probado que

E(εt) = 0

V ar (εt) =σ2u1− ρ2

Cov(εt, εt−r = ρr σ2u1− ρ2

Removiendo la autocorrelacion mediante una transformacion


Supongamos que

yt = α+ βxt + εtεt = ρεt−1 + ut

donde ut son i.i.d. ut ∼ N(0, σ2u). Notemos que:yt = α+ βxt + εtyt−1 = α+ βxt−1 + εt−1

por lo tanto:

yt − ρyt−1 = α(1− ρ) + β(xt − ρxt−1) + εt − ρεt−1

con lo cual

y ∗t = α∗ + β∗x∗t + ut

es decir las nuevas variables satisfacen las condiciones habituales del modelolineal.


¿Como estimar a ρ?

El metodo iterativo de Cochrane–Orcutt propone los siguientes pasos para laestimacion en esta situacion.

1. Computar los estimadores de mınimos cuadrados ordinarios de α y β.

2. Calcular los residuos et y estimar a ρ mediante

ρ =∑nt=2 etet−1∑nt=2 e

2t−1

3. Ajustar el modelo (*) usando ρ.

4. Examinar los nuevos residuos. Si no estan correlacionados terminar com-putando los estimadores de interes:

α = α∗/1− ρ ˆβ = ˆβ∗

De lo contrario, repetir el procedimiento usando como estimadores inicialesα y ˆβ.


Metodo de Prais–Winstein (1954)

Otra posibilidad es el metodo de Prais–Winstein basado en mınimos cuadra-dos generalizados. En funcion de las expresiones vistas para la varianzas y lascorrelaciones de los errores, tenemos que Σepsi lon = σ

2Ω, donde

Ω =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 ρ ρ2 . . . ρn−1

ρ 1 ρ . . . ρn−2

. . .

. . .ρn−1 ρn−2 . . . 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Utilizando el estimador del paso [2.] anterior, ρ, podrıamos estimar a Ω por ˆΩ


ˆΩ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 ρ ρ2 . . . ρn−1

ρ 1 ρ . . . ρn−2

. . .

. . .ρn−1 ρn−2 . . . 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

para luego computar el estimador de mınimos cuadrados generalizados:

β = (X′ˆΩ−1X)−1 X′ˆΩ−1Y

.


Deteccion de Puntos Influyentes

Residuos

En general, los puntos con residuos standarizados ri que van mas alla del rango[-2, 2] (o [-2.5,2.5], segun los autores) se consideran sospechosos.

Leverage

El leverage mide cuan extrema es una observacion en el espacio de las covari-ables x′s.

Se llama leverage de una observacion a

pi i = x′i(X′X)−1xi

En la practica probaran propiedades de pi i que son utiles para interpretar que mi-den.

De hecho, si X ∈ <n×p contiene una columna de 1′s, sin perdida de gen-eralidad asumamos que la primera, X = [l,X2] y la matriz de proyeccion


P = X(X′X)−1X′ satisface:

a) P = P1 + P2 donde P1 = n−1l l′ (l ∈ <n, l = (1, 1, .., 1)′) y P2 =

˜X(˜X ′˜X)−1˜

X ′ siendo ˜X = (I−n−1l l′)X2 la matriz con las columnas centradas.

b) pi i ≥ 1n.

c) pi i =1n + pi i donde pi i = (P2)i i .

Con lo cual, pi i mide la distancia de xi a su centro x.

Sabemos quen∑

i=1pi i = p =⇒

1

n

n∑

i=1pi i =

p

n

y por esta razon se sugiere considerar como punto de corte 2p

n(algunos autores

sugieren 3p

n)

Por lo tanto, se estudiaran especialmente aquellos puntos tales que pi i > 2p

n.

Ademas se sugiere considerar los siguientes graficos:


−2 −1 0 1 2 3

−2

−1

01

23

x1

x2

i vs. pi i

tallo y hoja (o histograma) de pi i

boxplots de pi i


Distancia de Cook

Las conclusiones de los metodos de diagnostico podrıan depender de la presenciade puntos influyentes.

Al excluir un punto influyente del analisis, las conclusiones a partir del conjuntorestante podrıan cambiar considerablemente.

En principio, desearıamos que pequenas perturbaciones introdujeran pequenoscambios.

Supongamos que ˆβ es el estimador de mınimos cuadrados obtenidos a partir

de toda la muestra (x1, y1), . . . , (xn, yn), mientras queˆβ(i) es el estimador de

mınimos cuadrados obtenido al excluir la i–esima observacion, (xi , yi), de lamuestra.

Se define la Curva de Influencia Muestral (SIC) como:

SIC =(ˆβ − ˆ

β(i))

1/n= n(ˆβ − ˆ

β(i))


Como SIC es un vector, podrıamos considerar su norma o su norma respectode una matriz simetrica definida positivaM y eventualmente un factor de escala:

Di(M, c) =n−2SIC ′ M SIC

c

=(ˆβ − ˆ

β(i))′M(ˆβ − ˆ

β(i))

c

Si eligieramos M = X′X y c = pσ2 = ps2 obtendrıamos algo conocido:

(ˆβ − ˆβ(i))

′(X′X)(ˆβ − ˆβ(i))

pσ2

De hecho el elipsoide de confianza lo obtenemos como:

(ˆβ − ˆβ(i))

′(X′X)(ˆβ − ˆβ(i))

pσ2≤ Fp,n−p,1−α

La distancia de Cook (1977) es:


Di =(ˆβ − ˆ

β(i))′(X′X)(ˆβ − ˆ

β(i))

ps2

Notemos que

Di =(ˆY − ˆY(i))

′(ˆY − ˆY(i))

ps2

=

n∑

j=1(ˆYj − ˆ

Yj(i))2

ps2

donde ˆY(i) denota al vector de valores predichos obtenido a partir deˆβ(i).

En la practica se mostrara que

Di =1

p

pi i1− pi i

r 2i

donde pi i es el elemento i de la diagonal de la matriz de proyeccion P y ries el i−esimo residuo standarizado. En esta expresion se ve que esta distancia


conjuga tanto el efecto sobre los residuos como el leverage de las observaciones,por lo tanto Di implica residuo o leverage grandes.

Se suele comparar a Di con la distribucion Fp,n−p y se presta especial atenciona aquellos puntos que estan por encima del percentil 50%.

Otras medidas

DFFIT

Una medida bastante natural y cercana a la distancia de Cook es la del cambioen la prediccion al eliminar la observacion i .

Recordemos que


′X)−1xi

ei1− pi i

S2(i) =(n − p)s2 − e2i (1− pi i)

n − p − 1

Por lo tanto el cambio en la prediccion resulta:


DFFITi =ˆYi − ˆYi(i) = x

′iˆβ − x′i ˆβ(i)

=pi i1− pi i

ei

Como ΣY = σ2P, una version standarizada es:

DFFITi =

√pi i

S(i)(1− pi i)ei

Usando las cotas vistas para los residuos y los leverage, se sugiere como puntos

de corte |DFFIT | > 2√pn−p o si n es mucho mayor que p |DFFIT | > 2

√√√√p

n.

DFBETAj

Esta medida considera el cambio en cada coordenada de ˆβ al eliminar la obser-

vacion i .


Como vimos


′X)−1xi

ei1− pi i

Llamemos(a0i , . . . , ap−1i) = (X

′X)−1xi

entonces para i = 1, .., n y j = 0, .., p − 1

DFBETAj =ˆβj − ˆ

βj(i) =aj iei1− pi i

Ver archivo Complemento


Colinealidad

la calidad de los estimadores, medida a traves de su precision, puede ser muyafectada si las covariables estan muy relacionadas entre sı.

Esta situacion tıpicamente puede deberse a:

Las covariables cumplen una restriccion (ejemplo% de cemento)

Se crean variables a partir de otras existentes y se introduce dependencia

En los sistemas bologicos o fısicos o quımicos las variables naturalmentepueden tener dependencia.

Dependencia inadecuada por un muestreo inadecuado.

De todas formas, no siempre puede identificarse el origen de la colinealidad,aunque es importante detectarla y tratar de entender su naturaleza.

Sabemos caraterizar la singularidad: existe c, ‖c‖ = 1 tal que

Xc = 0 (‖Xc‖2 = 0)


Podrıamos decir que la casi–singularidad corresponde a: existe c, ‖c‖ = 1 talque

‖Xc‖2 = δ <<Veamos que efecto tiene esta casi–singularidad. Por Cauchy–Schwartz tenemosque

1 = c′c = c′(X′X)1/2(X′X)−1/2c ≤√c′(X′X)c

√c′(X′X)−1c =

√δ

√c′(X′X)−1c

Por lo tanto:1 ≤ δc′(X′X)−1c

En consecuencia:

V ar (c′ˆβ) = σ2c′(X′X)−1c ≥ σ2/δ >>Como Xc puede ser afectado por las unidades de X vamos a escalar las colum-


nas de X de manera que tengan norma 1:

X = [x[1] . . . x[p]] −→ Xs = [x[1]/‖x[1]‖ . . . x[p]/‖x[p]‖]Notemos que si D−1 = diag(‖x[1]‖, . . . , ‖x[p]‖), entonces

Xs = XD−1

y por lo tanto:

(X′sXs)−1 = D(X′X)−1D

En este sentido podrıamos considerar el modelo equivalente

Y = Xsβs + ε

donde βs = Dβ.

Tenemos que:


ˆβs = D

ˆβ y Σˆ

βs= DΣˆ

βD

Una consecuencia de escalar es que se remueve la casi–singularidad debida aque una columna de X tiene longitud pequena.

Para d = Dc:

c′(X′X)c = c′DD−1(X′X)D−1Dc = d′(X′sXs)d ≥ λmin‖d‖2

siendo dmin es el mınimo autovalor de (X′sXs)

Luego, si hay multicolinealidad c′(X′X)c puede ser pequeno (aun con ‖d‖2 notan pequeno) y por lo tanto λmin sera pequeno.

Deteccion de Colinealidad

Autovalores y Numero de Condicion

Como hemos visto los autovalores pueden darnos indicios de colinealidad.

Sean λ1, . . . , λp los autovalores de (X′sXs) y lllamemos


λmax = maxλi λmin = mınλi

Definimos:

ındice de condicion : δj =

√√√√√√λmaxλj

Un numero de condicion grande indica una matriz pobremente condicionada.

Belsey, Kuh y Welsch (1980) sugieren que ındices δj > 30 o 100 indicarıancolinealidad de moderada o severa

Factor de Inflacion de la Varianza

Podemos medir la relacion entre una variable xj y las demas mediante el coefi-ciente de correlacion multiple R2j .

Se define el Factor de Inflacion de la Varianza como


V IFj =1

1− R2jSi R2j ' 1 entonces V IFj >> y si xj es ortogonal a todas las demas V IFj = 1.Se puede demostrar que si R es la matriz de correlacion de las xj entonces:

(R−1)j j = V IFjTheil (1971) y Berek (1977) probaron que

V (ˆβj) =σ2

xj xjV IFj

donde xj es la j−esima columna centrada y escalada.Se suele tomar como punto de corte V IFj > 10 como indicador de colinealidad.

Ver archivo Complemento

Datos de Salario

Call: lm(formula = monthsal ~ evaluation + sex + years + yearsact +

rating)

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) -1293.5661 540.1389 -2.3949 0.0244

evaluation 7.1552 0.8120 8.8119 0.0000

sex 336.5824 205.9956 1.6339 0.1148

years 46.0607 21.4797 2.1444 0.0419

yearsact -16.3686 35.2996 -0.4637 0.6469

rating 29.5137 85.5693 0.3449 0.7330


Multiple R-Squared: 0.8356. F-statistic: 25.42 on 5 and 25 degrees

of freedom, the p-value is 4.716e-009

salario.dd$hat

sa

lario

.dd

$s

td.r

es

0.1 0.2 0.3 0.4 0.5 0.6 0.7

-10

12

6

4

-10

12

indice

sa

lario

.dd

$c

oo

k

0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

4

indice

sa

lario

.dd

$d

fits

0 5 10 15 20 25 30

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

4

leverage<-diag(x.mat%*%solve(t(x.mat)%*%x.mat)%*%t(x.mat))

indice

lev

era

ge

0 5 10 15 20 25 30

0.1

0.2

0.3

0.4

0.5

4

Datos de Cemento

PREDICTOR

VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF

--------- ----------- --------- ----------- ------ -----

CONSTANT 73.6101 105.965 0.69 0.5069

X1 -0.44973 1.13123 -0.40 0.7014 92.7

X2 1.29951 1.06597 1.22 0.2575 70.8

X3 0.56301 1.05868 0.53 0.6093 585.3

X4 -0.17039 1.04937 -0.16 0.8750 642.6

X5 -0.38591 1.52207 -0.25 0.8062 2.2

R-SQUARED 0.9871 RESID. MEAN SQUARE (MSE) 7.29043

ADJUSTED R-SQUARED 0.9790 STANDARD DEVIATION 2.70008

SOURCE DF SS MS F P

---------- --- ---------- ---------- ----- ------

REGRESSION 5 4453.65 890.729 122.18 0.0000

RESIDUAL 8 58.3234 7.29043

TOTAL 13 4511.97

CASES INCLUDED 14 MISSING CASES 0

Seleccion de Modelos

Cuando trabajamos en forma teorica asumimos que tenemos un modelo Y =Xβ+ε y podemos obtener estimadores, test, intervalos de confianza y propiedadesde optimalidad.

Sin embargo, en la practica tenemos una muestra (Y1, x1), . . . (Yn, xn), de ma-nera que la matriz de diseno X tiene como filas a xi ’s y lo primero que debemosdeterminar es cuales de las columnas de X debemos usar.

Un principio general para elegir un modelo es que sea parsimonioso, dondeparsimonia se refiere a que conjugue simpleza con buen ajuste. La idea es hacerlas cosas tan simples como sea posible, pero tampoco no tan simples....

1


Supongamos que realizamos la regresion entre Y y X ∈ IRn×k ajustando delmodelo

Y = Xβ + ε

Cuando consideramos la matriz X podemos obtener 2k − 1 modelos posiblesrelacionados con ella, llamemos 2X a este conjunto.

Si ademas considerasemos las posibles transformaciones de Y y de cada una delas columnas de las covariables, este conjunto aumentarıa considerablemente.

Existen algoritmos rapidos para computar todos estos ajustes y son especial-mente utiles cuando p es grande, pero son necesarios metodos de comparacionpara elegir los mejores y debe tenerse en cuenta que el orden en que entran lasvariables al modelo puede afectar los resultados.


Analisis Exploratorio de Datos

El analisis exploratorio de datos nos puede guiar dandonos un primer esbozo. Atal fin podemos realizar graficos de:

Y vs. cada covariable

Y vs. transformaciones de cada covariable

transformaciones de Y vs. cada covariable

residuos parciales

Recordemos que habıamos visto el coeficiente de regresion multiple y coefi-ciente de regresion multiple ajustado para evaluar la bondad del ajuste. Recorde-mos su definicion:

R2 =

n∑

i=1(yi − y)

2

n∑

i=1(yi − y)

2


R2adj = 1− (1− R2)n

n − p

Sin embargo, estos son solo algunos de los metodos de comparacion de modelosde uso frecuente.

Criterios de Seleccion de Modelos

Criterios basados en el Error de Prediccion

Criterio Cp de Mallows

Criterios de Informacion: AIC (Criterio de Akaike), BIC (Criterio de Infor-macion de Bayes), etc.

Regularizacion


Balance entre Sesgo y Varianza

Volviendo al planteo inicial, supongamos que realizamos la regresion entre Y yX ∈ IRn×k y que

Y = Xβ + ε

donde βs = 0 para un subconjunto de βs de β.

El modelo verdadero incluye solamente las columnas de X para las cuales βs 6=0.

Llamaremos modelo correcto a un modelo verdadero con algunas columnas deX extras.

Llamaremos modelo incorrecto a un modelo que no incluye todas las columnasdel modelo verdadero.

Un criterio que parece razonables es elegir de acuerdo al error de prediccion delmodelo.


Cada uno de los modelos M ∈ 2X conduciran a predicciones

Y(M) = PMY

Si observasemos nuevas respuestas independientes para el mismo diseno X, elError de Prediccion para el modelo M puede calcularse como

‖Y+ − Y(M)‖2 = ‖Y+ − PMY‖

2

Sin embargo, esta norma es una variable aleatoria. Por lo tanto, un criterioposible es elegir el modelo M∗ de acuerdo con el menor Error de PrediccionEsperado (EPE), es decir

mınM∈2X

1

nE‖Y+ − PMY‖

2 = mınM∈2X

EPE

Supongamos que X ∈ IRn×q es el modelo verdadero y sea X ∈ IRn×p el modeloajustado. Ambas X y X son construidas a partir de X.


Como la verdadera relacion entre Y y X es a traves de X, entonces

Y = Xβ + ε = η + ε

Las predicciones usando el modelo M asociado a X seran

Y = (X′X)−1X′Y = PY

Si observasemos nuevas respuestas Y+ que corresponden a la misma matriz dediseno X, como antes, tendrıamos

Y+ = Xβ + ε+ = η + ε+

por lo tanto el Error de Prediccion correspondiente al modelo M sera:


Y+ − Y = η + ε+ − P(η + ε)

= (I− P)η + ε+ − Pε

En consecuencia:

‖Y+ − Y‖2 =

((I− P)η + ε+ − Pε

)′ ((I− P)η + ε+ − Pε

)

= η′(I− P)η + η′(I− P)ε+ 0 + ε′+(I− P)η

+ ε′+ε+ + ε′+Pε+ 0− ε

′Pε+ + ε′Pε

y tomando esperanza obtenemos:

E‖Y+ − Y‖2 = η′(I− P)η + tr (Σε+) + E(εPε)

= η′(I− P)η + σ2n + σ2tr (P)

= η′(I− P)η + σ2n + σ2rg(P)


De esta forma resulta:

EPE =

⎧⎨⎩

(1 + qn)σ2 modelo verdadero

(1 + pn)σ2 modelo correcto

1nη′(I− P)η + (1 + p

n)σ2 modelo incorrecto

De tal forma que si elegimos un modelo correcto incrementamos la varianza,pero si elegimos un modelo incorrecto introducimos un sesgo.

Convalidacion Cruzada (CV )

Obviamente EPE no podemos calcularlo, por lo tanto tendremos que estimar-lo.

Si n es grande se pueden dividir los datos en dos: una parte para ajustar (trainingsample) y la otra para estimar el error de prediccion (validation sample):


⎧⎨⎩

X∗Y∗ para ajustar el modelo

XoYo para estimar a EPE

de manera que

ˆEPE =

1

no‖Yo − Xo ˆ

β‖2

Muchas veces ocurre que n no es lo suficientemente grande como para dividir lamuestra en dos y por esa razon se usa CV basado en el metodo leave–one–outen el que se saca una observacion por vez y se predice con el resto de las n−1observaciones:

ˆEPECV =

1

n

n∑

j=1(yj − xj

ˆβ(j))

2


dondeˆβ(j) se computa sin la observacion j .

En base a la relacion entreˆβ y

ˆβ(j) tenemos que

ˆEPECV =

1

n

n∑

j=1

(yj − xjˆβ)2

1− pj j

La idea es elegir las variables de manera de minimizar elˆEPECV .

Cp de Mallows

Notemos que si

E‖Y+ − Y‖2 = η′(I− P)η + (n + p)σ2

entonces

E‖Y+ − Y‖2

σ2− (n + p) =

η′(I− P)η

σ2


Mallows propone una medida cercana

Cp =‖Y − Y‖2

s2+ 2p − n

Notemos que Cp ' p cuando el modelo es bueno. Un problema de este metodoes que necesita estimar a σ2 y generalmente se hace usando el s2 basado enlas k covariables (es decir suponiendo sesgo pequeno).

13

Métodos Automáticos de Selección de Variables Podemos dividirlos entre aquellos procedimientos de búsqueda que escogen el mejor entre todos los modelos posibles y aquellos que eligen iterativamente, en forma automática. Búsqueda de todos los subconjuntos posibles Este método consiste en evaluar todos los modelos posibles que se pueden construir en un conjunto dado de variables independientes. Es particularmente útil cuando el número de variables no es demasiado grande. En general, uno puede forzar la presencia de ciertas variables y eso reduce el tamaño de la búsqueda. Uno puede imponer el criterio de selección R2, R2

a y Cp. Si bien el Cp parece el más razonable debemos tener en cuenta que asume que el modelo con todas las variables no tiene sesgo. Además, si bien se basa en los errores de predicción no tiene en cuenta que pasaría con futuras observaciones En R contamos con Leaps.

14

Consideremos los datos de cemento. Recordemos que la respuesa y (y.hald) es la temperatura de la mezcla de cemento y las 4 covariables (x.hald) son: x1: tricalcium aluminate x2: tricalcium silicate x3: tetracalcium alumino ferrite x4: dicalcium silicate. Recordemos corr(x1,x3)= -0.824 y corr(x2,x4)= -0.975. library(leaps) library(wle) data(hald) hald

> cor(x.hald)

[,1] [,2] [,3] [,4]

[1,] 1.0000000 0.2285795 -0.8241338 -0.2454451

[2,] 0.2285795 1.0000000 -0.1392424 -0.9729550

[3,] -0.8241338 -0.1392424 1.0000000 0.0295370

[4,] -0.2454451 -0.9729550 0.0295370 1.0000000

15

[,1] [,2] [,3] [,4] [,5]

[1,] 78.5 7 26 6 60

[2,] 74.3 1 29 15 52

[3,] 104.3 11 56 8 20

[4,] 87.6 11 31 8 47

[5,] 95.9 7 52 6 33

[6,] 109.2 11 55 9 22

[7,] 102.7 3 71 17 6

[8,] 72.5 1 31 22 44

[9,] 93.1 2 54 18 22

[10,] 115.9 21 47 4 26

[11,] 83.8 1 40 23 34

[12,] 113.3 11 66 9 12

[13,] 109.4 10 68 8 12

16

all-subsets regression leaps(x=x.hald, y=y.hald, method=c("Cp", "adjr2", "r2"))

leaps(x=x.hald, y=y.hald, method=c("Cp", "adjr2", "r2"))

$which

1 2 3 4

1 FALSE FALSE FALSE TRUE

1 FALSE TRUE FALSE FALSE

1 TRUE FALSE FALSE FALSE

1 FALSE FALSE TRUE FALSE

2 TRUE TRUE FALSE FALSE

2 TRUE FALSE FALSE TRUE

2 FALSE FALSE TRUE TRUE

2 FALSE TRUE TRUE FALSE

2 FALSE TRUE FALSE TRUE

2 TRUE FALSE TRUE FALSE

3 TRUE TRUE FALSE TRUE

3 TRUE TRUE TRUE FALSE

3 TRUE FALSE TRUE TRUE

3 FALSE TRUE TRUE TRUE

4 TRUE TRUE TRUE TRUE

$label

[1] "(Intercept)" "1" "2" "3" "4"

$size

[1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5

$Cp

[1] 138.730833 142.486407 202.548769 315.154284 2.678242 5.495851

[7] 22.373112 62.437716 138.225920 198.094653 3.018233 3.041280

[13] 3.496824 7.337474 5.000000

18

> cbind(leap.cem$size,leap.cem$Cp) [,1] [,2] [1,] 2 138.730833 [2,] 2 142.486407 [3,] 2 202.548769 [4,] 2 315.154284 [5,] 3 2.678242 [6,] 3 5.495851 [7,] 3 22.373112 [8,] 3 62.437716 [9,] 3 138.225920 [10,] 3 198.094653 [11,] 4 3.018233 [12,] 4 3.041280 [13,] 4 3.496824 [14,] 4 7.337474 [15,] 5 5.000000

19

leaps(x=x.hald, y=y.hald, method=c("r2")) $which 1 2 3 4 1 FALSE FALSE FALSE TRUE 1 FALSE TRUE FALSE FALSE 1 TRUE FALSE FALSE FALSE 1 FALSE FALSE TRUE FALSE 2 TRUE TRUE FALSE FALSE 2 TRUE FALSE FALSE TRUE 2 FALSE FALSE TRUE TRUE 2 FALSE TRUE TRUE FALSE 2 FALSE TRUE FALSE TRUE 2 TRUE FALSE TRUE FALSE 3 TRUE TRUE FALSE TRUE 3 TRUE TRUE TRUE FALSE 3 TRUE FALSE TRUE TRUE 3 FALSE TRUE TRUE TRUE 4 TRUE TRUE TRUE TRUE $label [1] "(Intercept)" "1" "2" "3" "4" $size [1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5 $r2 [1] 0.6745420 0.6662683 0.5339480 0.2858727 0.9786784 0.9724710 0.9352896 [8] 0.8470254 0.6800604 0.5481667 0.9823355 0.9822847 0.9812811 0.9728200 [15] 0.9823756

20

leaps(x=x.hald, y=y.hald, method=c("adjr2")) $which 1 2 3 4 1 FALSE FALSE FALSE TRUE 1 FALSE TRUE FALSE FALSE 1 TRUE FALSE FALSE FALSE 1 FALSE FALSE TRUE FALSE 2 TRUE TRUE FALSE FALSE 2 TRUE FALSE FALSE TRUE 2 FALSE FALSE TRUE TRUE 2 FALSE TRUE TRUE FALSE 2 FALSE TRUE FALSE TRUE 2 TRUE FALSE TRUE FALSE 3 TRUE TRUE FALSE TRUE 3 TRUE TRUE TRUE FALSE 3 TRUE FALSE TRUE TRUE 3 FALSE TRUE TRUE TRUE 4 TRUE TRUE TRUE TRUE $label [1] "(Intercept)" "1" "2" "3" "4" $size [1] 2 2 2 2 3 3 3 3 3 3 4 4 4 4 5 $adjr2 [1] 0.6449549 0.6359290 0.4915797 0.2209521 0.9744140 0.9669653 0.9223476 [8] 0.8164305 0.6160725 0.4578001 0.9764473 0.9763796 0.9750415 0.9637599 [15] 0.9735634

21

Datos de Biomasa

UNFORCED INDEPENDENT VARIABLES: (A)K (B)NA (C)PH (D)SAL (E)ZN

ADJUSTED

P CP R SQUARE R SQUARE RESID SS MODEL VARIABLES

-- ----- -------- -------- --------- -----------------------------

1 77.9 0.0000 0.0000 1.917E+07 INTERCEPT ONLY

2 7.4 0.5900 0.5994 7680575 C

2 32.7 0.3757 0.3899 1.169E+07 E

2 70.9 0.0525 0.0740 1.775E+07 B

2 74.8 0.0198 0.0421 1.836E+07 A

2 78.6 -0.0124 0.0106 1.897E+07 D

3 2.3 0.6422 0.6584 6548174 B C

3 3.6 0.6308 0.6476 6755845 A C

3 8.3 0.5896 0.6083 7509642 C E

3 8.9 0.5845 0.6034 7603247 C D

3 15.1 0.5313 0.5526 8576766 D E

4 3.8 0.6378 0.6625 6471149 B C E

4 4.0 0.6355 0.6604 6511089 A B C

4 4.2 0.6341 0.6590 6536396 B C D

4 5.0 0.6268 0.6522 6667664 A C D

4 5.0 0.6267 0.6521 6669300 A C E

5 4.3 0.6424 0.6749 6232954 A C D E

5 4.7 0.6389 0.6718 6292475 B C D E

5 5.6 0.6306 0.6642 6438038 A B C E

5 5.9 0.6279 0.6617 6485307 A B C D

5 16.1 0.5351 0.5773 8102649 A B D E

6 6.0 0.6360 0.6773 6186048 A B C D E

23

Procedimientos Stepwise Existen tradicionalmente tres versiones: Forward, Backward y la combinacón de ambos que es la Stepwise. Podríamos decir que hay tantas implementaciones de este método como programas, por lo que es necesario leer detalladamente la descripción del programa que estamos utilizando. Describiremos la implementación de mle.stepwise de wle. Forward: Este procedimiento no incluye inicialmente ninguna covariable, salvo la intercept, y va agregando las variables una a una de acuerdo con la que tiene mayor F parcial en los sucesivos modelos evaluados y superior al valor F.in. Backard: Este procedimiento incluye inicialmente todas las covariables y las va eliminando de a una a medida que el valor del F parcial sea inferior al valor F.out. Stepwise: Es una combinación de los dos anteriores y tiene en cuenta tanto el valor F.in como el F.out.

24

Stepwise Regression: veamos un ejemplo de Forward

library(wle)

data(hald)

result <- mle.stepwise(y.hald~x.hald)

summary(result)

Forward selection procedure

F.in: 4

Last 3 iterations:

(Intercept) x.hald1 x.hald2 x.hald3 x.hald4

[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

> summary(lm(y.hald~x.hald[,1]))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 81.4793 4.9273 16.54 4.07e-09 ***

x.hald[, 1] 1.8687 0.5264 3.55 0.00455 **



F-statistic: 12.6 on 1 and 11 DF, p-value: 0.004552

25


Coefficients:


(Intercept) 57.4237 8.4906 6.763 3.1e-05 ***

x.hald[, 2] 0.7891 0.1684 4.686 0.000665 ***





Coefficients:


(Intercept) 110.2027 7.9478 13.866 2.6e-08 ***

x.hald[, 3] -1.2558 0.5984 -2.098 0.0598 .





Coefficients:


(Intercept) 117.5679 5.2622 22.342 1.62e-10 ***

x.hald[, 4] -0.7382 0.1546 -4.775 0.000576 ***




26

salida.41<-lm(y.hald~ x.hald[,4]+x.hald[,1])

anova(salida.41)


Response: y.hald


x.hald[, 4] 1 1831.90 1831.90 245.03 2.319e-08 ***

x.hald[, 1] 1 809.10 809.10 108.22 1.105e-06 ***

Residuals 10 74.76 7.48


anova(salida.43)


Response: y.hald


x.hald[, 4] 1 1831.90 1831.90 104.240 1.314e-06 ***

x.hald[, 3] 1 708.13 708.13 40.295 8.375e-05 ***

Residuals 10 175.74 17.57


anova(salida.42)


Response: y.hald


x.hald[, 4] 1 1831.90 1831.90 21.0834 0.0009927 ***

x.hald[, 2] 1 14.99 14.99 0.1725 0.6866842

Residuals 10 868.88 86.89

27

salida.412<-lm(y.hald~ x.hald[,4]+x.hald[,1]++x.hald[,2])

anova(salida.412)

Response: y.hald


x.hald[, 4] 1 1831.90 1831.90 343.6758 1.771e-08 ***

x.hald[, 1] 1 809.10 809.10 151.7934 6.150e-07 ***

x.hald[, 2] 1 26.79 26.79 5.0259 0.05169 .

Residuals 9 47.97 5.33

salida.413<-lm(y.hald~ x.hald[,4]+x.hald[,1]++x.hald[,3])

anova(salida.413)

Response: y.hald


x.hald[, 4] 1 1831.90 1831.90 324.3179 2.285e-08 ***

x.hald[, 1] 1 809.10 809.10 143.2435 7.875e-07 ***

x.hald[, 3] 1 23.93 23.93 4.2358 0.06969 .


> summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+x.hald[,4]))

Coefficients:


(Intercept) 71.6483 14.1424 5.066 0.000675 ***

x.hald[, 1] 1.4519 0.1170 12.410 5.78e-07 ***

x.hald[, 2] 0.4161 0.1856 2.242 0.051687 .

x.hald[, 4] -0.2365 0.1733 -1.365 0.205395




28

resultb <- mle.stepwise(y.hald~x.hald,type="Backward")

summary(resultb)

Backward selection procedure

F.out: 4

Last 2 iterations:


[1,] 1 1 1 0 1 0.01823

[2,] 1 1 1 0 0 1.86300

summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+ x.hald[,3]+x.hald[,4]))

Coefficients:


(Intercept) 62.4054 70.0710 0.891 0.3991

x.hald[, 1] 1.5511 0.7448 2.083 0.0708 .

x.hald[, 2] 0.5102 0.7238 0.705 0.5009

x.hald[, 3] 0.1019 0.7547 0.135 0.8959 (0.135*0.135=0.018225)

x.hald[, 4] -0.1441 0.7091 -0.203 0.8441




29

anova(lm(y.hald~ x.hald[,1]+ x.hald[,2]+ x.hald[,4]))

Response: y.hald


x.hald[, 1] 1 1450.08 1450.08 272.0439 4.934e-08 ***

x.hald[, 2] 1 1207.78 1207.78 226.5879 1.094e-07 ***

x.hald[, 4] 1 9.93 9.93 1.8633 0.2054



Response: y.hald


x.hald[, 1] 1 1450.08 1450.08 272.0439 4.934e-08 ***

x.hald[, 4] 1 1190.92 1190.92 223.4253 1.163e-07 ***

x.hald[, 2] 1 26.79 26.79 5.0259 0.05169 .



Response: y.hald


x.hald[, 2] 1 1809.43 1809.43 339.460 1.870e-08 ***

x.hald[, 4] 1 37.46 37.46 7.027 0.02644 *

x.hald[, 1] 1 820.91 820.91 154.008 5.781e-07 ***


30

anova(lm(y.hald~ x.hald[,1]+ x.hald[,2]))

Response: y.hald


x.hald[, 1] 1 1450.1 1450.08 250.43 2.088e-08 ***

x.hald[, 2] 1 1207.8 1207.78 208.58 5.029e-08 ***


anova(lm(y.hald~ x.hald[,2]+ x.hald[,1]))

Response: y.hald


x.hald[, 2] 1 1809.43 1809.43 312.48 7.149e-09 ***

x.hald[, 1] 1 848.43 848.43 146.52 2.692e-07 ***

Residuals 10 57.90 5.79

31

results <- mle.stepwise(y.hald~x.hald,type="Stepwise")

summary(results)

mle.stepwise(formula = y.hald ~ x.hald, type = "Stepwise")

Stepwise selection procedure

F.in: 4

F.out: 4

Last 4 iterations:


[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

[4,] 1 1 1 0 0 1.863

32


Coefficients:


(Intercept) 117.5679 5.2622 22.342 1.62e-10 ***

x.hald[, 4] -0.7382 0.1546 -4.775 0.000576 ***




> summary(lm(y.hald~ x.hald[,1]+x.hald[,4]))

Coefficients:


(Intercept) 103.09738 2.12398 48.54 3.32e-13 ***

x.hald[, 1] 1.43996 0.13842 10.40 1.11e-06 ***

x.hald[, 4] -0.61395 0.04864 -12.62 1.81e-07 ***




> summary(lm(y.hald~ x.hald[,1]+ x.hald[,2]+x.hald[,4]))

Coefficients:


(Intercept) 71.6483 14.1424 5.066 0.000675 ***

x.hald[, 1] 1.4519 0.1170 12.410 5.78e-07 ***

x.hald[, 2] 0.4161 0.1856 2.242 0.051687 .

x.hald[, 4] -0.2365 0.1733 -1.365 0.205395




33

Forward selection procedure

F.in: 4

Last 3 iterations:


[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

############################################################

Backward selection procedure

F.out: 4

Last 2 iterations:


[1,] 1 1 1 0 1 0.01823

[2,] 1 1 1 0 0 1.86300

############################################################

Stepwise selection procedure

F.in: 4

F.out: 4

Last 4 iterations:


[1,] 1 0 0 0 1 22.800

[2,] 1 1 0 0 1 108.200

[3,] 1 1 1 0 1 5.026

[4,] 1 1 1 0 0 1.863

Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo...

Documents

Transcript of Modelo Lineal Y p X ,,X . Esta metodolog´ıa es ampliamente ...mate.dm.uba.ar/~drodrig/modelo...