Download - 8 Análisis de Regresión Lineal Múltiple.webdelprofesor.ula.ve/economia/drivas/materias/metodosI(M... · Análisis de Regresión Lineal Múltiple. 8.1. Introducción En el

Capıtulo

8

Analisis de Regresion Lineal

Multiple.

8.1. Introduccion

En el capıtulo anterior se desarrollo el analisis de regresion cunado sobre la variable

dependiente influye solo una variable independiente. Por lo general, en la practica

este no es el caso. En este capıtulo se extiende al caso donde hay mas de una variable

independiente, en cuyo caso se dice que se realiza un analisis de regresion lineal multiple.

8.2. Modelo de Regresion Lineal Multiple

En general se puede relacionar la variable respuesta y con k variables independientes

x1, x2, ..., xk, en ese caso el modelo esta dado por

y = β0 + β1x1 + β2x2 + ... + βkxk + ε (8.1)

donde los coeficientes βj, j = 0, 1, ..., k son constantes desconocidas y son los

parametros del modelo. Cada βj representa el cambio esperado en la respuesta y por

151

152 Captulo 8. Anlisis de Regresin Lineal Mltiple.

el cambio unitario en xj cuando todas las demas variables independientes xi(i �= j) se

mantienen constantes. ε es un componente de error aleatorio.

En el caso de los modelos de regresion multiple es preferible usar la notacion ma-

tricial, pues dicha forma permite expresar el modelo en una forma mas compacta y

que con un poco de conocimiento del algebra matricial los resultados se simplifican

considerablemente.

Forma Matricial: El modelo de Regresion Multiple en su forma matricial es la sigu-

iente:

y = Xβ + ε (8.2)

donde

1. y es un vector n × 1 observable;

2. X es una matriz n × p que contiene los valores de las variables independientes;

3. β es un vector p × 1 de parametros no observables;

4. ε es un vector n×1 de variables aleatorias no observables conocido como el vector

de errores aleatorios.

Si se reescriben los vectores y las matrices de la ecuacion 2.2 en detalle, se obtiene

y =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

y1

y2

...

yn

1 x11 x12 . . . x1k

1 x21 x22 . . . x2k

......

. . ....

1 xn1 xn2 . . . xnk

⎤⎥⎥⎥⎥⎥⎥⎥⎦

β =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

β0

β1

...

βk

⎤⎥⎥⎥⎥⎥⎥⎥⎦

ε =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

ε1

ε2

...

εn

⎤⎥⎥⎥⎥⎥⎥⎥⎦

(8.3)

8.3. Ejemplo: Tiempo de Entrega 153

8.3. Ejemplo: Tiempo de Entrega

Este es un ejemplo tomado de Montgomery(2002):Un embotellador de bebidas

gaseosas analiza las rutas de servicio de las maquinas expendedoras en su sistema

de distribucion. Le interesa predecir el tiempo necesario para que el representante de

ruta atienda las maquinas expendedoras en una tienda. Esta actividad de servicio con-

siste en abastecer la maquina con productos embotellados, y algo de mantenimiento o

limpieza. El ingeniero industrial responsable del estudio ha sugerido que las dos vari-

ables mas importantes que afectan el tiempo de entrega y son la cantidad de cajas de

producto abastecido, x1, y la distancia caminada por el representante, x2. El ingeniero

ha reunido 25 observaciones de tiempo de entrega que se ven en la tabla 2.1. Se ajustara

el modelo de regresion lineal simple siguiente

y = β0 + βx1 + ε

En este caso la matriz X y el vector y estan dados por

Tabla 8.1: Datos de tiempo de entrega

Observacion y x1 x2 Observacion y x1 x2

1 16,68 7 560 14 19,75 6 4622 11,5 3 220 15 24 9 4483 12,03 3 340 16 29 10 7764 14,88 4 80 17 15,35 6 2005 13,75 6 150 18 19 7 1326 18,11 7 330 19 9,5 3 367 8 2 110 20 35,1 17 7708 17,83 7 210 21 17,9 10 1409 79,24 30 1460 22 52,32 26 81010 21,5 5 605 23 18,75 9 45011 40,33 16 688 24 19,83 8 63512 21 10 215 25 10,75 4 15013 13,5 4 255


X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 7 560

1 3 220

1 3 340

1 4 80

1 6 150

1 7 330

1 2 110

1 7 210

1 30 1460

1 5 605

1 16 688

1 10 215

1 4 255

1 6 462

1 9 448

1 10 776

1 6 200

1 7 132

1 3 36

1 17 770

1 10 140

1 26 810

1 9 450

1 8 635

1 4 150

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

y =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

16,68

11,50

12,03

14,88

13,75

18,11

8,00

17,83

79,24

21,50

40,33

21,00

13,50

19,75

24,00

29,00

15,35

19,00

9,50

35,10

17,90

52,32

18,75

19,83

10,75

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

8.4. Estimacin de los Parmetros del Modelo 155

8.4. Estimacion de los Parametros del Modelo

8.4.1. Estimacion de β.

El estimador de mınimos cuadrados de β, denotado por β, es el valor de β que

mınimiza

S(β) =n∑

i=1

ε2i = ε′ε = (y − Xβ)′(y − Xβ)

Por lo tanto, lo que se debe hacer es derivar la expresion anterior y buscar el valor de

β que la hace igual a cero. Antes de derivar note que la expresion anterior se puede

escribir como

S(β) = y′y − β′X′y − y′Xβ + X′β′βX

= y′y − 2β′X′y + X′β′βX

Ahora si derivando e igualando a cero se obtiene

∂S

∂β

∣∣∣∣β

= −2X′y + 2X′Xβ = 0

que se simplifica a

X′Xβ = X′y (8.4)

las cuales se conocen como las ecuaciones normales de mınimos cuadrados. Para

hallar la expresion de β se premultiplica la ecuacion anterior por la inversa de X′X

(que en este caso se asume que existe). Por lo tanto el estimador de β por mınimos

cuadrados es

β = (X′X)−1X′y (8.5)


Ejemplo 8.1 Para el ejemplo se tiene que la matriz X′X esta dada por

X′X =

⎡⎢⎢⎢⎢⎣

1 1 · · · 1

7 3 · · · 4

560 220 · · · 150

⎤⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎣

1 7 560

1 3 220

......

...

1 4 150

⎤⎥⎥⎥⎥⎥⎥⎥⎦

=

⎡⎢⎢⎢⎢⎣

25 219 10232

219 3055 133899

10232 133899 6725688

⎤⎥⎥⎥⎥⎦

y el vector X′y es

X′y =

⎡⎢⎢⎢⎢⎣

1 1 · · · 1

7 3 · · · 4

560 220 · · · 150

⎤⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎣

16,68

11,50

...

10,75

⎤⎥⎥⎥⎥⎥⎥⎥⎦

=

⎡⎢⎢⎢⎢⎣

559,60

7375,44

337072,00

⎤⎥⎥⎥⎥⎦

El estimador de β por mınimos cuadrados es

β = (X′X)−1X′y


o sea

⎡⎢⎢⎢⎢⎣

β0

β1

β2

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎣

25 219 10232

219 3055 133899

10232 133899 6725688

⎤⎥⎥⎥⎥⎦

−1 ⎡⎢⎢⎢⎢⎣

559,60

7375,44

337072,00

⎤⎥⎥⎥⎥⎦

=

⎡⎢⎢⎢⎢⎣

0,11321518 −0,00444859 −0,00008367

−0,00444859 0,00274378 −0,00004786

−0,00008367 −0,00004786 0,00000123

⎤⎥⎥⎥⎥⎦

−1 ⎡⎢⎢⎢⎢⎣

559,60

7375,44

337072,00

⎤⎥⎥⎥⎥⎦

=

⎡⎢⎢⎢⎢⎣

2,34123115

1,61590712

0,01438483

⎤⎥⎥⎥⎥⎦

El ajuste por mınimos cuadrados, con los coeficientes de regresion expresados con cinco

decimales, es

y = 2,34123 + 1,61591x1 + 0,01438x2

Procedimiento en R

La estimacion de los parametros se obtienen directamente usando la instruccion

> MRLM1<-lm(resp~x1+x2,data=Datos)

> MRLM1

con lo cual se obtiene

Call:

lm(formula = resp ~ x1 + x2, data = Datos)


Coefficients:

(Intercept) x1 x2

2.34123 1.61591 0.01438

en donde se tiene que β0 = 2,34123, β1 = 1,61591 y β2 = 0,01438.

Si se quiere conocer el valor de uno de los estimadores en particular se usa la instruccion

> objetolm$coef[j+1]

Con lo cual se obtiene el valor estimado del parametro j. Por ejemplo, si quiere conocer

el valor de β1 se coloca la instruccion

> MRLM1$coef[2]

Otra manera de obtener las estimaciones usando R es usando las siguientes instrucciones

Creacion de la matriz X y el vector y

> X<-matrix(c(idv,x1,x2),nrow=25,ncol=3)

> y<-matrix(c(resp),nrow=25,ncol=1)

Se calculan las estimaciones usando la ecuacion ** por medio de las siguientes

instrucciones

> beta<-solve((t(X)%*%X))%*%t(X)%*%y

> beta

Si se desea conocer el valor de alguno de los βj se usa la siguiente instruccion

> beta[j]


8.4.2. Estimacion de σ2.

Al igual que en el caso de la regresion lineal simple, el estimador de σ2 se puede

obtener a partir de la suma de cuadrados de los residuales:

SCRes =n∑

i=1

(yi − yi)2

=n∑

i=1

r2i

= r′r

Sustituyendo r = y − Xβ se obtiene

SCRes = (y − Xβ)′(y − Xβ)

= y′y − β′X′y − y′Xβ + β′X′Xβ

= y′y − 2β′X′y + β′X′Xβ

como X′Xβ = X′y, la ultima ecuacion se transforma en

SCRes = y′y − β′X′y (8.6)

la cual tiene n − p grados de libertad (pues hay que p parametros en el modelo de

regresion multiple). Por lo tanto el cuadrado medio del residual es

CMRes =SCRes

n − p(8.7)


cuyo valor esperado es σ2. Por lo tanto un estimador insesgados de σ2, denotado por

σ2 es

σ2 = MRes (8.8)

Ejemplo 8.2 Se estimara la varianza del error, σ2, para el ajuste del modelo de regre-

sion multiple a los datos de tiempo de entrega de bebidas gaseosas en el ejemplo ***.

Ya que

y′y = 18310, 6290

y

β′X′y =

[2, 34123115 1, 61590721 0, 01438483

]⎡⎢⎢⎢⎢⎣

559,60

7375,44

337072,00

⎤⎥⎥⎥⎥⎦

= 18076, 90304

la suma de cuadrados de residuales es

SCRes = y′y − β′X′y

= 18310, 6290 − 18076,9030 = 233, 7260

Por consiguiente, el estimado de σ2 es el cuadrado medio de residuales

σ2 =SCRes

GLRes

=223, 7260

25 − 3= 10, 6239


Procedimiento en R

La estimacion de√

σ2 se obtiene como uno de los resultados arrojados por la in-

struccion

> summary(objetolm)

donde objetolm es un objeto de la instruccion lm(). Otra manera de obtener la esti-

macion de σ2 es usando las siguientes instrucciones

> varest<-(t(y)%*%y-t(beta)%*%t(X)%*%y)/(nrow(y)-nrow(beta))

> varest

8.4.3. Propiedades de los estimadores.

1. Son estimadores insesgados. En la seccion anterior se probo que σ2 es un

estimador insesgados de σ2. Por lo tanto solo falta probar con β.

E(β) = E[(X′X)−1X′y] = (X′X)−1X′E(y) = (X′X)−1X′E(Xβ + ε)

= (X′X)−1X′Xβ = β

2. Cov(β) = σ2(X′X)−1

3. β y σ2 son independientes.

4. Si se supone que los errores son normales se tiene que β tambien se distribuye

normal y que una funcion de σ2 se distribuye chi cuadrado. Ademas β y σ2 son

los estimadores de maxima verosimilitud.


8.5. Prueba de hipotesis en la Regresion Lineal Multi-

ple

Nota: Esta seccion es tomada del libro Introduccion al analisis de regresion lineal de

Montgomery, Pecky Vining.

Una vez estimados los parametros del modelo, surgen de inmediato dos preguntas:

1. ¿Cual es la adecuacion general del modelo?

2. ¿Cuales regresores especıficos parecen importantes?.

Hay varios procedimientos de prueba de hipotesis que demuestran su utilidad para

contestar estas preguntas. Las pruebas formales requieren que los errores aleatorios sean

independientes y tengan una distribucion normal con promedio 0 y varianza constante

(σ2).

8.5.1. Prueba de la significancia de la regresion

La prueba de la significancia de la regresion es para determinar si hay una relacion

lineal entre la respuesta y cualquiera de las variables regresoras x1, x2, ..., xk. Este pro-

cedimiento suele considerarse como una prueba general o global de la adecuacion del

modelo. Las hipotesis pertinentes son:

H0 : β0 = β1 = ... = βk = 0

H1 : βj �= 0 Para al menos una j

8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 163

El rechazo de la hipotesis nula implica que al menos uno de los regresores x1, x2, ..., xk

contribuye al modelo significativamente. El procedimiento de prueba es una general-

izacion del analisis de varianza que se uso en la regresion lineal simple. La suma de

cuadrados total SCT se divide en una suma de cuadrados debida a la regresion,

SCR, y a una suma de cuadrados de residuales, SCRes. Donde,

SCT = y′y −

(n∑

i=1

yi

)2

n

SCR = β′Xy −

(n∑

i=1

yi

)2

n

SCRes = SCT − SCR

Bajo la hipotesis nula cierta, se puede demostrar que SCR/σ2 tiene una distribucion

χ2k, donde k es el numero de variables independientes. Tambien SCRes/σ

2 tiene una

distribucion χ2n−k−1 y que ademas SCRes y SCR son independientes. Por lo tanto, de

acuerdo con la definicion de un estadıstico F se tiene que

F0 =SCR/k

SCRes/n − k − 1=

CMR

CMRes

tiene una distribucion Fk,n−k−1. Donde CMR = SCR/k es el cuadrado medio de la

regresion y CMRes = SCRes/n − k − 1 es el cuadrado medios de los residuales, cuyos

valores esperados son respectivamente

E(CMR) = σ2 +β∗′X′

cXcβ∗

kσ2

E(CMRes) = σ2


Siendo β∗ = (β1, β2, ..., βk)′ y Xc es la matriz ”centrada” del modelo, definida por

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

x11 − x1 x12 − x2 · · · x1k − xk

x21 − x1 x22 − x2 · · · x2k − xk

...... . . .

...

xi1 − x1 xi2 − x2 · · · xik − xk

...... . . .

...

xn1 − x1 xn2 − x2 · · · xnk − xk

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

El procedimiento de prueba se resume normalmente en una tabla de analisis de

varianza, como la tabla ****

Fuente de Variacion Suma de cuadradosGrados de Cuadrados

F0libertad mediosRegresion SCR k CMR CMR

CMResResiduales SCRes n − k − 1 CMRes

Total SCT n − 1

Ejemplo 8.3 (Datos del tiempo de entrega) Se probara la significancia de la re-


gresion con los datos del tiempo de entrega del ejemplo ****. Note que

SCT = y′y −

(n∑

i=1

yi

)2

n

= 18310, 6290 − (559, 60)2

25= 5784, 5426

SCR = β′Xy −

(n∑

i=1

yi

)2

n

= 18076, 9030 − (559, 60)2

25= 5550, 8166

SCRes = SCT − SCR

= 5784, 5426 − 5550, 8166 = 233, 7260

El analisis de varianza se muestra en la tabla ***. Para probar H0 : β1 = β2 = 0, se

calcula el estadıstico

F0 =CMR

CMRes

=2775, 4083

10, 6239= 261, 24

Como el valor de F0 es mayor al valor tabulado, Fα;k;n−k−1 = F0,05;2;22 = 3,44, entonces

se rechaza H0, lo cual implica que el tiempo de entrega depende del volumen de entrega

y/o de la distancia. Sin embargo eso no implica necesariamente que la relacion que se

encontro sea adecuada para predecir el tiempo de entrega en funcion del volumen y de

la distancia. Se requieren mas pruebas de adecuacion del modelo.


Como hacerlo en R

Para obtener la tabla de analisis de varianza como la expresada anteriormente es

necesario calcular cada uno de sus elementos, para ellos se usan las siguientes instruc-

ciones

Sumas de cuadrados

> SCT<-sum((data\$Y-mean(data\$Y))^2)

> SCR<-sum((objetolm\$fitted-mean(data\$Y))^2)

> SCRes<-sum(objetolm\$residuals^2)

Para el ejemplo *** las instrucciones son

> SCT<-sum((Datos$resp-mean(Datos$resp))^2)

> SCR<-sum((MRL1$fitted-mean(Datos$resp))^2)

> SCRes<-sum(MRL1$residuals^2)$

con lo cual se obtienen los siguientes resultados

> 5784.543

> 5550.811

> 233.7317

Los cuales son parecidos a los obtenidos haciendo lo calculos, la diferencia se debe

a errores de redondeo.

Grados de libertad

> n<-nrow(cbind(Y))

> GLT<- n-1


> GLRes<- df.residuals(objetolm())

> GLR<- GLT-GLRes

Para el ejemplo *** las instrucciones son

> n<-nrow(cbind(resp))

> GLT<- n-1

> GLRes<- df.residual(MRL1)

> GLR<- GLT-GLRes

con lo cual se obtienen los siguientes resultados

> 24

> 22

> 2

Cuadrados Medios

> CMR<-SCR/GLR

> CMRes<-SCRes/GLRes

obteniendose en el ejemplo

> 2775.405

> 10.62417

F calculado

> Fo<-CMR/CMRes

lo cual para el ejemplo se obtiene


> 261.2351

Valor P

> pv<-1 - pf(F0, GLR,GLRes)

que para el ejemplo es

> 4.440892e-16

los cuales coinciden con los resultados mostrados en la tabla de analisis de varianza

(tabla ***).

R2 y R2 ajustada

Otras dos maneras de evaluar la adecuacion general del modelo son los estadısticos

R2 y R2 ajustada; esta ultima se representa por R2Adj. El R2 mide la variabilidad de la

variable respuesta que es explicada por el modelo, esta dada por

R2 =SCR

SCT

La desventaja del R2 es que por lo general dicha cantidad aumenta cuando se agrega

un regresor al modelo, independientemente del valor de la contribucion de esa variable.

En consecuencia es dıficil juzgar si un aumento de R2 dice en realidad algo importante.

Algunas personas que trabajan con modelo de regresion prefieren usar el estadıstico

R2Adj, que se define como sigue:

R2Adj = 1 − SCR/GLR

SCT /GLT


En vista de que SCR/GLR

SCT /GLTes el cuadrado medio de los residuales y SCT /GLT es con-

stante, independientemente de cuantas variables hay en el modelo, R2Adj solo aumentara

al agregar una variable al modelo si esa adicion reduce el cuadrado medio residual. En

R estos valores son obtenidos al usar la funcion summary().

8.5.2. Pruebas sobre coeficientes individuales de regresion

Una vez determinado que al menos uno de los regresores es importante, la pregunta

logica es ¿cual(es) sirve(n) de ellos?. Si se agrega una variable a un modelo de regre-

sion, la suma de cuadrados de la regresion aumenta, y la suma de cuadrados residuales

disminuye. Se debe decidir si el aumento de la suma de cuadrados de la regresion es

suficiente para garantizar el uso del regresor adicional en el modelo. La adicion de un

regresor tambien aumenta la varianza del valor ajustadoy, por lo que se debe tener

cuidado de incluir solo regresores que tenga valor para explicar la respuesta. Ademas,

si se agrega un regresor no importante se puede aumentar el cuadrado medio de resid-

uales, y con eso se disminuya la utilidad del modelo.

Las hipotesis para probar la significancia de cualquier coeficiente individual de regre-

sion, por ejemplo βj, son

H0 : βj = 0

H1 : βj �= 0


Si no se rechaza H0, quiere decir que se puede eliminar el regresor xj del modelo. El

estadıstico de prueba para esta hipotesis es

t0 =βj√σ2Cjj

=βj√

var(βj)(8.9)

donde Cij es el j-esimo elemento de la diagonal de (X′X)−1 que corresponde a βj.

Se rechaza H0 si |t0| > tα/2,n−k−1. Notese que esta es en realidad una prueba parcial o

marginal, porque el coeficiente de regresion βj depende de todas las demas variables re-

gresoras xi (i �= j), que hay en el modelo. Ası, se trata de una prueba de la contribucion

de xj dados los demas regresores del modelo.

Ejemplo 8.4 Para ilustrar el procedimiento se usaran los datos de tiempos de entrega

del ejemplo ***. Se supone que se desea evaluar la importancia de la variable regresora

DISTANCE (distancia,x2) dado que el regresor CASES (cajas,x1) esta en el modelo.

Las hipotesis son

H0 : β2 = 0

H1 : β2 �= 0

El elemento de la diagonal principal de (X′X)−1 que corresponde a β2 es C22 =

0,00000123, por lo que el estadıstico de la ecuacion 2.9 es

t0 =βj√σ2Cjj

=0, 01438√

(10, 6239)(0,00000123)= 3, 98

En vista de que t0,025;22 = 2, 074, se rechaza H0, y la conclusion es que el regresor

DISTANCE, o x2, contribuye en forma significativa al modelo, dado que CASES, o x1,


ya esta tambien en el modelo.

Como hacerlo en R

La prueba de hipotesis referidas a coeficientes individuales se obtiene con la instruc-

cion

> summary(objetolm())

En el ejemplo serıa

> summary(MRL1)

Con lo cual se obtienen diversos resultados (como se explico antes) entre los cuales se

encuentran los correspondientes a los parametros del modelo, y se muestran a contin-

uacion

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.341231 1.096730 2.135 0.044170 *

x1 1.615907 0.170735 9.464 3.25e-09 ***

x2 0.014385 0.003613 3.981 0.000631 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En dichos resultados se observa, por ejemplo que β2 = 0, 014385,

√V arβ2 = 0,003613,

t0 = 3, 981 y el valor de P es 0,000631. Los cuales coinciden con los valores obtenidos

anteriormente.


Otra alternativa de realizar las pruebas sobre los coeficientes individuales

Tambien se puede determinar directamente la contribucion de la suma de cuadrados

de un regresor en la regresion, por ejemplo de xj, dado que otros regresores xi (i �= j),

estan ya en el modelo; para eso se usa el metodo de suma extra de cuadrados.

Con este procedimiento tambien se puede investigar la contribucion de un subconjunto

de las variables regresoras para el modelo.

Considerese el modelo de regresion con k regresores

y = Xβ + ε

donde y es un vector n × 1, X es una matriz n × p,β es un vector p × 1, ε es un

vector n× 1 y p = k + 1. Se desea determinar si algun subconjunto de r < k regresores

contribuyen en forma significativa al modelo de regresion. Se a seccionado como sigue

el vector de los coeficientes de regresion:

β =

⎡⎢⎣ β1

β2

⎤⎥⎦

donde β1 es un vector (p−r)×1 y β2 es un vector r×1. Se desean probar las siguientes

hipotesis

H0 : β2 = 0

H1 : β2 �= 0


Este modelo se puede escribir como sigue:

y = Xβ + ε = X1β1 + X2β2 + ε

en el que la matriz X1 de n× (p− r) representa a las columnas de X asociadas con β1

y la matriz X2 de n × r representa a las columnas de X asociadas con β2. A este se le

llama el modelo completo.

Para el modelo completo, se sabe que β = (X′X)−1Xy. La suma de cuadrados de

regresion para este modelo es

SCR(β) = β′X′y (p grados de libertad)

y

CMRes =y′y − β′X′y

n − p

Para determinar la contribucion de los terminos de β2 a la regreseion se ajusta el

modelo suponiendo que es cierta la hipotesis nula H0 : β2 = ∅. Este es conocido como

el modelo reducido y esta dado por

y = X1β1 + ε (8.10)

El estimador de β1 por mınimos cuadrados en el modelo reducido es β1 = (X′1X1)

−1X1y.

La suma de cuadrados de la regresion es

SCR(β1) = β′1X

′1y (p − r grados de libertad) (8.11)


La suma de cuadrados de la regresion debida a β2 dado que β1 ya esta en el modelo es

SCR(β2|β1) = SCR(β) − SCR(β1) (8.12)

con p− (p− r) = r grados de libertad. Esta suma de cuadrados se llama suma extra

de cuadrados debida a β2, porque mide el aumenta de la suma de cuadrados de

la regresion debida a agregar los regresores xk−r+1, xk−r+2, ..., xk a un modelo que ya

contiene x1, x2, ..., xk−r. Ahora, SCR(β2|β1) es independiente del CMres, y se puede

probar la hipotesis nula β2 = ∅ mediante el estadıstico

F0 =SCR(β2|β1)/r

CMRes

(8.13)

Si β2 �= ∅, entonces F0 sigue una distribucion F no central, con parametro de no

centralidad igual a

λ =1

σ2β′

2X′2

[I − X1(X

′1X1)

−1X′1

]X2β2

Este resultado es muy importante. Si hay multicolinealidad en los datos, hay casos en

os que β2 es definitivamente distinto de cero, pero esta prueba en realidad casi no tiene

potencia (capacidad para indicar esta diferencia) porque hay una relacion casi colineal

entre X1 y X2. En este caso, λ es casi cero aun cuando β2 sea realmente importante.

Esta relcaion tambien hace destacar que la maxima potencia de la prueba se alcanza

cuando X1 y X2 son ortogonales entres sı. Por ortogonales se entiende que X′2X1 = ∅.

Si F0 > Fα,r,n−p, se rechaza H0 y se concluye que al menos uno de los paramet-

ros en β2 es distinto de cero, y en consecuencia que al menos uno de los regresores

xk−r+1, xk−r+2, ..., xk en X2 contribuyen en forma significativa al modelo de regresion.


Algunos autores llaman la prueba 2.13 prueba parcial F, o prueba F parcial, porque

mide la contribucion de los regresores en xv2, dado que los demas regresores en X1 ya

estan el el modelo. Para ilustrar la utilidad de este procedimiento, considerese el modelo

y = β0 + x1β1 + x2β2 + x3β3 + ε

Las sumas de cuadrados

SCR(β1|β0, β2, β3)

SCR(β2|β0, β1, β3)

y

SCR(β3|β0, β1, β2)

son sumas de cuadrados de un grado de libertad que miden la contribucion de cada

regresor xj, j = 1, 2, 3, al modelo, dado que todos los demas regresores ya estaban en

el. Esto es, evalua la ventaja de agregar xj a un modelo que no incluıa a este regresor.

En general, se puede determinar

SCR(βj|β0, β1, ..., βj−1, βj+1, ..., βk), 1 ≤ j ≤ k

que es el aumento de la suma de cuadrados de regresion, debido a agregar xj a un

modelo que ya contiene x1, x2, ..., xj−1, xj+1, ..., xk. Hay quienes creen de utilidad imag-

inar que esto mide la contribucion de x − j como si fuera la ultima variable

agregada al modelo.

Se puede demostrar que la prueba F parcial sobre una variable unica xj equivale a la

prueba t en 2.9. Sin embargo, la prueba F parcial es un procedimiento mas general,


porque se puede medir el efecto de conjuntos de variables. Esta prueba se usa en la

formacion de modelos, es decir, en la busqueda del mejor conjunto de regresores que se

deben usar en el modelo.

Ejemplo 8.5 En los datos de tiempo de entrega de gaseosas del ejemplo ***, supongase

que se trata de investigar la contribucion de la variables distancia (x2) al modelo. Las

hipotesis correspondientes son

H0 : β2 = 0

H1 : β2 �= 0

Para probar estas hipotesis se necesita la suma de cuadrados debida a β2, que es

SCR(β2|β1, β0) = SCR(β1, β2, β0) − SCR(β1, β0)

= SCR(β1, β2|β0) − SCR(β1|β0)

De acuerdo con el ejemplo ***,

SCR(β1, β2|β0) = β′Xy −

(n∑

i=1

yi

)2

n= 5550, 8166

con 2 grados de libertad. El modelo reducido y = β0 + β1x1 + ε se ajusto en el ejemplo

***, y se obtuvo y = 3, 3201 + 2, 1762x1. La suma de cuadrados de regresion para este

modelo es

SCR(β1|β0) = β′1X1y −

(n∑

i=1

yi

)2

n= 5382, 4077


con 1 grado de libertad. Por consiguiente,

SCR(β2|β1, β0) = 5550, 8166 − 5382, 4088 = 168, 4078

Es un aumento de la suma de cuadrados de la regresion, que se debe agregar x2 al

modelo que ya contenıa a x1. Para probar H0 : β2 = 0 se forma el estadıstico de prueba

F0 =SCR(β2|β1, β0)/1

CMRes

=168, 4078/1

10, 6239= 15, 85

Observese que el CMRes del modelo completo, que contiene a x1 y x2, se usa en el

denominador del estadıstico. Como F0,05;1;22 = 4, 30, se rechaza H0 : β2 = 0 y se

concluye que la distancia (x2) contribuye al modelo en forma significativa.

Como esta prueba F parcial implica a una sola variable, equivale a la prueba t.

Como hacerlo en R

Los rsultados de las pruebas F parciales para cada variable regresora se obtienen

directamente de la tabla de analisis de varianza al usar la instruccion

> anova(objetolm())

Para el ejemplo anterior, al usar la instruccion anova(MRL1) se obtiene la tabla

?? En dichos resultados se observa que en la fila correspondiente a la variable x2 se

Df Sum Sq Mean Sq F value Pr(>F)x1 1 5382.41 5382.41 506.62 0.0000x2 1 168.40 168.40 15.85 0.0006Residuals 22 233.73 10.62

Tabla 8.2: Anlisis de Varianza

encuentran la suma de cuadrados correspondiente a la agregacion de dicha variable


al modelo, el estadıstico de prueba y el valor de P los cuales permiten evaluar la

significancia del coeficiente β2.

8.5.3. Prueba de la hipotesis lineal general

Se pueden probar muchas hipotesis acerca de los coeficientes de regresion, si se

usa un metodo unificado. El metodo de suma extra de cuadrados es un caso especial

de este procedimiento. En el procedimiento mas general, la suma de cuadrados con

la que se calcula la hipotesis es como la diferencia de dos sumas de cuadrados de

residuales. A continuacion se describira el procedimiento. Para conocer demostraciones

y descripciones mas detalladas, consultese Graybill[1976], Searle[1971] o Seber[1977].

Supongase que la hipotesis nula de interes se expresa en la forma H0 : Hβ = 0, donde

Hv es una matriz de constantes q × p, tal que solo r de las q ecuaciones de Hβ son

independientes (es decir H es de rango r). El modelo completo es y = Xβ + ε, siendo

β = (X′X)−1X′y, y la suma de cuadrados de residuales, para este modelo es

SCRes(MC) = y′y − β′X′y (n − p grados de libertad)

Para obtener el modelo reducido, se usan las r ecuaciones independientes en H0 : Hβ =

0 para calcular los r coeficientes de regresion en el modelo completo, en funcion de los

p− r coeficientes restantes de regresion. Esto conduce al modelo reducido y = Zγ + ε,

por ejemplo, donde Z es una matriz n×(p−r) y γ es un vector (p−r)×1, de coeficientes

desconocidos de regresion. El estimado de γ es

γ = (Z′Z)−1Z′y


y la suma de cuadrados de residuales, para este modelo es

SCRes(MR) = y′y − γ′Z′y (n − p + r grados de libertad)

El modelo reducido contiene menos parametros que el modelo completo, ası que SCRes(MR) ≥SCRes(MC). para probar la hipotesis H0 : Hβ = 0 se emplea la diferencia de sumas de

cuadrados de residuales

SCH = SCRes(MR) − SCRes(MC) (8.14)

con n−p+r−(n−p) = r grados de libertad. En ella, SCH se llama suma de cuadrados

debida a la hipotesis H0 : Hβ = 0. El estadıstico de prueba para esta hipotesis es

F0 =SCH/r

SCRes(MC)/(n − p)(8.15)

Se rechaza H0 : Hβ = 0 si F0 > Fα;r;n−p.

Prueba de igualdad de coeficientes de regresion

Para probar la igualdad de los coeficientes de regresion se puede usar el metodo de

la hipotesis lineal general. Por ejemplo suponga el siguiente modelo

y = β0 + β1x1 + β2x2 + β3x3 + ε


Para el modelo completo, SCRes tiene n−p = n−4 grados de libertad. Se desea probar

H0 : β1 = β3. Esta hipotesis se puede enunciar como H0 : Hβ = 0, siendo

H = [0, 1, 0,−1]

un vector 1 × 4. Hay solo una ecuacion en H0 : Hβ = 0, que es β1 − β3 = 0. Si se

sustituye esta ecuacion en el modelo completo, se obtiene el modelo reducido

y = β0 + β1x1 + β2x2 + β1x3 + ε

= β0 + β1(x1 + x3) + β2x2 + ε

= γ0 + γ1z1 + γ2z2 + ε

donde γ0 = β0, γ1 = β1(= β3), z1 = x1 + x3, γ2 = β2 y z2 = x2. Al ajustar el modelo

reducido se calcularıa la SCRes(MR) con n − 4 + 1 = n − 3 grados de libertad. La

suma de cuadrados debida a la hipotesis SCH = SCRes(MR) − SCRes(MC) tiene

n − 3 − (n − 4) = 1 grado de libertad. El cociente F (ecuacion 2.15) es

F0 =SCH/1

SCRes(MC)/(n − 4)

Notese que esta hipotesis tambien se podrıa probar con el estadıstico t:

t0 =β1 − β3√

var(β1 − β3)=

β1 − β3√σ2(C11 + C33 − 2C13)

con n − 4 grados de libertad.

8.6. Intervalos de Confianza en Regresin Mltiple 181

8.6. Intervalos de Confianza en Regresion Multiple

Los intervalos de confianza de los coeficientes de regresion individuales, y los in-

tervalos de confianza de la respuesta media, para niveles especıficos de los regresores,

juegan el mismo papel importante que en la regresion lineal simple. En esta seccion

se desarrollan los intervalos de confianza, uno por uno, para estos casos. Tambien se

presentaran en forma breve los intervalos de confianza simultaneos para los coeficientes

de regresion.

8.6.1. Intervalos de confianza de los coeficientes de regresion

Para construir intervalos de confianza de los coeficientes de regresion βj, se contin-

uara suponiendo que los errores εi estan distribuidos normal e independientemente, con

media cero y varianza σ2. En consecuencia, las observaciones yi estan distribuidas en

forma normal e independientemente, con media β0 +∑k

j=1 βjxij y varianza σ2. Como

el estimador β por mınimos cuadrados es una combinacion lineal de las observaciones,

tambien esta distribuido normalmente, con media β y matriz de covarianza σ2(X′X)−1.

Esto implica que la distribucion marginal de cualquier coeficiente de regresion βj es

normal, con media βj y varianza σ2Cjj, donde Cjj es el j−esimo elemento diagonal de

la matriz (X′X)−1. En consecuencia, cada una de los estadısticos

βj − βj√σ2Cjj

, j = 0, 1, 2, ..., k (8.16)

se distribuye t-student con n − p grados de libertad, donde σ2 es el estimador de la

varianza.

De acuerdo con el resultado de la ecuacion 2.16 se puede definir un intervalo de confianza


de 100(1 − α) por ciento para el coeficiente de regresion βj, j = 0, 1, ..., k, como sigue

βj − tα/2,n−p

√σ2Cjj ≤ βj ≤ βj + tα/2,n−p

√σ2Cjj (8.17)

Ejemplo 8.6 Se calculara un intervalo de confianza del 95% para el parametro β1

en el ejemplo ***. La estimacion puntual de β1 es β1 = 10, 6239 (de acuerdo con el

ejemplo ***). Se aplica la ecuacion 2.17 y se ve que

β1 − t0,025;22

√σ2C11 ≤ β1 ≤ β1 + t0,025;22

√σ2C11

1, 61591 − (2, 074)√

(10, 6239)(0, 00274378) ≤ β1 ≤ 1, 61591 + (2, 074)√

(10, 6239)(0, 00274378)

1, 61591 − (2, 074)(0, 17073) ≤ β1 ≤ 1, 61591 + (2, 074)(0, 17073)

y el intervalo de confianza de 95% para β1 es

1, 26181 ≤ β1 ≤ 1, 97001

8.6. Intervalos de Confianza en Regresin Mltiple 183

8.6.2. Intervalo de confianza de la respuesta media

Se puede establecer un intervalo de confianza para la respuesta media en determi-

nado punto, como x01, x02, ..., x0k. Defınase el vector x0 como sigue

x0 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1

x01

x02

...

x0k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

El valor ajustado en este punto es

y0 = x′0β (8.18)

Es un estimador insesgado de E(y|x0), porque E(y0) = x′0β = E(y|x0), la varianza de

y0 es

V ar(y0) = σ2x′0(X

′X)−1x0 (8.19)

Por consiguiente, un intervalo de confianza de 100(1 − α) por ciento de la respuesta

media en el punto x01, x02, ..., x0k es

y0 − tα/2,n−p

√V ar(y0) ≤ E(y|x0) ≤ y0 − tα/2,n−p

√V ar(y0) (8.20)

Ejemplo 8.7 El embotellador de gaseosas del ejemplo *** quiere establecer un inter-

valo de confianza de 95% para el tiempo medio


8.6.3. Intervalos de confianza simultaneos para coeficientes de

regresion

Se han descrito los procedimientos para establecer diversos tipos de intervalos de con-

fianza y de prediccion para el modelo de regresion lineal. Se ha hecho notar que estos

son intervalos de uno por uno, estop es, son los tipos usuales de intervalo de confianza

o de prediccion, en donde el coeficiente de confianza 1 − α indica la proporcion de

estimaciones correctas que resulta cuando se seleccionan muestras aleatorias repetidas.

En algunos problemas se necesita construir varios intervalos de confianza o de predic-

cion con los mismos datos de la muestra. En esos casos, el analista suele interesarse

en la especificacion de un coeficiente de confianza que se aplique en forma simultanea,

o al mismo tiempo, a todo el conjunto de estimaciones por intervalo. Un conjunto de

intervalos de confianza o prediccion que son todos ciertos en forma simultanea, con

1 − α de probabilidad, se llama conjunto de intervalos simultaneos o conjuntos de

confianza o de prediccion.

Por ejemplo, se tiene un modelo de regresion lineal simple. Suponga que el analista desea

sacar inferencias acerca de la ordenada al origen β0 y la pendiente β1, una posibilidad

serıa establecer intervalos de confianza, por ejemplo de 95 %, para ambos parametros,

sin embargo, si esos estimados son independientes, la probabilidad de que ambas afir-

maciones sean correctas es (0, 95)2 = 0, 9025. Ası, no se tiene un nivel de confianza

de 95 % asociado con ambas afirmaciones. Ademas, como los intervalos se establecen

usando el mismo conjunto de datos muestrales, no son independientes. Esto introduce

mayor complicacion en la determinacion del nivel de confianza para el conjunto de

afirmaciones.

Es relativamente facil definir una region de confianza conjunta para los parametros β

8.7. Otras Funciones de R 185

del modelo de regresion multiple. Se puede demostrar que

(β − β)′X′X(β − β)

pCMRes

∼ Fp,n−p

y eso implica que

P

[(β − β)′X′X(β − β)

pCMRes

≤ Fα,p,n−p

]= 1 − α

En consecuencia, una region de confianza conjunta de 100(1−α) por ciento, para todos

los parametros en β es

(β − β)′X′X(β − β)

pCMRes

≤ Fα,p,n−p (8.21)

Esta desigualdad describe una region de forma elıptica.

8.7. Otras Funciones de R

Para realizar las pruebas de hipotesis y encontrar los intervalos de confianza que no

se obtienen directamente a partir de la instruccion lm(), se usan operaciones basicas de

matrices y el uso de las formulas antes descritas. A continuacion se muestran algunas

de las instrucciones usadas.


8.7.1. Definicion de una matriz en R

Recuerde que una matriz Am×n es un arreglo rectangular de n filas y m columnas, es

decir

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎝

a11 a11 . . . a1n

a21 a22 . . . a2n

......

. . ....

am1 am2 . . . amn

⎞⎟⎟⎟⎟⎟⎟⎟⎠

En R una matriz se define usando la funcion matrix(), cuya sintaxis es

matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE)

donde

data: es un vector de datos

nrow: es el numero de filas deseadas

ncol: es el numero de columnas deseadas

byrow: es una variable logica. Si es ”FALSE” (por defecto) la matriz es llenada

por columnas, en caso contrario es llenada por filas.

Si se quiere definir una matriz A3×3 se usa la siguiente instrucccion

> A<-matrix(c(a11,a12,a13,a21,a22,a23,a31,a32,a33),

nrow=3,ncol=3,byrow=TRUE)


con lo cual se obtiene

A =

⎛⎜⎜⎜⎜⎝

a11 a11 a11

a21 a22 a23

a31 a32 a33

⎞⎟⎟⎟⎟⎠

Ejemplo 8.8 Para construir la matriz

X =

⎛⎜⎜⎜⎜⎜⎜⎜⎝

16 8 12 −4

8 5 11 −4

12 11 70 −31

−4 −4 −31 63

⎞⎟⎟⎟⎟⎟⎟⎟⎠

se usa la siguiente instruccion

> X<-matrix(c(16,8,12,-4,8,5,11,-4,12,11,70,-31,-4,-4,-31,63),


8.7.2. Operaciones de matrices en R

En la siguiente tabla se muestran las operaciones basicas entre matrices que necesarias

para los calculos en un modelo lineal general

Tabla 8.3: Operaciones bsicas sobre matrices

Operacion Operador EjemploSuma + A + BResta - A − B

Multiplicacion % ∗ % A % ∗ %B


Ejemplo 8.9 Sean las matrices A y B dadas a continuacion

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎝

16 8 12 −4

8 5 11 −4

12 11 70 −31

−4 −4 −31 63

⎞⎟⎟⎟⎟⎟⎟⎟⎠

B =

⎛⎜⎜⎜⎜⎜⎜⎜⎝

6 4 2 −4

8 5 1 −4

2 1 7 −3

−4 −4 −1 3

⎞⎟⎟⎟⎟⎟⎟⎟⎠

Se esta interesado en hallar A + B, A − B y A % ∗ %B.

Para crear las matrices A y B se usan las siguientes instrucciones

> A<-matrix(c(16,8,12,-4,8,5,11,-4,12,11,70,-31,-4,-4,-31,63),


> B<-matrix(c(6,4,2,-4,8,5,1,-4,2,1,7,-3,-4,-4,-1,3),nrow=4,ncol=4,

byrow=TRUE)

luego,

Para la suma se usa la siguiente instruccion

> A+B

Con lo que se obtiene

[,1] [,2] [,3] [,4]

[1,] 22 12 14 -8

[2,] 16 10 12 -8

[3,] 14 12 77 -34

[4,] -8 -8 -32 66

Para la resta se usa la siguiente instruccion


> A-B


[,1] [,2] [,3] [,4]

[1,] 10 4 10 0

[2,] 0 0 10 0

[3,] 10 10 63 -28

[4,] 0 0 -30 60

Para la multiplicacion se usa la siguiente instruccion

> A%*%B


[,1] [,2] [,3] [,4]

[1,] 200 132 128 -144

[2,] 126 84 102 -97

[3,] 424 297 556 -395

[4,] -370 -319 -292 314

8.7.3. Operaciones de matrices en R

Al igual que en el caso de las operaciones a continuacion se muestran solo las

funciones necesarias en el modelo lineal general

Tabla 8.4: Funciones bsicas sobre matrices

Funcion Operador EjemploTraspuesta t() t(A)

Inversa solve() solve(A)


Ejemplo 8.10 Para la matriz A definida en el ejemplo anterior, se tiene que

Para hallar la traspuesta de A (A′) se usa la siguiente instruccion

> t(A)

obteniendose

[,1] [,2] [,3] [,4]

[1,] 16 8 12 -4

[2,] 8 5 11 -4

[3,] 12 11 70 -31

[4,] -4 -4 -31 63

Para hallar la inversa de A (A−1) se usa la siguiente instruccion

> solve(A)

obteniendose

[,1] [,2] [,3] [,4]

[1,] 0.397888322 -0.74433107 0.04988662 0.002551020

[2,] -0.744331066 1.69954649 -0.14399093 -0.010204082

[3,] 0.049886621 -0.14399093 0.03287982 0.010204082

[4,] 0.002551020 -0.01020408 0.01020408 0.020408163

8.7.4. Valores tabulados y P valor

Para obtener los valores tabulados y el P valor de la distribucion t-Student se usan las

siguientes instrucciones

8.8. Ejercicios 191

> qt(probabilidad, grados de libertad, lambda, lower.tail = TRUE)

> pt(valor de t, grados de libertad, lambda, lower.tail = TRUE)

lower.tail = TRUE en caso de que las probabilidades son P [X <= x], de lo contrario,

P [X > x].

8.8. Ejercicios

1. Para los datos de la Liga Nacional de Futbol:

a) Ajustar un modelo de regresion lineal multiple que relacione la cantidad

de juegos ganados con las yardas por aire del equipo (x2), el porcentaje de

jugadas por tierra (x7) y las yardas por tierra del contrario (x8).

b) Formar la tabla de analisis de varianza y probar la significancia de la regre-

sion.

c) Calcular el estadıstico t para probar las hipotesis H0 : β2 = 0, H0 : β7 = 0

y H0 : β8 = 0. ¿Que conclusiones se pueden sacar acerca del papel de las

variables x2, x7 y x8 en el modelo?.

d) Calcular R2 y R2Adj para este modelo.

e) Con la prueba F parcial, determinar la contribucion de x7 al modelo. ¿Como

se relaciona el estadıstico F parcial con la prueba t calculada en el inciso c.?

f ) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber

algun problema con la hipotesis de normalidad?

g) Trazar e interpretar una grafica de los residuales en funcion de la respuesta

predicha.


h) Trazar las graficas de los residuales en funcion de cada una de las variables

regresoras. ¿Implican esas graficas que se especifico en forma correcta el

regresor?.

i) Calcular un intervalo de confianza de 95 % para β7 y un intervalo de confian-

za de 95 % para la cantidad media de juegos ganados por un equipo cuando

x2 = 2300, x7 = 56 y x8 = 2100.

j ) ajustar un modelo a esos datos, usando solo x7 y x8 como regresores y probar

la significancia de la regresion.

k) Calcular R2 y R2Adj. ¿Compararlos con los resultados del modelo anterior.

l) Calcular un intervalo de confianza de 95 % para β7. Tambien, un intervalo de

confianza de 95 % para la cantidad media de juegos ganados por un equipo

cuando x7 = 56 y x8 = 2100. Comparar la longitudes de esos intervalos de

confianza con las longitudes de los correspondientes al modelo anterior.

m) ¿Que conclusiones se pueden sacar de este problema, acerca de las conse-

cuencias de omitir un regresor importante de un modelo?

2. Vease los datos de rendimiento de gasolina.

a) Ajustar un modelo de regresion lineal multiple que relacione el rendimiento

de la gasolina y, en millas por galon, la cilindradada del motor (x1), y la

cantidad de gargantas del carburador, (x6).

b) Formar la tabla de analisis de varianza y probar la significancia de la regre-

sion.

c) Calcular R2 y R2Adj para este modelo. Compararlas con las R2 y R2

Adj para el

modelo de regresion lineal simple, que relaciona las millas con la cilindrada.

8.8. Ejercicios 193

d) Determinar un intervalo de confianza para β1.

e) Determinar un intervalo de confianza de 95 % para el rendimiento promedio

de la gasolina, cuando x1 = 225 pulg3 y x6 = 2 gargantas.

f ) Determinar un intervalo de prediccion de 95 % para una nueva observacion

de rendimiento de gasolina, cuando x1 = 225 pulg3 y x6 = 2 gargantas.

g) Considere el modelo de regresion lineal simple, que relaciona las millas con la

cilindrada.Contnstruya un intervalo de confianza de 95 % para el rendimiento

promedio de la gasolina y un intervalo de prediccion para el rendimiento,

cuando x1 = 225 pulg3. Compara las longitudes de estos intervalos con los

intervalos obtenidos en los dos incisos anteriores. ¿Tiene ventajas agregar x6

al modelo.

h) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber


i) Trazar e interpretar una grafica de los residuales en funcion de la respuesta

predicha.

j ) Trazar las graficas de los residuales en funcion de cada una de las variables


regresor?.

3. Vease los datos sobre precios de viviendas

a) Ajustar un modelo de regresion lineal multiple que relacione el precio de

venta con los nueve regresores.

b) Probar la significancia de la regresion.¿Que conclusiones se pueden sacar?

c) Usar pruebas t para evaluar la contribucion de cada regresor al modelo.



e) ¿Cual es la contribucion del tamano del lote y el espacio vital para el modelo,

dado que se incluyeron todos los demas regresores?.

f ) En este modelo, ¿la colinealidad es un problema potencial?.

g) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber


h) Trazar e interpretar una grafica de los residuales en funcion de la respuesta

predicha.

i) Trazar las graficas de los residuales en funcion de cada una de las variables


regresor?.

4. Para los datos sobre la eficiencia de un proceso quımico, en funcion de varias

variables controlables del proceso se pide

a) Ajustar un modelo de regresion lineal multiple que relacione el CO2 del

producto (y) con el solvente total (x6) y el consumo de hidrogeno (x7).

b) Probar la significancia de la regresion.

c) Calcular R2 y R2Adj para este modelo.

d) Usar pruebas t para evaluar la contribucion de x6 y x7 al modelo.

e) Establecer intervalos de confianza de 95 % para β6 y β7.

f ) Volver a ajustar el modelo solo con x6 como regresor. Probar la significancia

de la regresion y calcular R2 y R2Adj. Comentar los resultados. Con base en

estos estadısticos, ¿es satisfactorio el modelo?.

8.8. Ejercicios 195

g) Establecer un intervalo de confianza de 95 % para β6, con el modelo que se

ajusto en el inciso d. ¿Se deduce algo importante acerca de la contribucion

de x7 al modelo?.

h) Comparar los valores de CMRes obtenidos con los dos modelos que se ajus-

taron (partes a y e). ¿Como cambio el CMRes al quitar x − 7 del modelo?

¿Indica lo anterior algo importante acerca de la contribucion de x7 al mod-

elo?.

i) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber


j ) Trazar e interpretar una grafica de los residuales en funcion de la respuesta

predicha.

k) Trazar las graficas de los residuales en funcion de cada una de las variables


regresor?.

a) En los datos se muestra la concentracion de NbOCL3 en un reactor de tubo

de flujo, en funcion de varias variables controlables.

b) Ajustar un modelo de regresion lineal multiple que relacione la concentracion

de NbOCL3 (y) con la COCL(2) (x1) y la fraccion mol (x4).

c) Probar la significancia de la regresion.


e) Usar pruebas t para evaluar la contribucion de x6 y x7 al modelo.

f ) Con pruebas t, determinar la contribucion de x1 y x4 al modelo. ¿Son nece-

sarios los dos regresores?


g) En este problema, ¿es la colinealidad un problema potencial?

h) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber


i) Trazar e interpretar una grafica de los residuales en funcion de la respuesta

predicha.

j ) Trazar las graficas de los residuales en funcion de cada una de las variables


regresor?.

5. Se cree que la calidad del vino Pinot Noir se relaciona con sus propiedades de

claridad, aroma, cuerpo, sabor y fuerza. Se registraron los datos de 38 vinos.

a) Ajustar un modelo de regresion lineal multiple que relacione la calidad del

vino con esos regresores.

b) Probar la significancia de la regresion. ¿A que conclusiones se puede llegar?

c) Use pruebas t para evaluar la contribucion de cada regresor al modelo. Co-

mentar los resultados.

d) Calcular R2 y R2Adj. Comparar esos valores con R2 y R2

Adj para el modelo

de regresion lineal que relacione la calidad del vino con su aroma y sabor.

Comentar los resultados.

e) Determinar un intervalo de confianza de 95 % para el coeficiente de regresion

del sabor, para los dos modelos de la parte d. Comentar las diferencias

encontradas.



8.8. Ejercicios 197


predicha.



regresor?.

6. Un ingeniero hizo un experimento para determinar la presion, temperatura y

flujo de C =2, la humedad y el tamano de partıcula de los cacahuates sobre el

rendimiento total de aceite por lote de cacahuates.

a) Ajustar un modelo de regresion lineal multiple que relacione el rendimiento

con esos regresores.


c) Hacer pruebas t para evaluar la contribucion de cada regresor al modelo.



Adj para el modelo de

regresion lineal que relacione el rendimiento con la temperatura y el tamano

de partıcula. Comentar los resultados.

e) Establecer un intervalo de confianza de 95 % para el coeficiente de regre-

sion de la temperatura, para los dos modelos de la parte d. Comentar las

diferencias encontradas.




predicha.




regresor?.

7. Un ingeniero quımico estudio el efecto de la cantidad de surfactante y el tiempo

sobre la formacion de catrato. Los catratos se usan como medio de conservacion

en frıo.

a) Ajustar un modelo de regresion lineal multiple que relacione la formacion

de catrato con esos regresores.





Adj para el mode-

lo de regresion lineal que relacione la formacion de catrato con el tiempo.


e) Establecer un intervalo de confianza de 95 % para el coeficiente de regresion

del tiempo, para los dos modelos de la parte d. Comentar las diferencias

encontradas.




predicha.



8.8. Ejercicios 199

regresor?.

8. Un ingeniero estudio el efecto de cuatro variables de un factor adimensional con

el que se describen las caıdas de presion en una columna de burbujeo de platos

perforados. Los catratos se usan como medio de conservacion en frıo.

a) Ajustar un modelo de regresion lineal multiple que relacione ese numero

adimensional con los cuatro regresores.





Adj para el modelo de

regresion lineal que relacione el numero adimensional con x2 y x3. Comentar

los resultados.

e) Determinar un intervalo de confianza de 99 % para el coeficiente de regre-

sion de x2, para los dos modelos de la parte d. Comentar las diferencias

encontradas.




predicha.



regresor?.


9. La viscosidad cinematica de cierto sistema de solventes depende de la relacion

entre los dos solventes y la temperatura.

a) Ajustar un modelo de regresion lineal multiple que relacione la viscosidad

con los dos regresores.





Adj para el mode-

lo de regresion lineal que relacione la viscosidad solo con la temperatura.


e) Establecer un intervalo de confianza de 99 % para el coeficiente de regre-

sion de la temperatura, para los dos modelos de la parte d. Comentar las

diferencias encontradas.




predicha.



regresor?.