Capıtulo
8
Analisis de Regresion Lineal
Multiple.
8.1. Introduccion
En el capıtulo anterior se desarrollo el analisis de regresion cunado sobre la variable
dependiente influye solo una variable independiente. Por lo general, en la practica
este no es el caso. En este capıtulo se extiende al caso donde hay mas de una variable
independiente, en cuyo caso se dice que se realiza un analisis de regresion lineal multiple.
8.2. Modelo de Regresion Lineal Multiple
En general se puede relacionar la variable respuesta y con k variables independientes
x1, x2, ..., xk, en ese caso el modelo esta dado por
y = β0 + β1x1 + β2x2 + ... + βkxk + ε (8.1)
donde los coeficientes βj, j = 0, 1, ..., k son constantes desconocidas y son los
parametros del modelo. Cada βj representa el cambio esperado en la respuesta y por
151
152 Captulo 8. Anlisis de Regresin Lineal Mltiple.
el cambio unitario en xj cuando todas las demas variables independientes xi(i �= j) se
mantienen constantes. ε es un componente de error aleatorio.
En el caso de los modelos de regresion multiple es preferible usar la notacion ma-
tricial, pues dicha forma permite expresar el modelo en una forma mas compacta y
que con un poco de conocimiento del algebra matricial los resultados se simplifican
considerablemente.
Forma Matricial: El modelo de Regresion Multiple en su forma matricial es la sigu-
iente:
y = Xβ + ε (8.2)
donde
1. y es un vector n × 1 observable;
2. X es una matriz n × p que contiene los valores de las variables independientes;
3. β es un vector p × 1 de parametros no observables;
4. ε es un vector n×1 de variables aleatorias no observables conocido como el vector
de errores aleatorios.
Si se reescriben los vectores y las matrices de la ecuacion 2.2 en detalle, se obtiene
y =
⎡⎢⎢⎢⎢⎢⎢⎢⎣
y1
y2
...
yn
1 x11 x12 . . . x1k
1 x21 x22 . . . x2k
......
. . ....
1 xn1 xn2 . . . xnk
⎤⎥⎥⎥⎥⎥⎥⎥⎦
β =
⎡⎢⎢⎢⎢⎢⎢⎢⎣
β0
β1
...
βk
⎤⎥⎥⎥⎥⎥⎥⎥⎦
ε =
⎡⎢⎢⎢⎢⎢⎢⎢⎣
ε1
ε2
...
εn
⎤⎥⎥⎥⎥⎥⎥⎥⎦
(8.3)
8.3. Ejemplo: Tiempo de Entrega 153
8.3. Ejemplo: Tiempo de Entrega
Este es un ejemplo tomado de Montgomery(2002):Un embotellador de bebidas
gaseosas analiza las rutas de servicio de las maquinas expendedoras en su sistema
de distribucion. Le interesa predecir el tiempo necesario para que el representante de
ruta atienda las maquinas expendedoras en una tienda. Esta actividad de servicio con-
siste en abastecer la maquina con productos embotellados, y algo de mantenimiento o
limpieza. El ingeniero industrial responsable del estudio ha sugerido que las dos vari-
ables mas importantes que afectan el tiempo de entrega y son la cantidad de cajas de
producto abastecido, x1, y la distancia caminada por el representante, x2. El ingeniero
ha reunido 25 observaciones de tiempo de entrega que se ven en la tabla 2.1. Se ajustara
el modelo de regresion lineal simple siguiente
y = β0 + βx1 + ε
En este caso la matriz X y el vector y estan dados por
Tabla 8.1: Datos de tiempo de entrega
Observacion y x1 x2 Observacion y x1 x2
1 16,68 7 560 14 19,75 6 4622 11,5 3 220 15 24 9 4483 12,03 3 340 16 29 10 7764 14,88 4 80 17 15,35 6 2005 13,75 6 150 18 19 7 1326 18,11 7 330 19 9,5 3 367 8 2 110 20 35,1 17 7708 17,83 7 210 21 17,9 10 1409 79,24 30 1460 22 52,32 26 81010 21,5 5 605 23 18,75 9 45011 40,33 16 688 24 19,83 8 63512 21 10 215 25 10,75 4 15013 13,5 4 255
154 Captulo 8. Anlisis de Regresin Lineal Mltiple.
X =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1 7 560
1 3 220
1 3 340
1 4 80
1 6 150
1 7 330
1 2 110
1 7 210
1 30 1460
1 5 605
1 16 688
1 10 215
1 4 255
1 6 462
1 9 448
1 10 776
1 6 200
1 7 132
1 3 36
1 17 770
1 10 140
1 26 810
1 9 450
1 8 635
1 4 150
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
y =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
16,68
11,50
12,03
14,88
13,75
18,11
8,00
17,83
79,24
21,50
40,33
21,00
13,50
19,75
24,00
29,00
15,35
19,00
9,50
35,10
17,90
52,32
18,75
19,83
10,75
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
8.4. Estimacin de los Parmetros del Modelo 155
8.4. Estimacion de los Parametros del Modelo
8.4.1. Estimacion de β.
El estimador de mınimos cuadrados de β, denotado por β, es el valor de β que
mınimiza
S(β) =n∑
i=1
ε2i = ε′ε = (y − Xβ)′(y − Xβ)
Por lo tanto, lo que se debe hacer es derivar la expresion anterior y buscar el valor de
β que la hace igual a cero. Antes de derivar note que la expresion anterior se puede
escribir como
S(β) = y′y − β′X′y − y′Xβ + X′β′βX
= y′y − 2β′X′y + X′β′βX
Ahora si derivando e igualando a cero se obtiene
∂S
∂β
∣∣∣∣β
= −2X′y + 2X′Xβ = 0
que se simplifica a
X′Xβ = X′y (8.4)
las cuales se conocen como las ecuaciones normales de mınimos cuadrados. Para
hallar la expresion de β se premultiplica la ecuacion anterior por la inversa de X′X
(que en este caso se asume que existe). Por lo tanto el estimador de β por mınimos
cuadrados es
β = (X′X)−1X′y (8.5)
156 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Ejemplo 8.1 Para el ejemplo se tiene que la matriz X′X esta dada por
X′X =
⎡⎢⎢⎢⎢⎣
1 1 · · · 1
7 3 · · · 4
560 220 · · · 150
⎤⎥⎥⎥⎥⎦
⎡⎢⎢⎢⎢⎢⎢⎢⎣
1 7 560
1 3 220
......
...
1 4 150
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎣
25 219 10232
219 3055 133899
10232 133899 6725688
⎤⎥⎥⎥⎥⎦
y el vector X′y es
X′y =
⎡⎢⎢⎢⎢⎣
1 1 · · · 1
7 3 · · · 4
560 220 · · · 150
⎤⎥⎥⎥⎥⎦
⎡⎢⎢⎢⎢⎢⎢⎢⎣
16,68
11,50
...
10,75
⎤⎥⎥⎥⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎣
559,60
7375,44
337072,00
⎤⎥⎥⎥⎥⎦
El estimador de β por mınimos cuadrados es
β = (X′X)−1X′y
8.4. Estimacin de los Parmetros del Modelo 157
o sea
⎡⎢⎢⎢⎢⎣
β0
β1
β2
⎤⎥⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎣
25 219 10232
219 3055 133899
10232 133899 6725688
⎤⎥⎥⎥⎥⎦
−1 ⎡⎢⎢⎢⎢⎣
559,60
7375,44
337072,00
⎤⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎣
0,11321518 −0,00444859 −0,00008367
−0,00444859 0,00274378 −0,00004786
−0,00008367 −0,00004786 0,00000123
⎤⎥⎥⎥⎥⎦
−1 ⎡⎢⎢⎢⎢⎣
559,60
7375,44
337072,00
⎤⎥⎥⎥⎥⎦
=
⎡⎢⎢⎢⎢⎣
2,34123115
1,61590712
0,01438483
⎤⎥⎥⎥⎥⎦
El ajuste por mınimos cuadrados, con los coeficientes de regresion expresados con cinco
decimales, es
y = 2,34123 + 1,61591x1 + 0,01438x2
Procedimiento en R
La estimacion de los parametros se obtienen directamente usando la instruccion
> MRLM1<-lm(resp~x1+x2,data=Datos)
> MRLM1
con lo cual se obtiene
Call:
lm(formula = resp ~ x1 + x2, data = Datos)
158 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Coefficients:
(Intercept) x1 x2
2.34123 1.61591 0.01438
en donde se tiene que β0 = 2,34123, β1 = 1,61591 y β2 = 0,01438.
Si se quiere conocer el valor de uno de los estimadores en particular se usa la instruccion
> objetolm$coef[j+1]
Con lo cual se obtiene el valor estimado del parametro j. Por ejemplo, si quiere conocer
el valor de β1 se coloca la instruccion
> MRLM1$coef[2]
Otra manera de obtener las estimaciones usando R es usando las siguientes instrucciones
Creacion de la matriz X y el vector y
> X<-matrix(c(idv,x1,x2),nrow=25,ncol=3)
> y<-matrix(c(resp),nrow=25,ncol=1)
Se calculan las estimaciones usando la ecuacion ** por medio de las siguientes
instrucciones
> beta<-solve((t(X)%*%X))%*%t(X)%*%y
> beta
Si se desea conocer el valor de alguno de los βj se usa la siguiente instruccion
> beta[j]
8.4. Estimacin de los Parmetros del Modelo 159
8.4.2. Estimacion de σ2.
Al igual que en el caso de la regresion lineal simple, el estimador de σ2 se puede
obtener a partir de la suma de cuadrados de los residuales:
SCRes =n∑
i=1
(yi − yi)2
=n∑
i=1
r2i
= r′r
Sustituyendo r = y − Xβ se obtiene
SCRes = (y − Xβ)′(y − Xβ)
= y′y − β′X′y − y′Xβ + β′X′Xβ
= y′y − 2β′X′y + β′X′Xβ
como X′Xβ = X′y, la ultima ecuacion se transforma en
SCRes = y′y − β′X′y (8.6)
la cual tiene n − p grados de libertad (pues hay que p parametros en el modelo de
regresion multiple). Por lo tanto el cuadrado medio del residual es
CMRes =SCRes
n − p(8.7)
160 Captulo 8. Anlisis de Regresin Lineal Mltiple.
cuyo valor esperado es σ2. Por lo tanto un estimador insesgados de σ2, denotado por
σ2 es
σ2 = MRes (8.8)
Ejemplo 8.2 Se estimara la varianza del error, σ2, para el ajuste del modelo de regre-
sion multiple a los datos de tiempo de entrega de bebidas gaseosas en el ejemplo ***.
Ya que
y′y = 18310, 6290
y
β′X′y =
[2, 34123115 1, 61590721 0, 01438483
]⎡⎢⎢⎢⎢⎣
559,60
7375,44
337072,00
⎤⎥⎥⎥⎥⎦
= 18076, 90304
la suma de cuadrados de residuales es
SCRes = y′y − β′X′y
= 18310, 6290 − 18076,9030 = 233, 7260
Por consiguiente, el estimado de σ2 es el cuadrado medio de residuales
σ2 =SCRes
GLRes
=223, 7260
25 − 3= 10, 6239
8.4. Estimacin de los Parmetros del Modelo 161
Procedimiento en R
La estimacion de√
σ2 se obtiene como uno de los resultados arrojados por la in-
struccion
> summary(objetolm)
donde objetolm es un objeto de la instruccion lm(). Otra manera de obtener la esti-
macion de σ2 es usando las siguientes instrucciones
> varest<-(t(y)%*%y-t(beta)%*%t(X)%*%y)/(nrow(y)-nrow(beta))
> varest
8.4.3. Propiedades de los estimadores.
1. Son estimadores insesgados. En la seccion anterior se probo que σ2 es un
estimador insesgados de σ2. Por lo tanto solo falta probar con β.
E(β) = E[(X′X)−1X′y] = (X′X)−1X′E(y) = (X′X)−1X′E(Xβ + ε)
= (X′X)−1X′Xβ = β
2. Cov(β) = σ2(X′X)−1
3. β y σ2 son independientes.
4. Si se supone que los errores son normales se tiene que β tambien se distribuye
normal y que una funcion de σ2 se distribuye chi cuadrado. Ademas β y σ2 son
los estimadores de maxima verosimilitud.
162 Captulo 8. Anlisis de Regresin Lineal Mltiple.
8.5. Prueba de hipotesis en la Regresion Lineal Multi-
ple
Nota: Esta seccion es tomada del libro Introduccion al analisis de regresion lineal de
Montgomery, Pecky Vining.
Una vez estimados los parametros del modelo, surgen de inmediato dos preguntas:
1. ¿Cual es la adecuacion general del modelo?
2. ¿Cuales regresores especıficos parecen importantes?.
Hay varios procedimientos de prueba de hipotesis que demuestran su utilidad para
contestar estas preguntas. Las pruebas formales requieren que los errores aleatorios sean
independientes y tengan una distribucion normal con promedio 0 y varianza constante
(σ2).
8.5.1. Prueba de la significancia de la regresion
La prueba de la significancia de la regresion es para determinar si hay una relacion
lineal entre la respuesta y cualquiera de las variables regresoras x1, x2, ..., xk. Este pro-
cedimiento suele considerarse como una prueba general o global de la adecuacion del
modelo. Las hipotesis pertinentes son:
H0 : β0 = β1 = ... = βk = 0
H1 : βj �= 0 Para al menos una j
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 163
El rechazo de la hipotesis nula implica que al menos uno de los regresores x1, x2, ..., xk
contribuye al modelo significativamente. El procedimiento de prueba es una general-
izacion del analisis de varianza que se uso en la regresion lineal simple. La suma de
cuadrados total SCT se divide en una suma de cuadrados debida a la regresion,
SCR, y a una suma de cuadrados de residuales, SCRes. Donde,
SCT = y′y −
(n∑
i=1
yi
)2
n
SCR = β′Xy −
(n∑
i=1
yi
)2
n
SCRes = SCT − SCR
Bajo la hipotesis nula cierta, se puede demostrar que SCR/σ2 tiene una distribucion
χ2k, donde k es el numero de variables independientes. Tambien SCRes/σ
2 tiene una
distribucion χ2n−k−1 y que ademas SCRes y SCR son independientes. Por lo tanto, de
acuerdo con la definicion de un estadıstico F se tiene que
F0 =SCR/k
SCRes/n − k − 1=
CMR
CMRes
tiene una distribucion Fk,n−k−1. Donde CMR = SCR/k es el cuadrado medio de la
regresion y CMRes = SCRes/n − k − 1 es el cuadrado medios de los residuales, cuyos
valores esperados son respectivamente
E(CMR) = σ2 +β∗′X′
cXcβ∗
kσ2
E(CMRes) = σ2
164 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Siendo β∗ = (β1, β2, ..., βk)′ y Xc es la matriz ”centrada” del modelo, definida por
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
x11 − x1 x12 − x2 · · · x1k − xk
x21 − x1 x22 − x2 · · · x2k − xk
...... . . .
...
xi1 − x1 xi2 − x2 · · · xik − xk
...... . . .
...
xn1 − x1 xn2 − x2 · · · xnk − xk
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
El procedimiento de prueba se resume normalmente en una tabla de analisis de
varianza, como la tabla ****
Fuente de Variacion Suma de cuadradosGrados de Cuadrados
F0libertad mediosRegresion SCR k CMR CMR
CMResResiduales SCRes n − k − 1 CMRes
Total SCT n − 1
Ejemplo 8.3 (Datos del tiempo de entrega) Se probara la significancia de la re-
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 165
gresion con los datos del tiempo de entrega del ejemplo ****. Note que
SCT = y′y −
(n∑
i=1
yi
)2
n
= 18310, 6290 − (559, 60)2
25= 5784, 5426
SCR = β′Xy −
(n∑
i=1
yi
)2
n
= 18076, 9030 − (559, 60)2
25= 5550, 8166
SCRes = SCT − SCR
= 5784, 5426 − 5550, 8166 = 233, 7260
El analisis de varianza se muestra en la tabla ***. Para probar H0 : β1 = β2 = 0, se
calcula el estadıstico
F0 =CMR
CMRes
=2775, 4083
10, 6239= 261, 24
Como el valor de F0 es mayor al valor tabulado, Fα;k;n−k−1 = F0,05;2;22 = 3,44, entonces
se rechaza H0, lo cual implica que el tiempo de entrega depende del volumen de entrega
y/o de la distancia. Sin embargo eso no implica necesariamente que la relacion que se
encontro sea adecuada para predecir el tiempo de entrega en funcion del volumen y de
la distancia. Se requieren mas pruebas de adecuacion del modelo.
166 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Como hacerlo en R
Para obtener la tabla de analisis de varianza como la expresada anteriormente es
necesario calcular cada uno de sus elementos, para ellos se usan las siguientes instruc-
ciones
Sumas de cuadrados
> SCT<-sum((data\$Y-mean(data\$Y))^2)
> SCR<-sum((objetolm\$fitted-mean(data\$Y))^2)
> SCRes<-sum(objetolm\$residuals^2)
Para el ejemplo *** las instrucciones son
> SCT<-sum((Datos$resp-mean(Datos$resp))^2)
> SCR<-sum((MRL1$fitted-mean(Datos$resp))^2)
> SCRes<-sum(MRL1$residuals^2)$
con lo cual se obtienen los siguientes resultados
> 5784.543
> 5550.811
> 233.7317
Los cuales son parecidos a los obtenidos haciendo lo calculos, la diferencia se debe
a errores de redondeo.
Grados de libertad
> n<-nrow(cbind(Y))
> GLT<- n-1
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 167
> GLRes<- df.residuals(objetolm())
> GLR<- GLT-GLRes
Para el ejemplo *** las instrucciones son
> n<-nrow(cbind(resp))
> GLT<- n-1
> GLRes<- df.residual(MRL1)
> GLR<- GLT-GLRes
con lo cual se obtienen los siguientes resultados
> 24
> 22
> 2
Cuadrados Medios
> CMR<-SCR/GLR
> CMRes<-SCRes/GLRes
obteniendose en el ejemplo
> 2775.405
> 10.62417
F calculado
> Fo<-CMR/CMRes
lo cual para el ejemplo se obtiene
168 Captulo 8. Anlisis de Regresin Lineal Mltiple.
> 261.2351
Valor P
> pv<-1 - pf(F0, GLR,GLRes)
que para el ejemplo es
> 4.440892e-16
los cuales coinciden con los resultados mostrados en la tabla de analisis de varianza
(tabla ***).
R2 y R2 ajustada
Otras dos maneras de evaluar la adecuacion general del modelo son los estadısticos
R2 y R2 ajustada; esta ultima se representa por R2Adj. El R2 mide la variabilidad de la
variable respuesta que es explicada por el modelo, esta dada por
R2 =SCR
SCT
La desventaja del R2 es que por lo general dicha cantidad aumenta cuando se agrega
un regresor al modelo, independientemente del valor de la contribucion de esa variable.
En consecuencia es dıficil juzgar si un aumento de R2 dice en realidad algo importante.
Algunas personas que trabajan con modelo de regresion prefieren usar el estadıstico
R2Adj, que se define como sigue:
R2Adj = 1 − SCR/GLR
SCT /GLT
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 169
En vista de que SCR/GLR
SCT /GLTes el cuadrado medio de los residuales y SCT /GLT es con-
stante, independientemente de cuantas variables hay en el modelo, R2Adj solo aumentara
al agregar una variable al modelo si esa adicion reduce el cuadrado medio residual. En
R estos valores son obtenidos al usar la funcion summary().
8.5.2. Pruebas sobre coeficientes individuales de regresion
Una vez determinado que al menos uno de los regresores es importante, la pregunta
logica es ¿cual(es) sirve(n) de ellos?. Si se agrega una variable a un modelo de regre-
sion, la suma de cuadrados de la regresion aumenta, y la suma de cuadrados residuales
disminuye. Se debe decidir si el aumento de la suma de cuadrados de la regresion es
suficiente para garantizar el uso del regresor adicional en el modelo. La adicion de un
regresor tambien aumenta la varianza del valor ajustadoy, por lo que se debe tener
cuidado de incluir solo regresores que tenga valor para explicar la respuesta. Ademas,
si se agrega un regresor no importante se puede aumentar el cuadrado medio de resid-
uales, y con eso se disminuya la utilidad del modelo.
Las hipotesis para probar la significancia de cualquier coeficiente individual de regre-
sion, por ejemplo βj, son
H0 : βj = 0
H1 : βj �= 0
170 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Si no se rechaza H0, quiere decir que se puede eliminar el regresor xj del modelo. El
estadıstico de prueba para esta hipotesis es
t0 =βj√σ2Cjj
=βj√
var(βj)(8.9)
donde Cij es el j-esimo elemento de la diagonal de (X′X)−1 que corresponde a βj.
Se rechaza H0 si |t0| > tα/2,n−k−1. Notese que esta es en realidad una prueba parcial o
marginal, porque el coeficiente de regresion βj depende de todas las demas variables re-
gresoras xi (i �= j), que hay en el modelo. Ası, se trata de una prueba de la contribucion
de xj dados los demas regresores del modelo.
Ejemplo 8.4 Para ilustrar el procedimiento se usaran los datos de tiempos de entrega
del ejemplo ***. Se supone que se desea evaluar la importancia de la variable regresora
DISTANCE (distancia,x2) dado que el regresor CASES (cajas,x1) esta en el modelo.
Las hipotesis son
H0 : β2 = 0
H1 : β2 �= 0
El elemento de la diagonal principal de (X′X)−1 que corresponde a β2 es C22 =
0,00000123, por lo que el estadıstico de la ecuacion 2.9 es
t0 =βj√σ2Cjj
=0, 01438√
(10, 6239)(0,00000123)= 3, 98
En vista de que t0,025;22 = 2, 074, se rechaza H0, y la conclusion es que el regresor
DISTANCE, o x2, contribuye en forma significativa al modelo, dado que CASES, o x1,
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 171
ya esta tambien en el modelo.
Como hacerlo en R
La prueba de hipotesis referidas a coeficientes individuales se obtiene con la instruc-
cion
> summary(objetolm())
En el ejemplo serıa
> summary(MRL1)
Con lo cual se obtienen diversos resultados (como se explico antes) entre los cuales se
encuentran los correspondientes a los parametros del modelo, y se muestran a contin-
uacion
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.341231 1.096730 2.135 0.044170 *
x1 1.615907 0.170735 9.464 3.25e-09 ***
x2 0.014385 0.003613 3.981 0.000631 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En dichos resultados se observa, por ejemplo que β2 = 0, 014385,
√V arβ2 = 0,003613,
t0 = 3, 981 y el valor de P es 0,000631. Los cuales coinciden con los valores obtenidos
anteriormente.
172 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Otra alternativa de realizar las pruebas sobre los coeficientes individuales
Tambien se puede determinar directamente la contribucion de la suma de cuadrados
de un regresor en la regresion, por ejemplo de xj, dado que otros regresores xi (i �= j),
estan ya en el modelo; para eso se usa el metodo de suma extra de cuadrados.
Con este procedimiento tambien se puede investigar la contribucion de un subconjunto
de las variables regresoras para el modelo.
Considerese el modelo de regresion con k regresores
y = Xβ + ε
donde y es un vector n × 1, X es una matriz n × p,β es un vector p × 1, ε es un
vector n× 1 y p = k + 1. Se desea determinar si algun subconjunto de r < k regresores
contribuyen en forma significativa al modelo de regresion. Se a seccionado como sigue
el vector de los coeficientes de regresion:
β =
⎡⎢⎣ β1
β2
⎤⎥⎦
donde β1 es un vector (p−r)×1 y β2 es un vector r×1. Se desean probar las siguientes
hipotesis
H0 : β2 = 0
H1 : β2 �= 0
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 173
Este modelo se puede escribir como sigue:
y = Xβ + ε = X1β1 + X2β2 + ε
en el que la matriz X1 de n× (p− r) representa a las columnas de X asociadas con β1
y la matriz X2 de n × r representa a las columnas de X asociadas con β2. A este se le
llama el modelo completo.
Para el modelo completo, se sabe que β = (X′X)−1Xy. La suma de cuadrados de
regresion para este modelo es
SCR(β) = β′X′y (p grados de libertad)
y
CMRes =y′y − β′X′y
n − p
Para determinar la contribucion de los terminos de β2 a la regreseion se ajusta el
modelo suponiendo que es cierta la hipotesis nula H0 : β2 = ∅. Este es conocido como
el modelo reducido y esta dado por
y = X1β1 + ε (8.10)
El estimador de β1 por mınimos cuadrados en el modelo reducido es β1 = (X′1X1)
−1X1y.
La suma de cuadrados de la regresion es
SCR(β1) = β′1X
′1y (p − r grados de libertad) (8.11)
174 Captulo 8. Anlisis de Regresin Lineal Mltiple.
La suma de cuadrados de la regresion debida a β2 dado que β1 ya esta en el modelo es
SCR(β2|β1) = SCR(β) − SCR(β1) (8.12)
con p− (p− r) = r grados de libertad. Esta suma de cuadrados se llama suma extra
de cuadrados debida a β2, porque mide el aumenta de la suma de cuadrados de
la regresion debida a agregar los regresores xk−r+1, xk−r+2, ..., xk a un modelo que ya
contiene x1, x2, ..., xk−r. Ahora, SCR(β2|β1) es independiente del CMres, y se puede
probar la hipotesis nula β2 = ∅ mediante el estadıstico
F0 =SCR(β2|β1)/r
CMRes
(8.13)
Si β2 �= ∅, entonces F0 sigue una distribucion F no central, con parametro de no
centralidad igual a
λ =1
σ2β′
2X′2
[I − X1(X
′1X1)
−1X′1
]X2β2
Este resultado es muy importante. Si hay multicolinealidad en los datos, hay casos en
os que β2 es definitivamente distinto de cero, pero esta prueba en realidad casi no tiene
potencia (capacidad para indicar esta diferencia) porque hay una relacion casi colineal
entre X1 y X2. En este caso, λ es casi cero aun cuando β2 sea realmente importante.
Esta relcaion tambien hace destacar que la maxima potencia de la prueba se alcanza
cuando X1 y X2 son ortogonales entres sı. Por ortogonales se entiende que X′2X1 = ∅.
Si F0 > Fα,r,n−p, se rechaza H0 y se concluye que al menos uno de los paramet-
ros en β2 es distinto de cero, y en consecuencia que al menos uno de los regresores
xk−r+1, xk−r+2, ..., xk en X2 contribuyen en forma significativa al modelo de regresion.
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 175
Algunos autores llaman la prueba 2.13 prueba parcial F, o prueba F parcial, porque
mide la contribucion de los regresores en xv2, dado que los demas regresores en X1 ya
estan el el modelo. Para ilustrar la utilidad de este procedimiento, considerese el modelo
y = β0 + x1β1 + x2β2 + x3β3 + ε
Las sumas de cuadrados
SCR(β1|β0, β2, β3)
SCR(β2|β0, β1, β3)
y
SCR(β3|β0, β1, β2)
son sumas de cuadrados de un grado de libertad que miden la contribucion de cada
regresor xj, j = 1, 2, 3, al modelo, dado que todos los demas regresores ya estaban en
el. Esto es, evalua la ventaja de agregar xj a un modelo que no incluıa a este regresor.
En general, se puede determinar
SCR(βj|β0, β1, ..., βj−1, βj+1, ..., βk), 1 ≤ j ≤ k
que es el aumento de la suma de cuadrados de regresion, debido a agregar xj a un
modelo que ya contiene x1, x2, ..., xj−1, xj+1, ..., xk. Hay quienes creen de utilidad imag-
inar que esto mide la contribucion de x − j como si fuera la ultima variable
agregada al modelo.
Se puede demostrar que la prueba F parcial sobre una variable unica xj equivale a la
prueba t en 2.9. Sin embargo, la prueba F parcial es un procedimiento mas general,
176 Captulo 8. Anlisis de Regresin Lineal Mltiple.
porque se puede medir el efecto de conjuntos de variables. Esta prueba se usa en la
formacion de modelos, es decir, en la busqueda del mejor conjunto de regresores que se
deben usar en el modelo.
Ejemplo 8.5 En los datos de tiempo de entrega de gaseosas del ejemplo ***, supongase
que se trata de investigar la contribucion de la variables distancia (x2) al modelo. Las
hipotesis correspondientes son
H0 : β2 = 0
H1 : β2 �= 0
Para probar estas hipotesis se necesita la suma de cuadrados debida a β2, que es
SCR(β2|β1, β0) = SCR(β1, β2, β0) − SCR(β1, β0)
= SCR(β1, β2|β0) − SCR(β1|β0)
De acuerdo con el ejemplo ***,
SCR(β1, β2|β0) = β′Xy −
(n∑
i=1
yi
)2
n= 5550, 8166
con 2 grados de libertad. El modelo reducido y = β0 + β1x1 + ε se ajusto en el ejemplo
***, y se obtuvo y = 3, 3201 + 2, 1762x1. La suma de cuadrados de regresion para este
modelo es
SCR(β1|β0) = β′1X1y −
(n∑
i=1
yi
)2
n= 5382, 4077
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 177
con 1 grado de libertad. Por consiguiente,
SCR(β2|β1, β0) = 5550, 8166 − 5382, 4088 = 168, 4078
Es un aumento de la suma de cuadrados de la regresion, que se debe agregar x2 al
modelo que ya contenıa a x1. Para probar H0 : β2 = 0 se forma el estadıstico de prueba
F0 =SCR(β2|β1, β0)/1
CMRes
=168, 4078/1
10, 6239= 15, 85
Observese que el CMRes del modelo completo, que contiene a x1 y x2, se usa en el
denominador del estadıstico. Como F0,05;1;22 = 4, 30, se rechaza H0 : β2 = 0 y se
concluye que la distancia (x2) contribuye al modelo en forma significativa.
Como esta prueba F parcial implica a una sola variable, equivale a la prueba t.
Como hacerlo en R
Los rsultados de las pruebas F parciales para cada variable regresora se obtienen
directamente de la tabla de analisis de varianza al usar la instruccion
> anova(objetolm())
Para el ejemplo anterior, al usar la instruccion anova(MRL1) se obtiene la tabla
?? En dichos resultados se observa que en la fila correspondiente a la variable x2 se
Df Sum Sq Mean Sq F value Pr(>F)x1 1 5382.41 5382.41 506.62 0.0000x2 1 168.40 168.40 15.85 0.0006Residuals 22 233.73 10.62
Tabla 8.2: Anlisis de Varianza
encuentran la suma de cuadrados correspondiente a la agregacion de dicha variable
178 Captulo 8. Anlisis de Regresin Lineal Mltiple.
al modelo, el estadıstico de prueba y el valor de P los cuales permiten evaluar la
significancia del coeficiente β2.
8.5.3. Prueba de la hipotesis lineal general
Se pueden probar muchas hipotesis acerca de los coeficientes de regresion, si se
usa un metodo unificado. El metodo de suma extra de cuadrados es un caso especial
de este procedimiento. En el procedimiento mas general, la suma de cuadrados con
la que se calcula la hipotesis es como la diferencia de dos sumas de cuadrados de
residuales. A continuacion se describira el procedimiento. Para conocer demostraciones
y descripciones mas detalladas, consultese Graybill[1976], Searle[1971] o Seber[1977].
Supongase que la hipotesis nula de interes se expresa en la forma H0 : Hβ = 0, donde
Hv es una matriz de constantes q × p, tal que solo r de las q ecuaciones de Hβ son
independientes (es decir H es de rango r). El modelo completo es y = Xβ + ε, siendo
β = (X′X)−1X′y, y la suma de cuadrados de residuales, para este modelo es
SCRes(MC) = y′y − β′X′y (n − p grados de libertad)
Para obtener el modelo reducido, se usan las r ecuaciones independientes en H0 : Hβ =
0 para calcular los r coeficientes de regresion en el modelo completo, en funcion de los
p− r coeficientes restantes de regresion. Esto conduce al modelo reducido y = Zγ + ε,
por ejemplo, donde Z es una matriz n×(p−r) y γ es un vector (p−r)×1, de coeficientes
desconocidos de regresion. El estimado de γ es
γ = (Z′Z)−1Z′y
8.5. Prueba de hiptesis en la Regresin Lineal Mltiple 179
y la suma de cuadrados de residuales, para este modelo es
SCRes(MR) = y′y − γ′Z′y (n − p + r grados de libertad)
El modelo reducido contiene menos parametros que el modelo completo, ası que SCRes(MR) ≥SCRes(MC). para probar la hipotesis H0 : Hβ = 0 se emplea la diferencia de sumas de
cuadrados de residuales
SCH = SCRes(MR) − SCRes(MC) (8.14)
con n−p+r−(n−p) = r grados de libertad. En ella, SCH se llama suma de cuadrados
debida a la hipotesis H0 : Hβ = 0. El estadıstico de prueba para esta hipotesis es
F0 =SCH/r
SCRes(MC)/(n − p)(8.15)
Se rechaza H0 : Hβ = 0 si F0 > Fα;r;n−p.
Prueba de igualdad de coeficientes de regresion
Para probar la igualdad de los coeficientes de regresion se puede usar el metodo de
la hipotesis lineal general. Por ejemplo suponga el siguiente modelo
y = β0 + β1x1 + β2x2 + β3x3 + ε
180 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Para el modelo completo, SCRes tiene n−p = n−4 grados de libertad. Se desea probar
H0 : β1 = β3. Esta hipotesis se puede enunciar como H0 : Hβ = 0, siendo
H = [0, 1, 0,−1]
un vector 1 × 4. Hay solo una ecuacion en H0 : Hβ = 0, que es β1 − β3 = 0. Si se
sustituye esta ecuacion en el modelo completo, se obtiene el modelo reducido
y = β0 + β1x1 + β2x2 + β1x3 + ε
= β0 + β1(x1 + x3) + β2x2 + ε
= γ0 + γ1z1 + γ2z2 + ε
donde γ0 = β0, γ1 = β1(= β3), z1 = x1 + x3, γ2 = β2 y z2 = x2. Al ajustar el modelo
reducido se calcularıa la SCRes(MR) con n − 4 + 1 = n − 3 grados de libertad. La
suma de cuadrados debida a la hipotesis SCH = SCRes(MR) − SCRes(MC) tiene
n − 3 − (n − 4) = 1 grado de libertad. El cociente F (ecuacion 2.15) es
F0 =SCH/1
SCRes(MC)/(n − 4)
Notese que esta hipotesis tambien se podrıa probar con el estadıstico t:
t0 =β1 − β3√
var(β1 − β3)=
β1 − β3√σ2(C11 + C33 − 2C13)
con n − 4 grados de libertad.
8.6. Intervalos de Confianza en Regresin Mltiple 181
8.6. Intervalos de Confianza en Regresion Multiple
Los intervalos de confianza de los coeficientes de regresion individuales, y los in-
tervalos de confianza de la respuesta media, para niveles especıficos de los regresores,
juegan el mismo papel importante que en la regresion lineal simple. En esta seccion
se desarrollan los intervalos de confianza, uno por uno, para estos casos. Tambien se
presentaran en forma breve los intervalos de confianza simultaneos para los coeficientes
de regresion.
8.6.1. Intervalos de confianza de los coeficientes de regresion
Para construir intervalos de confianza de los coeficientes de regresion βj, se contin-
uara suponiendo que los errores εi estan distribuidos normal e independientemente, con
media cero y varianza σ2. En consecuencia, las observaciones yi estan distribuidas en
forma normal e independientemente, con media β0 +∑k
j=1 βjxij y varianza σ2. Como
el estimador β por mınimos cuadrados es una combinacion lineal de las observaciones,
tambien esta distribuido normalmente, con media β y matriz de covarianza σ2(X′X)−1.
Esto implica que la distribucion marginal de cualquier coeficiente de regresion βj es
normal, con media βj y varianza σ2Cjj, donde Cjj es el j−esimo elemento diagonal de
la matriz (X′X)−1. En consecuencia, cada una de los estadısticos
βj − βj√σ2Cjj
, j = 0, 1, 2, ..., k (8.16)
se distribuye t-student con n − p grados de libertad, donde σ2 es el estimador de la
varianza.
De acuerdo con el resultado de la ecuacion 2.16 se puede definir un intervalo de confianza
182 Captulo 8. Anlisis de Regresin Lineal Mltiple.
de 100(1 − α) por ciento para el coeficiente de regresion βj, j = 0, 1, ..., k, como sigue
βj − tα/2,n−p
√σ2Cjj ≤ βj ≤ βj + tα/2,n−p
√σ2Cjj (8.17)
Ejemplo 8.6 Se calculara un intervalo de confianza del 95% para el parametro β1
en el ejemplo ***. La estimacion puntual de β1 es β1 = 10, 6239 (de acuerdo con el
ejemplo ***). Se aplica la ecuacion 2.17 y se ve que
β1 − t0,025;22
√σ2C11 ≤ β1 ≤ β1 + t0,025;22
√σ2C11
1, 61591 − (2, 074)√
(10, 6239)(0, 00274378) ≤ β1 ≤ 1, 61591 + (2, 074)√
(10, 6239)(0, 00274378)
1, 61591 − (2, 074)(0, 17073) ≤ β1 ≤ 1, 61591 + (2, 074)(0, 17073)
y el intervalo de confianza de 95% para β1 es
1, 26181 ≤ β1 ≤ 1, 97001
8.6. Intervalos de Confianza en Regresin Mltiple 183
8.6.2. Intervalo de confianza de la respuesta media
Se puede establecer un intervalo de confianza para la respuesta media en determi-
nado punto, como x01, x02, ..., x0k. Defınase el vector x0 como sigue
x0 =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1
x01
x02
...
x0k
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
El valor ajustado en este punto es
y0 = x′0β (8.18)
Es un estimador insesgado de E(y|x0), porque E(y0) = x′0β = E(y|x0), la varianza de
y0 es
V ar(y0) = σ2x′0(X
′X)−1x0 (8.19)
Por consiguiente, un intervalo de confianza de 100(1 − α) por ciento de la respuesta
media en el punto x01, x02, ..., x0k es
y0 − tα/2,n−p
√V ar(y0) ≤ E(y|x0) ≤ y0 − tα/2,n−p
√V ar(y0) (8.20)
Ejemplo 8.7 El embotellador de gaseosas del ejemplo *** quiere establecer un inter-
valo de confianza de 95% para el tiempo medio
184 Captulo 8. Anlisis de Regresin Lineal Mltiple.
8.6.3. Intervalos de confianza simultaneos para coeficientes de
regresion
Se han descrito los procedimientos para establecer diversos tipos de intervalos de con-
fianza y de prediccion para el modelo de regresion lineal. Se ha hecho notar que estos
son intervalos de uno por uno, estop es, son los tipos usuales de intervalo de confianza
o de prediccion, en donde el coeficiente de confianza 1 − α indica la proporcion de
estimaciones correctas que resulta cuando se seleccionan muestras aleatorias repetidas.
En algunos problemas se necesita construir varios intervalos de confianza o de predic-
cion con los mismos datos de la muestra. En esos casos, el analista suele interesarse
en la especificacion de un coeficiente de confianza que se aplique en forma simultanea,
o al mismo tiempo, a todo el conjunto de estimaciones por intervalo. Un conjunto de
intervalos de confianza o prediccion que son todos ciertos en forma simultanea, con
1 − α de probabilidad, se llama conjunto de intervalos simultaneos o conjuntos de
confianza o de prediccion.
Por ejemplo, se tiene un modelo de regresion lineal simple. Suponga que el analista desea
sacar inferencias acerca de la ordenada al origen β0 y la pendiente β1, una posibilidad
serıa establecer intervalos de confianza, por ejemplo de 95 %, para ambos parametros,
sin embargo, si esos estimados son independientes, la probabilidad de que ambas afir-
maciones sean correctas es (0, 95)2 = 0, 9025. Ası, no se tiene un nivel de confianza
de 95 % asociado con ambas afirmaciones. Ademas, como los intervalos se establecen
usando el mismo conjunto de datos muestrales, no son independientes. Esto introduce
mayor complicacion en la determinacion del nivel de confianza para el conjunto de
afirmaciones.
Es relativamente facil definir una region de confianza conjunta para los parametros β
8.7. Otras Funciones de R 185
del modelo de regresion multiple. Se puede demostrar que
(β − β)′X′X(β − β)
pCMRes
∼ Fp,n−p
y eso implica que
P
[(β − β)′X′X(β − β)
pCMRes
≤ Fα,p,n−p
]= 1 − α
En consecuencia, una region de confianza conjunta de 100(1−α) por ciento, para todos
los parametros en β es
(β − β)′X′X(β − β)
pCMRes
≤ Fα,p,n−p (8.21)
Esta desigualdad describe una region de forma elıptica.
8.7. Otras Funciones de R
Para realizar las pruebas de hipotesis y encontrar los intervalos de confianza que no
se obtienen directamente a partir de la instruccion lm(), se usan operaciones basicas de
matrices y el uso de las formulas antes descritas. A continuacion se muestran algunas
de las instrucciones usadas.
186 Captulo 8. Anlisis de Regresin Lineal Mltiple.
8.7.1. Definicion de una matriz en R
Recuerde que una matriz Am×n es un arreglo rectangular de n filas y m columnas, es
decir
A =
⎛⎜⎜⎜⎜⎜⎜⎜⎝
a11 a11 . . . a1n
a21 a22 . . . a2n
......
. . ....
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎟⎠
En R una matriz se define usando la funcion matrix(), cuya sintaxis es
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE)
donde
data: es un vector de datos
nrow: es el numero de filas deseadas
ncol: es el numero de columnas deseadas
byrow: es una variable logica. Si es ”FALSE” (por defecto) la matriz es llenada
por columnas, en caso contrario es llenada por filas.
Si se quiere definir una matriz A3×3 se usa la siguiente instrucccion
> A<-matrix(c(a11,a12,a13,a21,a22,a23,a31,a32,a33),
nrow=3,ncol=3,byrow=TRUE)
8.7. Otras Funciones de R 187
con lo cual se obtiene
A =
⎛⎜⎜⎜⎜⎝
a11 a11 a11
a21 a22 a23
a31 a32 a33
⎞⎟⎟⎟⎟⎠
Ejemplo 8.8 Para construir la matriz
X =
⎛⎜⎜⎜⎜⎜⎜⎜⎝
16 8 12 −4
8 5 11 −4
12 11 70 −31
−4 −4 −31 63
⎞⎟⎟⎟⎟⎟⎟⎟⎠
se usa la siguiente instruccion
> X<-matrix(c(16,8,12,-4,8,5,11,-4,12,11,70,-31,-4,-4,-31,63),
nrow=4,ncol=4,byrow=TRUE)
8.7.2. Operaciones de matrices en R
En la siguiente tabla se muestran las operaciones basicas entre matrices que necesarias
para los calculos en un modelo lineal general
Tabla 8.3: Operaciones bsicas sobre matrices
Operacion Operador EjemploSuma + A + BResta - A − B
Multiplicacion % ∗ % A % ∗ %B
188 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Ejemplo 8.9 Sean las matrices A y B dadas a continuacion
A =
⎛⎜⎜⎜⎜⎜⎜⎜⎝
16 8 12 −4
8 5 11 −4
12 11 70 −31
−4 −4 −31 63
⎞⎟⎟⎟⎟⎟⎟⎟⎠
B =
⎛⎜⎜⎜⎜⎜⎜⎜⎝
6 4 2 −4
8 5 1 −4
2 1 7 −3
−4 −4 −1 3
⎞⎟⎟⎟⎟⎟⎟⎟⎠
Se esta interesado en hallar A + B, A − B y A % ∗ %B.
Para crear las matrices A y B se usan las siguientes instrucciones
> A<-matrix(c(16,8,12,-4,8,5,11,-4,12,11,70,-31,-4,-4,-31,63),
nrow=4,ncol=4,byrow=TRUE)
> B<-matrix(c(6,4,2,-4,8,5,1,-4,2,1,7,-3,-4,-4,-1,3),nrow=4,ncol=4,
byrow=TRUE)
luego,
Para la suma se usa la siguiente instruccion
> A+B
Con lo que se obtiene
[,1] [,2] [,3] [,4]
[1,] 22 12 14 -8
[2,] 16 10 12 -8
[3,] 14 12 77 -34
[4,] -8 -8 -32 66
Para la resta se usa la siguiente instruccion
8.7. Otras Funciones de R 189
> A-B
Con lo que se obtiene
[,1] [,2] [,3] [,4]
[1,] 10 4 10 0
[2,] 0 0 10 0
[3,] 10 10 63 -28
[4,] 0 0 -30 60
Para la multiplicacion se usa la siguiente instruccion
> A%*%B
Con lo que se obtiene
[,1] [,2] [,3] [,4]
[1,] 200 132 128 -144
[2,] 126 84 102 -97
[3,] 424 297 556 -395
[4,] -370 -319 -292 314
8.7.3. Operaciones de matrices en R
Al igual que en el caso de las operaciones a continuacion se muestran solo las
funciones necesarias en el modelo lineal general
Tabla 8.4: Funciones bsicas sobre matrices
Funcion Operador EjemploTraspuesta t() t(A)
Inversa solve() solve(A)
190 Captulo 8. Anlisis de Regresin Lineal Mltiple.
Ejemplo 8.10 Para la matriz A definida en el ejemplo anterior, se tiene que
Para hallar la traspuesta de A (A′) se usa la siguiente instruccion
> t(A)
obteniendose
[,1] [,2] [,3] [,4]
[1,] 16 8 12 -4
[2,] 8 5 11 -4
[3,] 12 11 70 -31
[4,] -4 -4 -31 63
Para hallar la inversa de A (A−1) se usa la siguiente instruccion
> solve(A)
obteniendose
[,1] [,2] [,3] [,4]
[1,] 0.397888322 -0.74433107 0.04988662 0.002551020
[2,] -0.744331066 1.69954649 -0.14399093 -0.010204082
[3,] 0.049886621 -0.14399093 0.03287982 0.010204082
[4,] 0.002551020 -0.01020408 0.01020408 0.020408163
8.7.4. Valores tabulados y P valor
Para obtener los valores tabulados y el P valor de la distribucion t-Student se usan las
siguientes instrucciones
8.8. Ejercicios 191
> qt(probabilidad, grados de libertad, lambda, lower.tail = TRUE)
> pt(valor de t, grados de libertad, lambda, lower.tail = TRUE)
lower.tail = TRUE en caso de que las probabilidades son P [X <= x], de lo contrario,
P [X > x].
8.8. Ejercicios
1. Para los datos de la Liga Nacional de Futbol:
a) Ajustar un modelo de regresion lineal multiple que relacione la cantidad
de juegos ganados con las yardas por aire del equipo (x2), el porcentaje de
jugadas por tierra (x7) y las yardas por tierra del contrario (x8).
b) Formar la tabla de analisis de varianza y probar la significancia de la regre-
sion.
c) Calcular el estadıstico t para probar las hipotesis H0 : β2 = 0, H0 : β7 = 0
y H0 : β8 = 0. ¿Que conclusiones se pueden sacar acerca del papel de las
variables x2, x7 y x8 en el modelo?.
d) Calcular R2 y R2Adj para este modelo.
e) Con la prueba F parcial, determinar la contribucion de x7 al modelo. ¿Como
se relaciona el estadıstico F parcial con la prueba t calculada en el inciso c.?
f ) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
g) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
192 Captulo 8. Anlisis de Regresin Lineal Mltiple.
h) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
i) Calcular un intervalo de confianza de 95 % para β7 y un intervalo de confian-
za de 95 % para la cantidad media de juegos ganados por un equipo cuando
x2 = 2300, x7 = 56 y x8 = 2100.
j ) ajustar un modelo a esos datos, usando solo x7 y x8 como regresores y probar
la significancia de la regresion.
k) Calcular R2 y R2Adj. ¿Compararlos con los resultados del modelo anterior.
l) Calcular un intervalo de confianza de 95 % para β7. Tambien, un intervalo de
confianza de 95 % para la cantidad media de juegos ganados por un equipo
cuando x7 = 56 y x8 = 2100. Comparar la longitudes de esos intervalos de
confianza con las longitudes de los correspondientes al modelo anterior.
m) ¿Que conclusiones se pueden sacar de este problema, acerca de las conse-
cuencias de omitir un regresor importante de un modelo?
2. Vease los datos de rendimiento de gasolina.
a) Ajustar un modelo de regresion lineal multiple que relacione el rendimiento
de la gasolina y, en millas por galon, la cilindradada del motor (x1), y la
cantidad de gargantas del carburador, (x6).
b) Formar la tabla de analisis de varianza y probar la significancia de la regre-
sion.
c) Calcular R2 y R2Adj para este modelo. Compararlas con las R2 y R2
Adj para el
modelo de regresion lineal simple, que relaciona las millas con la cilindrada.
8.8. Ejercicios 193
d) Determinar un intervalo de confianza para β1.
e) Determinar un intervalo de confianza de 95 % para el rendimiento promedio
de la gasolina, cuando x1 = 225 pulg3 y x6 = 2 gargantas.
f ) Determinar un intervalo de prediccion de 95 % para una nueva observacion
de rendimiento de gasolina, cuando x1 = 225 pulg3 y x6 = 2 gargantas.
g) Considere el modelo de regresion lineal simple, que relaciona las millas con la
cilindrada.Contnstruya un intervalo de confianza de 95 % para el rendimiento
promedio de la gasolina y un intervalo de prediccion para el rendimiento,
cuando x1 = 225 pulg3. Compara las longitudes de estos intervalos con los
intervalos obtenidos en los dos incisos anteriores. ¿Tiene ventajas agregar x6
al modelo.
h) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
i) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
j ) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
3. Vease los datos sobre precios de viviendas
a) Ajustar un modelo de regresion lineal multiple que relacione el precio de
venta con los nueve regresores.
b) Probar la significancia de la regresion.¿Que conclusiones se pueden sacar?
c) Usar pruebas t para evaluar la contribucion de cada regresor al modelo.
194 Captulo 8. Anlisis de Regresin Lineal Mltiple.
d) Calcular R2 y R2Adj para este modelo.
e) ¿Cual es la contribucion del tamano del lote y el espacio vital para el modelo,
dado que se incluyeron todos los demas regresores?.
f ) En este modelo, ¿la colinealidad es un problema potencial?.
g) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
h) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
i) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
4. Para los datos sobre la eficiencia de un proceso quımico, en funcion de varias
variables controlables del proceso se pide
a) Ajustar un modelo de regresion lineal multiple que relacione el CO2 del
producto (y) con el solvente total (x6) y el consumo de hidrogeno (x7).
b) Probar la significancia de la regresion.
c) Calcular R2 y R2Adj para este modelo.
d) Usar pruebas t para evaluar la contribucion de x6 y x7 al modelo.
e) Establecer intervalos de confianza de 95 % para β6 y β7.
f ) Volver a ajustar el modelo solo con x6 como regresor. Probar la significancia
de la regresion y calcular R2 y R2Adj. Comentar los resultados. Con base en
estos estadısticos, ¿es satisfactorio el modelo?.
8.8. Ejercicios 195
g) Establecer un intervalo de confianza de 95 % para β6, con el modelo que se
ajusto en el inciso d. ¿Se deduce algo importante acerca de la contribucion
de x7 al modelo?.
h) Comparar los valores de CMRes obtenidos con los dos modelos que se ajus-
taron (partes a y e). ¿Como cambio el CMRes al quitar x − 7 del modelo?
¿Indica lo anterior algo importante acerca de la contribucion de x7 al mod-
elo?.
i) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
j ) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
k) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
a) En los datos se muestra la concentracion de NbOCL3 en un reactor de tubo
de flujo, en funcion de varias variables controlables.
b) Ajustar un modelo de regresion lineal multiple que relacione la concentracion
de NbOCL3 (y) con la COCL(2) (x1) y la fraccion mol (x4).
c) Probar la significancia de la regresion.
d) Calcular R2 y R2Adj para este modelo.
e) Usar pruebas t para evaluar la contribucion de x6 y x7 al modelo.
f ) Con pruebas t, determinar la contribucion de x1 y x4 al modelo. ¿Son nece-
sarios los dos regresores?
196 Captulo 8. Anlisis de Regresin Lineal Mltiple.
g) En este problema, ¿es la colinealidad un problema potencial?
h) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
i) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
j ) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
5. Se cree que la calidad del vino Pinot Noir se relaciona con sus propiedades de
claridad, aroma, cuerpo, sabor y fuerza. Se registraron los datos de 38 vinos.
a) Ajustar un modelo de regresion lineal multiple que relacione la calidad del
vino con esos regresores.
b) Probar la significancia de la regresion. ¿A que conclusiones se puede llegar?
c) Use pruebas t para evaluar la contribucion de cada regresor al modelo. Co-
mentar los resultados.
d) Calcular R2 y R2Adj. Comparar esos valores con R2 y R2
Adj para el modelo
de regresion lineal que relacione la calidad del vino con su aroma y sabor.
Comentar los resultados.
e) Determinar un intervalo de confianza de 95 % para el coeficiente de regresion
del sabor, para los dos modelos de la parte d. Comentar las diferencias
encontradas.
f ) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
8.8. Ejercicios 197
g) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
h) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
6. Un ingeniero hizo un experimento para determinar la presion, temperatura y
flujo de C =2, la humedad y el tamano de partıcula de los cacahuates sobre el
rendimiento total de aceite por lote de cacahuates.
a) Ajustar un modelo de regresion lineal multiple que relacione el rendimiento
con esos regresores.
b) Probar la significancia de la regresion. ¿A que conclusiones se puede llegar?
c) Hacer pruebas t para evaluar la contribucion de cada regresor al modelo.
Comentar los resultados.
d) Calcular R2 y R2Adj. Comparar esos valores con R2 y R2
Adj para el modelo de
regresion lineal que relacione el rendimiento con la temperatura y el tamano
de partıcula. Comentar los resultados.
e) Establecer un intervalo de confianza de 95 % para el coeficiente de regre-
sion de la temperatura, para los dos modelos de la parte d. Comentar las
diferencias encontradas.
f ) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
g) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
198 Captulo 8. Anlisis de Regresin Lineal Mltiple.
h) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
7. Un ingeniero quımico estudio el efecto de la cantidad de surfactante y el tiempo
sobre la formacion de catrato. Los catratos se usan como medio de conservacion
en frıo.
a) Ajustar un modelo de regresion lineal multiple que relacione la formacion
de catrato con esos regresores.
b) Probar la significancia de la regresion. ¿A que conclusiones se puede llegar?
c) Hacer pruebas t para evaluar la contribucion de cada regresor al modelo.
Comentar los resultados.
d) Calcular R2 y R2Adj. Comparar esos valores con R2 y R2
Adj para el mode-
lo de regresion lineal que relacione la formacion de catrato con el tiempo.
Comentar los resultados.
e) Establecer un intervalo de confianza de 95 % para el coeficiente de regresion
del tiempo, para los dos modelos de la parte d. Comentar las diferencias
encontradas.
f ) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
g) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
h) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
8.8. Ejercicios 199
regresor?.
8. Un ingeniero estudio el efecto de cuatro variables de un factor adimensional con
el que se describen las caıdas de presion en una columna de burbujeo de platos
perforados. Los catratos se usan como medio de conservacion en frıo.
a) Ajustar un modelo de regresion lineal multiple que relacione ese numero
adimensional con los cuatro regresores.
b) Probar la significancia de la regresion. ¿A que conclusiones se puede llegar?
c) Hacer pruebas t para evaluar la contribucion de cada regresor al modelo.
Comentar los resultados.
d) Calcular R2 y R2Adj. Comparar esos valores con R2 y R2
Adj para el modelo de
regresion lineal que relacione el numero adimensional con x2 y x3. Comentar
los resultados.
e) Determinar un intervalo de confianza de 99 % para el coeficiente de regre-
sion de x2, para los dos modelos de la parte d. Comentar las diferencias
encontradas.
f ) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
g) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
h) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
200 Captulo 8. Anlisis de Regresin Lineal Mltiple.
9. La viscosidad cinematica de cierto sistema de solventes depende de la relacion
entre los dos solventes y la temperatura.
a) Ajustar un modelo de regresion lineal multiple que relacione la viscosidad
con los dos regresores.
b) Probar la significancia de la regresion. ¿A que conclusiones se puede llegar?
c) Hacer pruebas t para evaluar la contribucion de cada regresor al modelo.
Comentar los resultados.
d) Calcular R2 y R2Adj. Comparar esos valores con R2 y R2
Adj para el mode-
lo de regresion lineal que relacione la viscosidad solo con la temperatura.
Comentar los resultados.
e) Establecer un intervalo de confianza de 99 % para el coeficiente de regre-
sion de la temperatura, para los dos modelos de la parte d. Comentar las
diferencias encontradas.
f ) Trazar una grafica de probabilidad normal de los residuales. ¿Parece haber
algun problema con la hipotesis de normalidad?
g) Trazar e interpretar una grafica de los residuales en funcion de la respuesta
predicha.
h) Trazar las graficas de los residuales en funcion de cada una de las variables
regresoras. ¿Implican esas graficas que se especifico en forma correcta el
regresor?.
Top Related