Ejemplo; Regresión lineal múltiple
-
Upload
hector-manuel-garrido-henriquez -
Category
Documents
-
view
50 -
download
1
description
Transcript of Ejemplo; Regresión lineal múltiple
Un analisis de la violacion de supuestos en el
contexto del modelo de regresion lineal multiple
Hector Garrido Henrıquez*
Profesor: Luis Firinguetti Limone
Modelos Lineales
Magıster en Matematica Mencion Estadıstica
Universidad del Bıo-Bıo
4 de enero de 2016
Resumen
En este informe se realiza un analisis completo de los supuestos del modelo clasico de regresion
lineal aplicado a una base de datos real relacionada a razones de la tasa de mortalidad en los
Estados Unidos a partir de variables explicativas principalmente ambientales.
1
Indice
1. Introduccion 3
2. Modelo a estimar y descripcion de los datos 3
2.1. Resultados preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Contrastes de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1. Contrastes de significancia individual . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.2. Contrastes de la bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.3. Coeficiente de determinacion y cuadro de analisis de varianza . . . . . . . . . . . . . 8
2.2.4. R2 ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Violacion de supuestos 9
3.1. Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.1.1. Analisis Grafico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.2. El Contraste de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.3. Otros Test’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2. Heteroscedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.1. Analisis grafico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.2. Contraste de Goldfeld-Quandt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3. Contraste de Breusch-Pagan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.4. Contraste de White . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4. Valores atıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.1. Apalancamiento o leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.2. Residuos estandarizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4.3. Residuos studentizados con omision . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5. Especificacion del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.1. RESET test de Ramsey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.2. Contraste F de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4. Solucion 30
4.1. Regresion Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5. Conclusion 32
5.1. Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.1. datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2
1. Introduccion
El analisis de regresion es una de las herramientas mas utilizadas en el de las estadısticas, pues es a
traves de este que puede pasarse de la estadıstica puramente descriptiva a modelos en los cuales cobra sen-
tido el termino causalidad. Es decir, a traves de este tipo de modelos se busca identificar la relacion entre
una variable generalmente denominada dependiente y una serie de variables explicativas (o regresoras, o
independientes, etc.)
El marco conceptual que sirve de sustento a este tipo de modelos es el modelo clasico de regresion lineal
(MCRL), el cual establece una serie de supuestos que deben cumplirse de manera tal de que el modelo
estimado constituya en sı, una herramienta adecuada de analisis, tanto si el objetivo es explicar los deter-
minantes de determinado fenomeno o si por otro lado, se busca predecir o simular dicho objeto de estudio.
Aunque puede resultar raro en la practica encontrar modelos que satisfagan cada uno de los supuestos del
MCRL, este sirve como una herramienta de comparacion o benchmark, de manera que, en la medida en
que el modelo que se esta estimando se asimile mas al MCRL, sera considerado de mayor validez.
En este documento se aborda un ejemplo concreto, el cual se pondra bajo analisis para determinar en
que medida satisface los supuestos del MCRL.
El informe comienza con una breve descripcion del modelo, su interpretacion y debidos contrastes de
hipotesis, para luego analizar la validez de los supuestos del MCRL. Todo el analisis se realiza utilizando
el lenguaje y entorno de programacion R, de forma que los resultados sean absolutamente reproducibles.
Ademas, el presente documento ha sido escrito a traves del sistema de composicion de texto LATEX˙
El orden en que los supuestos son analizados es el siguiente: i) Normalidad de los residuos; ii) Heterosce-
dasticidad; iii) Multicolinealidad, iv) Valores atıpicos y v) especificacion del modelo. En cada uno de los
apartados se realiza un diagnostico ası como una breve descripcion de la teorıa que subyace a cada con-
traste. En caso de existir algun problema se propondran vıas de solucion. Por ultimo, el informe concluya
con un breve comentario general sobre los resultados obtenidos y las conclusiones del trabajo.
2. Modelo a estimar y descripcion de los datos
El modelo propuesto es el siguiente:
Yi = β0 +8∑j=1
βjXji + ui
Las variables utilizadas se presentan en el siguiente cuadro1
1Las variables aquı listadas se presentan en orden correlativo, independientemente de que sean las mismas designadas enla tarea
3
Cuadro 1: Descripcion de variables
Variable Etiqueta DescripcionY mort Mortalidad total ajustada por edad por cada 100.000 habitantesX1 tempe Promedio de temperaturas del mes de enero en grados FahrenheitX2 tempj Promedio de temperaturas del mes de julio en grados FahrenheitX3 pob Poblacion promedio por hogar en 1960X4 dens Poblacion por milla cuadrada en areas urbanas en 1960X5 hc Potencial relativo de contaminacion por hidrocarburosX6 nox Potencial relativo de contaminacion por oxido de nitrogenoX7 so2 Potencial relativo de contaminacion por dioxido de azufreX8 hum Promedio anual del porcentaje de humedad relativa
2.1. Resultados preliminares
El vector de estimadores esta dado por la siguiente expresion
β = [X ′X]−1X ′Y
Los cuales siguen una distribucion normal multivariada, siempre y cuando se cumplan los supuestos del
MCRL, de la forma
β ∼ N(β, σ2[X ′X]−1)
La interpretacion de los resultados provistos en el Cuadro 2 es la siguiente:
β1: De manera independiente a todas las demas variables explicativas del modelo, la tasa de morta-
lidad promedio es de 117 personas por cada 100.000 habitantes
β2: Por cada aumento de un grado Fahrenheit en la temperatura promedio de enero , la tasa de
mortalidad aumenta en 0.296 personas, en promedio
β3: Por cada aumento de un grado Fahrenheit en la temperatura promedio de enero, La tasa de
mortalidad aumenta en 2.939 personas, en promedio
β4: Por cada aumento de una persona en el tamano promedio de los hogares la tasa de mortalidad
aumenta en 136.978 personas, en promedio
β5: Por cada aumento de una persona por milla cuadrada, la tasa de mortalidad aumenta en 0.009
personas, en promedio
β6: Por cada aumento unitario del potencial de contaminacion por hidrocarburos la tasa de mortalidad
decrece en 1.4 personas, en promedio
4
Cuadro 2: Resultados de la regresion
Dependent variable:
mort
tempe 0.296t = 0.317(0.935)
p = 0.753
tempj 2.939t = 1.312(2.240)
p = 0.196
pob 136.978t = 2.536(54.008)
p = 0.015∗∗
dens 0.009t = 1.825(0.005)
p = 0.074∗
hc −1.402t = −2.398
(0.585)p = 0.021∗∗
nox 2.753t = 2.285(1.205)
p = 0.027∗∗
so2 0.120t = 0.683(0.176)
p = 0.498
hum 1.647t = 1.065(1.546)
p = 0.292
Constant 117.813t = 0.434(271.166)p = 0.666
Observations 60R2 0.473Adjusted R2 0.390Residual Std. Error 48.592 (df = 51)F Statistic 5.712∗∗∗ (df = 8; 51)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01Errores estandar entre parentesisIntervalos de confianza al 95
5
β7: Por cada aumento unitario del ındice de potencial contaminacion por oxido nıtrico, la tasa de
mortalidad aumenta en 1.6 personas, en promedio
β8: Por cada aumento unitario del ındice de potencial contaminacion por dioxido de carbono, la tasa
de mortalidad aumenta en 0.12 personas, en promedio
β9: Por cada aumento porcentual de la humedad relativa la tasa de mortalidad aumenta en 1.647
personas, en promedio
2.2. Contrastes de hipotesis
2.2.1. Contrastes de significancia individual
El contraste de hipotesis mas utilizado consiste en preguntarse si acaso existe de hecho alguna relacion
entre la variable explicativa en cuestion y la variable dependiente, esto es equivalente a lo siguiente:
H0 : βj = 0 vs H1 : βj 6= 0
Si se asume que la hipotesis nula es cierta, ademas de supuestos adecuados con respecto a la distribucion
de los residuos de la regresion, puede entonces utilizarse el siguiente estadıstico de contraste
t =βj
ee(βj)
Puede demostrarse que este estadıstico sigue una distribucion t de student con n − k grados de libertad,
donde n es el numero de observaciones de la muestra y k el numero de parametros del modelo a estimar 2 De
esta forma, el contraste consiste en comparar el estadıstico t calculado vs el valor cuantil de la distribucion t
(valor crıtico) asociado a un nivel de significacion fijado por el investigador3, o en otras palabas, la maxima
probabilidad de cometer error de tipo I4 que se esta dispuesto a tolerar.
La regla entonces para decidir si un estadıstico βj pertenece a la region de rechazo R es la siguiente:∣∣∣∣∣ βj − βjee(βj)
∣∣∣∣∣ > t(α/2,n−k) (1)
A partir del modelo estimado puede afirmarse que dado que el valor cuantil de la distribucion t de student
con 60− 9 = 51 grados de libertad para una prueba de dos colas5 a un nivel de significancia de 5 % es de
2.007584
Intercepto: No se puede rechazar la hipotesis H0 : β1 = 0 pues el estadıstico t calculado (0.434)
es menor al valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈R|H0 es cierta) = 0,666 es una probabilidad de equivocarse al rechazar demasiado alta.
2incluyendo aquel asociado al intercepto3usualmente 10 %, 5 % y 1 %4La probabilidad de rechazar la hipotesis nula dado que esta es verdadera5dadado a que la hipotesis a contraster es simple
6
tempe: No se puede rechazar la hipotesis H0 : β2 = 0 pues el estadıstico t calculado (0.317) es menor
al valor crıtico con nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,753
es una probabilidad de equivocarse al rechazar demasiado alta.
tempj: No se puede rechazar la hipotesis H0 : β3 = 0 pues el estadıstico t calculado (1.312) es menor
al valor crıtico con nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,196
es una probabilidad de equivocarse al rechazar demasiado alta.
pob: Se rechaza la hipotesis H0 : β4 = 0 pues el estadıstico t calculado (2.536) es mayor al valor
crıtico fijado en un 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,015 es una probabilidad de
equivocarse al rechazar mas pequena que el nivel de significancia utilizado en el contraste
dens: No se puede rechazar la hipotesis H0 : β5 = 0 pues el estadıstico t calculado (1.825) es menor al
valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) =
0,074 es una probabilidad de equivocarse al rechazar demasiado alta.
hc: Se rechaza la hipotesis H0 : β6 = 0 pues el estadıstico t calculado (2.398) es mayor al valor
crıtico fijado en un 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,021 es una probabilidad de
equivocarse al rechazar mas pequena que el nivel de significancia utilizado en el contraste
nox: Se rechaza la hipotesis H0 : β7 = 0 pues el estadıstico t calculado (2.285) es mayor al valor
crıtico fijado en un 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,027 es una probabilidad de
equivocarse al rechazar mas pequena que el nivel de significancia utilizado en el contraste
so2: No se puede rechazar la hipotesis H0 : β8 = 0 pues el estadıstico t calculado (0.683) es menor al
valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) =
0,498 es una probabilidad de equivocarse al rechazar demasiado alta.
hum: No se puede rechazar la hipotesis H0 : β9 = 0 pues el estadıstico t calculado (1.065) es menor al
valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) =
0,292 es una probabilidad de equivocarse al rechazar demasiado alta.
2.2.2. Contrastes de la bondad del ajuste
Para evaluar la validez del modelo que se esta estimando resulta fundamental preguntarse si este visto
como un todo tiene una capacidad aceptable de explicar el fenomeno de interes. En este caso la tasa de
mortalidad por cada 100.000 habitantes en los Estados Unidos.
Las hipotesis del contraste de bondad de ajuste son las siguientes:
H0 : β1 = β2 = ... = βk vs H1 : βj 6= 0
El estadıstico utilizado para contrastar estas hipotesis, en el entendido que la hipotesis nula es verdadera
y los supuestos distribucionales sobre los residuos se cumplen, es el siguiente:
F =SCE/k − 1
SCR/n− k
7
Donde
SCE es la suma de cuadrados explicada
SCR es la suma de cuadrados residuales del modelo
k el numero de parametros a estimar, incluido el intercepto
De esta manera, el contraste consiste en comparar el estadıstico F calculado versus el valor cuantil de
una distribucion F de Snedecor-Fisher a un nivel de significancia dado, con k − 1 grados de libertad en el
numerador y n− k grados de libertad en el denominador. Para este ejercicio en particular, el valor crıtico
es de 2.126023.
Cuadro 3: Cuadro de Analisis de Varianza
Df Sum Sq Mean Sq F value Pr(>F)
tempe 1 205,751 205,751 0,087 0,769tempj 1 21, 428,650 21, 428,650 9,075 0,004pob 1 16, 093,240 16, 093,240 6,816 0,012dens 1 26, 046,390 26, 046,390 11,031 0,002hc 1 39,063 39,063 0,017 0,898
nox 1 39, 973,710 39, 973,710 16,930 0,0001so2 1 1, 421,833 1, 421,833 0,602 0,441hum 1 2, 680,145 2, 680,145 1,135 0,292
Residuals 51 120, 418,900 2, 361,154
El estadıstico calculado corresponde a F = 5,712 el cual es mayor al valor crıtico mencionado previa-
mente, de manera que puede afirmarse que existe evidencia estadıstica suficiente para rechazar la hipotesis
nula, y por tanto, afirmar que el modelo contribuye a explicar la variabilidad del fenomeno.
2.2.3. Coeficiente de determinacion y cuadro de analisis de varianza
A partir de la informacion provista por el cuadro 3, puede ademas calcularse el denominado coeficiente
de determinacion R2, dicho estadıstico esta acotado entre 0 y 1, de manera que puede interpretarse como
el porcentaje de la variabilidad del fenomeno que se esta explicando a traves del modelo. Su expresion es
la siguiente:
R2 =SCE
SCT=
∑ni (Yi − Y )2∑ni=1(Yi − Y )2
Si se escribe yi = Yi − Y , debe notarse que yi = β1x1i + ... + βkxki, con xji = Xji − Xj. Entonces, R2 es
igual a:
R2 =
∑ni=1 yi(β1x1i + ...+ βkxki)∑n
i=1(Yi − Y )2=
∑ni=1 yiβ1x1i∑n
i=1(Yi − Y )2+ ...+
∑ni=1 yiβkxki∑ni=1(Yi − Y )2
Lo cual implica que el coeficiente de determinacion R2 puede descomponerse para cada una de las variables
del modelo. De esta forma, a partir de la informacion provista por el cuadro de analisis de varianza del
apartado anterior, puede afirmarse que:
La variable tempe explica al rededor del 0.09 % de la variacion de la variable dependiente
La variable tempj explica al rededor del 9.39 % de la variacion de la variable dependiente
8
La variable pob explica al rededor del 7.05 % de la variacion de la variable dependiente
La variable dens explica al rededor del 11.4 % de la variacion de la variable dependiente
La variable hc explica al rededor del 0.017 % de la variacion de la variable dependiente
La variable nox explica al rededor del 17.5 % de la variacion de la variable dependiente.
La variable so2 explica al rededor del 0.62 % de la variacion de la variable dependiente
La variable hum explica al rededor del 1.17 % de la variacion de la variable dependiente
Luego, considerando a todas las variables explicativas en conjunto, puede afirmarse que se esta explicando
un 47.26 % de la suma de cuadrados total de Y (R2 = 0,4726). Naturalmente, como es de esperar, aquellas
variables con una contribucion insignificante se condicen con aquellas que no son estadsticamente significas.
Esto puede constatarse tambien observando el cuadro 3, donde se presentan los estadısticos F asociados
a cada variable, a partir de los cuales se desprende que las variables estadısticamente significativas son
las mismas obtenidas a traves de los contrastes de significancia individual. Dicho cuadro tambien puede
utilizarse para contrastar hipotesis sobre modelos anidados como se vera mas adelante (Vease seccion 3.5)
2.2.4. R2 ajustado
A pesar de su utilidad, el estadıstico R2 adolece de un problema, pues este provee un incentivo para
agregar variables irrelevantes al modelo, pues puede demostrarse que la SCR siempre disminuira en la
medida en que se agreguen parametros al modelo.
Para salvar esta situacion puede utilizarse el estadıstico R2 ajustado, el cual esta formulado de forma tal que
la inclusion de nuevos parametros sea penalizada. De esta manera, se evita la tendencia a sobreparametrizar
el modelo en funcion de la maximizacion de R2. Su expresion es la siguiente:
R2A = 1− (1−R2)
n− 1
n− k
Para el modelo en comento, el coeficiente R2A es de 0.39. Lo que implica que efectivamente se esta explicando
un 39 % de la suma de cuadrados total.
3. Violacion de supuestos
3.1. Normalidad de los residuos
El supuesto de normalidad, aunque no constituye como tal un supuesto del MCRL, es de vital impor-
tancia al momento de realizar contrastes de hipotesis para los coeficientes estimados y de la bondad del
ajuste del modelo. De manera que el uso de los estadısticos t y F y sus respectivas distribuciones descansan
en dicho supuesto.
Aunque utilizando una version adecuada del teorema central del lımite, puede afirmarse que para muestras
lo suficientemente grandes, es decir, asintoticamente, aunque los residuos no sigan una distribucion normal,
9
de todas formas lo haran los estimadores del modelo de regresion. Sin embargo, el tamano de la muestra
para el modelo estimado es de tamano moderado (n = 60), por lo que el analisis de este supuesto es de
particular importancia.
3.1.1. Analisis Grafico
La visualizacion de los datos provee de una buena perspectiva de la presencia de ciertos problemas al
realizar un analisis estadıstico. Aunque de naturaleza informal, constituyen utiles herramientas antes de
una examen mas riguroso de los datos.
Histogram of residuals(regression)
residuals(regression)
Fre
quen
cy
−150 −50 0 50 100 150
05
1015
20
(a) Histograma
−2 −1 0 1 2
−10
0−
500
5010
0
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
(b) QQ plot
Figura 1: Graficas de normalidad
Como puede observarse en la figura 1, se presentan dos graficas. La primera, en el panel a), es un
histograma, a traves del cual podemos visualizar varias caracterısticas de la distribucion tales como su
apuntalamiento y asimentrıa, basicamente esperamos que dicho histograma tenga una forma lo mas pare-
cida posible a una campana de Gauss. En este caso, la figura sugiere que no habrıa desviaciones importantes
desde la distribucion normal.
Por otro lado, en el panel b), se presenta una grafica denominada QQ-plot, en la cual se contrastan los
valores observados en la muestra contra valores extraıdos desde una distribucion normal estandar, simulada
por el paquete estadıstico. En la medida en que existan desviaciones importantes desde la recta de 45◦
grados, puede resultar razonable suponer no normalidad en los residuos. Para el modelo en comento, puede
observarse que aunque existen desviaciones de la recta, estas no parecen ser importantes, las que podrıan
atribuirse a otro tipo de problemas, tales como valores atıpicos, como se vera mas adelante .
10
3.1.2. El Contraste de Jarque-Bera
La idea detras de este contraste es bastante sencilla, utilizando estadısticas asociadas al tercer y cuarto
momento de la distribucion, se busca determinar cuanto se aleja la distribucion observada de los residuos
en terminos de curtosis y asimetrıa frente a la distribucion normal. Este contraste resulta aconsejable
cuando la muestra es relativamente grande (al menos n > 50). El Estadıstico del contraste de Jarque-Bera
esta dado por la siguiente expresion:
JB = n
(S2
6+
(K − 3)2
24
)Donde
n corresponde al tamano de la muestra
K es una medida relacionada a la curtosis de la distribucion
S es una medida relacionada a la asimetrıa de la distribucion
La hipotesis nula es la siguiente:
H0 : Los datos siguen una distribucion normal
Puede demostrarse que el estadıstico sigue una distribucion
JB ∼ χ2(2)
De manera que el contraste consiste en comparar el estadıstico calculado con determinado valor crıtico,
usualmente a un nivel de significancia del 5 %. Si el valor calculado es mayor puede afirmarse que existe
suficiente evidencia para rechazar la hipotesis nula.
A continuacion se presenta el codigo desarrollado en R para este contraste
Codigo R 3.1.1.
library(moments)
S<-skewness(residuals(regression)) #Coeficiente de asimetria
K<-kurtosis(residuals(regression)) #Coefiente de curtosis
n<-nrow(data) #numero de observaciones
JB<-n*((S^(2)/6)+(K-3)^(2)/24) #Estadıstico de Jarque-Bera
JB
## [1] 0.4801729
valor.crıtico<-qchisq(0.95,2)
p.value<-pchisq(JB,2)
p.value
11
## [1] 0.2134401
contraste<-ifelse(JB>valor.crıtico, "Se rechaza H0",
"No se rechaza H0")
contraste
## [1] "No se rechaza H0"
Tal como puede apreciarse en el codigo 3.1.1 para los datos provistos en el ejemplo, de acuerdo al
contraste de Jarque-Bera, no se presenta evidencia estadıstica suficiente para rechazar la hipotesis nula.
Pues, el estadıstico JB calculado es menor que el valor crıtico. Ademas se observa un valor p, de 0.2134,
es decir, la probabilidad de que el estadıstico tome dicho valor dado a que la hipotesis nula es cierta, es
mayor a la maxima probabilidad de error tipo I que estamos dispuestos a tolerar.
3.1.3. Otros Test’s
Ademas del contraste de Jarque-Bera, existen numerosos test’s desarrollados en la literatura para
determinar la veracidad de la hipotesis nula de normalidad en los residuos. Algunos de estos son
Contraste de Shapiro-Wilk: Para muestras de tamano menor a 50
Contraste de Kolmogorov-Smirnov, o su version mejorada para la normal de Lillifors
Contraste de Anderson-Darling: Para muestras de tamano mayor a 50
A continuacion, teniendo en cuenta que la muestra de la que se dispone es de 60 observaciones (n = 60),
se utilizan los contrastes de Anderson-Darling y Kolmogorov-Smirnov. Ambos contrastes, al igual que JB,
tienen por hipotesis nula la normalidad de los residuos, de forma que, en la medida en que los estadısticos
calculados excedan sus respectivos valores crıticos, podremos afirmar la falsedad de H0. Ambos contrastes,
de todas formas, poseen distribuciones propias, por lo que el camino mas breve consiste en observar el
valor p.
Codigo R 3.1.2.
library(nortest)
ad.test(residuals(regression)) #Contraste de Anderson Darling
##
## Anderson-Darling normality test
##
## data: residuals(regression)
## A = 0.40999, p-value = 0.3336
lillie.test(residuals(regression)) #Contraste de Kolmogorov Smirnov
12
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: residuals(regression)
## D = 0.11158, p-value = 0.06075
A partir del codigo 3.1.2, se desprende que ambos test no proveen evidencia estadıstica suficiente para
rechazar H0. De esta forma, podemos afirmar con relativa seguridad que la hipotesis de normalidad para
el modelo propuesto se mantiene.
3.2. Heteroscedasticidad
3.2.1. Analisis grafico
Un metodo bastante util para una primera inspeccion del problema de Heteroscedasticidad se obtiene
a traves de la comparacion entre los residuo del modelo y sus variables explicativas. De esta forma, se
pretende detectar patrones de crecimiento, decrecimiento o ambos, de los residuos en funcion de las variables
explicativas, lo que en terminos practicos es una clara senal de heteroscedasticidad.
10 20 30 40 50 60
−10
00
5010
0
tempe
65 70 75 80 85
−10
00
5010
0
tempj
resi
dual
s(re
gres
sion
)
2.9 3.0 3.1 3.2 3.3 3.4 3.5
−10
00
5010
0
pob
resi
dual
s(re
gres
sion
)
2000 4000 6000 8000 10000
−10
00
5010
0
dens
0 100 200 300 400 500 600
−10
00
5010
0
hc
resi
dual
s(re
gres
sion
)
0 50 100 150 200 250 300
−10
00
5010
0
nox
resi
dual
s(re
gres
sion
)
0 50 100 150 200 250
−10
00
5010
0
so2
40 45 50 55 60 65 70
−10
00
5010
0
hum
resi
dual
s(re
gres
sion
)
Figura 2: Residuos vs Variables explicativas
A partir de la figura 2, para el modelo estimado puede afirmarse lo siguiente:
13
La variable tempe presenta un patron creciente en los residuos, por tanto debiese analizarse con
mayor detalle (Vease seccion 3.2.2).
La variable tempj presenta un patron creciente en los residuos, por tanto debiese analizarse en mayor
detalle (Vease seccion 3.2.2).
La variable pob presenta un patron creciente en los residuos, por tanto debiese analizarse en mayor
detalle (Vease seccion 3.2.2).
La variable dens presenta un patron decreciente en los residuos
La variable hc presenta un patron decreciente en los residuos, aunque esto ultimo se debe a muy
pocas observaciones, las que pueden resultar en potenciales outliers (Vease seccion 3.4)
Al igual que en el caso anterior, en apariencia, la variable nox tiene un patron decreciente, aunque
este se manifiesta a partir de muy pocas observaciones.
La variable so2 presenta un patron decreciente en los residuos
La variable hum presenta un patron creciente en los residuos, por lo que se analizara con mayor
detencion (Vease seccion 3.2.2).
850 900 950 1000 1050
−2
−1
01
23
Valores predichos
Res
iduo
s es
tand
ariz
ados
Figura 3: Valores predichos vs residuos estandarizados
De manera similar al caso anterior, resulta util graficar los residuos estandarizados (Vease seccion 3.4) con-
tra los valores predichos de la variable explicativa como un diagnostico informal de heteroscedasticidad. Si
los residuos de la regresion enfrentados a la variable dependiente predicha tienen algun patron identificable
ya sea creciente, decreciente o en forma de mariposa, pueden obtenerse fundadas sospechas de la presencia
14
del problema de Heteroscedasticidad. Ademas, si dicho grafica sugiere algun patron de comportamiento no
lineal, esto puede generar dudas de si el modelo esta correctamente especificado (Vease seccion 3.5).
Para el modelo estimado puede observarse, aunque algo difuso, un patron creciente de los residuos en
funcion de la variable predicha, por lo que procederemos a continuacion a probar formalmente si se presenta
o no, el problema de heteroscedasticidad.
3.2.2. Contraste de Goldfeld-Quandt
Este contraste parte del supuesto de que la magnitud de σ2i depende de alguna variable zi, de todas
maneras, resulta util solo en aquel caso en que el patron de heteroscedasticidad sea de caracter monotono
creciente, la cual suele seleccionarse a partir del analisis grafico previo.
El procedimiento para el contraste es el siguiente:
1. Ordenar las observaciones por valores de la variable zi de menor a mayor.
2. Omitir k observaciones en mitad de la muestra, se recomienda eliminar un k = 8 para n = 30,
o un k = 16 para n = 60 o 90. Para muestras mas pequenas debera reducirse el criterio de k
observaciones eliminadas, para garantizar que la perdida de grados de libertad no sea excesiva.
Debera siempre garantizarse que (n − k)/2 > p parametros del modelo a estimar, ası de esa forma
habra n1 observaciones en el primer grupo y n2 observaciones en el segundo.
3. Estimar dos veces el modelo original, una con las (n− k)/2 primeras observaciones muestrales y otra
con las (n−k)/2 ultimas observaciones en la muestra. Notese que el numero de observaciones k omi-
tidas en el procedimiento 2 ha de ser suficientemente pequeno de modo que n−k2
sea sustancialmente
mayor que el numero de parametros en el modelo.
4. Sean SCR1 y SCR2 las sumas de cuadrados residuales de ambas regresiones. Entonces bajo el
supuesto de homocedasticidad y normalidad del termino de error, el cociente:
λ =SCR2/((n− k)/2)− pSCR1/((n− k)/2)− p
(2)
Se distribuye Fm,m con m = n−k2− p grados de libertad.
Las hipotesis a contrastar son:
H0 : σ2i = σ2 ∀i
H1 : ∃ σ2i 6= σ2
o bien
H0 : No existe heterocedasticidad
H1 : Existe heterocedasticidad
15
Si el valor de F es elevado, superando el valor crıtico de las tablas para los correspondientes grados de
libertad, indicara que el segundo conjunto de residuos es significativamente mas alto que el primero,
lo que lleva al rechazo de la Ho (Homocedasticidad).
Siguiendo las conclusiones del analisis grafico previo, se ha determinado que aquellas variables que poseen
un patron de heteroscedasticidad monotono creciente, son: tempe, tempj, pob y hum. De esta manera
se aplica el test de Goldfeld-Quandt bajo el procedimiento recien descrito utilizando el comando gqtest
perteneciente al paquete lmtest como se puede observar a continuacion:
Codigo R 3.2.1.
library(lmtest)
library(xtable)
gq.1<-gqtest(regression, order.by =~data$tempe, fraction=16)
gq.2<-gqtest(regression, order.by =~data$tempj, fraction=16)
gq.3<-gqtest(regression, order.by =~data$pob, fraction=16)
gq.4<-gqtest(regression, order.by =~data$pob, fraction=16)
p.value<-c(gq.1$p.value,gq.2$p.value, gq.3$p.value,gq.4$p.value)
statistic<-c(gq.1$statistic,gq.2$statistic, gq.3$statistic, gq.4$statistic)
valor.critico<-rep(qf(0.95,16,16),4)
gq.table<-matrix(c(statistic, valor.critico, p.value),4,3,byrow=FALSE)
colnames(gq.table)<-c("Estadıstico", "Valor crıtico", "Valor p")
rownames(gq.table)<-colnames(data)[c(2:4,9)]
Los resultados se encuentran resumidos en la siguiente tabla.
Estadıstico Valor crıtico Valor ptempe 1.83 2.33 0.14tempj 1.45 2.33 0.26
pob 2.77 2.33 0.04hum 2.77 2.33 0.04
De esta forma, puede afirmarse que variables que reproducen un patron de heteroscedasticidad puro son
pob y hum. Debido a que en ambos casos el valor del estadıstico λ calculado excede al valor crıtico escogido
con un nivel de significancia (α)de 5 %. A pesar de lo anterior, para mayor seguridad deben realizarse otros
analisis.
3.2.3. Contraste de Breusch-Pagan
El contraste de Breusch-Pagan estima la varianza de los residuos a partir de una regresion que esta en
funcion de un conjunto de variables no estocasticas Z1, Z2, . . . , Zk. Estas pueden incluir algunas o todas
las variables explicativas del modelo a estimar.
Sea el siguiente modelo lineal.
yi = β0 + β1Xi1 + · · ·+ βkXik + εi
16
Donde ε se distribuye normal con media cero y varianza dada por:
σ2 = h(Z ′iα)
Donde la funcion h posee la primera y la segunda derivada, α es un vector (p × 1) de parametros no
restringidos que no dependen de los coeficientes β, aquı Zi = (1, Z2, . . . , Zk), la hipotesis nula es equivalente
a p− 1 parametros de la siguiente forma.
H0 : α2 = . . . = αk = 0
Cualquiera sea la funcion elegida6 bajo la hipotesis nula entonces.
σ2i = h(α0) ∀i (3)
Por lo tanto si α1 = α2 = · · · = αk = 0 entonces los errores son homocedasticos, de lo contrario son
heterocedasticos.
De este modo, contrastar la hipotesis.
H0 : Los errores son homocedasticos
es equivalente a:
H0 : α2 = . . . = αk = 0
Procedimiento para el contraste:
1. Aplicar OLS en el modelo:
y = Xβ + ε (4)
y calcular los residuos ei = Yi − Yi
2. Luego, se estima la regresion auxiliar.
e2i = α0 + α1Zi1 + · · ·+ αkZik (5)
Puesto que la funcion h elegida es una de tipo lineal.
3. Se calcula el estadıstico.
w = nR2e (6)
6La funcion elegida podrıa ser: σ2i = Z ′
iα (lineal), σ2i = (Z ′
iα)2 (Cuadratica), σ2i = exp(Z ′
iα) (exponencial), etc.
17
Donde R2e es el coeficiente de determinacion de la regresion auxiliar y n es el numero de observaciones
en la muestra.
El estadıstico w se distribuye asintoticamente como una chi-cuadrado con k− 1 grados de libertad bajo la
hipotesis nula de homocedasticidad.
Se observa que para valores grandes del estadıstico w, que corresponde a valores grandes del coeficiente
de determinacion, existe evidencia en contra de H0, lo cual indica un buen ajuste y que los coeficientes αi
son distintos de cero.
A continuacion se aplica el contraste al modelo estimado a traves del siguiente codigo en R
Codigo R 3.2.2.
resid.sq<-regression$residuals^2 #residuos al cuadrado.
formula<-resid.sq~tempe+tempj+pob+dens+hc+nox+so2+hum
bp.regress<-lm(formula, data=data)
R.e<-summary(bp.regress)$r.squared
k<-ncol(data)-1
n<-nrow(data)
w.0<-n*R.e
p.value<-pchisq(w.0,k)
p.value
## [1] 0.6860755
De donde se desprende que utilizando el error al cuadrado contra todas las variables explicativas del
modelo no se presenta evidencia estadıstica sufiente para afirmar la presencia del problema de heterosce-
dasticidad.
3.2.4. Contraste de White
En este contraste la idea subyacente es determinar si las variables explicativas del modelo, sus cuadrados
y todos sus cruces posibles no repetidos sirven para determinar la evolucion del error al cuadrado. Si la
evolucion de las variables explicativas y de sus varianzas y covarianzas son significativas para determinar
el valor de la varianza muestral de los errores, entendida esta como una estimacion de las varianzas de las
perturbaciones aleatorias.
El proceso para realizar este contraste es el siguiente:
1. Estimar el modelo original por MCO, determinando los residuales con todas las variables predictoras.
2. Estimar un modelo en el que la variable endogena serıa los valores al cuadrado de los errores obtenidos
previamente (paso 1) con todas las variables explicativas del modelo inicial, sus cuadrados y sus
combinaciones no repetidas.
e2i = β0 +
p∑j=1
βjXji +
p∑j=1
αjX2ji +
p∑j 6=k
XkiXji
18
Donde los parametros α son estimados por OLS, y los regresores son todos los productos cruzados y
de segundo orden νi es ruido blanco.
3. El valor de la R2e de este ultimo modelo explica si las variables elegidas sirven o no para estimar la
evolucion variante del error al cuadrado, representativo de la varianza estimada de las perturbaciones
aleatorias, si la varianza de estas fuera constante, el caracter no constante de las variables explicativas
implicadas en el modelo no servirıa para explicar a la variable de respuesta, ası, R2e deberia ser muy
pequena.
Un valor de R suficientemente pequeno servira para concluir que no existe heterocedasticidad en el
modelo producido por los valores de las variables explicativas, para encontrar un valor crıtico se emplea
la expresion de Breusch y pagan como el producto del coeficiente R2e por el numero de datos del modelo,
cuya distribucion es una chi cuadrado.
nR2e → χp−1 (7)
Ası de esta forma un valor del producto nR2e mayor que el reflejado por las tablas de una χp−1 con p− 1
grados de libertad, se afirma que existe heterocedasticidad.
A continuacion se presenta el codigo utilizado para construir el contraste en R
Codigo R 3.2.3.
resid.sq<-regression$residuals^2 #residuos al cuadrado.
vars<-colnames(data)[2:9] #variables
combi=rep(NA,choose(length(vars),2)) #combinaciones
m=1
n<-ncol(vars) #numero de variables
for (i in vars){for (j in vars){
if (j>=i){combi[m]=paste(i,j,sep="*")
#print(k)
m=m+1
}}
}variables<-paste(vars, collapse="+")
interacciones<-paste(combi,collapse="+")
formula<-paste("resid.sq~", variables, interacciones, sep="+")
white.reg<-do.call("lm", list(as.formula(formula), data=as.name("data")))
R.e<-summary(white.reg)$r.squared #R cuadrado auxiliar
n<-nrow(data) #Numero de observaciones
19
w.0<-n*R.e #Estadıstico de White
w.0
## [1] 35.41978
k<-ncol(data)-1+choose(8,2) #numero de regresoras en el modelo auxiliar
valor.crıtico<-qchisq(0.95,k)
valor.crıtico
## [1] 50.99846
test<-ifelse(w.0>valor.crıtico, "Se rechaza H0", "No se rechaza H0")
test
## [1] "No se rechaza H0"
p.value<-pchisq(w.0,k)
p.value
## [1] 0.503999
De esta manera, el estadıstico w resulto mas pequeno que el valor crıtico segun la distribucion chi-
cuadrado con k − 1 +
(k − 1
2
)grados de libertad. Debido a que esta prueba es util para contrastar
cualquier patron de heteroscedasticidad, y por tanto, la mas potente de las aquı expuestas, el problema de
la heteroscedasticidad en el modelo es finalmente desechado.
3.3. Multicolinealidad
La multicolinealidad es la condicion en la que existe una fuerte relacion lineal entre variables inde-
pendientes. Esta se constituye en un problema grave, en la medida en que es la condicion donde existe
una perfecta o exacta relacion lıneal entre las variables independientes. Esto significa que para calcular β
es necesario obtener la matriz inversa de [X ′X]. Pero, si los vectores son linealmente dependientes entre
sı, o lo que es lo mismo, existe una relacion perfecta entre algunas de las variables explicativas, entonces
[X ′X]−1 no existe. Por lo tanto, β tampoco.
En la practica, ninguna variable es absolutamente incorrelada con otra. Lo importante es que esa
correlacion sea baja para que se cumplan los supuestos del modelo clasico de regresion lineal. El principal
problema de la multicolinealidad es que la varianza ( y por lo tanto, los errores estandar) de nuestros
estimadores ’se inflan’. Esto significa que:
identificar el efecto de cada Xj sobre Y sera difıcil
Esto debido a que el estadıstico t usado para contrastar la hipotesis de significancia tendera a aceptar
la hipotesis nula (H0 : βj = 0)
20
Algunas posibles causas del problemas son las siguientes
Un mal diseno del muestreo puede llevar a un problema de multicolinealidad
Problemas en la medicion de datos agregados
Sobreparametrizar el modelo: Agregar demasiadas interacciones, polinomios, etc.
Para su diagnostico existe basicamente tres pruebas:
Matriz de correlaciones
R2 auxiliar
VIF
La primera herramienta consiste en calcular el coeficiente r de pearson entre todas las variables explicativas
del modelo y disponerlos en una matriz, denominada matriz de correlacion. De esta manera puede realizarse
un analisis exploratorio con el fin de determinar que variables estan mas correlacionadas entre sı. El
problema de este procedimiento consiste en que es un analisis parcial, pues la multicolinealidad implica la
relacion de todas o un numero significativo de variables al mismo tiempo.
Por otro lado, el uso del coeficiente R2 auxiliar permite salvar dicho defecto, pues a partir de este puede
determinarse que tan relacionada se encuentra una variable con todas las demas del modelo.
Su procedimiento de calculo es sencillo y consiste en regresionar cada una de las variables del modelo
contra el resto de las variables explicativas. De forma que cada variable tendra su propio R2 auxiliar. De
esta formar, aquellas variables que tengan asociado un coeficiente R2 auxiliar alto, pueden ser consideradas
como causantes del problema.
Del procedimiento anterior, surge la pregunta de como establecer un criterio para determinar cuando un
R2 auxiliar es alto o bajo. Por lo que puede utilizarse el estadistico denominado V IF o factor de inflacion
de la varianza, el cual esta dado por la siguiente expresion:
V IFj =1
1−R2
Suele afirmarse que con valores V IF superiores a 10 la variable Xj puede ser una fuente de multicolinea-
lidad.
A continuacion se presenta la matriz de correlacion calculada para las variables del modelo
tempe tempj pob dens hc nox so2 humtempe 1.00 0.35 -0.21 -0.10 0.35 0.32 -0.11 0.07tempj 0.35 1.00 0.26 -0.06 -0.36 -0.34 -0.10 -0.45
pob -0.21 0.26 1.00 -0.18 -0.39 -0.36 -0.00 -0.14dens -0.10 -0.06 -0.18 1.00 0.12 0.17 0.43 -0.12
hc 0.35 -0.36 -0.39 0.12 1.00 0.98 0.28 -0.02nox 0.32 -0.34 -0.36 0.17 0.98 1.00 0.41 -0.05so2 -0.11 -0.10 -0.00 0.43 0.28 0.41 1.00 -0.10
hum 0.07 -0.45 -0.14 -0.12 -0.02 -0.05 -0.10 1.00
Cuadro 4: Matriz de correlacion
21
De la inspeccion de la tabla puede desprenderse que en general la correlacion entre variables explicativas
del modelo es baja (digamos rj < 0,7), sin embargo las variables hc y nox presentan una correlacion muy
elevada, de un orden de 0.98. Por lo que dichas variables pueden ser problematicas.
R2 VIFtempe 0.56 2.26tempj 0.65 2.84
pob 0.25 1.33dens 0.25 1.33
hc 0.99 72.28nox 0.99 77.88so2 0.68 3.12
hum 0.42 1.72
Cuadro 5: Diagnostico de Multicolinealidad
Del cuadro anterior se desprende, tal y como se senalo para la matriz de correlaciones, las variables hc
y nox parecen ser problemas pues son estas aqquellas que tienen un valor VIF superior a 10. Ası tambien
sus coeficientes R2 auxiliar son muy altos. De donde se concluye que el problema de Multicolinealidad
esta presente en el modelo.
3.4. Valores atıpicos
Como un objeto de especial atencion en el analisis de regresion se presenta el analsis de la presencia de
valores atıpicos. Los valores atıpicos o outliers son observaciones que siguen un patron de comportamiento
raro en relacion a la mayorıa de observaciones de la muestra. Estos deben ser revisados, pues eventualmente
su presencia puede distorsionar los resultados de la regresion y por tanto, pueden llevar a conclusiones
erroneas sobre el fenomeno que se esta analizando.
3.4.1. Apalancamiento o leverage
El analisis de apalancamiento se realiza para determinar cuan determinante puede resultar una ob-
servacion en el ajuste de la recta (o el plano) de regresion. De forma que, a veces, una sola observacion
o un pequeno grupo de observaciones, puede condicionar al modelo completo en desmedro de las demas
observaciones.
Una medida de apalancamiento o leverage puede construirse a partir de la matriz H. La matriz H se
define de la siguiente forma:
H = X(X ′X)−1X ′
De manera que cada fila puede escribirse como:
hi = x′i(X′X)−1xi
22
Donde xi representa al i-esimo vector fila de la matriz de diseno X.
Puede interpretarse a hi como una medida de distancia entre el vector xi y un vector de medias
muestrales de las variables predictoras, dado por:
x =1
n
n∑i=1
xi
. Se puede utilizar ademas el hecho que:
trH = rankH = k
Donde k se corresponde con el numero de vectores columna7 de la matriz X, pues, los vectores de H son
linealmente independientes. De esta forma, el promedio, k/n, es una comparacion util para determinar en
que medida una observacion se aleja desde el centro del espacio de covariables.
Una observacion sera considerada como atıpica en la medida en que hi > 2 kn. Aunque suele utilizarse
tambien criterios como 3 kn
e inclusive 5 kn.
El codigo utilizado para determinar el apalancamiento de cada observacion se presenta a continuacion:
Codigo R 3.4.1.
x<-cbind(1, data$tempe, data$tempj,
data$pob, data$dens, data$hc,
data$nox, data$so2, data$hum)
xtxinv<-solve(t(x)%*%x)
n<-nrow(data)
lev<-rep(NA,n)
for(i in 1:n){lev[i]<-t(x[i,])%*%xtxinv%*%x[i,]
}
7Por coherencia con el resto de la notacion utilizada en el informe se ha escogido k en lugar de p como comunmente sesuele denotar
23
0.2 0.4 0.6 0.8
−10
0−
500
5010
0
lev
res
1
2
34 5
6
7
8
9
10
11
1213
14
15
16
17 18
19
20
21
22
23
24 25
26
27
28
29
3031
32
33
34
35
36
37
38
39
40
4142
43
44
45
46
47
48
49
50
5152
53
54
55
56
57
58
59
60
Figura 4: Grafico de residuos vs leverage
3.4.2. Residuos estandarizados
Los residuos estandarizados suelen escribirse como:
εi =εi
S√
1− hi
Codigo R 3.4.2.
s2<-sum(regression$res^2)/regression$df.res
standardized.resid<-regression$res/(sqrt(s2*(1-lev)))
24
Histogram of standardized.resid
standardized.resid
Fre
quen
cy
−3 −2 −1 0 1 2 3
05
1015
20
Figura 5: Histograma de residuos estandarizados
Una vez calculados los residuos estandarizados del modelo se analiza que observaciones poseen un valor
> 3 a traves de la siguiente orden en R
Codigo R 3.4.3.
standardized.resid[standardized.resid>=3]
## named numeric(0)
De donde se desprende que bajo este criterio, no se presentan observaciones atıpicas
3.4.3. Residuos studentizados con omision
Una manera mas efectiva de detectar la presencia de valores atıpicos es el denominado uso de residuos
estudentizados con omision, es decir, se estudentizan los residuos a partir de la desviacion tıpica estimada
excluyendo la observacion bajo analisis. De esta manera, puede determinarse que tan influyente resulta
la observacion sobre la funcion de regresion muestral estimada. Al igual que en el caso anterior, suele
considerarse a una observacion como un valor influyente, en la medida en que bajo este criterio sea mayor
a tres.
Codigo R 3.4.4.
tmp<-lm.influence(regression)
ext.res<-regression$res/(tmp$sigma*sqrt(1-tmp$hat))
ext.res[abs(ext.res)>=3]
## 37
## 3.217752
25
De esta forma se identifica a la observacion numero 37 como una observacion influyente.
En la figura siguiente se reafirma lo anterior al graficar los valores predichos contra los residuos stu-
dentizados con omision. La observacion 37 se ha destacado en rojo y puede observarse como se separa
considerablemente de las demas.
850 900 950 1000 1050
−2
−1
01
23
regression$fitted.values
ext.r
es
Figura 6: Residuos estudentizados con omision vs valores predichos
Luego, utilizando la misma grafica, se han destacado aquellas observaciones que generan apalancamien-
to, ademas de la variable influyente detectada segun el analisis anterior.
850 900 950 1000 1050
−2
−1
01
23
Valores predichos
Res
iduo
s es
tand
ariz
ados
Una manera efectiva de transformar el modelo sin quitar la observacion influyente es crear una variable
ficticia que tome el valor 1 solo para esa observacion y 0 para todas las demas. Dado a que esta variable
es influyente, debiese esperarse que sea significativa.
26
Los resultados de este ejercicio se presentan a continuacion.
Cuadro 6
Dependent variable:
mort
(1) (2)
tempe 0.296 −0.105(0.935) (0.868)
tempj 2.939 2.319(2.240) (2.068)
pob 136.978∗∗ 116.896∗∗
(54.008) (50.037)
dens 0.009∗ 0.008∗
(0.005) (0.005)
hc −1.402∗∗ −1.051∗
(0.585) (0.549)
nox 2.753∗∗ 2.000∗
(1.205) (1.132)
so2 0.120 0.228(0.176) (0.165)
hum 1.647 0.901(1.546) (1.440)
influyente 157.782∗∗∗
(49.035)
Constant 117.813 285.307(271.166) (254.645)
Observations 60 60R2 0.473 0.563Adjusted R2 0.390 0.484Residual Std. Error 48.592 (df = 51) 44.668 (df = 50)F Statistic 5.712∗∗∗ (df = 8; 51) 7.159∗∗∗ (df = 9; 50)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
Luego el valor predicho para esta observacion es exacto, lo que es equivalente a afirmar que su residuo es
cero. Por ende, puede observarse como han cambiado los β’s estimados luego de quitar dicha observacion.
Codigo R 3.4.5.
data$mort[rownames(data)==37]
## [1] 1113.156
modelo.alt$fitted.values[rownames(data)==37]
## 37
## 1113.156
27
Lo anterior, puede considerarse un ejercicio meramente ilustrativo, pues se desconocen las verdaderas
razones de porque la observacion 37 tiene un comportamiento diferentes a las demas. Por lo que quitarla
no es realmente una opcion. Para abordar el problema de manera mas efectiva, convendra acudir a algun
modelo de estimacion robusto, como bien podrıa ser la regresion en la mediana. Por desgracia, dicho analsis
esta fuera del alcance del autor.
3.5. Especificacion del modelo
Un supuesto fundamental al momento de realizar la estimacion de un modelo de regresion lineal es
si el modelo esta correcta o incorrectamente especificado, pues como se ha mencionado en los apartados
previos, esto puede generar otros problemas adicionales
3.5.1. RESET test de Ramsey
Este contraste es util en caso que exista alguna sospecha sobre la omision de algun termino no lineal
en el modelo. Una manera de alcanzar este objetivo serıa incluir cada una de las variables explicativas
del modelo de forma polinomica y analizar la significancia estadıstica de cada uno de los terminos de
orden superior, sin embargo este procedimiento conllevarıa una perdida excesiva de grados de libertad
ademas de generar problemas evidentes de multicolinealidad. Para evitar estos inconvenientes, la docima
de Ramsey RESET utiliza los valos de la variable predicha, usualmente en terminos cuadraticos y cubicos,
de la siguiente forma:
Yi = β1 + β2X2i + ...+ βkXki + δ1Y2i + δ2Y
2i + εi
Las hipotesis del contraste son las siguientes:
H0 : δ1 = δ2 = 0 vs H1 : δ1 6= 0y/oδ2 6= 0
El estadıstico de este contraste es el siguiente:
F =(SCRR − SCR)/2
SCR/n− k − 2
Donde R identifica al modelo restringido (sin terminos no lineales). Suponiendo la veracidad de H0 ademas
de la normalidad de los residuos del modelo, el estadıstico recien descrito se distribuye F ∼ F2,n−k−2
De esta forma se rechaza H0 si ocurre que F > F(2,n−k−2)
Este contraste esta disponible a traves del comando resettest del paquete lmtest
Codigo R 3.5.1.
library(lmtest)
resettest(regression)
##
## RESET test
28
##
## data: regression
## RESET = 0.54568, df1 = 2, df2 = 49, p-value = 0.5829
Como puede apreciarse en el codigo previo, el resultado del test de ramsey no presenta evidencia
suficiente para rechazar la hipotesis nula, por lo que puede desprenderse que no existen no linealidades
omitidas en el modelo.
3.5.2. Contraste F de bondad del ajuste
Determinar si es adecuado o no, quitar alguna variable del modelo estimado a partir de su no signifi-
cancia individual no es una decision plenamente justificada pues, debe analizarse tambien la significancia
conjunta de las variables vistas como un grupo. Para ilustrar este ejercicio realizaremos un contraste sobre
todas aquellas variables que no resultaron individualmente significativas sobre el primer modelo propuesto:
tempe, tempj, so2 y hum. Pueden observarse ambos modelos a continuacion, es decir el modelo restrin-
gido y el modelo no restringido
Cuadro 7
Dependent variable:
mort
(1) (2)
tempe 0.296(0.935)
tempj 2.939(2.240)
pob 136.978∗∗ 140.643∗∗∗
(54.008) (52.699)
dens 0.009∗ 0.009∗
(0.005) (0.005)
hc −1.402∗∗ −1.711∗∗∗
(0.585) (0.412)
nox 2.753∗∗ 3.338∗∗∗
(1.205) (0.812)
so2 0.120(0.176)
hum 1.647(1.546)
Constant 117.813 434.898∗∗
(271.166) (176.940)
Observations 60 60R2 0.473 0.422Adjusted R2 0.390 0.380Residual Std. Error 48.592 (df = 51) 48.962 (df = 55)F Statistic 5.712∗∗∗ (df = 8; 51) 10.059∗∗∗ (df = 4; 55)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
El procedimiento de calculo del contraste se presenta a continuacion.
29
#test H0: beta.1=beta.2=beta.8=0
a1<-c(0,1,0,0,0,0,0,0,0)
a2<-c(0,0,1,0,0,0,0,0,0)
a3<-c(0,0,0,0,0,0,0,1,0)
a4<-c(0,0,0,0,0,0,0,0,1)
A<-rbind(a1,a2,a3, a4)
c<-c(0,0,0,0)
beta.hat<-regression$coef
s2<-sum(regression$res^2)/regression$df.res
tmp<-summary(regression)
xtinv<-tmp$cov.unscaled
SS<-t(A%*%beta.hat-c)%*%solve(A%*%xtinv%*%t(A))%*%(A%*%beta.hat-c)
SS
## [,1]
## [1,] 11429.79
q<-4
F<-(SS/q)/s2
F
## [,1]
## [1,] 1.210191
p<-1-pf(F,q, regression$df.res)
p
## [,1]
## [1,] 0.3179515
De este contraste se desprende que ninguna de las variables mencionadas tendrıa incidencia en el
fenomeno de interes pues tanto individualmente, como de manera conjunta, resultaron no ser significativas.
4. Solucion
El principal problema con el que nos hemos encontrado en el presente informe tiene que ver con la
presencia de multicolinealidad. Si bien, la presencia de esta es inevitable en un modelo de regresion multiple
como el que aquı se ha abordado, existen una serie de opciones que pueden escogerse para abordar dicho
problema. Algunas de estas son :
Estimadores de James-Stein
Regresion Ridge o Regresion en la Arista
30
Mınimos cuadrados parciales
Regresion en componentes principales
En particular, en este informe se aborda como vıa de solucion a la llamada regresion Ridge
4.1. Regresion Ridge
La regresion Ridge Consiste en estimar los parametros β a partir de los cuales puede minimizarse la
siguiente expresionn∑i=1
(yi − xTi β)2 + λ
p∑j=1
β2j
Desarrollando el problema de optimizacion no restringida anterior puede encontrarse que los estimadores
Ridge estan dados por el siguiente vector:
β = (XTX + λI)−1XTY
Para escoger adecuadamente al parametro λ de la expresion anterior suele utilizarse la siguiente expresion
GCV =1
n
(yi − yi
1− tr(H)/n
)2
De esta forma, aquel λ que provee de la menor GCV se utilizara para escoger los estimadores βRidge
utilizaremos la denominada regresion Ridge a traves del paquete MASS
library(MASS)
ridge<-lm.ridge(mort~pob+dens+hc+nox, lambda=seq(0,1,0.001), data=data)
Puede observarse de la tabla anterior, que el parametro λ aquel que minimiza la validacion cruzada
generalizada es de 0.055. En las graficas siguientes puede observarse como disminuyen los coeficientes
estimados en funcion de lambda en el primer panel, mientras que en el segundo se observa el valor de
GCV, donde claramente se puede observar un mınimo al menor local en el punto 0.055
library(broom)
## lambda GCV term estimate scale
## 1 0.000 42.04358 pob 18.86314 0.1341205
## 2 0.001 42.04178 pob 18.87032 0.1341205
## 3 0.002 42.04002 pob 18.87749 0.1341205
## 4 0.003 42.03830 pob 18.88463 0.1341205
## 5 0.004 42.03662 pob 18.89176 0.1341205
## 6 0.005 42.03498 pob 18.89887 0.1341205
## kHKB kLW lambdaGCV
## 1 0.09904541 2.982301 0.055
31
−100
0
100
0.00 0.25 0.50 0.75 1.00lambda
estim
ate
term
dens
hc
nox
pob
(a) Histograma
42
43
44
45
0.00 0.25 0.50 0.75 1.00lambda
GC
V(b) QQ plot
Figura 7: Graficas de normalidad
ridge.1<-lm.ridge(mort~pob+dens+hc+nox, lambda=0.055, data=data)
ridge.1
## pob dens hc nox
## 425.343953676 143.401775056 0.009527835 -1.609551114 3.137383259
5. Conclusion
La siguiente tabla resume los supuestos puestos a prueba en este informe
Supuesto Diagnostico SolucionNo normalidad No -Heteroscedasticidad No -Multicolinealidad Sı Regresion RidgeValores atıpicos No Regresion en la medianaAutocorrelacıon No aplica -
Cuadro 8: Resumen de problemas de la regresion
De esta manera, aunque tampoco se presento de manera demasiado problematica, pues a pesar de esta
pudo determinarse la significancia estadıstica de las variables involucradas, se concluye que la violacion del
supuesto que con mayor certeza pudo detectarse fue el caso de la multicolinealidad.
32
Cabe mencionar, igualmente, que el supuesto de autocorrelacion no fue abordado, pues es un fenomeno
mas comun en series de tiempo.
5.1. Anexo
5.1.1. datos
Cuadro 9: Datos
PREC TEMPE TEMJ SOBRE65 POB EDUC CASA DENS POBNB EMPLEO POBRE HC NOX SO2 HUM MORT
1 36 27 71 8,100 3,340 11,400 81,500 3, 243 8,800 42,600 11,700 21 15 59 59 921,8702 35 23 72 11,100 3,140 11 78,800 4, 281 3,500 50,700 14,400 8 10 39 57 997,8753 44 29 74 10,400 3,210 9,800 81,600 4, 260 0,800 39,400 12,400 6 6 33 54 962,3544 47 45 79 6,500 3,410 11,100 77,500 3, 125 27,100 50,200 20,600 18 8 24 56 982,2915 43 35 77 7,600 3,440 9,600 84,600 6, 441 24,400 43,700 14,300 43 38 206 55 1, 071,2896 53 45 80 7,700 3,450 10,200 66,800 3, 325 38,500 43,100 25,500 30 32 72 54 1, 030,3807 43 30 74 10,900 3,230 12,100 83,900 4, 679 3,500 49,200 11,300 21 32 62 56 934,7008 45 30 73 9,300 3,290 10,600 86 2, 140 5,300 40,400 10,500 6 4 4 56 899,5299 36 24 70 9 3,310 10,500 83,200 6, 582 8,100 42,500 12,600 18 12 37 61 1, 001,90210 36 27 72 9,500 3,360 10,700 79,300 4, 213 6,700 41 13,200 12 7 20 59 912,34711 52 42 79 7,700 3,390 9,600 69,200 2, 302 22,200 41,300 24,200 18 8 27 56 1, 017,61312 33 26 76 8,600 3,200 10,900 83,400 6, 122 16,300 44,900 10,700 88 63 278 58 1, 024,88513 40 34 77 9,200 3,210 10,200 77 4, 101 13 45,700 15,100 26 26 146 57 970,46714 35 28 71 8,800 3,290 11,100 86,300 3, 042 14,700 44,600 11,400 31 21 64 60 985,95015 37 31 75 8 3,260 11,900 78,400 4, 259 13,100 49,600 13,900 23 9 15 58 958,83916 35 46 85 7,100 3,220 11,800 79,900 1, 441 14,800 51,200 16,100 1 1 1 54 860,10117 36 30 75 7,500 3,350 11,400 81,900 4, 029 12,400 44 12 6 4 16 58 936,23418 15 30 73 8,200 3,150 12,200 84,200 4, 824 4,700 53,100 12,700 17 8 28 38 871,76619 31 27 74 7,200 3,440 10,800 87 4, 834 15,800 43,500 13,600 52 35 124 59 959,22120 30 24 72 6,500 3,530 10,800 79,500 3, 694 13,100 33,800 12,400 11 4 11 61 941,18121 31 45 85 7,300 3,220 11,400 80,700 1, 844 11,500 48,100 18,500 1 1 1 53 891,70822 31 24 72 9 3,370 10,900 82,800 3, 226 5,100 45,200 12,300 5 3 10 61 871,33823 42 40 77 6,100 3,450 10,400 71,800 2, 269 22,700 41,400 19,500 8 3 5 53 971,12224 43 27 72 9 3,250 11,500 87,100 2, 909 7,200 51,600 9,500 7 3 10 56 887,46625 46 55 84 5,600 3,350 11,400 79,700 2, 647 21 46,900 17,900 6 5 1 59 952,52926 39 29 75 8,700 3,230 11,400 78,600 4, 412 15,600 46,600 13,200 13 7 33 60 968,66527 35 31 81 9,200 3,100 12 78,300 3, 262 12,600 48,600 13,900 7 4 4 55 919,72928 43 32 74 10,100 3,380 9,500 79,200 3, 214 2,900 43,700 12 11 7 32 54 844,05329 11 53 68 9,200 2,990 12,100 90,600 4, 700 7,800 48,900 12,300 648 319 130 47 861,83330 30 35 71 8,300 3,370 9,900 77,400 4, 474 13,100 42,600 17,700 38 37 193 57 989,26531 50 42 82 7,300 3,490 10,400 72,500 3, 497 36,700 43,300 26,400 15 18 34 59 1, 006,49032 60 67 82 10 2,980 11,500 88,600 4, 657 13,500 47,300 22,400 3 1 1 60 861,43933 30 20 69 8,800 3,260 11,100 85,400 2, 934 5,800 44 9,400 33 23 125 64 929,15034 25 12 73 9,200 3,280 12,100 83,100 2, 095 2 51,900 9,800 20 11 26 58 857,62235 45 40 80 8,300 3,320 10,100 70,300 2, 682 21 46,100 24,100 17 14 78 56 961,00936 46 30 72 10,200 3,160 11,300 83,200 3, 327 8,800 45,300 12,200 4 3 8 58 923,23437 54 54 81 7,400 3,360 9,700 72,800 3, 172 31,400 45,500 24,200 20 17 1 62 1, 113,15638 42 33 77 9,700 3,030 10,700 83,500 7, 462 11,300 48,700 12,400 41 26 108 58 994,64839 42 32 76 9,100 3,320 10,500 87,500 6, 092 17,500 45,300 13,200 29 32 161 54 1, 015,02340 36 29 72 9,500 3,320 10,600 77,600 3, 437 8,100 45,500 13,800 45 59 263 56 991,29041 37 38 67 11,300 2,990 12 81,500 3, 387 3,600 50,300 13,500 56 21 44 73 893,99142 42 29 72 10,700 3,190 10,100 79,500 3, 508 2,200 38,800 15,700 6 4 18 56 938,50043 41 33 77 11,200 3,080 9,600 79,900 4, 843 2,700 38,600 14,100 11 11 89 54 946,18544 44 39 78 8,200 3,320 11 79,900 3, 768 28,600 49,500 17,500 12 9 48 53 1, 025,50245 32 25 72 10,900 3,210 11,100 82,500 4, 355 5 46,400 10,800 7 4 18 60 874,28146 34 32 79 9,300 3,230 9,700 76,800 5, 160 17,200 45,100 15,300 31 15 68 57 953,56047 10 55 70 7,300 3,110 12,100 88,900 3, 033 5,900 51 14 144 66 20 61 839,70948 18 48 63 9,200 2,920 12,200 87,700 4, 253 13,700 51,200 12 311 171 86 71 911,70149 13 49 68 7 3,360 12,200 90,700 2, 702 3 51,900 9,700 105 32 3 71 790,73350 35 40 64 9,600 3,020 12,200 82,500 3, 626 5,700 54,300 10,100 20 7 20 72 899,26451 45 28 74 10,600 3,210 11,100 82,600 1, 883 3,400 41,900 12,300 5 4 20 56 904,15552 38 24 72 9,800 3,340 11,400 78 4, 923 3,800 50,500 11,100 8 5 25 61 950,67253 31 26 73 9,300 3,220 10,700 81,300 3, 249 9,500 43,900 13,600 11 7 25 59 972,46454 40 23 71 11,300 3,280 10,300 73,800 1, 671 2,500 47,400 13,500 5 2 11 60 912,20255 41 37 78 6,200 3,250 12,300 89,500 5, 308 25,900 59,700 10,300 65 28 102 52 967,80356 28 32 81 7 3,270 12,100 81 3, 665 7,500 51,600 13,200 4 2 1 54 823,76457 45 33 76 7,700 3,390 11,300 82,200 3, 152 12,100 47,300 10,900 14 11 42 56 1, 003,50258 45 24 70 11,800 3,250 11,100 79,800 3, 678 1 44,800 14 7 3 8 56 895,69659 42 33 76 9,700 3,220 9 76,200 9, 699 4,800 42,200 14,500 8 8 49 54 911,81760 38 28 72 8,900 3,480 10,700 79,800 3, 451 11,700 37,500 13 14 13 39 58 954,442
33