Ejemplo; Regresión lineal múltiple

33
Un an´ alisis de la violaci´on de supuestos en el contexto del modelo de regresi´ on lineal m´ ultiple ector Garrido Henr´ ıquez * Profesor: Luis Firinguetti Limone Modelos Lineales Mag´ ıster en Matem´ atica Menci´ on Estad´ ıstica Universidad del B´ ıo-B´ ıo 4 de enero de 2016 Resumen En este informe se realiza un an´ alisis completo de los supuestos del modelo cl´ asico de regresi´ on lineal aplicado a una base de datos real relacionada a razones de la tasa de mortalidad en los Estados Unidos a partir de variables explicativas principalmente ambientales. a [email protected] 1

description

Desarrollo de un caso concreto de regresión lineal utilizando datos medioambientales

Transcript of Ejemplo; Regresión lineal múltiple

Page 1: Ejemplo; Regresión lineal múltiple

Un analisis de la violacion de supuestos en el

contexto del modelo de regresion lineal multiple

Hector Garrido Henrıquez*

Profesor: Luis Firinguetti Limone

Modelos Lineales

Magıster en Matematica Mencion Estadıstica

Universidad del Bıo-Bıo

4 de enero de 2016

Resumen

En este informe se realiza un analisis completo de los supuestos del modelo clasico de regresion

lineal aplicado a una base de datos real relacionada a razones de la tasa de mortalidad en los

Estados Unidos a partir de variables explicativas principalmente ambientales.

[email protected]

1

Page 2: Ejemplo; Regresión lineal múltiple

Indice

1. Introduccion 3

2. Modelo a estimar y descripcion de los datos 3

2.1. Resultados preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2. Contrastes de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.1. Contrastes de significancia individual . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.2. Contrastes de la bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.3. Coeficiente de determinacion y cuadro de analisis de varianza . . . . . . . . . . . . . 8

2.2.4. R2 ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3. Violacion de supuestos 9

3.1. Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1.1. Analisis Grafico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1.2. El Contraste de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.1.3. Otros Test’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2. Heteroscedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2.1. Analisis grafico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2.2. Contraste de Goldfeld-Quandt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.3. Contraste de Breusch-Pagan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2.4. Contraste de White . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.4. Valores atıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4.1. Apalancamiento o leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4.2. Residuos estandarizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4.3. Residuos studentizados con omision . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.5. Especificacion del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.5.1. RESET test de Ramsey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.5.2. Contraste F de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4. Solucion 30

4.1. Regresion Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5. Conclusion 32

5.1. Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1.1. datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2

Page 3: Ejemplo; Regresión lineal múltiple

1. Introduccion

El analisis de regresion es una de las herramientas mas utilizadas en el de las estadısticas, pues es a

traves de este que puede pasarse de la estadıstica puramente descriptiva a modelos en los cuales cobra sen-

tido el termino causalidad. Es decir, a traves de este tipo de modelos se busca identificar la relacion entre

una variable generalmente denominada dependiente y una serie de variables explicativas (o regresoras, o

independientes, etc.)

El marco conceptual que sirve de sustento a este tipo de modelos es el modelo clasico de regresion lineal

(MCRL), el cual establece una serie de supuestos que deben cumplirse de manera tal de que el modelo

estimado constituya en sı, una herramienta adecuada de analisis, tanto si el objetivo es explicar los deter-

minantes de determinado fenomeno o si por otro lado, se busca predecir o simular dicho objeto de estudio.

Aunque puede resultar raro en la practica encontrar modelos que satisfagan cada uno de los supuestos del

MCRL, este sirve como una herramienta de comparacion o benchmark, de manera que, en la medida en

que el modelo que se esta estimando se asimile mas al MCRL, sera considerado de mayor validez.

En este documento se aborda un ejemplo concreto, el cual se pondra bajo analisis para determinar en

que medida satisface los supuestos del MCRL.

El informe comienza con una breve descripcion del modelo, su interpretacion y debidos contrastes de

hipotesis, para luego analizar la validez de los supuestos del MCRL. Todo el analisis se realiza utilizando

el lenguaje y entorno de programacion R, de forma que los resultados sean absolutamente reproducibles.

Ademas, el presente documento ha sido escrito a traves del sistema de composicion de texto LATEX˙

El orden en que los supuestos son analizados es el siguiente: i) Normalidad de los residuos; ii) Heterosce-

dasticidad; iii) Multicolinealidad, iv) Valores atıpicos y v) especificacion del modelo. En cada uno de los

apartados se realiza un diagnostico ası como una breve descripcion de la teorıa que subyace a cada con-

traste. En caso de existir algun problema se propondran vıas de solucion. Por ultimo, el informe concluya

con un breve comentario general sobre los resultados obtenidos y las conclusiones del trabajo.

2. Modelo a estimar y descripcion de los datos

El modelo propuesto es el siguiente:

Yi = β0 +8∑j=1

βjXji + ui

Las variables utilizadas se presentan en el siguiente cuadro1

1Las variables aquı listadas se presentan en orden correlativo, independientemente de que sean las mismas designadas enla tarea

3

Page 4: Ejemplo; Regresión lineal múltiple

Cuadro 1: Descripcion de variables

Variable Etiqueta DescripcionY mort Mortalidad total ajustada por edad por cada 100.000 habitantesX1 tempe Promedio de temperaturas del mes de enero en grados FahrenheitX2 tempj Promedio de temperaturas del mes de julio en grados FahrenheitX3 pob Poblacion promedio por hogar en 1960X4 dens Poblacion por milla cuadrada en areas urbanas en 1960X5 hc Potencial relativo de contaminacion por hidrocarburosX6 nox Potencial relativo de contaminacion por oxido de nitrogenoX7 so2 Potencial relativo de contaminacion por dioxido de azufreX8 hum Promedio anual del porcentaje de humedad relativa

2.1. Resultados preliminares

El vector de estimadores esta dado por la siguiente expresion

β = [X ′X]−1X ′Y

Los cuales siguen una distribucion normal multivariada, siempre y cuando se cumplan los supuestos del

MCRL, de la forma

β ∼ N(β, σ2[X ′X]−1)

La interpretacion de los resultados provistos en el Cuadro 2 es la siguiente:

β1: De manera independiente a todas las demas variables explicativas del modelo, la tasa de morta-

lidad promedio es de 117 personas por cada 100.000 habitantes

β2: Por cada aumento de un grado Fahrenheit en la temperatura promedio de enero , la tasa de

mortalidad aumenta en 0.296 personas, en promedio

β3: Por cada aumento de un grado Fahrenheit en la temperatura promedio de enero, La tasa de

mortalidad aumenta en 2.939 personas, en promedio

β4: Por cada aumento de una persona en el tamano promedio de los hogares la tasa de mortalidad

aumenta en 136.978 personas, en promedio

β5: Por cada aumento de una persona por milla cuadrada, la tasa de mortalidad aumenta en 0.009

personas, en promedio

β6: Por cada aumento unitario del potencial de contaminacion por hidrocarburos la tasa de mortalidad

decrece en 1.4 personas, en promedio

4

Page 5: Ejemplo; Regresión lineal múltiple

Cuadro 2: Resultados de la regresion

Dependent variable:

mort

tempe 0.296t = 0.317(0.935)

p = 0.753

tempj 2.939t = 1.312(2.240)

p = 0.196

pob 136.978t = 2.536(54.008)

p = 0.015∗∗

dens 0.009t = 1.825(0.005)

p = 0.074∗

hc −1.402t = −2.398

(0.585)p = 0.021∗∗

nox 2.753t = 2.285(1.205)

p = 0.027∗∗

so2 0.120t = 0.683(0.176)

p = 0.498

hum 1.647t = 1.065(1.546)

p = 0.292

Constant 117.813t = 0.434(271.166)p = 0.666

Observations 60R2 0.473Adjusted R2 0.390Residual Std. Error 48.592 (df = 51)F Statistic 5.712∗∗∗ (df = 8; 51)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01Errores estandar entre parentesisIntervalos de confianza al 95

5

Page 6: Ejemplo; Regresión lineal múltiple

β7: Por cada aumento unitario del ındice de potencial contaminacion por oxido nıtrico, la tasa de

mortalidad aumenta en 1.6 personas, en promedio

β8: Por cada aumento unitario del ındice de potencial contaminacion por dioxido de carbono, la tasa

de mortalidad aumenta en 0.12 personas, en promedio

β9: Por cada aumento porcentual de la humedad relativa la tasa de mortalidad aumenta en 1.647

personas, en promedio

2.2. Contrastes de hipotesis

2.2.1. Contrastes de significancia individual

El contraste de hipotesis mas utilizado consiste en preguntarse si acaso existe de hecho alguna relacion

entre la variable explicativa en cuestion y la variable dependiente, esto es equivalente a lo siguiente:

H0 : βj = 0 vs H1 : βj 6= 0

Si se asume que la hipotesis nula es cierta, ademas de supuestos adecuados con respecto a la distribucion

de los residuos de la regresion, puede entonces utilizarse el siguiente estadıstico de contraste

t =βj

ee(βj)

Puede demostrarse que este estadıstico sigue una distribucion t de student con n − k grados de libertad,

donde n es el numero de observaciones de la muestra y k el numero de parametros del modelo a estimar 2 De

esta forma, el contraste consiste en comparar el estadıstico t calculado vs el valor cuantil de la distribucion t

(valor crıtico) asociado a un nivel de significacion fijado por el investigador3, o en otras palabas, la maxima

probabilidad de cometer error de tipo I4 que se esta dispuesto a tolerar.

La regla entonces para decidir si un estadıstico βj pertenece a la region de rechazo R es la siguiente:∣∣∣∣∣ βj − βjee(βj)

∣∣∣∣∣ > t(α/2,n−k) (1)

A partir del modelo estimado puede afirmarse que dado que el valor cuantil de la distribucion t de student

con 60− 9 = 51 grados de libertad para una prueba de dos colas5 a un nivel de significancia de 5 % es de

2.007584

Intercepto: No se puede rechazar la hipotesis H0 : β1 = 0 pues el estadıstico t calculado (0.434)

es menor al valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈R|H0 es cierta) = 0,666 es una probabilidad de equivocarse al rechazar demasiado alta.

2incluyendo aquel asociado al intercepto3usualmente 10 %, 5 % y 1 %4La probabilidad de rechazar la hipotesis nula dado que esta es verdadera5dadado a que la hipotesis a contraster es simple

6

Page 7: Ejemplo; Regresión lineal múltiple

tempe: No se puede rechazar la hipotesis H0 : β2 = 0 pues el estadıstico t calculado (0.317) es menor

al valor crıtico con nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,753

es una probabilidad de equivocarse al rechazar demasiado alta.

tempj: No se puede rechazar la hipotesis H0 : β3 = 0 pues el estadıstico t calculado (1.312) es menor

al valor crıtico con nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,196

es una probabilidad de equivocarse al rechazar demasiado alta.

pob: Se rechaza la hipotesis H0 : β4 = 0 pues el estadıstico t calculado (2.536) es mayor al valor

crıtico fijado en un 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,015 es una probabilidad de

equivocarse al rechazar mas pequena que el nivel de significancia utilizado en el contraste

dens: No se puede rechazar la hipotesis H0 : β5 = 0 pues el estadıstico t calculado (1.825) es menor al

valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) =

0,074 es una probabilidad de equivocarse al rechazar demasiado alta.

hc: Se rechaza la hipotesis H0 : β6 = 0 pues el estadıstico t calculado (2.398) es mayor al valor

crıtico fijado en un 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,021 es una probabilidad de

equivocarse al rechazar mas pequena que el nivel de significancia utilizado en el contraste

nox: Se rechaza la hipotesis H0 : β7 = 0 pues el estadıstico t calculado (2.285) es mayor al valor

crıtico fijado en un 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) = 0,027 es una probabilidad de

equivocarse al rechazar mas pequena que el nivel de significancia utilizado en el contraste

so2: No se puede rechazar la hipotesis H0 : β8 = 0 pues el estadıstico t calculado (0.683) es menor al

valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) =

0,498 es una probabilidad de equivocarse al rechazar demasiado alta.

hum: No se puede rechazar la hipotesis H0 : β9 = 0 pues el estadıstico t calculado (1.065) es menor al

valor crıtico asociado a un nivel de significancia de 5 %. Ademas, el valor p, P (t ∈ R|H0 es cierta) =

0,292 es una probabilidad de equivocarse al rechazar demasiado alta.

2.2.2. Contrastes de la bondad del ajuste

Para evaluar la validez del modelo que se esta estimando resulta fundamental preguntarse si este visto

como un todo tiene una capacidad aceptable de explicar el fenomeno de interes. En este caso la tasa de

mortalidad por cada 100.000 habitantes en los Estados Unidos.

Las hipotesis del contraste de bondad de ajuste son las siguientes:

H0 : β1 = β2 = ... = βk vs H1 : βj 6= 0

El estadıstico utilizado para contrastar estas hipotesis, en el entendido que la hipotesis nula es verdadera

y los supuestos distribucionales sobre los residuos se cumplen, es el siguiente:

F =SCE/k − 1

SCR/n− k

7

Page 8: Ejemplo; Regresión lineal múltiple

Donde

SCE es la suma de cuadrados explicada

SCR es la suma de cuadrados residuales del modelo

k el numero de parametros a estimar, incluido el intercepto

De esta manera, el contraste consiste en comparar el estadıstico F calculado versus el valor cuantil de

una distribucion F de Snedecor-Fisher a un nivel de significancia dado, con k − 1 grados de libertad en el

numerador y n− k grados de libertad en el denominador. Para este ejercicio en particular, el valor crıtico

es de 2.126023.

Cuadro 3: Cuadro de Analisis de Varianza

Df Sum Sq Mean Sq F value Pr(>F)

tempe 1 205,751 205,751 0,087 0,769tempj 1 21, 428,650 21, 428,650 9,075 0,004pob 1 16, 093,240 16, 093,240 6,816 0,012dens 1 26, 046,390 26, 046,390 11,031 0,002hc 1 39,063 39,063 0,017 0,898

nox 1 39, 973,710 39, 973,710 16,930 0,0001so2 1 1, 421,833 1, 421,833 0,602 0,441hum 1 2, 680,145 2, 680,145 1,135 0,292

Residuals 51 120, 418,900 2, 361,154

El estadıstico calculado corresponde a F = 5,712 el cual es mayor al valor crıtico mencionado previa-

mente, de manera que puede afirmarse que existe evidencia estadıstica suficiente para rechazar la hipotesis

nula, y por tanto, afirmar que el modelo contribuye a explicar la variabilidad del fenomeno.

2.2.3. Coeficiente de determinacion y cuadro de analisis de varianza

A partir de la informacion provista por el cuadro 3, puede ademas calcularse el denominado coeficiente

de determinacion R2, dicho estadıstico esta acotado entre 0 y 1, de manera que puede interpretarse como

el porcentaje de la variabilidad del fenomeno que se esta explicando a traves del modelo. Su expresion es

la siguiente:

R2 =SCE

SCT=

∑ni (Yi − Y )2∑ni=1(Yi − Y )2

Si se escribe yi = Yi − Y , debe notarse que yi = β1x1i + ... + βkxki, con xji = Xji − Xj. Entonces, R2 es

igual a:

R2 =

∑ni=1 yi(β1x1i + ...+ βkxki)∑n

i=1(Yi − Y )2=

∑ni=1 yiβ1x1i∑n

i=1(Yi − Y )2+ ...+

∑ni=1 yiβkxki∑ni=1(Yi − Y )2

Lo cual implica que el coeficiente de determinacion R2 puede descomponerse para cada una de las variables

del modelo. De esta forma, a partir de la informacion provista por el cuadro de analisis de varianza del

apartado anterior, puede afirmarse que:

La variable tempe explica al rededor del 0.09 % de la variacion de la variable dependiente

La variable tempj explica al rededor del 9.39 % de la variacion de la variable dependiente

8

Page 9: Ejemplo; Regresión lineal múltiple

La variable pob explica al rededor del 7.05 % de la variacion de la variable dependiente

La variable dens explica al rededor del 11.4 % de la variacion de la variable dependiente

La variable hc explica al rededor del 0.017 % de la variacion de la variable dependiente

La variable nox explica al rededor del 17.5 % de la variacion de la variable dependiente.

La variable so2 explica al rededor del 0.62 % de la variacion de la variable dependiente

La variable hum explica al rededor del 1.17 % de la variacion de la variable dependiente

Luego, considerando a todas las variables explicativas en conjunto, puede afirmarse que se esta explicando

un 47.26 % de la suma de cuadrados total de Y (R2 = 0,4726). Naturalmente, como es de esperar, aquellas

variables con una contribucion insignificante se condicen con aquellas que no son estadsticamente significas.

Esto puede constatarse tambien observando el cuadro 3, donde se presentan los estadısticos F asociados

a cada variable, a partir de los cuales se desprende que las variables estadısticamente significativas son

las mismas obtenidas a traves de los contrastes de significancia individual. Dicho cuadro tambien puede

utilizarse para contrastar hipotesis sobre modelos anidados como se vera mas adelante (Vease seccion 3.5)

2.2.4. R2 ajustado

A pesar de su utilidad, el estadıstico R2 adolece de un problema, pues este provee un incentivo para

agregar variables irrelevantes al modelo, pues puede demostrarse que la SCR siempre disminuira en la

medida en que se agreguen parametros al modelo.

Para salvar esta situacion puede utilizarse el estadıstico R2 ajustado, el cual esta formulado de forma tal que

la inclusion de nuevos parametros sea penalizada. De esta manera, se evita la tendencia a sobreparametrizar

el modelo en funcion de la maximizacion de R2. Su expresion es la siguiente:

R2A = 1− (1−R2)

n− 1

n− k

Para el modelo en comento, el coeficiente R2A es de 0.39. Lo que implica que efectivamente se esta explicando

un 39 % de la suma de cuadrados total.

3. Violacion de supuestos

3.1. Normalidad de los residuos

El supuesto de normalidad, aunque no constituye como tal un supuesto del MCRL, es de vital impor-

tancia al momento de realizar contrastes de hipotesis para los coeficientes estimados y de la bondad del

ajuste del modelo. De manera que el uso de los estadısticos t y F y sus respectivas distribuciones descansan

en dicho supuesto.

Aunque utilizando una version adecuada del teorema central del lımite, puede afirmarse que para muestras

lo suficientemente grandes, es decir, asintoticamente, aunque los residuos no sigan una distribucion normal,

9

Page 10: Ejemplo; Regresión lineal múltiple

de todas formas lo haran los estimadores del modelo de regresion. Sin embargo, el tamano de la muestra

para el modelo estimado es de tamano moderado (n = 60), por lo que el analisis de este supuesto es de

particular importancia.

3.1.1. Analisis Grafico

La visualizacion de los datos provee de una buena perspectiva de la presencia de ciertos problemas al

realizar un analisis estadıstico. Aunque de naturaleza informal, constituyen utiles herramientas antes de

una examen mas riguroso de los datos.

Histogram of residuals(regression)

residuals(regression)

Fre

quen

cy

−150 −50 0 50 100 150

05

1015

20

(a) Histograma

−2 −1 0 1 2

−10

0−

500

5010

0

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

(b) QQ plot

Figura 1: Graficas de normalidad

Como puede observarse en la figura 1, se presentan dos graficas. La primera, en el panel a), es un

histograma, a traves del cual podemos visualizar varias caracterısticas de la distribucion tales como su

apuntalamiento y asimentrıa, basicamente esperamos que dicho histograma tenga una forma lo mas pare-

cida posible a una campana de Gauss. En este caso, la figura sugiere que no habrıa desviaciones importantes

desde la distribucion normal.

Por otro lado, en el panel b), se presenta una grafica denominada QQ-plot, en la cual se contrastan los

valores observados en la muestra contra valores extraıdos desde una distribucion normal estandar, simulada

por el paquete estadıstico. En la medida en que existan desviaciones importantes desde la recta de 45◦

grados, puede resultar razonable suponer no normalidad en los residuos. Para el modelo en comento, puede

observarse que aunque existen desviaciones de la recta, estas no parecen ser importantes, las que podrıan

atribuirse a otro tipo de problemas, tales como valores atıpicos, como se vera mas adelante .

10

Page 11: Ejemplo; Regresión lineal múltiple

3.1.2. El Contraste de Jarque-Bera

La idea detras de este contraste es bastante sencilla, utilizando estadısticas asociadas al tercer y cuarto

momento de la distribucion, se busca determinar cuanto se aleja la distribucion observada de los residuos

en terminos de curtosis y asimetrıa frente a la distribucion normal. Este contraste resulta aconsejable

cuando la muestra es relativamente grande (al menos n > 50). El Estadıstico del contraste de Jarque-Bera

esta dado por la siguiente expresion:

JB = n

(S2

6+

(K − 3)2

24

)Donde

n corresponde al tamano de la muestra

K es una medida relacionada a la curtosis de la distribucion

S es una medida relacionada a la asimetrıa de la distribucion

La hipotesis nula es la siguiente:

H0 : Los datos siguen una distribucion normal

Puede demostrarse que el estadıstico sigue una distribucion

JB ∼ χ2(2)

De manera que el contraste consiste en comparar el estadıstico calculado con determinado valor crıtico,

usualmente a un nivel de significancia del 5 %. Si el valor calculado es mayor puede afirmarse que existe

suficiente evidencia para rechazar la hipotesis nula.

A continuacion se presenta el codigo desarrollado en R para este contraste

Codigo R 3.1.1.

library(moments)

S<-skewness(residuals(regression)) #Coeficiente de asimetria

K<-kurtosis(residuals(regression)) #Coefiente de curtosis

n<-nrow(data) #numero de observaciones

JB<-n*((S^(2)/6)+(K-3)^(2)/24) #Estadıstico de Jarque-Bera

JB

## [1] 0.4801729

valor.crıtico<-qchisq(0.95,2)

p.value<-pchisq(JB,2)

p.value

11

Page 12: Ejemplo; Regresión lineal múltiple

## [1] 0.2134401

contraste<-ifelse(JB>valor.crıtico, "Se rechaza H0",

"No se rechaza H0")

contraste

## [1] "No se rechaza H0"

Tal como puede apreciarse en el codigo 3.1.1 para los datos provistos en el ejemplo, de acuerdo al

contraste de Jarque-Bera, no se presenta evidencia estadıstica suficiente para rechazar la hipotesis nula.

Pues, el estadıstico JB calculado es menor que el valor crıtico. Ademas se observa un valor p, de 0.2134,

es decir, la probabilidad de que el estadıstico tome dicho valor dado a que la hipotesis nula es cierta, es

mayor a la maxima probabilidad de error tipo I que estamos dispuestos a tolerar.

3.1.3. Otros Test’s

Ademas del contraste de Jarque-Bera, existen numerosos test’s desarrollados en la literatura para

determinar la veracidad de la hipotesis nula de normalidad en los residuos. Algunos de estos son

Contraste de Shapiro-Wilk: Para muestras de tamano menor a 50

Contraste de Kolmogorov-Smirnov, o su version mejorada para la normal de Lillifors

Contraste de Anderson-Darling: Para muestras de tamano mayor a 50

A continuacion, teniendo en cuenta que la muestra de la que se dispone es de 60 observaciones (n = 60),

se utilizan los contrastes de Anderson-Darling y Kolmogorov-Smirnov. Ambos contrastes, al igual que JB,

tienen por hipotesis nula la normalidad de los residuos, de forma que, en la medida en que los estadısticos

calculados excedan sus respectivos valores crıticos, podremos afirmar la falsedad de H0. Ambos contrastes,

de todas formas, poseen distribuciones propias, por lo que el camino mas breve consiste en observar el

valor p.

Codigo R 3.1.2.

library(nortest)

ad.test(residuals(regression)) #Contraste de Anderson Darling

##

## Anderson-Darling normality test

##

## data: residuals(regression)

## A = 0.40999, p-value = 0.3336

lillie.test(residuals(regression)) #Contraste de Kolmogorov Smirnov

12

Page 13: Ejemplo; Regresión lineal múltiple

##

## Lilliefors (Kolmogorov-Smirnov) normality test

##

## data: residuals(regression)

## D = 0.11158, p-value = 0.06075

A partir del codigo 3.1.2, se desprende que ambos test no proveen evidencia estadıstica suficiente para

rechazar H0. De esta forma, podemos afirmar con relativa seguridad que la hipotesis de normalidad para

el modelo propuesto se mantiene.

3.2. Heteroscedasticidad

3.2.1. Analisis grafico

Un metodo bastante util para una primera inspeccion del problema de Heteroscedasticidad se obtiene

a traves de la comparacion entre los residuo del modelo y sus variables explicativas. De esta forma, se

pretende detectar patrones de crecimiento, decrecimiento o ambos, de los residuos en funcion de las variables

explicativas, lo que en terminos practicos es una clara senal de heteroscedasticidad.

10 20 30 40 50 60

−10

00

5010

0

tempe

65 70 75 80 85

−10

00

5010

0

tempj

resi

dual

s(re

gres

sion

)

2.9 3.0 3.1 3.2 3.3 3.4 3.5

−10

00

5010

0

pob

resi

dual

s(re

gres

sion

)

2000 4000 6000 8000 10000

−10

00

5010

0

dens

0 100 200 300 400 500 600

−10

00

5010

0

hc

resi

dual

s(re

gres

sion

)

0 50 100 150 200 250 300

−10

00

5010

0

nox

resi

dual

s(re

gres

sion

)

0 50 100 150 200 250

−10

00

5010

0

so2

40 45 50 55 60 65 70

−10

00

5010

0

hum

resi

dual

s(re

gres

sion

)

Figura 2: Residuos vs Variables explicativas

A partir de la figura 2, para el modelo estimado puede afirmarse lo siguiente:

13

Page 14: Ejemplo; Regresión lineal múltiple

La variable tempe presenta un patron creciente en los residuos, por tanto debiese analizarse con

mayor detalle (Vease seccion 3.2.2).

La variable tempj presenta un patron creciente en los residuos, por tanto debiese analizarse en mayor

detalle (Vease seccion 3.2.2).

La variable pob presenta un patron creciente en los residuos, por tanto debiese analizarse en mayor

detalle (Vease seccion 3.2.2).

La variable dens presenta un patron decreciente en los residuos

La variable hc presenta un patron decreciente en los residuos, aunque esto ultimo se debe a muy

pocas observaciones, las que pueden resultar en potenciales outliers (Vease seccion 3.4)

Al igual que en el caso anterior, en apariencia, la variable nox tiene un patron decreciente, aunque

este se manifiesta a partir de muy pocas observaciones.

La variable so2 presenta un patron decreciente en los residuos

La variable hum presenta un patron creciente en los residuos, por lo que se analizara con mayor

detencion (Vease seccion 3.2.2).

850 900 950 1000 1050

−2

−1

01

23

Valores predichos

Res

iduo

s es

tand

ariz

ados

Figura 3: Valores predichos vs residuos estandarizados

De manera similar al caso anterior, resulta util graficar los residuos estandarizados (Vease seccion 3.4) con-

tra los valores predichos de la variable explicativa como un diagnostico informal de heteroscedasticidad. Si

los residuos de la regresion enfrentados a la variable dependiente predicha tienen algun patron identificable

ya sea creciente, decreciente o en forma de mariposa, pueden obtenerse fundadas sospechas de la presencia

14

Page 15: Ejemplo; Regresión lineal múltiple

del problema de Heteroscedasticidad. Ademas, si dicho grafica sugiere algun patron de comportamiento no

lineal, esto puede generar dudas de si el modelo esta correctamente especificado (Vease seccion 3.5).

Para el modelo estimado puede observarse, aunque algo difuso, un patron creciente de los residuos en

funcion de la variable predicha, por lo que procederemos a continuacion a probar formalmente si se presenta

o no, el problema de heteroscedasticidad.

3.2.2. Contraste de Goldfeld-Quandt

Este contraste parte del supuesto de que la magnitud de σ2i depende de alguna variable zi, de todas

maneras, resulta util solo en aquel caso en que el patron de heteroscedasticidad sea de caracter monotono

creciente, la cual suele seleccionarse a partir del analisis grafico previo.

El procedimiento para el contraste es el siguiente:

1. Ordenar las observaciones por valores de la variable zi de menor a mayor.

2. Omitir k observaciones en mitad de la muestra, se recomienda eliminar un k = 8 para n = 30,

o un k = 16 para n = 60 o 90. Para muestras mas pequenas debera reducirse el criterio de k

observaciones eliminadas, para garantizar que la perdida de grados de libertad no sea excesiva.

Debera siempre garantizarse que (n − k)/2 > p parametros del modelo a estimar, ası de esa forma

habra n1 observaciones en el primer grupo y n2 observaciones en el segundo.

3. Estimar dos veces el modelo original, una con las (n− k)/2 primeras observaciones muestrales y otra

con las (n−k)/2 ultimas observaciones en la muestra. Notese que el numero de observaciones k omi-

tidas en el procedimiento 2 ha de ser suficientemente pequeno de modo que n−k2

sea sustancialmente

mayor que el numero de parametros en el modelo.

4. Sean SCR1 y SCR2 las sumas de cuadrados residuales de ambas regresiones. Entonces bajo el

supuesto de homocedasticidad y normalidad del termino de error, el cociente:

λ =SCR2/((n− k)/2)− pSCR1/((n− k)/2)− p

(2)

Se distribuye Fm,m con m = n−k2− p grados de libertad.

Las hipotesis a contrastar son:

H0 : σ2i = σ2 ∀i

H1 : ∃ σ2i 6= σ2

o bien

H0 : No existe heterocedasticidad

H1 : Existe heterocedasticidad

15

Page 16: Ejemplo; Regresión lineal múltiple

Si el valor de F es elevado, superando el valor crıtico de las tablas para los correspondientes grados de

libertad, indicara que el segundo conjunto de residuos es significativamente mas alto que el primero,

lo que lleva al rechazo de la Ho (Homocedasticidad).

Siguiendo las conclusiones del analisis grafico previo, se ha determinado que aquellas variables que poseen

un patron de heteroscedasticidad monotono creciente, son: tempe, tempj, pob y hum. De esta manera

se aplica el test de Goldfeld-Quandt bajo el procedimiento recien descrito utilizando el comando gqtest

perteneciente al paquete lmtest como se puede observar a continuacion:

Codigo R 3.2.1.

library(lmtest)

library(xtable)

gq.1<-gqtest(regression, order.by =~data$tempe, fraction=16)

gq.2<-gqtest(regression, order.by =~data$tempj, fraction=16)

gq.3<-gqtest(regression, order.by =~data$pob, fraction=16)

gq.4<-gqtest(regression, order.by =~data$pob, fraction=16)

p.value<-c(gq.1$p.value,gq.2$p.value, gq.3$p.value,gq.4$p.value)

statistic<-c(gq.1$statistic,gq.2$statistic, gq.3$statistic, gq.4$statistic)

valor.critico<-rep(qf(0.95,16,16),4)

gq.table<-matrix(c(statistic, valor.critico, p.value),4,3,byrow=FALSE)

colnames(gq.table)<-c("Estadıstico", "Valor crıtico", "Valor p")

rownames(gq.table)<-colnames(data)[c(2:4,9)]

Los resultados se encuentran resumidos en la siguiente tabla.

Estadıstico Valor crıtico Valor ptempe 1.83 2.33 0.14tempj 1.45 2.33 0.26

pob 2.77 2.33 0.04hum 2.77 2.33 0.04

De esta forma, puede afirmarse que variables que reproducen un patron de heteroscedasticidad puro son

pob y hum. Debido a que en ambos casos el valor del estadıstico λ calculado excede al valor crıtico escogido

con un nivel de significancia (α)de 5 %. A pesar de lo anterior, para mayor seguridad deben realizarse otros

analisis.

3.2.3. Contraste de Breusch-Pagan

El contraste de Breusch-Pagan estima la varianza de los residuos a partir de una regresion que esta en

funcion de un conjunto de variables no estocasticas Z1, Z2, . . . , Zk. Estas pueden incluir algunas o todas

las variables explicativas del modelo a estimar.

Sea el siguiente modelo lineal.

yi = β0 + β1Xi1 + · · ·+ βkXik + εi

16

Page 17: Ejemplo; Regresión lineal múltiple

Donde ε se distribuye normal con media cero y varianza dada por:

σ2 = h(Z ′iα)

Donde la funcion h posee la primera y la segunda derivada, α es un vector (p × 1) de parametros no

restringidos que no dependen de los coeficientes β, aquı Zi = (1, Z2, . . . , Zk), la hipotesis nula es equivalente

a p− 1 parametros de la siguiente forma.

H0 : α2 = . . . = αk = 0

Cualquiera sea la funcion elegida6 bajo la hipotesis nula entonces.

σ2i = h(α0) ∀i (3)

Por lo tanto si α1 = α2 = · · · = αk = 0 entonces los errores son homocedasticos, de lo contrario son

heterocedasticos.

De este modo, contrastar la hipotesis.

H0 : Los errores son homocedasticos

es equivalente a:

H0 : α2 = . . . = αk = 0

Procedimiento para el contraste:

1. Aplicar OLS en el modelo:

y = Xβ + ε (4)

y calcular los residuos ei = Yi − Yi

2. Luego, se estima la regresion auxiliar.

e2i = α0 + α1Zi1 + · · ·+ αkZik (5)

Puesto que la funcion h elegida es una de tipo lineal.

3. Se calcula el estadıstico.

w = nR2e (6)

6La funcion elegida podrıa ser: σ2i = Z ′

iα (lineal), σ2i = (Z ′

iα)2 (Cuadratica), σ2i = exp(Z ′

iα) (exponencial), etc.

17

Page 18: Ejemplo; Regresión lineal múltiple

Donde R2e es el coeficiente de determinacion de la regresion auxiliar y n es el numero de observaciones

en la muestra.

El estadıstico w se distribuye asintoticamente como una chi-cuadrado con k− 1 grados de libertad bajo la

hipotesis nula de homocedasticidad.

Se observa que para valores grandes del estadıstico w, que corresponde a valores grandes del coeficiente

de determinacion, existe evidencia en contra de H0, lo cual indica un buen ajuste y que los coeficientes αi

son distintos de cero.

A continuacion se aplica el contraste al modelo estimado a traves del siguiente codigo en R

Codigo R 3.2.2.

resid.sq<-regression$residuals^2 #residuos al cuadrado.

formula<-resid.sq~tempe+tempj+pob+dens+hc+nox+so2+hum

bp.regress<-lm(formula, data=data)

R.e<-summary(bp.regress)$r.squared

k<-ncol(data)-1

n<-nrow(data)

w.0<-n*R.e

p.value<-pchisq(w.0,k)

p.value

## [1] 0.6860755

De donde se desprende que utilizando el error al cuadrado contra todas las variables explicativas del

modelo no se presenta evidencia estadıstica sufiente para afirmar la presencia del problema de heterosce-

dasticidad.

3.2.4. Contraste de White

En este contraste la idea subyacente es determinar si las variables explicativas del modelo, sus cuadrados

y todos sus cruces posibles no repetidos sirven para determinar la evolucion del error al cuadrado. Si la

evolucion de las variables explicativas y de sus varianzas y covarianzas son significativas para determinar

el valor de la varianza muestral de los errores, entendida esta como una estimacion de las varianzas de las

perturbaciones aleatorias.

El proceso para realizar este contraste es el siguiente:

1. Estimar el modelo original por MCO, determinando los residuales con todas las variables predictoras.

2. Estimar un modelo en el que la variable endogena serıa los valores al cuadrado de los errores obtenidos

previamente (paso 1) con todas las variables explicativas del modelo inicial, sus cuadrados y sus

combinaciones no repetidas.

e2i = β0 +

p∑j=1

βjXji +

p∑j=1

αjX2ji +

p∑j 6=k

XkiXji

18

Page 19: Ejemplo; Regresión lineal múltiple

Donde los parametros α son estimados por OLS, y los regresores son todos los productos cruzados y

de segundo orden νi es ruido blanco.

3. El valor de la R2e de este ultimo modelo explica si las variables elegidas sirven o no para estimar la

evolucion variante del error al cuadrado, representativo de la varianza estimada de las perturbaciones

aleatorias, si la varianza de estas fuera constante, el caracter no constante de las variables explicativas

implicadas en el modelo no servirıa para explicar a la variable de respuesta, ası, R2e deberia ser muy

pequena.

Un valor de R suficientemente pequeno servira para concluir que no existe heterocedasticidad en el

modelo producido por los valores de las variables explicativas, para encontrar un valor crıtico se emplea

la expresion de Breusch y pagan como el producto del coeficiente R2e por el numero de datos del modelo,

cuya distribucion es una chi cuadrado.

nR2e → χp−1 (7)

Ası de esta forma un valor del producto nR2e mayor que el reflejado por las tablas de una χp−1 con p− 1

grados de libertad, se afirma que existe heterocedasticidad.

A continuacion se presenta el codigo utilizado para construir el contraste en R

Codigo R 3.2.3.

resid.sq<-regression$residuals^2 #residuos al cuadrado.

vars<-colnames(data)[2:9] #variables

combi=rep(NA,choose(length(vars),2)) #combinaciones

m=1

n<-ncol(vars) #numero de variables

for (i in vars){for (j in vars){

if (j>=i){combi[m]=paste(i,j,sep="*")

#print(k)

m=m+1

}}

}variables<-paste(vars, collapse="+")

interacciones<-paste(combi,collapse="+")

formula<-paste("resid.sq~", variables, interacciones, sep="+")

white.reg<-do.call("lm", list(as.formula(formula), data=as.name("data")))

R.e<-summary(white.reg)$r.squared #R cuadrado auxiliar

n<-nrow(data) #Numero de observaciones

19

Page 20: Ejemplo; Regresión lineal múltiple

w.0<-n*R.e #Estadıstico de White

w.0

## [1] 35.41978

k<-ncol(data)-1+choose(8,2) #numero de regresoras en el modelo auxiliar

valor.crıtico<-qchisq(0.95,k)

valor.crıtico

## [1] 50.99846

test<-ifelse(w.0>valor.crıtico, "Se rechaza H0", "No se rechaza H0")

test

## [1] "No se rechaza H0"

p.value<-pchisq(w.0,k)

p.value

## [1] 0.503999

De esta manera, el estadıstico w resulto mas pequeno que el valor crıtico segun la distribucion chi-

cuadrado con k − 1 +

(k − 1

2

)grados de libertad. Debido a que esta prueba es util para contrastar

cualquier patron de heteroscedasticidad, y por tanto, la mas potente de las aquı expuestas, el problema de

la heteroscedasticidad en el modelo es finalmente desechado.

3.3. Multicolinealidad

La multicolinealidad es la condicion en la que existe una fuerte relacion lineal entre variables inde-

pendientes. Esta se constituye en un problema grave, en la medida en que es la condicion donde existe

una perfecta o exacta relacion lıneal entre las variables independientes. Esto significa que para calcular β

es necesario obtener la matriz inversa de [X ′X]. Pero, si los vectores son linealmente dependientes entre

sı, o lo que es lo mismo, existe una relacion perfecta entre algunas de las variables explicativas, entonces

[X ′X]−1 no existe. Por lo tanto, β tampoco.

En la practica, ninguna variable es absolutamente incorrelada con otra. Lo importante es que esa

correlacion sea baja para que se cumplan los supuestos del modelo clasico de regresion lineal. El principal

problema de la multicolinealidad es que la varianza ( y por lo tanto, los errores estandar) de nuestros

estimadores ’se inflan’. Esto significa que:

identificar el efecto de cada Xj sobre Y sera difıcil

Esto debido a que el estadıstico t usado para contrastar la hipotesis de significancia tendera a aceptar

la hipotesis nula (H0 : βj = 0)

20

Page 21: Ejemplo; Regresión lineal múltiple

Algunas posibles causas del problemas son las siguientes

Un mal diseno del muestreo puede llevar a un problema de multicolinealidad

Problemas en la medicion de datos agregados

Sobreparametrizar el modelo: Agregar demasiadas interacciones, polinomios, etc.

Para su diagnostico existe basicamente tres pruebas:

Matriz de correlaciones

R2 auxiliar

VIF

La primera herramienta consiste en calcular el coeficiente r de pearson entre todas las variables explicativas

del modelo y disponerlos en una matriz, denominada matriz de correlacion. De esta manera puede realizarse

un analisis exploratorio con el fin de determinar que variables estan mas correlacionadas entre sı. El

problema de este procedimiento consiste en que es un analisis parcial, pues la multicolinealidad implica la

relacion de todas o un numero significativo de variables al mismo tiempo.

Por otro lado, el uso del coeficiente R2 auxiliar permite salvar dicho defecto, pues a partir de este puede

determinarse que tan relacionada se encuentra una variable con todas las demas del modelo.

Su procedimiento de calculo es sencillo y consiste en regresionar cada una de las variables del modelo

contra el resto de las variables explicativas. De forma que cada variable tendra su propio R2 auxiliar. De

esta formar, aquellas variables que tengan asociado un coeficiente R2 auxiliar alto, pueden ser consideradas

como causantes del problema.

Del procedimiento anterior, surge la pregunta de como establecer un criterio para determinar cuando un

R2 auxiliar es alto o bajo. Por lo que puede utilizarse el estadistico denominado V IF o factor de inflacion

de la varianza, el cual esta dado por la siguiente expresion:

V IFj =1

1−R2

Suele afirmarse que con valores V IF superiores a 10 la variable Xj puede ser una fuente de multicolinea-

lidad.

A continuacion se presenta la matriz de correlacion calculada para las variables del modelo

tempe tempj pob dens hc nox so2 humtempe 1.00 0.35 -0.21 -0.10 0.35 0.32 -0.11 0.07tempj 0.35 1.00 0.26 -0.06 -0.36 -0.34 -0.10 -0.45

pob -0.21 0.26 1.00 -0.18 -0.39 -0.36 -0.00 -0.14dens -0.10 -0.06 -0.18 1.00 0.12 0.17 0.43 -0.12

hc 0.35 -0.36 -0.39 0.12 1.00 0.98 0.28 -0.02nox 0.32 -0.34 -0.36 0.17 0.98 1.00 0.41 -0.05so2 -0.11 -0.10 -0.00 0.43 0.28 0.41 1.00 -0.10

hum 0.07 -0.45 -0.14 -0.12 -0.02 -0.05 -0.10 1.00

Cuadro 4: Matriz de correlacion

21

Page 22: Ejemplo; Regresión lineal múltiple

De la inspeccion de la tabla puede desprenderse que en general la correlacion entre variables explicativas

del modelo es baja (digamos rj < 0,7), sin embargo las variables hc y nox presentan una correlacion muy

elevada, de un orden de 0.98. Por lo que dichas variables pueden ser problematicas.

R2 VIFtempe 0.56 2.26tempj 0.65 2.84

pob 0.25 1.33dens 0.25 1.33

hc 0.99 72.28nox 0.99 77.88so2 0.68 3.12

hum 0.42 1.72

Cuadro 5: Diagnostico de Multicolinealidad

Del cuadro anterior se desprende, tal y como se senalo para la matriz de correlaciones, las variables hc

y nox parecen ser problemas pues son estas aqquellas que tienen un valor VIF superior a 10. Ası tambien

sus coeficientes R2 auxiliar son muy altos. De donde se concluye que el problema de Multicolinealidad

esta presente en el modelo.

3.4. Valores atıpicos

Como un objeto de especial atencion en el analisis de regresion se presenta el analsis de la presencia de

valores atıpicos. Los valores atıpicos o outliers son observaciones que siguen un patron de comportamiento

raro en relacion a la mayorıa de observaciones de la muestra. Estos deben ser revisados, pues eventualmente

su presencia puede distorsionar los resultados de la regresion y por tanto, pueden llevar a conclusiones

erroneas sobre el fenomeno que se esta analizando.

3.4.1. Apalancamiento o leverage

El analisis de apalancamiento se realiza para determinar cuan determinante puede resultar una ob-

servacion en el ajuste de la recta (o el plano) de regresion. De forma que, a veces, una sola observacion

o un pequeno grupo de observaciones, puede condicionar al modelo completo en desmedro de las demas

observaciones.

Una medida de apalancamiento o leverage puede construirse a partir de la matriz H. La matriz H se

define de la siguiente forma:

H = X(X ′X)−1X ′

De manera que cada fila puede escribirse como:

hi = x′i(X′X)−1xi

22

Page 23: Ejemplo; Regresión lineal múltiple

Donde xi representa al i-esimo vector fila de la matriz de diseno X.

Puede interpretarse a hi como una medida de distancia entre el vector xi y un vector de medias

muestrales de las variables predictoras, dado por:

x =1

n

n∑i=1

xi

. Se puede utilizar ademas el hecho que:

trH = rankH = k

Donde k se corresponde con el numero de vectores columna7 de la matriz X, pues, los vectores de H son

linealmente independientes. De esta forma, el promedio, k/n, es una comparacion util para determinar en

que medida una observacion se aleja desde el centro del espacio de covariables.

Una observacion sera considerada como atıpica en la medida en que hi > 2 kn. Aunque suele utilizarse

tambien criterios como 3 kn

e inclusive 5 kn.

El codigo utilizado para determinar el apalancamiento de cada observacion se presenta a continuacion:

Codigo R 3.4.1.

x<-cbind(1, data$tempe, data$tempj,

data$pob, data$dens, data$hc,

data$nox, data$so2, data$hum)

xtxinv<-solve(t(x)%*%x)

n<-nrow(data)

lev<-rep(NA,n)

for(i in 1:n){lev[i]<-t(x[i,])%*%xtxinv%*%x[i,]

}

7Por coherencia con el resto de la notacion utilizada en el informe se ha escogido k en lugar de p como comunmente sesuele denotar

23

Page 24: Ejemplo; Regresión lineal múltiple

0.2 0.4 0.6 0.8

−10

0−

500

5010

0

lev

res

1

2

34 5

6

7

8

9

10

11

1213

14

15

16

17 18

19

20

21

22

23

24 25

26

27

28

29

3031

32

33

34

35

36

37

38

39

40

4142

43

44

45

46

47

48

49

50

5152

53

54

55

56

57

58

59

60

Figura 4: Grafico de residuos vs leverage

3.4.2. Residuos estandarizados

Los residuos estandarizados suelen escribirse como:

εi =εi

S√

1− hi

Codigo R 3.4.2.

s2<-sum(regression$res^2)/regression$df.res

standardized.resid<-regression$res/(sqrt(s2*(1-lev)))

24

Page 25: Ejemplo; Regresión lineal múltiple

Histogram of standardized.resid

standardized.resid

Fre

quen

cy

−3 −2 −1 0 1 2 3

05

1015

20

Figura 5: Histograma de residuos estandarizados

Una vez calculados los residuos estandarizados del modelo se analiza que observaciones poseen un valor

> 3 a traves de la siguiente orden en R

Codigo R 3.4.3.

standardized.resid[standardized.resid>=3]

## named numeric(0)

De donde se desprende que bajo este criterio, no se presentan observaciones atıpicas

3.4.3. Residuos studentizados con omision

Una manera mas efectiva de detectar la presencia de valores atıpicos es el denominado uso de residuos

estudentizados con omision, es decir, se estudentizan los residuos a partir de la desviacion tıpica estimada

excluyendo la observacion bajo analisis. De esta manera, puede determinarse que tan influyente resulta

la observacion sobre la funcion de regresion muestral estimada. Al igual que en el caso anterior, suele

considerarse a una observacion como un valor influyente, en la medida en que bajo este criterio sea mayor

a tres.

Codigo R 3.4.4.

tmp<-lm.influence(regression)

ext.res<-regression$res/(tmp$sigma*sqrt(1-tmp$hat))

ext.res[abs(ext.res)>=3]

## 37

## 3.217752

25

Page 26: Ejemplo; Regresión lineal múltiple

De esta forma se identifica a la observacion numero 37 como una observacion influyente.

En la figura siguiente se reafirma lo anterior al graficar los valores predichos contra los residuos stu-

dentizados con omision. La observacion 37 se ha destacado en rojo y puede observarse como se separa

considerablemente de las demas.

850 900 950 1000 1050

−2

−1

01

23

regression$fitted.values

ext.r

es

Figura 6: Residuos estudentizados con omision vs valores predichos

Luego, utilizando la misma grafica, se han destacado aquellas observaciones que generan apalancamien-

to, ademas de la variable influyente detectada segun el analisis anterior.

850 900 950 1000 1050

−2

−1

01

23

Valores predichos

Res

iduo

s es

tand

ariz

ados

Una manera efectiva de transformar el modelo sin quitar la observacion influyente es crear una variable

ficticia que tome el valor 1 solo para esa observacion y 0 para todas las demas. Dado a que esta variable

es influyente, debiese esperarse que sea significativa.

26

Page 27: Ejemplo; Regresión lineal múltiple

Los resultados de este ejercicio se presentan a continuacion.

Cuadro 6

Dependent variable:

mort

(1) (2)

tempe 0.296 −0.105(0.935) (0.868)

tempj 2.939 2.319(2.240) (2.068)

pob 136.978∗∗ 116.896∗∗

(54.008) (50.037)

dens 0.009∗ 0.008∗

(0.005) (0.005)

hc −1.402∗∗ −1.051∗

(0.585) (0.549)

nox 2.753∗∗ 2.000∗

(1.205) (1.132)

so2 0.120 0.228(0.176) (0.165)

hum 1.647 0.901(1.546) (1.440)

influyente 157.782∗∗∗

(49.035)

Constant 117.813 285.307(271.166) (254.645)

Observations 60 60R2 0.473 0.563Adjusted R2 0.390 0.484Residual Std. Error 48.592 (df = 51) 44.668 (df = 50)F Statistic 5.712∗∗∗ (df = 8; 51) 7.159∗∗∗ (df = 9; 50)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

Luego el valor predicho para esta observacion es exacto, lo que es equivalente a afirmar que su residuo es

cero. Por ende, puede observarse como han cambiado los β’s estimados luego de quitar dicha observacion.

Codigo R 3.4.5.

data$mort[rownames(data)==37]

## [1] 1113.156

modelo.alt$fitted.values[rownames(data)==37]

## 37

## 1113.156

27

Page 28: Ejemplo; Regresión lineal múltiple

Lo anterior, puede considerarse un ejercicio meramente ilustrativo, pues se desconocen las verdaderas

razones de porque la observacion 37 tiene un comportamiento diferentes a las demas. Por lo que quitarla

no es realmente una opcion. Para abordar el problema de manera mas efectiva, convendra acudir a algun

modelo de estimacion robusto, como bien podrıa ser la regresion en la mediana. Por desgracia, dicho analsis

esta fuera del alcance del autor.

3.5. Especificacion del modelo

Un supuesto fundamental al momento de realizar la estimacion de un modelo de regresion lineal es

si el modelo esta correcta o incorrectamente especificado, pues como se ha mencionado en los apartados

previos, esto puede generar otros problemas adicionales

3.5.1. RESET test de Ramsey

Este contraste es util en caso que exista alguna sospecha sobre la omision de algun termino no lineal

en el modelo. Una manera de alcanzar este objetivo serıa incluir cada una de las variables explicativas

del modelo de forma polinomica y analizar la significancia estadıstica de cada uno de los terminos de

orden superior, sin embargo este procedimiento conllevarıa una perdida excesiva de grados de libertad

ademas de generar problemas evidentes de multicolinealidad. Para evitar estos inconvenientes, la docima

de Ramsey RESET utiliza los valos de la variable predicha, usualmente en terminos cuadraticos y cubicos,

de la siguiente forma:

Yi = β1 + β2X2i + ...+ βkXki + δ1Y2i + δ2Y

2i + εi

Las hipotesis del contraste son las siguientes:

H0 : δ1 = δ2 = 0 vs H1 : δ1 6= 0y/oδ2 6= 0

El estadıstico de este contraste es el siguiente:

F =(SCRR − SCR)/2

SCR/n− k − 2

Donde R identifica al modelo restringido (sin terminos no lineales). Suponiendo la veracidad de H0 ademas

de la normalidad de los residuos del modelo, el estadıstico recien descrito se distribuye F ∼ F2,n−k−2

De esta forma se rechaza H0 si ocurre que F > F(2,n−k−2)

Este contraste esta disponible a traves del comando resettest del paquete lmtest

Codigo R 3.5.1.

library(lmtest)

resettest(regression)

##

## RESET test

28

Page 29: Ejemplo; Regresión lineal múltiple

##

## data: regression

## RESET = 0.54568, df1 = 2, df2 = 49, p-value = 0.5829

Como puede apreciarse en el codigo previo, el resultado del test de ramsey no presenta evidencia

suficiente para rechazar la hipotesis nula, por lo que puede desprenderse que no existen no linealidades

omitidas en el modelo.

3.5.2. Contraste F de bondad del ajuste

Determinar si es adecuado o no, quitar alguna variable del modelo estimado a partir de su no signifi-

cancia individual no es una decision plenamente justificada pues, debe analizarse tambien la significancia

conjunta de las variables vistas como un grupo. Para ilustrar este ejercicio realizaremos un contraste sobre

todas aquellas variables que no resultaron individualmente significativas sobre el primer modelo propuesto:

tempe, tempj, so2 y hum. Pueden observarse ambos modelos a continuacion, es decir el modelo restrin-

gido y el modelo no restringido

Cuadro 7

Dependent variable:

mort

(1) (2)

tempe 0.296(0.935)

tempj 2.939(2.240)

pob 136.978∗∗ 140.643∗∗∗

(54.008) (52.699)

dens 0.009∗ 0.009∗

(0.005) (0.005)

hc −1.402∗∗ −1.711∗∗∗

(0.585) (0.412)

nox 2.753∗∗ 3.338∗∗∗

(1.205) (0.812)

so2 0.120(0.176)

hum 1.647(1.546)

Constant 117.813 434.898∗∗

(271.166) (176.940)

Observations 60 60R2 0.473 0.422Adjusted R2 0.390 0.380Residual Std. Error 48.592 (df = 51) 48.962 (df = 55)F Statistic 5.712∗∗∗ (df = 8; 51) 10.059∗∗∗ (df = 4; 55)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

El procedimiento de calculo del contraste se presenta a continuacion.

29

Page 30: Ejemplo; Regresión lineal múltiple

#test H0: beta.1=beta.2=beta.8=0

a1<-c(0,1,0,0,0,0,0,0,0)

a2<-c(0,0,1,0,0,0,0,0,0)

a3<-c(0,0,0,0,0,0,0,1,0)

a4<-c(0,0,0,0,0,0,0,0,1)

A<-rbind(a1,a2,a3, a4)

c<-c(0,0,0,0)

beta.hat<-regression$coef

s2<-sum(regression$res^2)/regression$df.res

tmp<-summary(regression)

xtinv<-tmp$cov.unscaled

SS<-t(A%*%beta.hat-c)%*%solve(A%*%xtinv%*%t(A))%*%(A%*%beta.hat-c)

SS

## [,1]

## [1,] 11429.79

q<-4

F<-(SS/q)/s2

F

## [,1]

## [1,] 1.210191

p<-1-pf(F,q, regression$df.res)

p

## [,1]

## [1,] 0.3179515

De este contraste se desprende que ninguna de las variables mencionadas tendrıa incidencia en el

fenomeno de interes pues tanto individualmente, como de manera conjunta, resultaron no ser significativas.

4. Solucion

El principal problema con el que nos hemos encontrado en el presente informe tiene que ver con la

presencia de multicolinealidad. Si bien, la presencia de esta es inevitable en un modelo de regresion multiple

como el que aquı se ha abordado, existen una serie de opciones que pueden escogerse para abordar dicho

problema. Algunas de estas son :

Estimadores de James-Stein

Regresion Ridge o Regresion en la Arista

30

Page 31: Ejemplo; Regresión lineal múltiple

Mınimos cuadrados parciales

Regresion en componentes principales

En particular, en este informe se aborda como vıa de solucion a la llamada regresion Ridge

4.1. Regresion Ridge

La regresion Ridge Consiste en estimar los parametros β a partir de los cuales puede minimizarse la

siguiente expresionn∑i=1

(yi − xTi β)2 + λ

p∑j=1

β2j

Desarrollando el problema de optimizacion no restringida anterior puede encontrarse que los estimadores

Ridge estan dados por el siguiente vector:

β = (XTX + λI)−1XTY

Para escoger adecuadamente al parametro λ de la expresion anterior suele utilizarse la siguiente expresion

GCV =1

n

(yi − yi

1− tr(H)/n

)2

De esta forma, aquel λ que provee de la menor GCV se utilizara para escoger los estimadores βRidge

utilizaremos la denominada regresion Ridge a traves del paquete MASS

library(MASS)

ridge<-lm.ridge(mort~pob+dens+hc+nox, lambda=seq(0,1,0.001), data=data)

Puede observarse de la tabla anterior, que el parametro λ aquel que minimiza la validacion cruzada

generalizada es de 0.055. En las graficas siguientes puede observarse como disminuyen los coeficientes

estimados en funcion de lambda en el primer panel, mientras que en el segundo se observa el valor de

GCV, donde claramente se puede observar un mınimo al menor local en el punto 0.055

library(broom)

## lambda GCV term estimate scale

## 1 0.000 42.04358 pob 18.86314 0.1341205

## 2 0.001 42.04178 pob 18.87032 0.1341205

## 3 0.002 42.04002 pob 18.87749 0.1341205

## 4 0.003 42.03830 pob 18.88463 0.1341205

## 5 0.004 42.03662 pob 18.89176 0.1341205

## 6 0.005 42.03498 pob 18.89887 0.1341205

## kHKB kLW lambdaGCV

## 1 0.09904541 2.982301 0.055

31

Page 32: Ejemplo; Regresión lineal múltiple

−100

0

100

0.00 0.25 0.50 0.75 1.00lambda

estim

ate

term

dens

hc

nox

pob

(a) Histograma

42

43

44

45

0.00 0.25 0.50 0.75 1.00lambda

GC

V(b) QQ plot

Figura 7: Graficas de normalidad

ridge.1<-lm.ridge(mort~pob+dens+hc+nox, lambda=0.055, data=data)

ridge.1

## pob dens hc nox

## 425.343953676 143.401775056 0.009527835 -1.609551114 3.137383259

5. Conclusion

La siguiente tabla resume los supuestos puestos a prueba en este informe

Supuesto Diagnostico SolucionNo normalidad No -Heteroscedasticidad No -Multicolinealidad Sı Regresion RidgeValores atıpicos No Regresion en la medianaAutocorrelacıon No aplica -

Cuadro 8: Resumen de problemas de la regresion

De esta manera, aunque tampoco se presento de manera demasiado problematica, pues a pesar de esta

pudo determinarse la significancia estadıstica de las variables involucradas, se concluye que la violacion del

supuesto que con mayor certeza pudo detectarse fue el caso de la multicolinealidad.

32

Page 33: Ejemplo; Regresión lineal múltiple

Cabe mencionar, igualmente, que el supuesto de autocorrelacion no fue abordado, pues es un fenomeno

mas comun en series de tiempo.

5.1. Anexo

5.1.1. datos

Cuadro 9: Datos

PREC TEMPE TEMJ SOBRE65 POB EDUC CASA DENS POBNB EMPLEO POBRE HC NOX SO2 HUM MORT

1 36 27 71 8,100 3,340 11,400 81,500 3, 243 8,800 42,600 11,700 21 15 59 59 921,8702 35 23 72 11,100 3,140 11 78,800 4, 281 3,500 50,700 14,400 8 10 39 57 997,8753 44 29 74 10,400 3,210 9,800 81,600 4, 260 0,800 39,400 12,400 6 6 33 54 962,3544 47 45 79 6,500 3,410 11,100 77,500 3, 125 27,100 50,200 20,600 18 8 24 56 982,2915 43 35 77 7,600 3,440 9,600 84,600 6, 441 24,400 43,700 14,300 43 38 206 55 1, 071,2896 53 45 80 7,700 3,450 10,200 66,800 3, 325 38,500 43,100 25,500 30 32 72 54 1, 030,3807 43 30 74 10,900 3,230 12,100 83,900 4, 679 3,500 49,200 11,300 21 32 62 56 934,7008 45 30 73 9,300 3,290 10,600 86 2, 140 5,300 40,400 10,500 6 4 4 56 899,5299 36 24 70 9 3,310 10,500 83,200 6, 582 8,100 42,500 12,600 18 12 37 61 1, 001,90210 36 27 72 9,500 3,360 10,700 79,300 4, 213 6,700 41 13,200 12 7 20 59 912,34711 52 42 79 7,700 3,390 9,600 69,200 2, 302 22,200 41,300 24,200 18 8 27 56 1, 017,61312 33 26 76 8,600 3,200 10,900 83,400 6, 122 16,300 44,900 10,700 88 63 278 58 1, 024,88513 40 34 77 9,200 3,210 10,200 77 4, 101 13 45,700 15,100 26 26 146 57 970,46714 35 28 71 8,800 3,290 11,100 86,300 3, 042 14,700 44,600 11,400 31 21 64 60 985,95015 37 31 75 8 3,260 11,900 78,400 4, 259 13,100 49,600 13,900 23 9 15 58 958,83916 35 46 85 7,100 3,220 11,800 79,900 1, 441 14,800 51,200 16,100 1 1 1 54 860,10117 36 30 75 7,500 3,350 11,400 81,900 4, 029 12,400 44 12 6 4 16 58 936,23418 15 30 73 8,200 3,150 12,200 84,200 4, 824 4,700 53,100 12,700 17 8 28 38 871,76619 31 27 74 7,200 3,440 10,800 87 4, 834 15,800 43,500 13,600 52 35 124 59 959,22120 30 24 72 6,500 3,530 10,800 79,500 3, 694 13,100 33,800 12,400 11 4 11 61 941,18121 31 45 85 7,300 3,220 11,400 80,700 1, 844 11,500 48,100 18,500 1 1 1 53 891,70822 31 24 72 9 3,370 10,900 82,800 3, 226 5,100 45,200 12,300 5 3 10 61 871,33823 42 40 77 6,100 3,450 10,400 71,800 2, 269 22,700 41,400 19,500 8 3 5 53 971,12224 43 27 72 9 3,250 11,500 87,100 2, 909 7,200 51,600 9,500 7 3 10 56 887,46625 46 55 84 5,600 3,350 11,400 79,700 2, 647 21 46,900 17,900 6 5 1 59 952,52926 39 29 75 8,700 3,230 11,400 78,600 4, 412 15,600 46,600 13,200 13 7 33 60 968,66527 35 31 81 9,200 3,100 12 78,300 3, 262 12,600 48,600 13,900 7 4 4 55 919,72928 43 32 74 10,100 3,380 9,500 79,200 3, 214 2,900 43,700 12 11 7 32 54 844,05329 11 53 68 9,200 2,990 12,100 90,600 4, 700 7,800 48,900 12,300 648 319 130 47 861,83330 30 35 71 8,300 3,370 9,900 77,400 4, 474 13,100 42,600 17,700 38 37 193 57 989,26531 50 42 82 7,300 3,490 10,400 72,500 3, 497 36,700 43,300 26,400 15 18 34 59 1, 006,49032 60 67 82 10 2,980 11,500 88,600 4, 657 13,500 47,300 22,400 3 1 1 60 861,43933 30 20 69 8,800 3,260 11,100 85,400 2, 934 5,800 44 9,400 33 23 125 64 929,15034 25 12 73 9,200 3,280 12,100 83,100 2, 095 2 51,900 9,800 20 11 26 58 857,62235 45 40 80 8,300 3,320 10,100 70,300 2, 682 21 46,100 24,100 17 14 78 56 961,00936 46 30 72 10,200 3,160 11,300 83,200 3, 327 8,800 45,300 12,200 4 3 8 58 923,23437 54 54 81 7,400 3,360 9,700 72,800 3, 172 31,400 45,500 24,200 20 17 1 62 1, 113,15638 42 33 77 9,700 3,030 10,700 83,500 7, 462 11,300 48,700 12,400 41 26 108 58 994,64839 42 32 76 9,100 3,320 10,500 87,500 6, 092 17,500 45,300 13,200 29 32 161 54 1, 015,02340 36 29 72 9,500 3,320 10,600 77,600 3, 437 8,100 45,500 13,800 45 59 263 56 991,29041 37 38 67 11,300 2,990 12 81,500 3, 387 3,600 50,300 13,500 56 21 44 73 893,99142 42 29 72 10,700 3,190 10,100 79,500 3, 508 2,200 38,800 15,700 6 4 18 56 938,50043 41 33 77 11,200 3,080 9,600 79,900 4, 843 2,700 38,600 14,100 11 11 89 54 946,18544 44 39 78 8,200 3,320 11 79,900 3, 768 28,600 49,500 17,500 12 9 48 53 1, 025,50245 32 25 72 10,900 3,210 11,100 82,500 4, 355 5 46,400 10,800 7 4 18 60 874,28146 34 32 79 9,300 3,230 9,700 76,800 5, 160 17,200 45,100 15,300 31 15 68 57 953,56047 10 55 70 7,300 3,110 12,100 88,900 3, 033 5,900 51 14 144 66 20 61 839,70948 18 48 63 9,200 2,920 12,200 87,700 4, 253 13,700 51,200 12 311 171 86 71 911,70149 13 49 68 7 3,360 12,200 90,700 2, 702 3 51,900 9,700 105 32 3 71 790,73350 35 40 64 9,600 3,020 12,200 82,500 3, 626 5,700 54,300 10,100 20 7 20 72 899,26451 45 28 74 10,600 3,210 11,100 82,600 1, 883 3,400 41,900 12,300 5 4 20 56 904,15552 38 24 72 9,800 3,340 11,400 78 4, 923 3,800 50,500 11,100 8 5 25 61 950,67253 31 26 73 9,300 3,220 10,700 81,300 3, 249 9,500 43,900 13,600 11 7 25 59 972,46454 40 23 71 11,300 3,280 10,300 73,800 1, 671 2,500 47,400 13,500 5 2 11 60 912,20255 41 37 78 6,200 3,250 12,300 89,500 5, 308 25,900 59,700 10,300 65 28 102 52 967,80356 28 32 81 7 3,270 12,100 81 3, 665 7,500 51,600 13,200 4 2 1 54 823,76457 45 33 76 7,700 3,390 11,300 82,200 3, 152 12,100 47,300 10,900 14 11 42 56 1, 003,50258 45 24 70 11,800 3,250 11,100 79,800 3, 678 1 44,800 14 7 3 8 56 895,69659 42 33 76 9,700 3,220 9 76,200 9, 699 4,800 42,200 14,500 8 8 49 54 911,81760 38 28 72 8,900 3,480 10,700 79,800 3, 451 11,700 37,500 13 14 13 39 58 954,442

33