Pronósticos, Series de Tiempo y Regresión

31
Pronósticos, Series de Tiempo y Regresión Capítulo 5: Construcción de Modelos y Análisis Residual

description

Pronósticos, Series de Tiempo y Regresión. Capítulo 5: Construcción de Modelos y Análisis Residual. Temas. Construcción de modelos y los efectos de la multicolinealidad Análisis residual en la regresión simple Análisis residual en la regresión múltiple - PowerPoint PPT Presentation

Transcript of Pronósticos, Series de Tiempo y Regresión

Page 1: Pronósticos, Series de Tiempo y Regresión

Pronósticos, Series de Tiempo y Regresión

Capítulo 5: Construcción de Modelos y Análisis Residual

Page 2: Pronósticos, Series de Tiempo y Regresión

Temas

1. Construcción de modelos y los efectos de la multicolinealidad

2. Análisis residual en la regresión simple

3. Análisis residual en la regresión múltiple

4. Diagnóstico para detectar observaciones atípicas e influyentes

Page 3: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidad

Sub-temas multicolinealidad comparación de los modelos de regresión

con base en R2, s, R2 ajustada, longitud del intervalo de predicción y estadística C

regresión por pasos y eliminación hacia atrás

Page 4: Pronósticos, Series de Tiempo y Regresión

Multicolinealidad

las variables independientes están relacionadas entre sí o dependen una de otra

Cuando existe la multicolinealidad entre dos o más variables independientes, la importancia de éstas parecerá ser menor.

Se utiliza una matriz de correlación La multicolinealidad es grave si por lo menos

uno de los coeficientes de correlación simple entre las variables independientes es al menos de 0.9.

Page 5: Pronósticos, Series de Tiempo y Regresión

Multicolinealidad

factores de inflación de la varianza (variance inflation factor)

Rj2 es el coeficiente de determinación múltiple para el

modelo que relaciona xj con las otras variables

independientes.

VIFj > 1

21

1

jj R

VIF

Page 6: Pronósticos, Series de Tiempo y Regresión

Multicolinealidad

La multicolinealidad es grave si:1. el VIF más grande > 10

2. el VIF medio es sustancialmente > 1

Page 7: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidad

comparación de los modelos de regresión con base en R2, s, R2 ajustada, longitud del intervalo de predicción y estadística C

R2 = (variación explicada)/(variación total)

el R2 al el número de variables

Page 8: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidad comparación de los modelos de regresión con

base en R2, s, R2 ajustada, longitud del intervalo de predicción y estadística C

al el número de variables, se pierden grados de libertad

si al introducir otra variable independiente al modelo, el s , no debemos sumar la variable independiente al modelo.

1

kn

SSEs

Page 9: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidad comparación de los modelos de regresión con

base en R2, s, R2 ajustada, longitud del intervalo de predicción y estadística C

al el número de variables, se pierden grados de libertad

si al introducir otra variable independiente al modelo, el R2 ajustada ↓, no debemos sumar la variable independiente al modelo.

1

1

122

kn

n

n

kRR

Page 10: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidad comparación de los modelos de regresión con

base en R2, s, R2 ajustada, longitud del intervalo de predicción y estadística C

Queremos que C sea pequeña. Queremos que C sea casi igual a k + 1. Si C >> k + 1, el modelo tiene un sesgo notable. Si C < k + 1, el modelo no tiene sesgo y es

deseable.

122

kns

SSEC

p

Page 11: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidadRegresión por pasos

Se especifican αentry y αstay

Paso 1: 1. se corre una regresión para cada variable

independiente.2. Se denomina a la variable con el mayor valor de la

estadística t, x[1]

3. Si la estadística t no indica que x[1] sea significante en

el nivel αentry , el procedimiento termina. Si es

significante, se conserva para usarla en el paso 2.

Page 12: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidadRegresión por pasos Paso 2: 1. se corre una regresión agregando cada variable

independiente al modelo

y = β0 + β1x[1] + β2xj + 1. Se denomina a la variable (nueva) con el mayor valor de

la estadística t, x[2]

2. Si la estadística t no indica que x[2] sea significante en el

nivel αentry , el procedimiento termina. Si es significante,

se comprueba que la estadística t >αstay para x[1].

Page 13: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidadRegresión por pasos Pasos posteriores: 1. se continúan agregando variables independientes, una

por una, al modelo. En cada paso se suma una variable independiente al modelo si teine la estadística t más grande de las variables independientes que no están en el modelo y si su estadística t indica que es significante en el nivel

2. Después de añadir una variable independiente, el

procedimiento comprueba que todas las variables

independientes ya incluidas tienen t significante en el

nivel αstay

Page 14: Pronósticos, Series de Tiempo y Regresión

Construcción de modelos y los efectos de la multicolinealidadeliminación hacia atrás1. Se corre una regresión con todas las p variables

independientes.2. Si la estadística t más pequeña es significante en el

nivel αstay , se conserva el modelo con todas las variables.

3. Si la estadística t más pequeña no es significante en el nivel αstay , se elimina esa variable del modelo y se corre la regresión de nuevo.

4. Se repite estos pasos hasta conseguir que la estadística t más pequeña sea significante en el nivel αstay .

Page 15: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

Sub-temas gráficas de residuos suposición de varianza constante suposición de la forma funcional correcta suposición de la normalidad suposición de independencia transformación de la variable dependiente

Page 16: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple recuerda que

Si las suposiciones de la regresión se mantienen, los residuos deben parecer que han sido seleccionados en forma aleatoria e independiente de poblaciones distribuidas normalmente cuya media es 0 y su varianza es σ2

yye ˆ

Page 17: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

gráficas de residuos Se elaboran gráficas de residuos

contra

1. valores de x

2. valores de y

3. el orden en el tiempo en el cual los datos han sido observados (para series de tiempo)

Page 18: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

suposición de varianza constante se examinan las gráficas de los residuos

varianza de error creciente varianza de error decreciente

Page 19: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

suposición de la forma funcional correcta Si usamos un modelo de regresión lineal

simple cuando la relación verdadera es curva, la gráfica de residuos tendrá una apariencia curva.

Page 20: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

suposición de la normalidad Se acomodan los errores en orden ascendente Se grafican contra el valor z correspondiente. z = punto en el eje horizontal bajo la curva

normal estándar de modo que el área bajo la curva a la izquierda de z(i) es (3i-1)/(3n+1)

Esta gráfica debe asemejarse a una recta.

Page 21: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

suposición de independencia más probable violar esta suposición en

series de tiempo: autocorrelación positiva patrón cíclico en los errores autocorrelación negativa

Los términos de error deben ocurrir en un patrón aleatorio en el tiempo.

Page 22: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

transformación de la variable dependiente posible remedio en casos de

transgresión de las suposiciones de varianza constante forma funcional correcta normalidad

Page 23: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión simple

transformación de la variable dependiente transformación de la raíz cuadrada

transformación de la raíz cuárta

transformación logarítmica

5.* yyy

25.4* yyy

yy ln*

Page 24: Pronósticos, Series de Tiempo y Regresión

Análisis residual en la regresión múltiple

Se grafican los residuos contra

1. valores de cada variable independiente

2. valores del valor predicho de la variable dependiente

3. orden en el tiempo en el cual se observaron los datos

Page 25: Pronósticos, Series de Tiempo y Regresión

Diagnóstico para detectar observaciones atípicas e influyentes Sub-temas

valor de la ventaja residuos y residuos estudentizados residuos eliminados y residuos eliminados

estudentizados medida de la distancia de Cook Qué hacer con respecto a las

observaciones atípicas y las influyentes

Page 26: Pronósticos, Series de Tiempo y Regresión

Diagnóstico para detectar observaciones atípicas e influyentes atípica: una observación muy separada

del resto de los datos influyente: cambia de forma significativa

algún aspecto importante (b o s) del análisis de regresión si se elimina la observación

Page 27: Pronósticos, Series de Tiempo y Regresión

Diagnóstico para detectar observaciones atípicas e influyentesvalor de la ventaja mide la distancia entre los valores x de la

observación y el centro de la región experimental

Si el valor de la ventaja es grande, la observación es atípica con respecto a sus valores x.

Se considera grande si es mayor que lo doble del promedio de todos los valores de la ventaja. (2(k+1)/n)

Page 28: Pronósticos, Series de Tiempo y Regresión

Diagnóstico para detectar observaciones atípicas e influyentesresiduos y residuos estudentizados Cualquier residuo notablemente

diferente de los otros es sospechoso. residuo estudentizado: e/s Si el resiguo estudentizado es mayor

que 2, hay alguna evidencia de que la observación es atípica.

Page 29: Pronósticos, Series de Tiempo y Regresión

Diagnóstico para detectar observaciones atípicas e influyentes residuos eliminados y residuos eliminados

estudentizados

se calcula la distancia entre yi y y(i)

residuo eliminado estudentizado = (residuo eliminado) / s

Hay fuerte evidencia de que la observación es atípica con respecto a su valor y si el residuo eliminado estudentizado es mayor que

2

005. knt

Page 30: Pronósticos, Series de Tiempo y Regresión

Medida de la Distancia de Cook

D de Cook Si la D de Cook de la observación i es

grande, entonces las estimaciones puntuales de mínimos cuadrados cambian mucho con la inclusión de i

Si D < F[.80], i no es influyente

Si D > F[.50], i sí es influyente

Page 31: Pronósticos, Series de Tiempo y Regresión

Qué hacer con respecto a las observaciones atípicas y las influyentes

Comenzar con las observaciones atípicas en la variable y

1. Comprobar que el valor esté capturado correctamente; corregirlo si es necesario.

2. Si no se puede corregir o si es correcto, desechar la observación y correr la regresión de nuevo.

Luego ver los valores x

3. Tratar de detectar razones (causas) para el valor y atípico (ver si algún valor x también es atípico).

4. Considerar otras variables independientes no incluidas en el modelo.