Diapositivas de metodos econometricos

Powerpoint Templates

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

FACULTAD DE ECONOMÍA

MATERIAL AUDIOVISUALDIAPOSITIVAS

“REGRESIÓN LINEAL MÚTIPLE”

UNIDAD DE APRENDIZAJE: MÉTODOS ECONOMÉTRICOSSEGUNDO SEMESTRE DE LA MAESTRÍA EN ECONOMÍA APLICADA

ELABORADO POR: MIGUEL ÁNGEL DÍAZ CARREÑO

OCTUBRE 2010

http://www.powerpointstyles.com/


REGRESION LINEAL MULTIPLE (RLM)



Unidad 2. Modelo lineal de k variables



ÍNDICE

Objetivo

Introducción

El modelo de RLM

Suposiciones del modelo de RLM

Propiedades de los estimadores

El Estimador de σ2 y de la matriz de Var- Con

Intervalo de confianza para los coeficientes de regresión

Pruebas de Hipótesis sobre β

Predicción de Inferencias sobre µ|X1,X2,…,Xk

Bibliografía



Objetivo de la unidad 2

El alumno comprenderá los supuestos del modelo clásico de regresión lineal y aplicará el método estadístico de mínimos cuadrados ordinarios para la estimación de los parámetros de un modelo de regresión lineal simple y múltiple. Además, realizará el correspondiente análisis de varianza (ANOVA) y explicará el significado y utilidad de dichos estimadores.



IntroducciónRegresión Lineal Múltiple (RLM) es una extensión del modelo de Regresión Líneal Simple (el cual incluye una sola variable independiente)

El modelo de RLM es más difícil de manipular debido a lo siguiente:

1

2

3

4

Sera mas difícil determinar cual es le mejor modelo ya que se tendrábastantes candidatos a elegir.

Sera más difícil de visualizar con luces de modelo ajustado (especialmente cuando hay más de 2 variables independientes) ya que no es posible graficar directamente los datos o el modelo ajustado (se tienen más de 2 dimensiones).

Muchas veces es bastante difícil interpretar el mejor modelo ajustadoen términos del mundo real.

Para llevar a cabo los cálculos se requiere tener acceso a un computador de tamaño adecuado y además que se disponga de paquetes estadísticos confiables.



El Modelo de RLM

En RLS se presento el siguiente modelo para el caso de que se considere una sola variable dependiente:

Si tenemos en consideración mas de una variable independiente (digamos k) una extensión lógica del modelo es:

Donde los β0, β1,…, βk son los coeficientes de regresión que necesitan ser estimados y las X1, X2,…,XK son las variables independientes que pueden ser todas distintas (variables básicas) o bien algunas de ellas pueden ser función de algunas básicas. Pro ejemplo podemos tener 4 variables X1, X2, X3, X4 donde X3 = X2

2 y X4 = X1 X2.



El modelo RLS tiene la siguiente estructura matricial:

Por lo tanto si extendemos la estructura del modelo de RLS A EL RML,

tendremos



El modelo de RLM tiene la forma condensada que ya presentemos para el modelo de RLS, esto es:

Donde y es un vector de observaciones de orden n, X una matriz de variables conocidas de orden [n x (k+1)], β es el vector de coeficiente de regresión dimensional k+1 y ε un vector aleatorio de dimensiones n el cual no es observable.



Ejemplo 4.Supongamos que tenemos en consideración una variable dependiente (Y)

y dos variables independientes X1 y X2, las cuales toman los siguientes valores:

TABLA NO. 2Observaciones

X1 X2 Y

1 3 12 1.22 3 36 1.53 2 10 0.94 4 14 1.55 3 16 1.06 5 22 4.07 2 14 0.88 2 10 0.89 2 24 1.0

10 5 14 2.011 5 18 2.012 5 21 3.013 5 28 3.214 0 27 0.515 5 14 1.9



En este ejemplo el modelo en forma matricial es el siguiente:



Suposiciones del Modelo de RLM

A continuación se anotan las suposiciones sobre las cuales se basará el modelo de RLM.

Suposición 1. Para cada combinación específica de valores de las variables X1, X2,…,XK (por ejemplo X13=2 y X23=10), la variable dependiente Y es una variable aleatoria univariada concierto distribución

probabilística.

Suposición 2. Las observaciones Y ( a los errores ε) son estadísticamente independientes uno de otro.



Suposición 3. El valor esperado de Y por cada combinación especifica de X1, X2,…,XK es una función líneal de X1, X2,…,XK, esto es:

O bien

Donde ε es el error aleatorio que refleja la diferencia entre una observación individual Y y su verdadero valor esperado .



Cometarios sobre la suposición (3)

a)La superficie descrita por recibe el nombre de ecuación de regresión (superficie de respuesta o superficie de regresión).

b)Si algunas variables independientes son función de otras variables básicas (por ejemplo X3=X2

2, X6=X1 X2 X4), la expresión es realmente no lineal en las variables básicas.



Las técnicas de RLM que describiremos se aplican a modelos que son lineales o inherentemente lineales en los coeficientes de regresión, independientemente de cómo se definan las variables. Así por ejemplo

es inherentemente lineal pues puede transformarse en un modelo lineal si aplicamos la función logaritmo

y tendremos el modelo equivalente donde .

En cambio el modelo no es líneal ni inherentemente líneal de tal forma que para manipularlo hay que usar técnicas de estas notas.



Suposición 4. La varianza de Y es la misma para cualquier combinación fija de X1,X2,…,XK , esto es,

(Homocedasticidad). O bien Var (ε)=σ2.

Suposición 5. Para cualquier combinación fija de X1, X2,…,XK, la variable aleatoria univariada se distribuye normalmente. En otras palabras

O bien

O bien en forma comprimida



Donde (X´X) es de dimensión (k+1) x (k+1), β de dimensión (k+1) y X´y de (k+1).

Claramente la forma de la matriz (X´X) y de los vectores β y X´y son extensiones directos del caso de RLS.

La solución de EN es:

Donde:



El modelo de regresión estimado (ecuación de regresión estimado) es:

O bien

La suma de cuadrados del error en este caso es



Continuación del ejemplo 4.

Las ecuaciones normales que corresponden a el ejemplo presentado se construyen usando los cálculos previos que se muestran debajo de la Tabla No. 2.

La inversa de la matriz X´X en este caso es:



Por lo tanto el vector de estimuladores es :

La ecuación de regresión estimada es entonces

En forma matricial la ecuación de regresión estimada es



Por lo tanto el valor estimado de Y para una combinación fija de las variables independiente, por ejemplo (1, 3, 36), es:

La suma de cuadrados del error para este caso es:



Propiedades de los Estimadores

A continuación se listan algunas de las propiedades de los estimadoresde MC que nos serán de gran utilidad en desarrollo posteriores.

Propiedad 1. Insesgamiento

Propiedad 2.



Propiedad 3.

Si

Donde Cii es el i-ésimo elemento de la diagonal de la matriz C= (X´X)-1 σ2.



De que para cualquier otra * se tiene que

Propiedad 4. La correlación entre Y y

En este ejemplo se tiene que



Por lo tanto

El Estimador de σ2 y de la matriz de Var- Cov

Un estimador de σ2 es insesgado si y solo si el modelo de RLM propuesto es correcto esta dado por:



Por lo tanto el estimador de Var esta dado por

Para el ejemplo en cuestión mostraremos como se calcula el estimador de σ2 de diferentes formas



Los estimadores de las varianzas y covarianzas de los serán:



Intervalo de Confianza para los Coeficientes de Regresión

Bajo la suposición de que Y tiene una distribución normal, presentaremos IC para los siguientes casos: (a) IC para βi (b) IC para combinaciones lineales de las β´s de la forma . (c) región de confianza para . (a) IC para cada uno de los coeficientes de regresión.

Los IC para β0, β1, β2, … , βk se pueden construir de la misma forma como generamos IC para los coeficientes de regresión en el modelo de RLS, de tal forma que un IC de tamaño (1-α) para βi esta dado por:



( b) IC para una combinación lineal de los β´s de la forma .

Para construir un IC para donde es un vector conocido lo primero tenemos que calcular es Var ( ), la cual esta dada por :

Dado lo anterior el IC para esta dado por



(c ) Región de confianza para β.

Una región de confianza de tamaño (1-α) para todos los coeficientes de regresión esta dado por la ecuación.

En general esta región de confianza es útil cuando se tiene pocos coeficientes de regresión (2, 3 ó 4). Para el caso de que se construya una región de confianza pata β0 y β1 en el modelo de RLS esta lucirá como se muestra en la siguiente figura

β0 β0

β1

β1

Región de confianza para β0 y β1 en el modelo de RLS.



Continua ejemplo 4.

(a) Los IC para β0, β1 y β2 para este ejemplo donde α= 0.05 son

Por lo tanto tendremos que los IC de tamaño 0.95 son



En este caso ya que

El estimador de es

( b) Supongamos que deseamos calcular un IC para β1 - β2.



El estimador de para este caso será

Por lo tanto un IC de tamaño 0.95 para β1 - β2 será



Pruebas de Hipótesis sobre β

Una vez que el investigador ha estimado los coeficientes de regresión y calculado sus varianzas, generalmente esta interesado en probar la significancia del modelo o bien llevar a cabo apartado presentaremos la forma de probar algunas de las hipótesis más comunes.

Antes de presentar los diferentes tipos de hipótesis a probar introduciremos la siguiente notación.

Notación:

SCTotal no corregido =STC (no corregido)= y´y



Caso 1: Deseamos probar

En este caso la hipótesis nula significa:

H0: Todas las k variables independientes consideradas juntas no explican una cantidad significativa de la variación de Y.Estas hipótesis pueden escribirse en forma vectorial de la siguiente manera:



F.V. g.l. S.C. C.M. FC Ft

R(β1, β2, …,βk| β0)

K

Error n-(k+1)

Total (corregido)

n-1

La prueba se lleva a cabo construyendo la siguiente tabla del ANOVA



La regla de decisión es la siguiente:

Caso 2.

El caso mas general de prueba de hipótesis sobre β que podemos plantear es aquel donde H0 es de la forma

H0: L´β =Y

HA: L´β ≠Y

Donde L´ es una matriz de q x (k+1) de constantes conocidas y de rango q y Y es un vector de constantes conocidas de orden q.

A continuación presentaremos varios ejemplos de este tipo de hipótesis para un caso de modelo de RLM.



Considerando el modelo Y=β0+ β1X1+ β2X2+ β3X3+ε.

(i) H0: 2 β1-β2- β3=0 HA: 2 β1- β2- β3≠0

En este caso L´=(0 2 -1 -1); q=1 ; Y=0 ya que

(ii)

En este caso,



(iii)

En este caso



(iv) H0: β2=0 HA: β2≠0

Para este tipo de hipótesis en la cual se esta probando la significancia de un solo parámetro tenemos que

L ´=(0 0 1 0) ; q=1 y Y=0

(v) H0: β2=0 HA: β2≠0

Para este tipo de hipótesis en la cual se esta probando la significancia de un solo parámetro tenemos que

L ´=(0 0 1 0) ; q=1 y Y=0



La correspondencia L´ es:

Para probar la hipótesis H0: L´β = Y contra HA: L´β ≠ Y , la estadística de prueba es



L a

La regla de decisión es: Rechazo H0 con un nivel de significancia α si Fc ≥ Ft.

Casos particulares

(a) Para el caso

(b) Para el caso H0: βi=0 , HA: βi≠0



Continuación ejemplo 4.

En el modelo propuesto

deseamos probar

Caso 1:

La tabla de ANOVA que corresponde a este ejemplo es

F.V. g.l. S.C. C.M. FC F212,0.05

Regresión (X1,X2)

2 10.9592 5.4796 18.7979 3.89 0.0004

Error 15-3=12 3.4982 0.2915

Total (Corregido)

15-1=14 14.1574



Donde:

15.6319 - 42.6726 = 1.9592

SC total corregido = y ´ y – (Σy)2/15 = 57.13 – 42.6726 = 14.4574

SC Error = 14.4574 – 10.9592 = 3.4982



Conclusión:

Como FC= 18.7979 >Ft= 3.89. Concluimos que los datos dele estudio muestran evidencia significativa (5%) de que el modelo de RLM que incluye a las variables X1 y X2 explica una cantidad significativa de la variación de Y.



Si llevamos a cabo la prueba de falta de ajuste de este modelo tenemos:

X1 X2 Y n1 gli (ni-1)S2i

2 10 0.9 , 0.8 2 1 0.005

5 14 2.0 , 1.9 2 1 0.005

TOTAL 2 0.01



S2ep=0.01/2 =0.005



Conclusión:

Como FC=69.764 > Ft=19.4 rechazamos . Concluimos que dado que

también se rechazo , el modelo de

RLM no es el adecuado para explicar la relación existente entre la variable dependiente (Y) y las independientes X1, X2. Sugiere que se intente otro modelo con más variables.



En el ejemplo que hemos venido desarrollando el modelo propuesto es

Consideramos la siguiente hipótesis a ser probada.

H0=β1 – β2 =0HA=β1 – β2 ≠0

En este caso L´=(0 1 -1); q=1 y y=0 por lo tanto

Caso 2:



Conclusión:

Con un nivel de significancia del 5% rechazamos la hipótesis H0=β1 – β2 =0

Pruebas Parciales de F.

Supongamos que tenemos un modelo con 3 variables independientes X1, X2, X3 y deseamos conocer la siguiente información.

1. SC (β1| β0)=SC(X1): La SC resultante de usar únicamente X1 para predecir Y.

2. SC (β2| β0 , β1) = SC(X2|X1): La SC extra explicada por X2 en adición a X1 para predecir Y.

3. SC (β3|β0, β1, β2)=SC (X3|X1,X2): La SC extra explicada por X3 en adición a X1 y X2 para predecir a Y.



La información anterior es requerida para dar respuesta a las siguientes preguntas:

Contribuye significativamente X1 a predecir a Y.

Contribuye significativamente la adición de X2 a predecir Y después de haber tomado en cuenta la contribución de X1.

Contribuye significativamente la adición de X3 a predecir a Y después de haber tomado en cuenta a la contribución de X1 y X2.



Al momento presente conocemos a la forma de dar respuesta a la pregunta (1) ya que solamente involucra el ajuste de un modelo de RLM. Para dar respuesta a la pregunta (2) y (3) usaremos las pruebas de F parciales.

Para llevar a cabo un aprueba de F parcial para una variable, digamos X*, dado que las variables X1, X2, …, XP ya se encuentran ene le modelo, debemos calcular las ´´SC extra resultante de adicionar a el modelo X*, dado que ya se encuentra en el X1, X2, …, XP´´. Esta suma de cuadrados se calcula mediante la formula.



SC extra de adicionar = SC de regresión - SC de regresión

X* dado X1, X2, …, XP Cuando X1, X2, …, XP y X* se encuentran todos en el modelo

Cuando X1, X2, …, XP (y no X*) están en el modelo

En forma compacta esto puede escribirse

SC (X*| X1, X2, …, XP) =SC (X1, X2, …, XP, X*)- SC (X1, X2, …, XP)

Recordemos que la SC (X1, X2, …, XP, X*) es la SC Regresión resultante de ajustar el modelo y la SC (X1, X2, …, XP) es la SC Regresión que obtenemos al ajustar. El modelo

Para mayor generalidad suponga que consideramos el modelo y deseamos calcular la SC (X3|X1,X2). Para tal caso tendremos que ajustar dos modelos.



Modelo 1: o bien matricialmenteY = X1β1 +ε donde:

En este caso

SC= Regresión = SC (X1, X2, X3) = y´ X1´( X1´ X1´)-1 X1 y



Modelo 2: el cual escrito matricialmenteY = X2β2 +ε donde

En este caso

SC= Regresión = SC (X1, X2) = y´ X2´( X2´ X2´)-1 X2 y

Por lo tanto

SC (X3| X1, X2) =SC (X1, X2 , X3)- SC (X1 X2) = y´X1´ (X1´ X1)-1 X1 y – y´ X2´ (X2 ´X2)-1 X2 y



Deseamos probar la hipótesis nula

La estadística de prueba es

H0: La adición de X* a el modelo que ya contiene a las variables X1, X2, …, XP NO mejora significativamente la predicción de Y.

Esta estadística tiene la distribución de F con 1 y n-p-2 grados de libertad bajo la H0. Esto es Ft=F1

n-p-2 , α. La regla de decisión es:

RD: Rechazo H0 a un nivel de significancia α si FC ≥ Ft.

Nota: El CME (X1, X2, …, XP, X*) es el CME que resulta de ajustar el modelo



Ejemplo 5. Considérese el siguiente conjunto de datos

TABLA NO. 3Y X1 X2 X3

1 1.2 3 12 144

2 1.5 3 36 1296

3 0.9 2 10 100

4 1.5 4 14 196

5 1.0 3 16 256

6 4.0 5 22 484

7 0.8 2 14 196

8 0.8 2 10 100

9 1.0 2 24 576

10 2.0 5 14 196

11 2.0 5 18 324

12 3.0 5 21 441

13 3.2 5 28 784

14 0.5 0 27 7259

15 1.9 5 14 196



A continuación se presentan los modelos estimados y las tablas del ANOVA para varias combinaciones y variables.

Modelo estimado

F.V. g.l. SC CM F

Regresión (X1)

1 9.6971 9.6971 26.4823 0.0004

Error 13 4.7602

Total 14 14.4573

MODELO 1: (Y, X1)



MODELO 2. ( Y, X2)

Modelo estimado

F.V. g.l. SC CM F

Regresión (X1)

1 1.1398 1.1398 1.1126 0.3115

Error 13 13.3175 1.0244

Total 14 14.4573



MODELO 3. ( Y, X3)

Modelo estimado

F.V. g.l. SC CM F

Regresión (X1)

1 0.6046 0.6046 0.5374 0.5201

Error 13 13.8527 1.0656

Total 14 14.4573



MODELO 4. ( Y, X4)

Modelo estimado

F.V. g.l. SC CM F

Regresión (X1)

2 10.9591 5.4796 18.7979 0.0004

Error 12 3.4982 0.2915

Total 14 14.4573



MODELO 5. ( Y, X1 , X2 )

Modelo estimado

F.V. g.l. SC CM F

Regresión (X1)

2 10.6952 5.3476 17.0574 0.0005

Error 12 3.7621 0.3135

Total 14 14.4573



MODELO 6. ( Y, X2 , X3 )

Modelo estimado

F.V. g.l. SC CM F

Regresión (X1)

2 3.5153 1.7577 1.9276 0.187

Error 12 10.9420 0.9118

Total 14 14.4573



MODELO 7. ( Y, X1 , X2 , X3)

Modelo estimado

F.V. g.l. SC CM F

Regresión (X1)

3 11.3656 3.7885 13.4794 0.0008

Error 11 3.0917 0.2811

Total 13 14.4573



Con las tablas del ANOVA presentadas podemos calcular las siguientes SC parciales.

Usando los modelos 1 y 4 tenemos

De los modelos 4 y 7 tenemos

Con los modelos 6 y 7 tenemos

Con los modelos 5 y 7 tenemos

SC (X2| X1) =SC (X1, X2)- SC (X1) = 10.9591-9.6971 = 1.262

SC (X3| X1, X2) =SC (X1, X2 , X3)- SC (X1 ,X2) = 11.3656-10.9591 = 0.4065

SC (X1| X2, X3) =SC (X1, X2 , X3)- SC (X2 ,X3) = 11.3656-3.5153 = 7.8503

SC (21| X1, X3) =SC (X1, X2 , X3)- SC (X1 ,X3) = 11.3656- 10.6952 = 0.6704



Algunas de las pruebas de hipótesis que podemos llevar a cabo se presentan a continuación

La estadística de prueba es:

H0: La adición de X2 a el modelo que ya contiene a las variables X1 NO mejora significativamente la predicción de Y.

Ft= F115-1-2, 0.05= F1

12, 0.05 = 4.75



Como Ft =4.75 > FC= 4.329 concluimos que la adición de X2 a el modelo que contiene a X1 no mejora significativamente la predicción de Y a un nivel de significancia del 5%.

H0: La adición de X3 a el modelo que ya contiene a las variables X1 y X2 no mejora significativamente la predicción de Y.

En este caso:



Concluimos que X3 no mejora significativamente (5%) la predicción de Y si se adiciona a el modelo que ya contiene a X1, X2.

Para esta hipótesis

Concluiremos que la adición de X1 a el modelo que contiene a X2 y X3 mejora significativamente (5%) la predicción de Y.

H0: La adición de X1 a el modelo que ya contiene a las variables X2 y X3 no mejora significativamente la predicción de Y.



Predicción de Inferencias sobre µ|X1,X2,…,Xk

En esta sección generaremos I.C. para donde X0´ es un vector especifico cuyos elementos son de la misma forma que una hilera de X de tal forma que es el valor predicho en el punto X0. Por ejemplo si el modelo propuesto fuera , entonces X0´= (1, X0, X0

2) para un valor especifico de X0.

La varianza de el valor predicho en el punto X0´ es

Y su estimador es

Donde S2=CME



Un intervalo de confianza para de tamaño 1-α, esta dado por

Continuación ejemplo 5

Si consideramos los datos presentados en la tabla No. 3 y ajustamos el modelo , tenemos que el modelo de RLM estimado es



Supongamos que deseamos un I.C. de tamaño 0.95 para tendremos que X0´=(1,2,36,1296) y por lo tanto

El C.I. buscando es

Por lo tanto I.C. es[0.6437, 2.8468]

Donde S2 = CME = 0.2811 se obtuvo de la tabla del ANOVA que corresponde a el modelo ajustado y (X´X)-1 es



Bibliografía

Greene Willian H. (2003). Econometric Analysis. Fifth edition. Prentice Hall, New Jersey

Johnston J. y J. Dinardo (1997). Econometric Methods. New York, McGraw Hill, United States of America.

Quintana R. Luis y Miguel A. Mendoza G. (2008) Econometría aplicada: modelos y aplicaciones a la economía mexicana. Plaza y Valdés, México.

Wooldridge J. (2006). Introducción a la econometría: un enfoque moderno. Segunda edición. Thompson, México.


Diapositivas de metodos econometricos

Documents

Transcript of Diapositivas de metodos econometricos