Otras cuestiones sobre el modelo de regresión

23
Ver. 28/09/2006, Slide # 1 Noviembre 2009 Econometría I Otras cuestiones sobre el Modelo de Regresión Miguel Jerez y Sonia Sotoca Universidad Complutense de Madrid

Transcript of Otras cuestiones sobre el modelo de regresión

Ver. 28/09/2006, Slide # 1

Noviembre 2009

Econometría IOtras cuestiones sobre el Modelo de Regresión

Miguel Jerez y Sonia Sotoca

Universidad Complutense de Madrid

Ver. 28/09/2006, Slide # 2

Índice• Variables cualitativas

• Colinealidad

• Transformaciones lineales

• Errores de especificación

Ver. 28/09/2006, Slide # 3

Variables cualitativas (I): Ideas básicas

• A menudo los modelos de regresión incluyen variables explicativas binarias (0-1) que reflejan una característica presente (=1) o ausente (=0) en parte de la muestra

• A estas variables también se las denomina “variables dummy”, “variables ficticias” o “variables cualitativas”

• Los coeficientes de las variables cualitativas pueden interpretarse como medias, o diferencias de medias

• A partir de un mismo modelo básico de regresión con variables cualitativas pueden obtenerse varias formas computables

• Todas las formas computables que se derivan de un mismo modelo básico son equivalentes, lo único que cambia entre una y otra es la interpretación de los parámetros

• Las variables cualitativas de un modelo de regresión pueden cruzarse multiplicativamente con otras variables del modelo

• Combinando: (a) estos resultados sobre variables cualitativas y (b) el contraste de hipótesis a partir de modelos libres y restringidos, resulta fácil construir un test para la hipótesis de cambio estructural

Ver. 28/09/2006, Slide # 4

Variables cualitativas (II): Interpretación

En un modelo de regresión, los coeficientes de las variables cualitativas pueden interpretarse como medias, o diferencias de medias

Supongamos una regresión del peso de los niños al nacer frente a las variables SMOKE (=1: la madre fuma, =0: la madre no fuma) y PARITY (=1: la madre es primípara, =0: la madre no es primípara)

El término constante es el peso esperado si la madre no es primípara ni fuma

Los otros coeficientes son diferenciales de peso esperado si la madre fuma o si es primípara

Ver. 28/09/2006, Slide # 5

Variables cualitativas (III): Formas computables

Un mismo modelo básico de regresión con variables cualitativas da lugar a varias formas computablesTodas las formas computables que se derivan de un mismo modelo básico son equivalentes, lo único que cambia entre una y otra es la interpretación de los parámetros

Los cuadros muestran dos formas computables derivadas del mismo modelo básico. Los valores de la verosimilitud, suma de cuadrados y los criterios de ajuste son los mismos. Asimismo, los parámetros de cualquiera de estos modelos pueden calcularse a partir de los del otro

Ver. 28/09/2006, Slide # 6

Variables cualitativas (IV): Efectos cruzados

Las variables cualitativas de un modelo de regresión pueden cruzarse multiplicativamente con otras variables del modelo para valorar si la presencia conjunta de varias características personales refuerza o no el efecto de los factores cualitativos

La nueva variable permite que el peso esperado del hijo de una madre primípara fumadora sea distinto del de:• una madre primípara no

fumadora, o• de una madre fumadora no

primípara, o• de una madre no primípara y

no fumadora

Ver. 28/09/2006, Slide # 7

Variables cualitativas (V): Contrastes de cambio estructural-1

Combinando los resultados previos sobre variables cualitativas y (b) el contraste de hipótesis a partir de modelos libres y restringidos, resulta fácil construir un test para la hipótesis de cambio estructural

• Consideremos el “modelo restringido”:

• ... y el “modelo libre”:

• A partir de la estimación MCO de ambos modelos, el estadístico:

permite contrastar la hipótesis nula de ausencia de cambio estructural. Este contraste se conoce en la literatura econométrica como “Test de Chow”

= +y Xb e

é ù é ùé ù é ùê ú ê úê ú ê ú= +ê ú ê úê ú ê úë û ë ûë û ë û

y X

y X

b e

b e1 1 1 1

2 2 2 2

0

0

,

ˆ ˆ ˆ ˆ ˆ ˆ

ˆ ˆ

T T T

k n kT

n kF F

k H-

- --=

0

:e e e e e e

e e1 1 2 2

Ver. 28/09/2006, Slide # 8

Variables cualitativas (VI): Contrastes de cambio estructural-2

• El análisis sobre el impacto de una madre fumadora sobre el peso de un niño al nacer puede plantearse como un problema de cambio estructural

• El modelo en el listado de la izquierda pone en relación el peso con el período de gestación, si la madre es primípara o no, la altura y el peso de la madre. Implícitamente se impone la restricción de que los hijos de madres fumadoras pesan lo mismo que los de madres no fumadoras

• El modelo del listado de la derecha permite que todos los parámetros del modelo anterior sean distintos para las madres fumadores y no fumadoras

• El estadístico de cambio estructural sería:((1174-5)/5)*(250.6734-232.3983)/250.6734 = 17.0450• Por lo que la nula se rechaza al 5% de significación (valor crítico=2.124) y al 1% (valor

crítico=3.017). Alternativamente, el p-valor del test anterior es 0

Ver. 28/09/2006, Slide # 9

Índice• Variables cualitativas

• Colinealidad

• Transformaciones lineales

• Errores de especificación

Ver. 28/09/2006, Slide # 10

Colinealidad (I): Introducción

El término colinealidad (o multicolinealidad) en Econometría se refiere a una situación en la que dos o más variables explicativas se parecen mucho y, por tanto, resulta difícil medir sus efectos individuales sobre la variable endógena.

A veces se utilizan los términos “mala identificación” o “mal condicionamiento” como sinónimos de colinealidad.

Cabe distinguir dos casos:

• Colinealidad exacta, cuando . En este caso existen infinitas soluciones del sistema de ecuaciones normales:

• Colinealidad de grado, en este caso y, por tanto, existe una solución formalmente óptima al problema de mínima suma de cuadrados. Sin embargo, esta solución está mal condicionada, ya que la función objetivo es muy plana en el entorno del óptimo y, por tanto, existen infinitas soluciones casi tan buenas como la óptima.

Dividiremos la discusión de este tema en los siguientes puntos:

• Efectos de la colinealidad.

• Casos en que suele presentarse este problema

• Criterios para decidir cuándo la colinealidad de grado constituye un problema.

• Soluciones al problema.

=0TX Xˆ =T TΜCΟX X X yb

0;TX X

Ver. 28/09/2006, Slide # 11

El efecto fundamental de la colinealidad exacta es que no existe una solución única del sistema de ecuaciones normales.

Cuando la colinealidad es de grado:

• Las estimaciones individuales de los parámetros están mal identificadas

• Se produce una inflación de la varianza de las estimaciones.

• Las estimaciones resultan muy sensibles a la muestra.

Mala identificación de las estimaciones. Por ejemplo, sea el modelo:

en donde:

Sustituyendo (2) en (1) se obtiene:

y, si la varianza de ut es “pequeña”, el parámetro de xt2 estará mal identificado, ya que esta variable aporta poca información que no esté ya contenida en xt1. En el límite, si la varianza de ut fuera nula, tendríamos un problema de colinealidad exacta.

Colinealidad (II): Efectos-1

t t t ty x xb b b e= + + +0 1 1 2 2

t t tx x ua= +2 1 1

(1)

(2)

( ) ( )t t t t t t t ty x x u x ub b b a e b b b a b e= + + + + = + + + +0 1 1 2 1 1 0 1 2 1 1 2

Ver. 28/09/2006, Slide # 12

Inflación de la varianza de las estimaciones. Como:

si entonces las varianzas de los parámetros tenderán a ser mayores que en una situación bien condicionada. Por tanto, los contrastes de hipótesis serán menos precisos y, concretamente, puede ocurrir que se consideren no significativos parámetros que lo serían si la colinealidad fuera menor.

Estimaciones sensibles a la muestra.

Puesto que la función objetivo (suma de cuadrados de residuos) es muy plana en el entorno del óptimo, pequeños cambios en los valores de y o de X pueden dar lugar a cambios importantes en las estimaciones.

Colinealidad (III): Efectos-2

( )ˆ( ) ( )T

cov adje es s-= =2 1 2 1b T TΜCΟ T

X X X XX X

0;TX X

Ver. 28/09/2006, Slide # 13

Resulta frecuente que surja un problema de colinealidad en los siguientes casos:

• En modelos de series temporales, cuando se emplean variables explicativas con tendencia.

• En modelos de series temporales, cuando se incluyen como variables explicativas retardos sucesivos de la variable endógena o de alguna de las variables explicativas. Esto provoca colinealidad porque los valores de una variable económica en distintos instantes de tiempo suelen estar correlados entre sí.

• Cuando se consideran muchas variables explicativas. Lógicamente, a medida que aumenta el número de variables explicativas, es más fácil que aparezca una relación entre ellas, que de lugar a un problema de colinealidad.

• En modelos con variables cualitativas. Por ejemplo, en el modelo:

surge un problema de colinealidad exacta.

Colinealidad (IV): ¿Cuándo suele presentarse este problema?

si , , ,; ;

en caso contrariot t t t t t t

t ny x x x x xb b b e

ì =ïï= + + + = = -íïïî

10 1 1 2 2 1 2 1

1 121

0

K

Ver. 28/09/2006, Slide # 14

Para decidir si la colinealidad de grado constituye un problema debemos tener en cuenta los objetivos de nuestro análisis concreto. Por ejemplo, la colinealidad no nos preocupa demasiado si nuestro objetivo es predecir, pero es un problema muy grave si el análisis se centra en interpretar las estimaciones de los parámetros.

Para diagnosticar este problema estudiaremos dos métodos: a) los basados en la correlación entre variables explicativas, y b) los basados en el tamaño de

Métodos basados en la correlación entre variables explicativas. Si calculamos los coeficientes de correlación muestral entre cada par de variables, podemos decidir que existe un problema de colinealidad si algún coeficiente de correlación es mayor (en valor absoluto) que una tolerancia. Los problemas de este método son: a) sólo puede detectar correlación entre pares de variables explicativas y b) la tolerancia es arbitraria.

Métodos basados en el tamaño de . Como sabemos:

siendo el i-ésimo autovalor de la matriz. Por tanto, podemos reducir el diagnóstico a comprobar si la matriz tiene algún autovalor próximo a cero. Para evitar el problema de unidades de medida, este análisis suele hacerse utilizando el número de condición de XTX que se puede definirse de varias maneras:

Colinealidad (V): Criterios de diagnóstico

TX X

TX X

k

ii

l=

=Õ1

TX X

il

max maxmin min

min max min max

; ; ;c c c cc c

l ll ll l l l

= = = = = =1 2 3 41 3

1 1

Ver. 28/09/2006, Slide # 15

Colinealidad (VI): Soluciones

• El problema de colinealidad se reduce a que la muestra no contiene suficiente información para estimar todos los parámetros. Por ello, resolver el problema requiere añadir nueva información, sea muestral o extramuestral, o cambiar la especificación. Algunas posibles soluciones en esta línea son:

• Añadir nuevas observaciones. Aumentar el tamaño muestral puede reducir un problema de colinealidad.

• Restringir parámetros. Evidentemente, si la Teoría Económica o la experiencia sugieren algunas restricciones sobre los parámetros más afectados por la colinealidad, imponerlas permitirá reducir el problema. Obviamente, se corre el riesgo de imponer restricciones que no son ciertas.

• Suprimir variables. Si se suprimen variables que están correladas con otras, la pérdida de capacidad explicativa será pequeña y la colinealidad se reducirá.

• Transformar las variables del modelo. Si la colinealidad se debe a que se están relacionando series temporales con tendencia, puede ser conveniente transformar las variables para eliminar esta tendencia.

Ver. 28/09/2006, Slide # 16

Índice• Variables cualitativas

• Colinealidad

• Transformaciones lineales

• Errores de especificación

Ver. 28/09/2006, Slide # 17

Transformaciones lineales (I): Cambio de escala

Sea el modelo:

(1)

y el cambio de escala definido por:

(2)

Asimismo, sea el modelo definido en términos de las variables transformadas:

(3)

La cuestión que se plantea es: ¿qué relación existe entre los modelos (1) y (3)?

Sustituyendo (2) en (3) se obtiene: o, equivalentemente:

(4)

Identificando términos entre (4) y (1), y por las propiedades de la varianza, resulta:

(5)

ˆ ˆ ˆt t ty x0 1b b= + +e

;* *t y t t x ty y x xl l= =

ˆ ˆ ˆ* * *t t ty x* *

0 1b b= + +e

ˆ ˆ ˆ*y t x t ty x* *

0 1l b b l= + +e

ˆ ˆ ˆ*xt t t

y y y

y x* *0 1

lb b

l l l= + +

1 1e

* *ˆ ˆ ˆ; ; ˆ ˆ ; ;ˆ ˆ*x

t ty y y y

R R* *0 0 1 1 e

lb b b b s s

l l l l= = = = =2 2 2 2

2

1 1 1e e

Ver. 28/09/2006, Slide # 18

Transformaciones lineales (II): Cambio de origen

Análogamente, sea el modelo (1) y el cambio de origen definido por:

(6)

Asimismo, sea el modelo definido en términos de las variables transformadas:

(7)

Nuevamente, se trata de determinar qué relación existe entre los modelos (1) y (7).

Sustituyendo las relaciones (6) en (7) se obtiene:

(8)

o, equivalentemente:

(9)

e identificando términos entre esta ecuación y (1), se obtiene:

(10)

;* *t t y t t xy y x xg g= + = +

ˆ ˆ ˆ* * *t t ty x* *

0 1b b= + +e

( )ˆ ˆ ˆ*t y t x ty x* *

0 1g b b g+ = + + +e

ˆ ˆ ˆ ˆ*t x y t ty x* * *

0 1 1b b g g b= + - + +e

* *ˆ ˆ ˆ ˆ ˆ; ; ˆ ˆ ; ;ˆ ˆ*

x y t t R R* * *0 0 1 1 1 eb b b g g b b s s= + - = = = =2 2 2 2e e

Ver. 28/09/2006, Slide # 19

Transformaciones lineales (III): El MLG en desviaciones con respecto a la media

Un cambio de gran interés consiste en expresar las variables en desviaciones con respecto a su media muestral, esto es:

(11)

En este caso, el término constante del modelo transformado es igual a cero, ya que, si sumamos la ecuación (7) desde t=1 hasta t=n, y dividimos el resultado por n, resulta:

(12)

de donde, simplificando la expresión y teniendo en cuenta que la suma de residuos en un modelo con término constante es igual a cero, se obtiene:

(13)

Por tanto, como la media muestral de las variables en desviaciones con respecto a la media es cero, el término constante del modelo transformado tiene que ser nulo.

En modelos con término constante, trabajar con los datos en desviaciones con respecto a la media puede tener interés porque las componentes de X'X pueden interpretarse como momentos muestrales de las correspondientes variables y c) los coeficientes de regresión pueden relacionarse con los coeficientes de correlación muestral entre las variables

;y xy xg g=- =-

ˆ ˆ ˆn n n

* * *t t t

t=1 t=1 t=1

y n xn n n n

* *0 1b b= + +å å å1 1 1 1

e

ˆ ˆ* *y x* *0 1b b= +

Ver. 28/09/2006, Slide # 20

Índice• Variables cualitativas

• Colinealidad

• Transformaciones lineales

• Errores de especificación

Ver. 28/09/2006, Slide # 21

Errores de especificación (I): Omitir variables relevantes

Supongamos que la especificación correcta es:

(1)

y nosotros especificamos erróneamente:(2)

la cuestión general que se plantea es: ¿qué relaciones guarda el estimador MCO de con el de ? Por definición:

(3)

cuya esperanza incondicional es: Por tanto, cuando se omiten variables relevantes se incurre en un sesgo proporcional a la correlación existente entre los regresores especificados y los omitidos. Si los dos grupos de regresores son ortogonales entre sí, esto es, si , entonces la estimación MCO de (2) proporciona estimaciones insesgadas de .

El estimador (3) es sesgado pero más eficiente que el del modelo correctamente especificado, por lo que, en algún caso, la ganancia en eficiencia podría compensar el sesgo.

[ ]é ùê ú= +ê úë û

y X X 11 2

2

be

b

= +y X1a h

ab

( ) [ ]´

ˆ- ì üé ùï ïï ïê ú= +í ýê úï ïï ïë ûî þ

1T TX X X X X 11 1 1 1 2

2

ba e

b

( ) ( )´

ˆE-

= +1T TX X X X1 1 1 1 2 2a b b

=0TX X1 2

1b

Ver. 28/09/2006, Slide # 22

Errores de especificación (II): Incluir variables irrelevantes

Supongamos que la especificación correcta es:

… y nosotros utilizamos:

Aplicando el lema de inversión de matrices particionadas, puede demostrarse que:

´

por lo que incluir variables irrelevantes es un problema fácil:• … de detectar, mediante contrastes de significación, y• … fácil de resolver, ya que sólo requiere excluir la variable irrelevante.• Si la muestra es corta, merece la pena resolverlo ya que mantener las variables

irrelevantes supone perder eficiencia en la estimación

[ ]a

a

é ùê ú= +ê úë û

y X Z 1

2

h

( ) ( ) [ ] ˆ; ; cov( ) cov( )ˆ ˆ ˆE E tr tr é ù= = ³ ê úë û01 1 2a b a a b

= +y Xb e

Ver. 28/09/2006, Slide # 23

Miguel Jerez ([email protected])

Sonia Sotoca ([email protected])

Departamento de Fundamentos del Análisis Económico II (Economía Cuantitativa)

Facultad de Ciencias Económicas, UCM

Más materiales en:

http://www.ucm.es/info/ecocuan/mjm/ectr1mj

http://econometriamj.blogspot.com/