Cristina Sanchez Figueroa

JAMES HECKMAN, EL SESGO DE SELECCIN MUESTRAL.

Cristina Snchez Figueroa

Pedro Cortias Vzquez

Iigo Tejera Martn

Senda del Rey

UNED. Madrid

[email protected], [email protected], [email protected]

El objetivo de este trabajo es hacer una breve revisin del trabajo elaborado por

James Heckman (1979) que tiene en cuenta el problema del sesgo de seleccin muestral.

Este problema, esencial a lo hora de obtener conclusiones acertadas, no haba sido

estimado en los modelos tradicionales desarrollados hasta ese momento.

Es importante resaltar que la correccin en la seleccin muestral se puede

realizar tanto en modelos con variable dependiente continua como en modelos con

variable dependiente discreta. En este trabajo se considera nicamente el caso de

variable dependiente continua, y se analizan los mtodos de estimacin que existen;

considerando principalmente el mtodo de Heckman en dos etapas.

Al presentarse el problema de la seleccin muestral los modelos de estimacin

deben recurrir, adems de la ecuacin objetivo que se pretende estimar, a una segunda

ecuacin que se le suele denominar ecuacin de seleccin. La ecuacin de seleccin

corresponde a un modelo de variable dependiente discreta y mide la probabilidad de

estar en la muestra. El ejemplo tpico considerado por Heckman en su trabajo es el

mercado laboral. En este caso las personas que trabajan son una submuestra de la

poblacin potencialmente activa, que puede trabajar.

1. Antecedentes.

Heckman, James J. (1944- ). Economista norteamericano nacido en Chicago

(Illinois) en 1944. Estudi matemticas en la universidad de Colorado y despus

economa en la universidad de Princeton, donde, en 1971, consigui el doctorado. En

1985 obtuvo el cargo de profesor de economa en la ctedra Henry Schultz, de la

universidad de Chicago, donde se le elev a catedrtico con mencin por servicios

distinguidos en 1995.

Su labor docente se ha desarrollado en la universidad de Columbia, Yale y

Chicago, y la ha compatibilizado con cargos en la oficina nacional norteamericana de

investigacin econmica o en el centro de investigacin econmica del centro nacional

norteamericano de investigacin de opinin. Tambin ha estado vinculado a diferentes

organizaciones (como la academia nacional de las ciencias) y a publicaciones de

carcter econmico, y ha sido miembro de diversas comisiones de la academia nacional

de las ciencias.

Heckman se ha especializado en el estudio estadstico de la microeconoma, es

decir la parte de la economa que describe el comportamiento de los individuos, las

familias y las empresas ante diversos incentivos de mercado y de gobierno. A esta

combinacin se le ha denominado microeconometra. Y surge como consecuencia de la

creciente disponibilidad y accesibilidad de informacin de tipo individual proveniente

de encuestas, as como del espectacular desarrollo de los medios de clculo necesarios

para procesar dicha informacin.

De esta manera, Heckman ha orientado sus anlisis a temas relacionados con la

economa laboral, como la decisin de aceptar un empleo, los ingresos del trabajo, la

duracin del desempleo, los programas gubernamentales para desempleados y menos

capacitados, la fecundidad y la discriminacin.

Utilizando como base estos anlisis su principal contribucin ha sido

metodolgica, al resolver problemas frecuentemente encontrados en la aplicacin de la

economa y conocidos en el lenguaje tcnico como "sesgo de seleccin" y

"autoseleccin". As, el problema del sesgo de seleccin fue desarrollado por James

Heckman en su trabajo Sample selection bias as a especification error (1979). Hasta la

publicacin del trabajo este problema, de gran importancia, no era considerado en los

anlisis de los economistas, desconociendo a su vez que la correccin del mismo resulta

fundamental para obtener conclusiones acertadas con estimadores insesgados,

consistentes y eficientes sobre las caractersticas de la poblacin o la muestra en estudio.

Actualmente resulta ser uno de los problemas que ms se deben tener en cuenta a la

hora de la estimacin de un modelo.

Fue galardonado con el Premio Novel de Economa en el ao 2000. Este hecho

supone un reconocimiento a sus trabajos, pioneros en la resolucin de problemas que

tienen relevancia desde el punto de vista social. La lnea de investigacin iniciada por

Heckman ha generado numerosas contribuciones centradas en la estimacin de los

efectos de polticas activas del mercado de trabajo. Su trabajo ha permitido establecer

ventajas e inconvenientes de utilizar datos experimentales en la evaluacin de polticas

pblicas.

2. El sesgo de seleccin muestral.

El sesgo de seleccin muestral surge cuando las muestras a disposicin de los

investigadores no son "aleatorias", es decir no representan adecuadamente la poblacin

que se desea estudiar. Dentro de los sesgos de seleccin existen diferentes modalidades

que pueden depender de los criterios del analista, de la decisin de los agentes

econmicos, etc. En base esto podemos decir que el propio analista, al decidir el diseo

muestral, puede realizar una mala seleccin de los grupos que se comparan, o bien, lo

que se puede dar es un problema de autoseleccin, cuando los individuos deciden

autoselecionarse para pertenecer a un determinado grupo.

En primer lugar comentamos brevemente en qu consiste la autoseleccin, que

correspondera al caso en el que la observabilidad de la variable dependiente est en

funcin del valor que tome otra variable. El caso ms tpico, desarrollado por Heckman,

es analizar cmo las muestras de participantes en el mercado laboral no son el resultado

de una seleccin aleatoria sino de la autoseleccin de los individuos derivada de un

proceso de maximizacin de utilidad. Al mismo tiempo diversos factores, como la

educacin, afectan al salario que puede conseguir un individuo en el mercado laboral. Si

el estudio slo considera a los individuos que trabajan y adems estn educados, se

obtiene una muestra incompleta de la poblacin ("autoseleccionada" de acuerdo con la

decisin de las personas por educarse) lo que conducira a conclusiones errneas

("sesgadas") sobre el efecto de la educacin. En este caso, al estar "sobrerepresentada"

la poblacin educada en la muestra, se tiende a subestimar el efecto de la educacin.

Por otro lado los datos pueden no ser seleccionados de forma aleatoria por

decisiones del propio analista. Un ejemplo son los estudios con datos de panel, una

muestra ser seleccionada por el analista si existe estabilidad en la unidad familiar

durante varios periodos de anlisis.

Para obtener estimaciones no sesgadas, debe considerarse este hecho. Por tanto,

teniendo en cuenta este problema y la complejidad de las estimaciones, se han

desarrollado mtodos computacionales muy sencillos que son utilizados por la mayor

parte de los investigadores a la hora de obtener conclusiones acertadas en los estudios

realizados.

3. El Modelo de Heckman.

Ante la presencia de sesgo de seleccin, existen mtodos de correccin que

tienen como objetivo solucionar este problema. Para obtener estimaciones en modelos

de variable dependiente continua, los mtodos de correccin que se pueden utilizar son

el propuesto por Heckman en 1979 y el mtodo de Mxima Verosimilitud de Amemiya

1981 En este trabajo se considera principalmente el primero, aunque se hace un pequeo

apunte al de Mxima Verosimilitud, pues es uno de los ms utilizados gracias al

desarrollo de los programas computacionales.

El mtodo propuesto por Heckman permite aislar el sesgo de seleccin muestral

que se deriva de trabajar con modelos, ya sean de ingresos u horas de trabajo, de los

individuos en el mercado laboral. Tal sesgo es producto de la autoseleccin de los

individuos que deciden estar ocupados, de manera que cuando se utilizan los mtodos

clsicos Mnimos Cuadrados Ordinarios (MCO), por ejemplo- los coeficientes

obtenidos por este procedimiento estn sesgados por el hecho de que la poblacin

ocupada constituye un segmento de la poblacin total que paso por un proceso de

autoseleccin para ingresar al mercado laboral. El procedimiento sugerido por Heckman

para tratar con este tipo de problemas es conocido como el mtodo bietapico.

El mtodo consiste en estimar en un primer paso un modelo tipo probit para

calcular la probabilidad (dadas ciertas variables de inters que determinen tal decisin)

de que un individuo decida o no estar ocupado, de esta estimacin se obtiene el

estadstico conocido como la razn inversa de Mills que captura la magnitud de dicho

sesgo. Posteriormente al calculo del modelo probit, la razn de Mills estimada se

incorpora al modelo de regresin original (estimado por MCO) para ser aadido como

un regresor ms, de esta manera la significatividad de este coeficiente indica la

magnitud de sesgo en que se incurrira si no se hubiese incorporado a la regresin

explicativa de la desigualdad salarial. De esta manera, los coeficientes estimados por

MCO aadiendo la variable ,que capta la magnitud del sesgo, son consistentes. Los estimadores obtenidos en por MCO con el mtodo bietapico aunque consistentes,

presentan problemas de eficiencia tal como demostr Maddala (1983). Este hecho hace

que surja el mtodo por mxima verosimilitud en el cual la estimacin se realiza de

manera conjunta.

1. Definicin del modelo de Heckman.

iii vzy 22 (a) iii uxy 11 si 02 iy (b) iy 1 no se observa si 02 iy iD2 1 si 02 iy iD2 0 si 02 iy

La ecuacin para iy 1 es una ecuacin de regresin comn. Sin embargo, bajo

ciertas condiciones no observamos la variable dependiente de esta ecuacin.

Denotaremos si observamos o no esta variable mediante una variable dummy iD2 .

La observacin de la variable dependiente iy 1 es funcin del valor de otra

regresin: la ecuacin de seleccin que relaciona la variable latente iy 2 con algunas

caractersticas observadas iz .

Para simplificar la exposicin podemos decir que se consideran dos ecuaciones

en el modelo, una ecuacin de inters que corresponde a la ecuacin que se busca

estimar, de la que buscamos extraer conclusiones, y una ecuacin de seleccin o

participacin (regresin auxiliar) que corresponde a un modelo de eleccin discreta

(Probit o Logit), que mide la probabilidad de estar en la muestra, en esta ltima

ecuacin se pueden incluir las variables independientes de la ecuacin de inters y a su

vez esta ecuacin deber contener al menos una variable continua que sea determinante

en el proceso de pertenecer o no a la muestra pero que a su vez no resulte relevante para

determinar la variable dependiente, lo anterior con el fin de no caer en problemas de

identificacin.

Adems, se asume la existencia de una distribucin normal bivariada de los

errores en las ecuaciones (a) y (b) con la siguiente estructura:

1,

00

1

121

2

1

Nuu

De esta forma, la ecuacin de seleccin se convierte en un modelo Probit. Por su

parte, recordemos que la varianza de la distribucin en la ecuacin Probit puede ser

normalizada a uno sin prdida de informacin ya que la escala de la variable

dependiente no es observada.

De esta manera, usando el supuesto de normalidad y las propiedades de la

normal bivariada truncada podemos calcular:

zvvExyyE 2121 /)0/( (c)

11 zx

z

zx

11

zzx 1

Consideramos que la razn inversa de Mills siempre es positiva, la regresin de

y sobre x est sesgada dependiendo del valor de

As la magnitud del sesgo depender de la magnitud de la correlacin entre los

errores )( , la varianza relativa del error )( 1 y la severidad del truncamiento (la razn inversa de Mills es mayor cuando z es menor). As, si =0 entonces no habrs sesgo de seleccin

2. Estimacin del modelo de Heckman.

As utilizando la siguiente especificacin:

)0/( 21 yyE

zzx 1

El objetivo es estimar en la ecuacin (b) por MCO incluyendo en dicha ecuacin la medida

zz

. Con este fin Heckman (1979) sugiere realizar los siguientes

pasos:

1. Estimar consistentemente usando un probit para la probabilidad de observar los datos en funcin de z.

2. Calcular su valor ajustado para la funcin ndice o variable latente

ii zy 2 y calcular la razn inversa de Mills i

como funcin de iy 2

.

3. Incluir i en la regresin de iy1 sobre ix para aproximar iz . El

coeficiente de i ser una medida de 1 y de esta forma una estimacin de

y de 1 puede ser obtenida a partir de all.

Los valores resultantes (estimadores) de 1, y son consistentes pero asintticamente ineficientes bajo el supuesto de normalidad. La gran importancia de este

mtodo es su sencillez , puesto que slo se necesita realizar un probit y un MCO.

No obstante y una vez establecido este mtodo, existen por lo menos tres

aspectos que se deben considerar con respecto a este estimador en dos etapas:

1. El estimador del error estndar convencional en (a) es inconsistente pues el

modelo de regresin en (c) es intrnsecamente heterocedstico debido a la

seleccin. Una forma de solucionar esto es mediante el uso de los estimadores

de los errores estndar robustos los cuales son, al menos consistentes.

2. El mtodo no impone la condicin que 1 lo cual est implcitamente asumido en el modelo. Esta condicin es a menudo no respetada.

3. El supuesto de normalidad es necesario para la consistencia de los estimadores.

3. Estimacin por Mxima Verosimilitud (ML).

En el mtodo por mxima verosimilitud lo primero que debemos hacer es

especificar el modelo, tal como hemos visto en las ecuaciones (a) y (b), para una vez

especificado realizar la estimacin de manera conjunta.

En este caso al considerar el sesgo de seleccin cada grupo tendr diferente

funcin de verosimilitud. Como tenemos dos tipos de observaciones:

1. Aquellas donde 1y es observada para lo cual sabemos que se cumple que

02 y . Para estas observaciones la funcin de verosimilitud es la probabilidad del evento 1y y que tambin ocurra que 02 y .

),,/0(),/0,( 12121 zxyyPyfzxyyP iiiii ),,/( 121 zxvzvPvf iiii i

zii

ii dvvvfxy

i

2121

1

1

/1

iz

iiiii dv

xyvxy

i

22

11

2

1

1

1 11

2

11

1

1

1 111

iiiii

xyzxy

2

11

1

1

1 11

iii

ii

xyzxy

2. Aquellas donde 1y no es observada para lo cual sabemos que se cumple que

02 y del manera, no tenemos informacin independiente para 1y .

ii zvPyP 22 )0( )( iz )(1 iz

De esta manera considerando la funcin de verosimilitud para todos los

elementos de la muestra obtendramos la siguiente expresin:

))(1log(),,,,(log 1 izdatosL

1logloglog

11

1

11

iiiii

xyzxy

Estos estimadores sern consistentes y asintticamente eficientes bajo el

supuesto de normalidad y homocedasticidad de los trminos de error no censurados.

Aunque unos de los problemas que tiene la estimacin por ML es que la funcin no es

estrictamente cncava y en consecuencia no necesariamente existe una nica solucin.

BIBLIOGRAFIA.

Gonzalez Espitia, Carlos G.Sesgo de seleccin muestral con STATA Gujarati (2010). Econometra. Mxico. Mc Graw Hill. Heckman James J. (enero 1979) Sample selection bias as a specification

errorEconometrica. Journal of the Econometric Society (47): pp.153-161.

MADDALA G.S. (1983), Limited Dependent and Qualitative Variables in Econometrics, Econometric. Society Monographs.

Murray, M. (2006). Econometrics: a modern introduction. Ed. Pearson. Prez L. Csar (2006). Problemas resueltos de econometra, Ed. Thomson. STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press. Wooldridge, J. (2006). Introduccin a la Econometra. Un enfoque moderno.

Ed.Thomson.

Cristina Sanchez Figueroa

Documents

Transcript of Cristina Sanchez Figueroa