Cristina Sanchez Figueroa

download Cristina Sanchez Figueroa

of 11

Transcript of Cristina Sanchez Figueroa

  • JAMES HECKMAN, EL SESGO DE SELECCIN MUESTRAL.

    Cristina Snchez Figueroa

    Pedro Cortias Vzquez

    Iigo Tejera Martn

    Senda del Rey

    UNED. Madrid

    [email protected], [email protected], [email protected]

    El objetivo de este trabajo es hacer una breve revisin del trabajo elaborado por

    James Heckman (1979) que tiene en cuenta el problema del sesgo de seleccin muestral.

    Este problema, esencial a lo hora de obtener conclusiones acertadas, no haba sido

    estimado en los modelos tradicionales desarrollados hasta ese momento.

    Es importante resaltar que la correccin en la seleccin muestral se puede

    realizar tanto en modelos con variable dependiente continua como en modelos con

    variable dependiente discreta. En este trabajo se considera nicamente el caso de

    variable dependiente continua, y se analizan los mtodos de estimacin que existen;

    considerando principalmente el mtodo de Heckman en dos etapas.

    Al presentarse el problema de la seleccin muestral los modelos de estimacin

    deben recurrir, adems de la ecuacin objetivo que se pretende estimar, a una segunda

    ecuacin que se le suele denominar ecuacin de seleccin. La ecuacin de seleccin

    corresponde a un modelo de variable dependiente discreta y mide la probabilidad de

    estar en la muestra. El ejemplo tpico considerado por Heckman en su trabajo es el

    mercado laboral. En este caso las personas que trabajan son una submuestra de la

    poblacin potencialmente activa, que puede trabajar.

  • 1. Antecedentes.

    Heckman, James J. (1944- ). Economista norteamericano nacido en Chicago

    (Illinois) en 1944. Estudi matemticas en la universidad de Colorado y despus

    economa en la universidad de Princeton, donde, en 1971, consigui el doctorado. En

    1985 obtuvo el cargo de profesor de economa en la ctedra Henry Schultz, de la

    universidad de Chicago, donde se le elev a catedrtico con mencin por servicios

    distinguidos en 1995.

    Su labor docente se ha desarrollado en la universidad de Columbia, Yale y

    Chicago, y la ha compatibilizado con cargos en la oficina nacional norteamericana de

    investigacin econmica o en el centro de investigacin econmica del centro nacional

    norteamericano de investigacin de opinin. Tambin ha estado vinculado a diferentes

    organizaciones (como la academia nacional de las ciencias) y a publicaciones de

    carcter econmico, y ha sido miembro de diversas comisiones de la academia nacional

    de las ciencias.

    Heckman se ha especializado en el estudio estadstico de la microeconoma, es

    decir la parte de la economa que describe el comportamiento de los individuos, las

    familias y las empresas ante diversos incentivos de mercado y de gobierno. A esta

    combinacin se le ha denominado microeconometra. Y surge como consecuencia de la

    creciente disponibilidad y accesibilidad de informacin de tipo individual proveniente

    de encuestas, as como del espectacular desarrollo de los medios de clculo necesarios

    para procesar dicha informacin.

    De esta manera, Heckman ha orientado sus anlisis a temas relacionados con la

    economa laboral, como la decisin de aceptar un empleo, los ingresos del trabajo, la

    duracin del desempleo, los programas gubernamentales para desempleados y menos

    capacitados, la fecundidad y la discriminacin.

  • Utilizando como base estos anlisis su principal contribucin ha sido

    metodolgica, al resolver problemas frecuentemente encontrados en la aplicacin de la

    economa y conocidos en el lenguaje tcnico como "sesgo de seleccin" y

    "autoseleccin". As, el problema del sesgo de seleccin fue desarrollado por James

    Heckman en su trabajo Sample selection bias as a especification error (1979). Hasta la

    publicacin del trabajo este problema, de gran importancia, no era considerado en los

    anlisis de los economistas, desconociendo a su vez que la correccin del mismo resulta

    fundamental para obtener conclusiones acertadas con estimadores insesgados,

    consistentes y eficientes sobre las caractersticas de la poblacin o la muestra en estudio.

    Actualmente resulta ser uno de los problemas que ms se deben tener en cuenta a la

    hora de la estimacin de un modelo.

    Fue galardonado con el Premio Novel de Economa en el ao 2000. Este hecho

    supone un reconocimiento a sus trabajos, pioneros en la resolucin de problemas que

    tienen relevancia desde el punto de vista social. La lnea de investigacin iniciada por

    Heckman ha generado numerosas contribuciones centradas en la estimacin de los

    efectos de polticas activas del mercado de trabajo. Su trabajo ha permitido establecer

    ventajas e inconvenientes de utilizar datos experimentales en la evaluacin de polticas

    pblicas.

    2. El sesgo de seleccin muestral.

    El sesgo de seleccin muestral surge cuando las muestras a disposicin de los

    investigadores no son "aleatorias", es decir no representan adecuadamente la poblacin

    que se desea estudiar. Dentro de los sesgos de seleccin existen diferentes modalidades

    que pueden depender de los criterios del analista, de la decisin de los agentes

    econmicos, etc. En base esto podemos decir que el propio analista, al decidir el diseo

    muestral, puede realizar una mala seleccin de los grupos que se comparan, o bien, lo

    que se puede dar es un problema de autoseleccin, cuando los individuos deciden

    autoselecionarse para pertenecer a un determinado grupo.

  • En primer lugar comentamos brevemente en qu consiste la autoseleccin, que

    correspondera al caso en el que la observabilidad de la variable dependiente est en

    funcin del valor que tome otra variable. El caso ms tpico, desarrollado por Heckman,

    es analizar cmo las muestras de participantes en el mercado laboral no son el resultado

    de una seleccin aleatoria sino de la autoseleccin de los individuos derivada de un

    proceso de maximizacin de utilidad. Al mismo tiempo diversos factores, como la

    educacin, afectan al salario que puede conseguir un individuo en el mercado laboral. Si

    el estudio slo considera a los individuos que trabajan y adems estn educados, se

    obtiene una muestra incompleta de la poblacin ("autoseleccionada" de acuerdo con la

    decisin de las personas por educarse) lo que conducira a conclusiones errneas

    ("sesgadas") sobre el efecto de la educacin. En este caso, al estar "sobrerepresentada"

    la poblacin educada en la muestra, se tiende a subestimar el efecto de la educacin.

    Por otro lado los datos pueden no ser seleccionados de forma aleatoria por

    decisiones del propio analista. Un ejemplo son los estudios con datos de panel, una

    muestra ser seleccionada por el analista si existe estabilidad en la unidad familiar

    durante varios periodos de anlisis.

    Para obtener estimaciones no sesgadas, debe considerarse este hecho. Por tanto,

    teniendo en cuenta este problema y la complejidad de las estimaciones, se han

    desarrollado mtodos computacionales muy sencillos que son utilizados por la mayor

    parte de los investigadores a la hora de obtener conclusiones acertadas en los estudios

    realizados.

    3. El Modelo de Heckman.

    Ante la presencia de sesgo de seleccin, existen mtodos de correccin que

    tienen como objetivo solucionar este problema. Para obtener estimaciones en modelos

    de variable dependiente continua, los mtodos de correccin que se pueden utilizar son

    el propuesto por Heckman en 1979 y el mtodo de Mxima Verosimilitud de Amemiya

    1981 En este trabajo se considera principalmente el primero, aunque se hace un pequeo

  • apunte al de Mxima Verosimilitud, pues es uno de los ms utilizados gracias al

    desarrollo de los programas computacionales.

    El mtodo propuesto por Heckman permite aislar el sesgo de seleccin muestral

    que se deriva de trabajar con modelos, ya sean de ingresos u horas de trabajo, de los

    individuos en el mercado laboral. Tal sesgo es producto de la autoseleccin de los

    individuos que deciden estar ocupados, de manera que cuando se utilizan los mtodos

    clsicos Mnimos Cuadrados Ordinarios (MCO), por ejemplo- los coeficientes

    obtenidos por este procedimiento estn sesgados por el hecho de que la poblacin

    ocupada constituye un segmento de la poblacin total que paso por un proceso de

    autoseleccin para ingresar al mercado laboral. El procedimiento sugerido por Heckman

    para tratar con este tipo de problemas es conocido como el mtodo bietapico.

    El mtodo consiste en estimar en un primer paso un modelo tipo probit para

    calcular la probabilidad (dadas ciertas variables de inters que determinen tal decisin)

    de que un individuo decida o no estar ocupado, de esta estimacin se obtiene el

    estadstico conocido como la razn inversa de Mills que captura la magnitud de dicho

    sesgo. Posteriormente al calculo del modelo probit, la razn de Mills estimada se

    incorpora al modelo de regresin original (estimado por MCO) para ser aadido como

    un regresor ms, de esta manera la significatividad de este coeficiente indica la

    magnitud de sesgo en que se incurrira si no se hubiese incorporado a la regresin

    explicativa de la desigualdad salarial. De esta manera, los coeficientes estimados por

    MCO aadiendo la variable ,que capta la magnitud del sesgo, son consistentes. Los estimadores obtenidos en por MCO con el mtodo bietapico aunque consistentes,

    presentan problemas de eficiencia tal como demostr Maddala (1983). Este hecho hace

    que surja el mtodo por mxima verosimilitud en el cual la estimacin se realiza de

    manera conjunta.

  • 1. Definicin del modelo de Heckman.

    iii vzy 22 (a) iii uxy 11 si 02 iy (b) iy 1 no se observa si 02 iy iD2 1 si 02 iy iD2 0 si 02 iy

    La ecuacin para iy 1 es una ecuacin de regresin comn. Sin embargo, bajo

    ciertas condiciones no observamos la variable dependiente de esta ecuacin.

    Denotaremos si observamos o no esta variable mediante una variable dummy iD2 .

    La observacin de la variable dependiente iy 1 es funcin del valor de otra

    regresin: la ecuacin de seleccin que relaciona la variable latente iy 2 con algunas

    caractersticas observadas iz .

    Para simplificar la exposicin podemos decir que se consideran dos ecuaciones

    en el modelo, una ecuacin de inters que corresponde a la ecuacin que se busca

    estimar, de la que buscamos extraer conclusiones, y una ecuacin de seleccin o

    participacin (regresin auxiliar) que corresponde a un modelo de eleccin discreta

    (Probit o Logit), que mide la probabilidad de estar en la muestra, en esta ltima

    ecuacin se pueden incluir las variables independientes de la ecuacin de inters y a su

    vez esta ecuacin deber contener al menos una variable continua que sea determinante

    en el proceso de pertenecer o no a la muestra pero que a su vez no resulte relevante para

    determinar la variable dependiente, lo anterior con el fin de no caer en problemas de

    identificacin.

    Adems, se asume la existencia de una distribucin normal bivariada de los

    errores en las ecuaciones (a) y (b) con la siguiente estructura:

  • 1,

    00

    1

    121

    2

    1

    Nuu

    De esta forma, la ecuacin de seleccin se convierte en un modelo Probit. Por su

    parte, recordemos que la varianza de la distribucin en la ecuacin Probit puede ser

    normalizada a uno sin prdida de informacin ya que la escala de la variable

    dependiente no es observada.

    De esta manera, usando el supuesto de normalidad y las propiedades de la

    normal bivariada truncada podemos calcular:

    zvvExyyE 2121 /)0/( (c)

    11 zx

    z

    zx

    11

    zzx 1

    Consideramos que la razn inversa de Mills siempre es positiva, la regresin de

    y sobre x est sesgada dependiendo del valor de

    As la magnitud del sesgo depender de la magnitud de la correlacin entre los

    errores )( , la varianza relativa del error )( 1 y la severidad del truncamiento (la razn inversa de Mills es mayor cuando z es menor). As, si =0 entonces no habrs sesgo de seleccin

    2. Estimacin del modelo de Heckman.

    As utilizando la siguiente especificacin:

    )0/( 21 yyE

    zzx 1

  • El objetivo es estimar en la ecuacin (b) por MCO incluyendo en dicha ecuacin la medida

    zz

    . Con este fin Heckman (1979) sugiere realizar los siguientes

    pasos:

    1. Estimar consistentemente usando un probit para la probabilidad de observar los datos en funcin de z.

    2. Calcular su valor ajustado para la funcin ndice o variable latente

    ii zy 2 y calcular la razn inversa de Mills i

    como funcin de iy 2

    .

    3. Incluir i en la regresin de iy1 sobre ix para aproximar iz . El

    coeficiente de i ser una medida de 1 y de esta forma una estimacin de

    y de 1 puede ser obtenida a partir de all.

    Los valores resultantes (estimadores) de 1, y son consistentes pero asintticamente ineficientes bajo el supuesto de normalidad. La gran importancia de este

    mtodo es su sencillez , puesto que slo se necesita realizar un probit y un MCO.

    No obstante y una vez establecido este mtodo, existen por lo menos tres

    aspectos que se deben considerar con respecto a este estimador en dos etapas:

    1. El estimador del error estndar convencional en (a) es inconsistente pues el

    modelo de regresin en (c) es intrnsecamente heterocedstico debido a la

    seleccin. Una forma de solucionar esto es mediante el uso de los estimadores

    de los errores estndar robustos los cuales son, al menos consistentes.

    2. El mtodo no impone la condicin que 1 lo cual est implcitamente asumido en el modelo. Esta condicin es a menudo no respetada.

    3. El supuesto de normalidad es necesario para la consistencia de los estimadores.

  • 3. Estimacin por Mxima Verosimilitud (ML).

    En el mtodo por mxima verosimilitud lo primero que debemos hacer es

    especificar el modelo, tal como hemos visto en las ecuaciones (a) y (b), para una vez

    especificado realizar la estimacin de manera conjunta.

    En este caso al considerar el sesgo de seleccin cada grupo tendr diferente

    funcin de verosimilitud. Como tenemos dos tipos de observaciones:

    1. Aquellas donde 1y es observada para lo cual sabemos que se cumple que

    02 y . Para estas observaciones la funcin de verosimilitud es la probabilidad del evento 1y y que tambin ocurra que 02 y .

    ),,/0(),/0,( 12121 zxyyPyfzxyyP iiiii ),,/( 121 zxvzvPvf iiii i

    zii

    ii dvvvfxy

    i

    2121

    1

    1

    /1

    iz

    iiiii dv

    xyvxy

    i

    22

    11

    2

    1

    1

    1 11

    2

    11

    1

    1

    1 111

    iiiii

    xyzxy

    2

    11

    1

    1

    1 11

    iii

    ii

    xyzxy

    2. Aquellas donde 1y no es observada para lo cual sabemos que se cumple que

    02 y del manera, no tenemos informacin independiente para 1y .

  • ii zvPyP 22 )0( )( iz )(1 iz

    De esta manera considerando la funcin de verosimilitud para todos los

    elementos de la muestra obtendramos la siguiente expresin:

    ))(1log(),,,,(log 1 izdatosL

    1logloglog

    11

    1

    11

    iiiii

    xyzxy

    Estos estimadores sern consistentes y asintticamente eficientes bajo el

    supuesto de normalidad y homocedasticidad de los trminos de error no censurados.

    Aunque unos de los problemas que tiene la estimacin por ML es que la funcin no es

    estrictamente cncava y en consecuencia no necesariamente existe una nica solucin.

  • BIBLIOGRAFIA.

    Gonzalez Espitia, Carlos G.Sesgo de seleccin muestral con STATA Gujarati (2010). Econometra. Mxico. Mc Graw Hill. Heckman James J. (enero 1979) Sample selection bias as a specification

    errorEconometrica. Journal of the Econometric Society (47): pp.153-161.

    MADDALA G.S. (1983), Limited Dependent and Qualitative Variables in Econometrics, Econometric. Society Monographs.

    Murray, M. (2006). Econometrics: a modern introduction. Ed. Pearson. Prez L. Csar (2006). Problemas resueltos de econometra, Ed. Thomson. STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press. Wooldridge, J. (2006). Introduccin a la Econometra. Un enfoque moderno.

    Ed.Thomson.