Econometría No Paramétrica 2011

Econometría No Paramétrica y Estimación de EfectosCausales en Economía

II Curso de Econometría Aplicada para la Investigación Económica

Prof. Carlos Mendiburu

[email protected]

31.08.11

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 1 / 39

Econometría No Paramétrica y Estimación de EfectosCausales

1 Introducción2 Efectos causales3 Estimación de efectos causales utilizando métodos no paramétricos:

1 Regresión no paramétrica2 Matching3 Métodos basados en el propensity score

4 Comentarios nales


Introducción a la econometría no paramétrica

Modelo de regresión lineal: Yi = βXi + εi .

Modelo de regresión no lineal: Yi = f (β,Xi ) + εi .

Modelo general de regresión no paramétrica: Yi = f (Xi ) + εi .

Ventaja: Se gana eciencia (precisión) al relajar el supuesto delinearidad.

Desventajas:I Intepretación menos directa ("no theory").I Mayor costo computacional.


Resultados potenciales

Potential outcome approach: Fisher (1935), Neyman (1923) y Rubin(1974, 1977, 1978).

N unidades tomadas aleatoriamente de una población.

Dos resultados posibles:I Yi (0): "sin tratamiento" o "control" yI Yi (1): "con tratamiento" o "tratamiento activo".

Un vector de características (covariables): Xi .

Un tratamiento Di 2 f0, 1g.


Resultados realizados

Para cada unidad se observa un resultado realizado:

Yi Yi (Di ) =Yi (0) si Di = 0Yi (1) si Di = 1

Por lo tanto, para i sólo se tiene información sobre (Di ,Yi ,Xi ).

Nuestro interés: la distribución (D,Y ,X ).


Deniciones

Propensity score:

e(x) Pr(D = 1 j X = x) = E [D j X = x ]

Funciones de regresión condicional:

µd (x) E [Y (d) j X = x ], para d 2 f0, 1g

Funciones de varianza condicional:

σ2d (x) V [Y (d) j X = x ], para d 2 f0, 1g


Efectos de Tratamiento Poblacionales

Population Average Treatment E¤ect (PATE)

τP = E [Y (1) Y (0)]

Population Average Treatment E¤ect for the Treated (PATT)

τPT = E [Y (1) Y (0) j D = 1]


Efectos de Tratamiento Muestrales

Sample Average Treatment E¤ect (SATE)

τS =1N

N

∑i=1[Yi (1) Yi (0)]

Sample Average Treatment E¤ect for the Treated (SATT)

τST =1NT

∑i :Di=1

[Yi (1) Yi (0)]


Efectos de Tratamiento Condicionales

Conditional Average Treatment E¤ect (CATE)

τ(X ) =1N

N

∑i=1E [Yi (1) Yi (0) j Xi ]

Conditional Average Treatment E¤ect for the Treated (CATT)

τ(X )T =1N

N

∑i :Di=1

E [Yi (1) Yi (0) j Xi ]


Supuestos de Identicación

1 [Y (0),Y (1)] ? D j X2 0 < Pr(D = 1 j X ) < 13 E [Y (d) j D,X ] = E [Y (d) j X ], para d 2 f0, 1g4 Y (0) ? D j X5 Pr(D = 1 j X ) < 1


Estimación

Veremos las siguientes alternativas de estimación para los efectospromedio poblacionales:

1 Regresión no paramétrica2 Emparejamiento (matching)3 Métodos basados en el propensity score4 Otros métodos


Regresión

Objetivo: estimar consistentemente µd (x) para d = 0, 1.

Con el estimado µd (x) se pueden construir las funciones PATE, SATEy CATE:

τreg =1N

N

∑i=1[µ1(Xi ) µ0(Xi )]

Así como las funciones PATT y SATT:

τreg ,T =1NT

N

∑i=1Di [Yi µ0(Xi )]


Regresión

Estimación tradicional de µd (x):I Regresión paramétrica:

µd (x) = βx + τd .

I El valor del efecto causal viene dado por τ.I Receta: estimar por mínimos cuadrados la regresión:

Yi = α+ βXi + τDi + εi


Regresión


µd (x) = βx + τd .

I El valor del efecto causal viene dado por τ.

I Receta: estimar por mínimos cuadrados la regresión:



Regresión


µd (x) = βx + τd .

I El valor del efecto causal viene dado por τ.I Receta: estimar por mínimos cuadrados la regresión:



Spline Regression

Xi : escalar.

Regression spline model:

Yi = β0 +p

∑j=1

βjXji +

l

∑j=p+1

βj1[xi>kjp ](xi kjp)p + εi

Cubic spline:

Yi = β0 + β1Xi + β2X2i + β3X

3i +

+β41[xi>k1 ](xi k1)3 +

+β51[xi>k2 ](xi k2)3 +

+ . . .++β3+l1[xi>kl ](xi kl )

3 + εi


Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih




I ¿Marginal o condicional?

I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles


fh(x) =1

N hN

∑i=1Kx xih




I ¿Marginal o condicional?I ¿Cuál es la opción más simple?

I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles


fh(x) =1

N hN

∑i=1Kx xih




I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?

I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles


fh(x) =1

N hN

∑i=1Kx xih




I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? Ventanas

I ¿Qué más se puede hacer? Ventanas móviles


fh(x) =1

N hN

∑i=1Kx xih




I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles


fh(x) =1

N hN

∑i=1Kx xih


Funciones kernel

Sea u = x xi .Funciones kernel frecuentes:

I Triangular:K (u) = (1 j u j) 1[ju j<1]

I Uniforme:K (u) = (0.5) 1[ju j<1]

I Epanechnikov:

K (u) = (0.75) (1 j u2 j) 1[juj<1]

I Normal:

K (u) =e0.5u

2

p2π


Elección del ancho de banda (bandwith)

Elegir el valor de h que minimize el Error Cuadrático Medio Integrado(IMSE):

I Error Cuadrado Integrado: ISE (h) =R[fh(x) f (x)]2dx

I Error Cuadrado Medio Integrado : E [ISE (h)] =RE [fh(x) f (x)]2dx

El ancho de banda óptimo sería:

h = δ[Zf 00(x)2dx ]0.2(N0.2)

donde δ =n R

K (u)2du[Ru2K (u)du]2

o0.2.


Elección del ancho de banda (bandwith)

Silverman:

h = 1.364 δ N0.2 min(s, iqr/1.349)

donde:I iqr es la distancia entre el cuartil 0.25 y el cuartil 0.75.I s es la desviación estándar muestral de x.


Densidades kernel bivariadas

Objetivo: Estimar f (x , y).

Estimador de densidades kernel bivariado:

fh(x , y) =1

N h1h2

N

∑i=1Kx xih1

,y xih2


Densidades kernel bivariadas

Generalizaciones de funciones kernel al caso bivariado:I Triangular:

K (u) =n(1 j u1 j) 1[ju1 j<1]

on(1 j u2 j) 1[ju2 j<1]

oI Uniforme:

K (u) = (0.25) 1[ju1 j<1] 1[ju2 j<1]I Epanechnikov:

K (u) = (9/16)n1[ju1 j<1](1 u

21 )on1[ju2 j<1](1 u

22 )o


Densidades kernel condicionales

Objetivo: Estimar f (y j x).Por denición:

f (y j x) = f (x , y)f (x)

.

Estimador de densidades kernel condicionales:(Sup.: h1 = h2 = h)

fh(y j x) =fh(x , y)

fh(x)=

1h

N∑i=1K xxi

h , yyih

N∑i=1K xxi

h


Estimación de la esperanza condicional

Objetivo: Estimar E [y j x ].Por denición:

E [y j x ] =Zyf (y j x)dy

Estimador de esperanza condicional kernel:

Zy fh(y j x)dy =

Zy

26641h

N∑i=1K xxi

h , yyih

N∑i=1K xxi

h

3775 dy


Estimación de la esperanza condicional

Integrando y simplicando: Nadaraya (1964) y Watson (1964)

Zy fh(y j x)dy =

N∑i=1

K xxi

h

[yi ]

N∑i=1K xxi

h


Kernel Regression

Estimación no paramétrica de µd (x) = f (x), con f no lineal.

Una regresión kernel es una técnica de regresión no paramétrica quese utiliza para estimar la esperanza condicional de una variable,cuando se piensa que esta función es no lineal y el vector X tienedimensión mayor a 1.

Dado un punto x , se encuentran los puntos más cercanos a x , losmismos que se ponderan de acuerdo a una función kernel K ().La cercanía está denida por el ancho de banda h.


Kernel Regression

Heckman, Ichimura y Todd (1997, 1998) y Heckman, Ichimura, Smithy Todd (1998):

µd (x) =∑

i :Di=dKXixh

Yi

∑i :Di=d

KXixh

Elección crítica: ancho de banda.

I ¿Qué pasa con la curva cuando aumenta el ancho de banda?

Generalización a N variables: ¿es posible?

Curse of Dimensionality


Emparejamiento (Matching)

Supuesto: [Y (0),Y (1)] ? D j X

La idea es comparar unidades tratadas (Di = 1) con unidades decontrol (Di = 0) que tienen valores similares de Xi .

Sean NT y NC el número de unidades tratadas y unidades de control,respectivamente.

Denamos NT conjuntos de ponderaciones wi (j), con NC pesosdentro de cada conjunto, con i = 1, . . . ,NT , j = 1, . . . ,NC .

I ¿Algo suma 1?



Supuesto: [Y (0),Y (1)] ? D j XLa idea es comparar unidades tratadas (Di = 1) con unidades decontrol (Di = 0) que tienen valores similares de Xi .

Sean NT y NC el número de unidades tratadas y unidades de control,respectivamente.

Denamos NT conjuntos de ponderaciones wi (j), con NC pesosdentro de cada conjunto, con i = 1, . . . ,NT , j = 1, . . . ,NC .

I ¿Algo suma 1?


Matching y efectos causales

Se imputan los resultados potenciales no observados utilizando valoresobservados para unidades de análisis similares.

Una opción es imputar los resultados potenciales de la siguientemanera:

Yi (0) =

8<: Yi , si Di = 01M ∑j2JM (i )

Yj , si Di = 1

9=;Yi (1) =

8<:1M ∑j2JM (i )

Yj , si Di = 0

Yi , si Di = 1

9=;¿wi (j)?



Abadie & Imbens (2002) denen un estimador simple deemparejamiento (matching):

τsmM =1N

N

∑i=1[Yi (1) Yi (0)]

Denamos de manera general el estimador matching :

τM =1NT

∑i2fD=1g

[Yi ∑j2fD=0g

wi (j)Yj ]



¿Qué observación(es) utilizar como match para la observación i?I Criterio de cercanía

X discreto


Matching para X continuo

Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)

I Métricas:I Euclídea:

D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )I Mahalanobis:

D(Xi ,Xj ) = (Xi Xj )0Ω1x (Xi Xj )

¿Alguna otra idea?



Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)

I Métricas:

I Euclídea:D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )

I Mahalanobis:


¿Alguna otra idea?



Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)


D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )

I Mahalanobis:


¿Alguna otra idea?



Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)


D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )I Mahalanobis:


¿Alguna otra idea?


Matching: comentarios

Útil cuando interesa τPT y hay muchas unidades de control.

Con ello se podría en principio asociar cada unidad tratada a uno omás controles.

Se debe elegir el número de coincidencias.

I Dado un par de unidades asociadas, el efecto de tratamiento sobre unaunidad se estima como la diferencia en resultados.

I El estimador de τPT se obtiene promediando estas diferencias.



Útil cuando interesa τPT y hay muchas unidades de control.

Con ello se podría en principio asociar cada unidad tratada a uno omás controles.

Se debe elegir el número de coincidencias.I Dado un par de unidades asociadas, el efecto de tratamiento sobre unaunidad se estima como la diferencia en resultados.

I El estimador de τPT se obtiene promediando estas diferencias.



El estimador de Abadie & Imbens (2002) tiene un sesgo que nodesaparece cuando crece N, y:

I El número de covariables continuas es 2 o 3.I El número de controles crece más lentamente que el número deunidades tratadas.

El sesgo se puede reducir combinando esta técnica con la regresión.

I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi

En general los estimadores no son ecientes.




I El número de covariables continuas es 2 o 3.

I El número de controles crece más lentamente que el número deunidades tratadas.



Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi








Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi






El sesgo se puede reducir combinando esta técnica con la regresión.I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi



Propensity score

X mutidimensional: Rosenbaum y Rubin (1983, 1985), Dehejia yWahba (2002):

I Caso simple: Si todas las N variables contenidas en X son binarias, elnúmero de valores posibles en X es 2N .

Objetivo: utilizar el Propensity Score, e(x), para crear una muestrabalanceada entre unidades tratadas y unidades de control.

Supuestos:

1 [Y (0),Y (1)] ? D j X2 0 < Pr(d = 1 j X ) < 1

Bajo estos supuestos: [Y (0),Y (1)] ? D j e(X )Clave: Supuesto 2.


Propensity score

Si no se conoce el Propensity Score, éste debe ser estimado.

Dehejia y Wahba (2002) proponen:1 Estimar un modeo logit sencillo.2 Ordenar las observaciones de acuerdo al propensity score estimado.3 Estraticar la muestra utilizando el propensity score estimado.4 Realizar pruebas estadísticas para vericar que, para cada covariable, ladiferencia de medias en cada estrato no es signicativamente diferentede cero,y en cada covariable


Utilizando el Propensity Score

1 Regresión lineal:

Yi = β0 + β1Di + β2Die(Xi ) + β3e(Xi ) + εi .

=) ATE : β1 + β2 e(Xi ).

2 Blocking on the Propensity Score: K bloques

τ =K

∑k=1

τk [N1k +N0k

N]

3 Weighting with the Propensity Score: balancear con pesos:

τP =1N

N

∑i=1[DiYie(Xi )

(1Di ) Yi1 e(Xi )

]


Propensity Score Matching: aspectos prácticos

¿Con reemplazo o sin reemplazo?I Con reemplazo: cada unidad tratada se empareja con la unidad decontrol más parecida. Se reduce sesgo pero ¿....?

I Sin reemplazo: el orden puede ser importante (Rosenbaum, 1995).

¿Cuántas unidades de control comparables utilizar?I Una: menor propensity scoreI Varias: Mayor precisión, pero ¿...?

F M nearest neighborsF Cochran y Rubin (1973): Caliper matching. Distancia torelablemáxima.


Métodos mixtos

Regresión + Weighting on the Propensity Score.

I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:

Yi = α+ βXi + τ Di + εi

I Utilizando como pesos:

wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.

I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:

Yi = αk + βkXi + τk Di + εi

I ¿Cómo combinar estas estimaciones para obtener τ?


Métodos mixtos

Regresión + Weighting on the Propensity Score.I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:



wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.

I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:




Métodos mixtos

Regresión + Weighting on the Propensity Score.I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:



wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:




Aplicaciones empíricas

Matching vs datos experimentales

Lalonde (1986) datasetI Experimento en mercado laboral.I Dehejia y Wahba (1999), Smith y Todd (2003).

Arcenaux, Gerber y Green (2006)I Experimento con los votantes.


Recomendaciones prácticas

Estimación de varianza: métodos de kernel, bootstrapping (Abadie eImbens, 2006).

Evaluar supuesto de exogeneidad.

Evitar incluir covariables débilmente correlacionadas con losresultados y con los indicadores de tratamiento.

Evaluar si hay superposición suciente:I Observar las distribuciones (histogramas) de las covariables.I Estimar el Propensity Score y comparar su distribución en los grupos detratamiento y control.

Si la superposición es débil, los métodos de emparejamiento y losbasados en el Propensity Score son preferibles a los métodos deregresión.


Econometría No Paramétrica 2011

Documents

Transcript of Econometría No Paramétrica 2011