Econometría No Paramétrica 2011

Post on 11-Sep-2014

294 views 2 download

Tags:

Transcript of Econometría No Paramétrica 2011

Econometría No Paramétrica y Estimación de EfectosCausales en Economía

II Curso de Econometría Aplicada para la Investigación Económica

Prof. Carlos Mendiburu

carlos.mendiburu@bcrp.gob.pe

31.08.11

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 1 / 39

Econometría No Paramétrica y Estimación de EfectosCausales

1 Introducción2 Efectos causales3 Estimación de efectos causales utilizando métodos no paramétricos:

1 Regresión no paramétrica2 Matching3 Métodos basados en el propensity score

4 Comentarios nales

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 2 / 39

Introducción a la econometría no paramétrica

Modelo de regresión lineal: Yi = βXi + εi .

Modelo de regresión no lineal: Yi = f (β,Xi ) + εi .

Modelo general de regresión no paramétrica: Yi = f (Xi ) + εi .

Ventaja: Se gana eciencia (precisión) al relajar el supuesto delinearidad.

Desventajas:I Intepretación menos directa ("no theory").I Mayor costo computacional.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 3 / 39

Resultados potenciales

Potential outcome approach: Fisher (1935), Neyman (1923) y Rubin(1974, 1977, 1978).

N unidades tomadas aleatoriamente de una población.

Dos resultados posibles:I Yi (0): "sin tratamiento" o "control" yI Yi (1): "con tratamiento" o "tratamiento activo".

Un vector de características (covariables): Xi .

Un tratamiento Di 2 f0, 1g.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 4 / 39

Resultados realizados

Para cada unidad se observa un resultado realizado:

Yi Yi (Di ) =Yi (0) si Di = 0Yi (1) si Di = 1

Por lo tanto, para i sólo se tiene información sobre (Di ,Yi ,Xi ).

Nuestro interés: la distribución (D,Y ,X ).

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 5 / 39

Deniciones

Propensity score:

e(x) Pr(D = 1 j X = x) = E [D j X = x ]

Funciones de regresión condicional:

µd (x) E [Y (d) j X = x ], para d 2 f0, 1g

Funciones de varianza condicional:

σ2d (x) V [Y (d) j X = x ], para d 2 f0, 1g

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 6 / 39

Efectos de Tratamiento Poblacionales

Population Average Treatment E¤ect (PATE)

τP = E [Y (1) Y (0)]

Population Average Treatment E¤ect for the Treated (PATT)

τPT = E [Y (1) Y (0) j D = 1]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 7 / 39

Efectos de Tratamiento Muestrales

Sample Average Treatment E¤ect (SATE)

τS =1N

N

∑i=1[Yi (1) Yi (0)]

Sample Average Treatment E¤ect for the Treated (SATT)

τST =1NT

∑i :Di=1

[Yi (1) Yi (0)]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 8 / 39

Efectos de Tratamiento Condicionales

Conditional Average Treatment E¤ect (CATE)

τ(X ) =1N

N

∑i=1E [Yi (1) Yi (0) j Xi ]

Conditional Average Treatment E¤ect for the Treated (CATT)

τ(X )T =1N

N

∑i :Di=1

E [Yi (1) Yi (0) j Xi ]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 9 / 39

Supuestos de Identicación

1 [Y (0),Y (1)] ? D j X2 0 < Pr(D = 1 j X ) < 13 E [Y (d) j D,X ] = E [Y (d) j X ], para d 2 f0, 1g4 Y (0) ? D j X5 Pr(D = 1 j X ) < 1

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 10 / 39

Estimación

Veremos las siguientes alternativas de estimación para los efectospromedio poblacionales:

1 Regresión no paramétrica2 Emparejamiento (matching)3 Métodos basados en el propensity score4 Otros métodos

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 11 / 39

Regresión

Objetivo: estimar consistentemente µd (x) para d = 0, 1.

Con el estimado µd (x) se pueden construir las funciones PATE, SATEy CATE:

τreg =1N

N

∑i=1[µ1(Xi ) µ0(Xi )]

Así como las funciones PATT y SATT:

τreg ,T =1NT

N

∑i=1Di [Yi µ0(Xi )]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 12 / 39

Regresión

Estimación tradicional de µd (x):I Regresión paramétrica:

µd (x) = βx + τd .

I El valor del efecto causal viene dado por τ.I Receta: estimar por mínimos cuadrados la regresión:

Yi = α+ βXi + τDi + εi

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 13 / 39

Regresión

Estimación tradicional de µd (x):I Regresión paramétrica:

µd (x) = βx + τd .

I El valor del efecto causal viene dado por τ.

I Receta: estimar por mínimos cuadrados la regresión:

Yi = α+ βXi + τDi + εi

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 13 / 39

Regresión

Estimación tradicional de µd (x):I Regresión paramétrica:

µd (x) = βx + τd .

I El valor del efecto causal viene dado por τ.I Receta: estimar por mínimos cuadrados la regresión:

Yi = α+ βXi + τDi + εi

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 13 / 39

Spline Regression

Xi : escalar.

Regression spline model:

Yi = β0 +p

∑j=1

βjXji +

l

∑j=p+1

βj1[xi>kjp ](xi kjp)p + εi

Cubic spline:

Yi = β0 + β1Xi + β2X2i + β3X

3i +

+β41[xi>k1 ](xi k1)3 +

+β51[xi>k2 ](xi k2)3 +

+ . . .++β3+l1[xi>kl ](xi kl )

3 + εi

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 14 / 39

Spline Regression

Xi : escalar.

Regression spline model:

Yi = β0 +p

∑j=1

βjXji +

l

∑j=p+1

βj1[xi>kjp ](xi kjp)p + εi

Cubic spline:

Yi = β0 + β1Xi + β2X2i + β3X

3i +

+β41[xi>k1 ](xi k1)3 +

+β51[xi>k2 ](xi k2)3 +

+ . . .++β3+l1[xi>kl ](xi kl )

3 + εi

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 14 / 39

Spline Regression

Xi : escalar.

Regression spline model:

Yi = β0 +p

∑j=1

βjXji +

l

∑j=p+1

βj1[xi>kjp ](xi kjp)p + εi

Cubic spline:

Yi = β0 + β1Xi + β2X2i + β3X

3i +

+β41[xi>k1 ](xi k1)3 +

+β51[xi>k2 ](xi k2)3 +

+ . . .++β3+l1[xi>kl ](xi kl )

3 + εi

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 14 / 39

Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 15 / 39

Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?

I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 15 / 39

Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?I ¿Cuál es la opción más simple?

I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 15 / 39

Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?

I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 15 / 39

Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? Ventanas

I ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 15 / 39

Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 15 / 39

Una disgresión: Densidades Kernel

Supongamos que queremos estimar empíricamente una función dedensidad f (x).

I ¿Marginal o condicional?I ¿Cuál es la opción más simple?I ¿Cuál es el problema con la opción más simple?I ¿Qué se puede hacer? VentanasI ¿Qué más se puede hacer? Ventanas móviles

Estimador de densidades kernel:

fh(x) =1

N hN

∑i=1Kx xih

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 15 / 39

Funciones kernel

Sea u = x xi .Funciones kernel frecuentes:

I Triangular:K (u) = (1 j u j) 1[ju j<1]

I Uniforme:K (u) = (0.5) 1[ju j<1]

I Epanechnikov:

K (u) = (0.75) (1 j u2 j) 1[juj<1]

I Normal:

K (u) =e0.5u

2

p2π

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 16 / 39

Elección del ancho de banda (bandwith)

Elegir el valor de h que minimize el Error Cuadrático Medio Integrado(IMSE):

I Error Cuadrado Integrado: ISE (h) =R[fh(x) f (x)]2dx

I Error Cuadrado Medio Integrado : E [ISE (h)] =RE [fh(x) f (x)]2dx

El ancho de banda óptimo sería:

h = δ[Zf 00(x)2dx ]0.2(N0.2)

donde δ =n R

K (u)2du[Ru2K (u)du]2

o0.2.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 17 / 39

Elección del ancho de banda (bandwith)

Silverman:

h = 1.364 δ N0.2 min(s, iqr/1.349)

donde:I iqr es la distancia entre el cuartil 0.25 y el cuartil 0.75.I s es la desviación estándar muestral de x.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 18 / 39

Densidades kernel bivariadas

Objetivo: Estimar f (x , y).

Estimador de densidades kernel bivariado:

fh(x , y) =1

N h1h2

N

∑i=1Kx xih1

,y xih2

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 19 / 39

Densidades kernel bivariadas

Generalizaciones de funciones kernel al caso bivariado:I Triangular:

K (u) =n(1 j u1 j) 1[ju1 j<1]

on(1 j u2 j) 1[ju2 j<1]

oI Uniforme:

K (u) = (0.25) 1[ju1 j<1] 1[ju2 j<1]I Epanechnikov:

K (u) = (9/16)n1[ju1 j<1](1 u

21 )on1[ju2 j<1](1 u

22 )o

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 20 / 39

Densidades kernel condicionales

Objetivo: Estimar f (y j x).Por denición:

f (y j x) = f (x , y)f (x)

.

Estimador de densidades kernel condicionales:(Sup.: h1 = h2 = h)

fh(y j x) =fh(x , y)

fh(x)=

1h

N∑i=1K xxi

h , yyih

N∑i=1K xxi

h

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 21 / 39

Estimación de la esperanza condicional

Objetivo: Estimar E [y j x ].Por denición:

E [y j x ] =Zyf (y j x)dy

Estimador de esperanza condicional kernel:

Zy fh(y j x)dy =

Zy

26641h

N∑i=1K xxi

h , yyih

N∑i=1K xxi

h

3775 dy

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 22 / 39

Estimación de la esperanza condicional

Integrando y simplicando: Nadaraya (1964) y Watson (1964)

Zy fh(y j x)dy =

N∑i=1

K xxi

h

[yi ]

N∑i=1K xxi

h

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 23 / 39

Kernel Regression

Estimación no paramétrica de µd (x) = f (x), con f no lineal.

Una regresión kernel es una técnica de regresión no paramétrica quese utiliza para estimar la esperanza condicional de una variable,cuando se piensa que esta función es no lineal y el vector X tienedimensión mayor a 1.

Dado un punto x , se encuentran los puntos más cercanos a x , losmismos que se ponderan de acuerdo a una función kernel K ().La cercanía está denida por el ancho de banda h.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 24 / 39

Kernel Regression

Heckman, Ichimura y Todd (1997, 1998) y Heckman, Ichimura, Smithy Todd (1998):

µd (x) =∑

i :Di=dKXixh

Yi

∑i :Di=d

KXixh

Elección crítica: ancho de banda.

I ¿Qué pasa con la curva cuando aumenta el ancho de banda?

Generalización a N variables: ¿es posible?

Curse of Dimensionality

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 25 / 39

Kernel Regression

Heckman, Ichimura y Todd (1997, 1998) y Heckman, Ichimura, Smithy Todd (1998):

µd (x) =∑

i :Di=dKXixh

Yi

∑i :Di=d

KXixh

Elección crítica: ancho de banda.

I ¿Qué pasa con la curva cuando aumenta el ancho de banda?

Generalización a N variables: ¿es posible?

Curse of Dimensionality

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 25 / 39

Kernel Regression

Heckman, Ichimura y Todd (1997, 1998) y Heckman, Ichimura, Smithy Todd (1998):

µd (x) =∑

i :Di=dKXixh

Yi

∑i :Di=d

KXixh

Elección crítica: ancho de banda.

I ¿Qué pasa con la curva cuando aumenta el ancho de banda?

Generalización a N variables: ¿es posible?

Curse of Dimensionality

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 25 / 39

Kernel Regression

Heckman, Ichimura y Todd (1997, 1998) y Heckman, Ichimura, Smithy Todd (1998):

µd (x) =∑

i :Di=dKXixh

Yi

∑i :Di=d

KXixh

Elección crítica: ancho de banda.

I ¿Qué pasa con la curva cuando aumenta el ancho de banda?

Generalización a N variables: ¿es posible?

Curse of Dimensionality

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 25 / 39

Kernel Regression

Heckman, Ichimura y Todd (1997, 1998) y Heckman, Ichimura, Smithy Todd (1998):

µd (x) =∑

i :Di=dKXixh

Yi

∑i :Di=d

KXixh

Elección crítica: ancho de banda.

I ¿Qué pasa con la curva cuando aumenta el ancho de banda?

Generalización a N variables: ¿es posible?

Curse of Dimensionality

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 25 / 39

Emparejamiento (Matching)

Supuesto: [Y (0),Y (1)] ? D j X

La idea es comparar unidades tratadas (Di = 1) con unidades decontrol (Di = 0) que tienen valores similares de Xi .

Sean NT y NC el número de unidades tratadas y unidades de control,respectivamente.

Denamos NT conjuntos de ponderaciones wi (j), con NC pesosdentro de cada conjunto, con i = 1, . . . ,NT , j = 1, . . . ,NC .

I ¿Algo suma 1?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 26 / 39

Emparejamiento (Matching)

Supuesto: [Y (0),Y (1)] ? D j XLa idea es comparar unidades tratadas (Di = 1) con unidades decontrol (Di = 0) que tienen valores similares de Xi .

Sean NT y NC el número de unidades tratadas y unidades de control,respectivamente.

Denamos NT conjuntos de ponderaciones wi (j), con NC pesosdentro de cada conjunto, con i = 1, . . . ,NT , j = 1, . . . ,NC .

I ¿Algo suma 1?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 26 / 39

Emparejamiento (Matching)

Supuesto: [Y (0),Y (1)] ? D j XLa idea es comparar unidades tratadas (Di = 1) con unidades decontrol (Di = 0) que tienen valores similares de Xi .

Sean NT y NC el número de unidades tratadas y unidades de control,respectivamente.

Denamos NT conjuntos de ponderaciones wi (j), con NC pesosdentro de cada conjunto, con i = 1, . . . ,NT , j = 1, . . . ,NC .

I ¿Algo suma 1?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 26 / 39

Emparejamiento (Matching)

Supuesto: [Y (0),Y (1)] ? D j XLa idea es comparar unidades tratadas (Di = 1) con unidades decontrol (Di = 0) que tienen valores similares de Xi .

Sean NT y NC el número de unidades tratadas y unidades de control,respectivamente.

Denamos NT conjuntos de ponderaciones wi (j), con NC pesosdentro de cada conjunto, con i = 1, . . . ,NT , j = 1, . . . ,NC .

I ¿Algo suma 1?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 26 / 39

Emparejamiento (Matching)

Supuesto: [Y (0),Y (1)] ? D j XLa idea es comparar unidades tratadas (Di = 1) con unidades decontrol (Di = 0) que tienen valores similares de Xi .

Sean NT y NC el número de unidades tratadas y unidades de control,respectivamente.

Denamos NT conjuntos de ponderaciones wi (j), con NC pesosdentro de cada conjunto, con i = 1, . . . ,NT , j = 1, . . . ,NC .

I ¿Algo suma 1?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 26 / 39

Matching y efectos causales

Se imputan los resultados potenciales no observados utilizando valoresobservados para unidades de análisis similares.

Una opción es imputar los resultados potenciales de la siguientemanera:

Yi (0) =

8<: Yi , si Di = 01M ∑j2JM (i )

Yj , si Di = 1

9=;Yi (1) =

8<:1M ∑j2JM (i )

Yj , si Di = 0

Yi , si Di = 1

9=;¿wi (j)?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 27 / 39

Emparejamiento (Matching)

Abadie & Imbens (2002) denen un estimador simple deemparejamiento (matching):

τsmM =1N

N

∑i=1[Yi (1) Yi (0)]

Denamos de manera general el estimador matching :

τM =1NT

∑i2fD=1g

[Yi ∑j2fD=0g

wi (j)Yj ]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 28 / 39

Emparejamiento (Matching)

Abadie & Imbens (2002) denen un estimador simple deemparejamiento (matching):

τsmM =1N

N

∑i=1[Yi (1) Yi (0)]

Denamos de manera general el estimador matching :

τM =1NT

∑i2fD=1g

[Yi ∑j2fD=0g

wi (j)Yj ]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 28 / 39

Emparejamiento (Matching)

¿Qué observación(es) utilizar como match para la observación i?I Criterio de cercanía

X discreto

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 29 / 39

Matching para X continuo

Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)

I Métricas:I Euclídea:

D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )I Mahalanobis:

D(Xi ,Xj ) = (Xi Xj )0Ω1x (Xi Xj )

¿Alguna otra idea?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 30 / 39

Matching para X continuo

Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)

I Métricas:

I Euclídea:D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )

I Mahalanobis:

D(Xi ,Xj ) = (Xi Xj )0Ω1x (Xi Xj )

¿Alguna otra idea?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 30 / 39

Matching para X continuo

Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)

I Métricas:I Euclídea:

D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )

I Mahalanobis:

D(Xi ,Xj ) = (Xi Xj )0Ω1x (Xi Xj )

¿Alguna otra idea?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 30 / 39

Matching para X continuo

Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)

I Métricas:I Euclídea:

D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )I Mahalanobis:

D(Xi ,Xj ) = (Xi Xj )0Ω1x (Xi Xj )

¿Alguna otra idea?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 30 / 39

Matching para X continuo

Nearest neighbor:

wi (j) =

(1, si j : min

Xjd(Xi Xj )

0, en otro caso

)

I Métricas:I Euclídea:

D(Xi ,Xj ) = (Xi Xj )0(Xi Xj )I Mahalanobis:

D(Xi ,Xj ) = (Xi Xj )0Ω1x (Xi Xj )

¿Alguna otra idea?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 30 / 39

Matching: comentarios

Útil cuando interesa τPT y hay muchas unidades de control.

Con ello se podría en principio asociar cada unidad tratada a uno omás controles.

Se debe elegir el número de coincidencias.

I Dado un par de unidades asociadas, el efecto de tratamiento sobre unaunidad se estima como la diferencia en resultados.

I El estimador de τPT se obtiene promediando estas diferencias.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 31 / 39

Matching: comentarios

Útil cuando interesa τPT y hay muchas unidades de control.

Con ello se podría en principio asociar cada unidad tratada a uno omás controles.

Se debe elegir el número de coincidencias.

I Dado un par de unidades asociadas, el efecto de tratamiento sobre unaunidad se estima como la diferencia en resultados.

I El estimador de τPT se obtiene promediando estas diferencias.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 31 / 39

Matching: comentarios

Útil cuando interesa τPT y hay muchas unidades de control.

Con ello se podría en principio asociar cada unidad tratada a uno omás controles.

Se debe elegir el número de coincidencias.

I Dado un par de unidades asociadas, el efecto de tratamiento sobre unaunidad se estima como la diferencia en resultados.

I El estimador de τPT se obtiene promediando estas diferencias.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 31 / 39

Matching: comentarios

Útil cuando interesa τPT y hay muchas unidades de control.

Con ello se podría en principio asociar cada unidad tratada a uno omás controles.

Se debe elegir el número de coincidencias.I Dado un par de unidades asociadas, el efecto de tratamiento sobre unaunidad se estima como la diferencia en resultados.

I El estimador de τPT se obtiene promediando estas diferencias.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 31 / 39

Matching: comentarios

Útil cuando interesa τPT y hay muchas unidades de control.

Con ello se podría en principio asociar cada unidad tratada a uno omás controles.

Se debe elegir el número de coincidencias.I Dado un par de unidades asociadas, el efecto de tratamiento sobre unaunidad se estima como la diferencia en resultados.

I El estimador de τPT se obtiene promediando estas diferencias.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 31 / 39

Matching: comentarios

El estimador de Abadie & Imbens (2002) tiene un sesgo que nodesaparece cuando crece N, y:

I El número de covariables continuas es 2 o 3.I El número de controles crece más lentamente que el número deunidades tratadas.

El sesgo se puede reducir combinando esta técnica con la regresión.

I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi

En general los estimadores no son ecientes.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 32 / 39

Matching: comentarios

El estimador de Abadie & Imbens (2002) tiene un sesgo que nodesaparece cuando crece N, y:

I El número de covariables continuas es 2 o 3.

I El número de controles crece más lentamente que el número deunidades tratadas.

El sesgo se puede reducir combinando esta técnica con la regresión.

I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi

En general los estimadores no son ecientes.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 32 / 39

Matching: comentarios

El estimador de Abadie & Imbens (2002) tiene un sesgo que nodesaparece cuando crece N, y:

I El número de covariables continuas es 2 o 3.I El número de controles crece más lentamente que el número deunidades tratadas.

El sesgo se puede reducir combinando esta técnica con la regresión.

I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi

En general los estimadores no son ecientes.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 32 / 39

Matching: comentarios

El estimador de Abadie & Imbens (2002) tiene un sesgo que nodesaparece cuando crece N, y:

I El número de covariables continuas es 2 o 3.I El número de controles crece más lentamente que el número deunidades tratadas.

El sesgo se puede reducir combinando esta técnica con la regresión.

I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi

En general los estimadores no son ecientes.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 32 / 39

Matching: comentarios

El estimador de Abadie & Imbens (2002) tiene un sesgo que nodesaparece cuando crece N, y:

I El número de covariables continuas es 2 o 3.I El número de controles crece más lentamente que el número deunidades tratadas.

El sesgo se puede reducir combinando esta técnica con la regresión.I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi

En general los estimadores no son ecientes.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 32 / 39

Matching: comentarios

El estimador de Abadie & Imbens (2002) tiene un sesgo que nodesaparece cuando crece N, y:

I El número de covariables continuas es 2 o 3.I El número de controles crece más lentamente que el número deunidades tratadas.

El sesgo se puede reducir combinando esta técnica con la regresión.I Rubin (1973) y Quade (1982):

Yi (1) Yi (0) = τ + β[Xi (1) Xi (0)] + εi

En general los estimadores no son ecientes.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 32 / 39

Propensity score

X mutidimensional: Rosenbaum y Rubin (1983, 1985), Dehejia yWahba (2002):

I Caso simple: Si todas las N variables contenidas en X son binarias, elnúmero de valores posibles en X es 2N .

Objetivo: utilizar el Propensity Score, e(x), para crear una muestrabalanceada entre unidades tratadas y unidades de control.

Supuestos:

1 [Y (0),Y (1)] ? D j X2 0 < Pr(d = 1 j X ) < 1

Bajo estos supuestos: [Y (0),Y (1)] ? D j e(X )Clave: Supuesto 2.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 33 / 39

Propensity score

Si no se conoce el Propensity Score, éste debe ser estimado.

Dehejia y Wahba (2002) proponen:1 Estimar un modeo logit sencillo.2 Ordenar las observaciones de acuerdo al propensity score estimado.3 Estraticar la muestra utilizando el propensity score estimado.4 Realizar pruebas estadísticas para vericar que, para cada covariable, ladiferencia de medias en cada estrato no es signicativamente diferentede cero,y en cada covariable

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 34 / 39

Utilizando el Propensity Score

1 Regresión lineal:

Yi = β0 + β1Di + β2Die(Xi ) + β3e(Xi ) + εi .

=) ATE : β1 + β2 e(Xi ).

2 Blocking on the Propensity Score: K bloques

τ =K

∑k=1

τk [N1k +N0k

N]

3 Weighting with the Propensity Score: balancear con pesos:

τP =1N

N

∑i=1[DiYie(Xi )

(1Di ) Yi1 e(Xi )

]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 35 / 39

Utilizando el Propensity Score

1 Regresión lineal:

Yi = β0 + β1Di + β2Die(Xi ) + β3e(Xi ) + εi .

=) ATE : β1 + β2 e(Xi ).

2 Blocking on the Propensity Score: K bloques

τ =K

∑k=1

τk [N1k +N0k

N]

3 Weighting with the Propensity Score: balancear con pesos:

τP =1N

N

∑i=1[DiYie(Xi )

(1Di ) Yi1 e(Xi )

]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 35 / 39

Utilizando el Propensity Score

1 Regresión lineal:

Yi = β0 + β1Di + β2Die(Xi ) + β3e(Xi ) + εi .

=) ATE : β1 + β2 e(Xi ).

2 Blocking on the Propensity Score: K bloques

τ =K

∑k=1

τk [N1k +N0k

N]

3 Weighting with the Propensity Score: balancear con pesos:

τP =1N

N

∑i=1[DiYie(Xi )

(1Di ) Yi1 e(Xi )

]

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 35 / 39

Propensity Score Matching: aspectos prácticos

¿Con reemplazo o sin reemplazo?I Con reemplazo: cada unidad tratada se empareja con la unidad decontrol más parecida. Se reduce sesgo pero ¿....?

I Sin reemplazo: el orden puede ser importante (Rosenbaum, 1995).

¿Cuántas unidades de control comparables utilizar?I Una: menor propensity scoreI Varias: Mayor precisión, pero ¿...?

F M nearest neighborsF Cochran y Rubin (1973): Caliper matching. Distancia torelablemáxima.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 36 / 39

Métodos mixtos

Regresión + Weighting on the Propensity Score.

I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:

Yi = α+ βXi + τ Di + εi

I Utilizando como pesos:

wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.

I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:

Yi = αk + βkXi + τk Di + εi

I ¿Cómo combinar estas estimaciones para obtener τ?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 37 / 39

Métodos mixtos

Regresión + Weighting on the Propensity Score.I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:

Yi = α+ βXi + τ Di + εi

I Utilizando como pesos:

wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.

I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:

Yi = αk + βkXi + τk Di + εi

I ¿Cómo combinar estas estimaciones para obtener τ?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 37 / 39

Métodos mixtos

Regresión + Weighting on the Propensity Score.I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:

Yi = α+ βXi + τ Di + εi

I Utilizando como pesos:

wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.

I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:

Yi = αk + βkXi + τk Di + εi

I ¿Cómo combinar estas estimaciones para obtener τ?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 37 / 39

Métodos mixtos

Regresión + Weighting on the Propensity Score.I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:

Yi = α+ βXi + τ Di + εi

I Utilizando como pesos:

wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.

I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:

Yi = αk + βkXi + τk Di + εi

I ¿Cómo combinar estas estimaciones para obtener τ?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 37 / 39

Métodos mixtos

Regresión + Weighting on the Propensity Score.I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:

Yi = α+ βXi + τ Di + εi

I Utilizando como pesos:

wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:

Yi = αk + βkXi + τk Di + εi

I ¿Cómo combinar estas estimaciones para obtener τ?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 37 / 39

Métodos mixtos

Regresión + Weighting on the Propensity Score.I Robins y Ritov (1997). Estimar por mínimos cuadrados ponderados:

Yi = α+ βXi + τ Di + εi

I Utilizando como pesos:

wi =

sDie(Xi )

+1Di1 e(Xi )

Regresión + Blocking on the Propensity Score.I Rosenbaum y Rubin (1983). Estimar por MCO en cada bloque:

Yi = αk + βkXi + τk Di + εi

I ¿Cómo combinar estas estimaciones para obtener τ?

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 37 / 39

Aplicaciones empíricas

Matching vs datos experimentales

Lalonde (1986) datasetI Experimento en mercado laboral.I Dehejia y Wahba (1999), Smith y Todd (2003).

Arcenaux, Gerber y Green (2006)I Experimento con los votantes.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 38 / 39

Recomendaciones prácticas

Estimación de varianza: métodos de kernel, bootstrapping (Abadie eImbens, 2006).

Evaluar supuesto de exogeneidad.

Evitar incluir covariables débilmente correlacionadas con losresultados y con los indicadores de tratamiento.

Evaluar si hay superposición suciente:I Observar las distribuciones (histogramas) de las covariables.I Estimar el Propensity Score y comparar su distribución en los grupos detratamiento y control.

Si la superposición es débil, los métodos de emparejamiento y losbasados en el Propensity Score son preferibles a los métodos deregresión.

Prof. Carlos Mendiburu (BCRP) Módulo de Microeconometría 31.08.11 39 / 39