Download - Antecedentes Ev. Experimental Aleatorizar Mitos sobre RCTs ... · Antecedentes Ev. Experimental Aleatorizar Mitos sobre RCTs Pasos claves Contrafactual Falso 2 Suponga que se quiere

Mitos sobre RCTs Antecedentes Ev. Experimental Aleatorizar Pasos claves


Evaluación Experimental: ¿Por qué se recomienda?

2

Francisco Gallego

Profesor Asociado

Pontificia Universidad Católica de Chile

[email protected]

mailto:[email protected]


Horario Inicio Fin Miércoles 19 de marzo Jueves 20 de marzo Viernes 21 de marzo

8:30:00 8:45:00 Registro de participantes

8:45:00 9:00:00 Repaso del día anterior Repaso del día anterior

9:00:00 10:00:00 Bienvenida y palabras de introducción Clase 4

Evaluaciones Experimentales II: ¿Cómo implementarlas?

Caso de estudio 3: ¿Cómo aleatorizar?

10:00:00 10:30:00 Evaluación inicial de conocimientos CLAUDIA MARTÍNEZ PROFESORES AYUDANTES

10:30:00 10:45:00 Coffee Break

10:45:00 12:00:00

Clase 1 ¿Por qué evaluar impacto?

Caso de estudio 2: Identificando el contrafactual

Taller: Elaborando Términos de

Referencia

RYAN COOPER PROFESORES AYUDANTES THOMAS VARGAS

12:00:00 13:15:00

Clase 2 Midiendo efectos causales

Clase 5 Tamaño muestral y

poder estadístico

Clase 8 Aspectos operativos de una

evaluación de impacto

CLAUDIA MARTÍNEZ FRANCISCO GALLEGO NICOLE CARPENTIER

13:15:00 14:30:00 Almuerzo

14:30:00 15:45:00

Caso de estudio I: Teoría de Cambio

Clase 6 Amenazas y análisis

Clase 9 De la evidencia a la acción

PROFESORES AYUDANTES LEIGH LINDEN CLAUDIA MACÍAS

15:45:00 16:00:00 Coffee Break Evaluación final de conocimientos

16:00:00 17:15:00

Clase 3 Evaluaciones Experimentales I: ¿Por qué

hacerlas?

Clase 7 Evaluación de principio a fin Cierre de curso y entrega de

diplomas

FRANCISCO GALLEGO LEIGH LINDEN


Objetivos

Después de esta sesión los participantes serán capaces de: Entender el concepto de causalidad.

Detallar los problemas asociados con atribuir causalidad en las ciencias sociales.

Diferenciar una evaluación experimental de una evaluación no experimental.

Entender las ventajas y desventajas asociadas de cada método de evaluación de impacto dadas sus restricciones respectivas.

Identificar las etapas claves para el diseño de una evaluación aleatorizada.

4


1. Antecedentes

2. ¿Qué es una evaluación experimental?

3. ¿Por qué aleatorizar?

4. Mitos sobre evaluaciones aleatorizadas

5. Pasos clave para su diseño

Esquema de la presentación


1 . A n t e c e d e n t e s


Relaciones causales El objetivo de muchos estudios en ciencias sociales y

física es encontrar relaciones de causa-efecto entre

variables o eventos.

¿Por qué es importante establecer relaciones

causales?

Científico: mejorar teorías, modelos y cómo

entendemos el mundo.

Práctico: mejorar la calidad de las decisiones

(políticas públicas, sistemas de incentivos y políticas

organizacionales, etc.).

7


Ejemplos de preguntas causales

¿Cuál es el efecto de darles a los migrantes mayor

control sobre las cuentas del hogar en el país de

origen sobre las decisiones de ahorro del hogar?


Problema de atribución causal

Aún habiendo definido:

(i) el “tratamiento”, y

(ii) las variables que van a medir el resultado,

contestar estas preguntas no es trivial.

¿Por qué?

9


Problema de atribución causal: Ejemplo 1 Por ejemplo, queremos medir el

efecto que mujeres sean electas en cargos públicos en inversión pública. Si comparamos inversión pública

en lugares con mujeres elegidas y no elegidas, podemos estar comparando peras con manzanas.

Las comunidades pueden ser

diferentes en cuanto a percepción de mujeres, grados de educación o ingreso de la población. Esto también podría afectar la inversión pública y la propensión a elegir mujeres.

10


Problema de atribución causal: Ejemplo 2 Otro ejemplo: queremos medir el efecto que tiene la

entrega de información sobre cuentas de ahorro a

migrantes sobre la probabilidad de que abran cuentas.

Si comparamos personas que migran con aquellos que no

lo hacen, podemos estar comparando peras con

manzanas.

¿Por qué?

11


¿Por qué podríamos estar comparando peras con manzanas? A. Los migrantes podrían

ser más vulnerables.

B. Los migrantes podrían tener menos educación en temas financieros.

C. Los migrantes que viajan podrían tener familias más grandes.

D. 1, 2 y 3

E. Ninguna de las anteriores.

12 A. B. C. D. E.

20% 20% 20%20%20%


Problema de atribución causal

Problema de selección

Las personas que eligen una acción tienen

características distintas a las personas que

no lo hacen.

¿Qué variables llevan a unas personas a

ahorrar?

¿Aprensión por aprietos económicos?

¿Distintas expectativas del futuro?

13


Impacto

El problema de la evaluación de impacto:

14

Evaluación típica:

¿Cómo han cambiado las vidas de los

beneficiarios después del comienzo del

programa?

Evaluación con grupo de control:

¿Cómo han cambiado las vidas de

los beneficiarios por causa del

programa?

GRUPO DE TRATAMIENTO

Recibe beneficios

del programa

GRUPO CONTROL

No recibe beneficios


2 . ¿ Q u é e s u n a e v a l u a c i ó n e x p e r i m e n t a l ?


Programa de Mejoramiento de Viviendas


Tiempo

Indic

ador

de b

ienesta

r

Programa de

Mejoramiento de

viviendas

T=0 Inicio Programa

¿Cuál fue el impacto?

17


El impacto del programa fue…

A. Positivo

B. Negativo

C. No se sabe

18

Positiv

o

Negativ

o

No se sa

be

33% 33%33%


Tiempo

Impacto

Programa de

Mejoramiento de

viviendas

Indic

ador

de b

ienesta

r


19


Impacto

Indic

ador

de b

ienesta

r

Tiempo

Programa de

Mejoramiento de

viviendas


20


Qué es impacto?

Resultados que los participantes del

programa obtienen un tiempo

después de participar en el programa

Resultados que esos mismos

participantes hubieran obtenido en ese

mismo momento si no habrían

participado en el programa (hipotético)

IMPACTO


Problema de Contrafactual

10 días enfermo

20 días enfermo

Impacto de 10

días de no

enfermedad

Ya no podemos

identificar el

impacto


Es hipotético: Representa el estado del mundo que los participantes

del programa habrían experimentado si no hubieran participado en el programa.

Problema: El contrafactual no se puede observar en la realidad.

Solución: Necesitamos estimar o construir un contrafactual.

Contrafactual

23


Se hace mediante la selección de un grupo de personas que no participaron en el programa.

Este grupo se llama el grupo de control o el grupo de comparación.

La forma de seleccionar este grupo es una decisión clave en el diseño de cualquier evaluación de impacto.

Estimando el contrafactual

24


Seleccionando el grupo de control

El objetivo es seleccionar un grupo que sea

exactamente igual al grupo de participantes en

todas las dimensiones, excepto en si reciben o no

el programa.

Impacto de información sobre cuentas para migrantes

Igual proporción de mujeres, de migrantes con cuenta

bancaria en EEUU, igual número de años viviendo en EEUU,

años de educación, misma relación con beneficiarios de

remesas, iguales ingresos, remesas, ahorros iniciales, etc.

Impacto de vivienda sobre oportunidades de trabajo

Igual situación económica, mismas expectativas a futuro, etc.

25


Métodos de evaluación de impacto

1. A. Evaluaciones experimentales

• Grupo de control aleatorio

• Muy confiables

2. B. Métodos no experimentales

1. 1. Antes y después

2. 2. Diferencia simple en un mismo momento en el tiempo

3. 3. Diferencias en diferencias (combina 1 y 2)

4. 4. Emparajamiento

5. 5. Variables instrumentales

6. 6. Regresión discontinua

7. Otros…

26


Métodos no experimentales

Todos los métodos tratan de hacer lo mismo:

1. Estimar qué hubiera pasado sin el programa

por medio de generar un grupo de control.

2. Estimar la diferencia entre el grupo de control y

el grupo de tratamiento.

La principal diferencia es cómo estiman el

contrafactual, i.e. quién es el grupo de control.

Problema: en evaluaciones no experimentales, los

grupos a comparar pueden no ser comparables.

27


Contrafactual Falso 1

Suponga que quiero ver el efecto de la

información sobre cuentas de ahorro

antes y después de mi campaña de

información.

Tomo la cantidad de cuentas de ahorro

antes y despues de mi campaña y

concluyo que el impacto es de 10 cuentas

adicionales.

28



10

20

0

5

10

15

20

25

Antes de lacampaña

Después de lacampaña

Cu

en

tas

29

Cuentas

Antes

Cuentas

Después

10 20

Campaña

Con datos antes y

después puedo ver

que el programa

causó que

incrementará el

número de cuentas

en 10. ¿O no?

Tiempo

Observo



El gran problema es que no se puede

controlar por cambios en el tiempo.

Puede ser que durante el mismo periodo de

evaluación, la economía entrara en recesión,

agravando la situación financiera de los

encuestados.

Esto pudo haberlos limitado a la hora de abrir

cuentas, simplemente porque no tenían

dinero.

30



10

20

10

23

0

5

10

15

20

25

Antes de lacampaña

Después de lacampaña

Cu

en

tas

31

Cuentas

Antes

Cuentas

Después

10 20

Tiempo

Sin controlar por

cambios en el tiempo,

la comparación “antes

y después” puede

llevar a sobrestimar el

impacto del programa.

Cuentas

Antes

Cuentas

Después

10 23

Observo Realidad

Campaña

Contrafactual



Suponga que se quiere ver el impacto de un

programa que entrega viviendas a los más

pobres sobre su empleabilidad.

Se tiene información sobre los que están

inscritos y los que no eran elegibles pero no

están inscritos en el programa.

Comparandólos en el tiempo, se observa que

el grupo de tratamiento tiene más personas

empleadas que el grupo de control.

32



Con base a esta información, se concluiría que

el programa tuvo impacto.

Sin embargo, cuando se observan los datos,

aparece que los grupos no son muy similares.

33

Tratamiento Control

Personas con empleo 250 200

¡El programa funciona!

¿O no?



34

Tratamiento Control

Porcentaje mujeres 20% 40%

Porcentaje con

educación secundaria

45% 15%

Características de los grupos

Tratamiento Control

Personas con empleo 250 200

¡Estamos comparando peras con manzanas!



Comparando inscritos al programa con no

inscritos, es posible que estemos sobre-

estimando el impacto del programa.

Parece que algunas personas con

carácterísticas que mejoran la empleabilidad se

seleccionaron para entrar al programa.

¿Qué sucede cuándo las diferencias son no

observables?

35


El método experimental

Tome una muestra de postulantes a un

programa y asígnelos de forma aleatoria

cara o cruz) a:

Un grupo de tratamiento: recibe el tratamiento.

Un grupo de control: no recibe el tratamiento

durante el período de evaluación.

Comparamos los resultados entre ambos grupos.

36


¿Por qué es importante que utilice una moneda para asignar a tratamiento o control?

A. Porque la aleatoriedad me garantiza que en promedio los grupos sean comparables.

B. Porque la aleatoriedad me asegura que voy a poder detectar el impacto del programa.

C. Porque es divertido.

37 A. B. C.

33% 33%33%


3. ¿Por qué aleatorizar?


Al tener una asignación aleatoria, los grupos no

difieren de ninguna manera sistemática. Estadísticamente, los grupos son iguales.

Tratamiento Control

Cualquier diferencia observable al finalizar al

programa puede ser atribuida al programa.

¿Por qué aleatorizar?

39


En la práctica, que los grupos sean estadísticamente

idénticos significa que, en promedio, no hay

diferencias significativas en los promedios de

sus características.

Ej.: Programa en Mejoramiento de Vivienda: balance inicial.

Esperamos encontrar diferencias chicas, que no

sean estadísticamente significativas a lo largo de la

muestra.

¿Por qué aleatorizar?

40

Características Tratamiento Control Diferencia

Satisfacción con calidad

de vida 0.354 0.339

0.036

(0.032)


Balance en características iniciales

Variables Grupo de

Tratamiento

Grupo de

Control Diferencia

Tamaño del hogar

(personas) 4.899 4.902

-0.099

(0.159)

Numero de habitaciones 2.803 2.825 -0.023

(0.085)

Casa con baño propio 0.403 0.392 -0.011

(0.031)

Lugar de cocinar usado

como dormitorio 0.229 0.230

-0.010

(0.009)

Satisfacción con calidad

de vida 0.354 0.339

0.036

(0.032)

41

Programa: Mejoramiento de Vivienda


Si son correctamente diseñadas e implementadas,

Eliminan cualquier sesgo que puede haber en una

evaluación no experimental.

La aleatorización hace que grupos sean

comparables en variables observables y no

observables.

No es necesario hacer demasiados supuestos,

como en las evaluaciones no-experimentales.

Los resultados son fáciles de interpretar.

¡Importante para evaluación de políticas públicas!

Ventajas de las evaluaciones experimentales

42


Robustez Estimación RCT: Ejemplo Progresa

-14,2

-19,5

-16,2

-30

-33,5

Comparando Elegibles (a quién se le ofreció) vs. no

elegibles (No se le ofreció programa).

¡Resultado depende de la información disponible!

Transf cond Gasto Priv Salud

Edad Jefe Hogar

Tamaño hogar Piso de tierra

Gasto Priv Salud basal


Robustez Estimación RCT: Ejemplo Progresa

Transf cond Gasto Priv Salud

Edad Jefe Hogar

Tamaño hogar Piso de tierra

Gasto Priv Salud basal

-7.6

-7.3

-7.5

-7.6

-7.7

¡Resultado NO depende de información disponible

porque tratados y no tratados iguales en todo!

-14.2

-19.5

-16.2

-30

-33.5

Comparando Elegibles (a quién se le ofreció) vs. no

elegibles (no se le ofreció programa).


4. Mitos sobre evaluaciones aleatorizadas


3 dimensiones a considerar

“Que nadie quede peor” (Estudios en

general).

Protección de información / privacidad

sujetos (Estudios en General).

Dejar gente fuera de programa (RCT – Aquí

nos enfocaremos en este punto).

Ética de las evaluaciones aleatorizadas


Focalización: “Llegar a Pobres de los Pobres”

Evaluación: “Entregar casas

por sorteo”

Ética de las evaluaciones aleatorizadas

Desafío Inicial


www.untechoparamipais.org

Focalizar Manzanas con manzanas Mejor focalización

Ética

MAS POBRES MENOS POBRES

• Si voy a unas pocas

comunidades, puede

ser que focalice mal

e incluya a hogares

menos pobres.

• Si voy a más

comunidades es fácil

alcanzar a más

hogares más pobres.

• Esto es más justo y

me permite

aleatorizar.

Inclu

ir


Lo caro es conseguir datos de calidad y el rigor (tamaño muestral).

Eso vale para cualquier método de evaluación.

¿Son caras en comparación con qué?

Políticas públicas no basadas en evidencia pueden ser más caras.

Mejor valen pocas evaluaciones rigurosas que muchas evaluaciones baratas pero poco confiables.

Gran parte de lo que se busca con evaluaciones experimentales son soluciones costo-efectivas.

La evidencia es un bien público.

Costo de las evaluaciones aleatorizadas


Ocurre lo mismo con otros métodos de

evaluación de impacto: es necesario

esperar que la intervención produzca sus

resultados.

En muchas evaluaciones, se calculan los

resultados demasiado temprano.

Duración de las evaluaciones aleatorizadas


5. Pasos claves para la evaluación experimental


1. Diseñar el estudio cuidadosamente.

Definir el problema, la sub-población de interés, el

tratamiento, las variables a medir, etc.

2. Asignar aleatoriamente las unidades a tratamiento o

control.

3. Recolectar datos de línea de base.

No es estrictamente necesaria pero muy

recomendable, ayuda a verificar balance, tamaño

muestra, interacciones.

4. Verificar que la asignación generó grupos similares.

Chequear balance

Pasos clave para el diseño de un experimento

52


5. Monitorear el proceso para garantizar la integridad del

experimento. Que no se les dé el programa a los de control y sí se les

dé a los de tratamiento

6. Recolectar datos de seguimiento después de la

intervención tanto para el grupo de tratamiento como para

el grupo control.

7. Estimar impacto del programa, comparando los

resultados promedio del grupo de tratamiento vs. los

resultados promedio del grupo de control.

8. Determinar si el impacto (la diferencia entre los grupos)

es estadísticamente significativo. 53

Pasos clave para el diseño de un experimento


Aleatorización

Muestra

Representativa

Tratamiento

Control


Aleatorización

55

TIEMPO

Ale

ato

riza

ció

n

Línea base Línea final

Tratamiento

Control


La ventaja de la evaluación aleatoria es que: A. Asegura que los grupos de

control y tratamiento estén balanceados en características observables.

B. Asegura que los grupos de control y tratamiento estén balanceados en características no observables.

C. No es necesario hacer tantos supuestos como las evaluaciones no experimentales.

D. Todas las anteriores son correctas.

56 A. B. C. D.

25% 25%25%25%


Conclusiones generales Existen muchas formas de estimar el

impacto de un programa.

En este curso, queremos transmitir que un

método es superior a los demás:

los experimentos aleatorios Argumento conceptual: Si son correctamente

diseñados y realizados, los experimentos

aleatorios constituyen el método más confiable

para estimar el impacto de un programa.

Argumento empírico: Diferentes métodos pueden

generar diferentes estimaciones del impacto.

57


Gracias

58

Francisco Gallego

Profesor Asociado

Pontificia Universidad Católica de Chile

[email protected]

mailto:[email protected]