Clase 3 Pucp 180409 Print

46
STATA 10 PARA ECONOMISTAS STATA 10 PARA ECONOMISTAS SESIÓN 3 - COLLAPSE, MERGE, RESHAPE Y ANÁLISIS DE REGRESIÓN José A. Valderrama Pontificia Universidad Católica del Perú Dirección de Informática Académica - Instituto de Informática Lima, 18 de abril de 2009

description

clase3

Transcript of Clase 3 Pucp 180409 Print

  • STATA 10 PARA ECONOMISTAS

    STATA 10 PARA ECONOMISTASSESIN 3 - COLLAPSE, MERGE, RESHAPE Y

    ANLISIS DE REGRESIN

    Jos A. Valderrama

    Pontificia Universidad Catlica del PerDireccin de Informtica Acadmica - Instituto de Informtica

    Lima, 18 de abril de 2009

  • STATA 10 PARA ECONOMISTAS

    Contenido

    1 COLLAPSE

    EjemploEl cdigo del esquema anterior

    2 MERGE

    EjemploEl cdigo del esquema anterior

    3 RESHAPE

    4 ANLISIS DE REGRESIN

    El modelo de regresin lineal simpleAnlisis de regresin mltiple

    5 Aplicacin en Stata

  • STATA 10 PARA ECONOMISTAS

    COLLAPSE

    Ejemplo

    Contenido

    1 COLLAPSE

    EjemploEl cdigo del esquema anterior

    2 MERGE

    EjemploEl cdigo del esquema anterior

    3 RESHAPE

    4 ANLISIS DE REGRESIN

    El modelo de regresin lineal simpleAnlisis de regresin mltiple

    5 Aplicacin en Stata

  • STATA 10 PARA ECONOMISTAS

    COLLAPSE

    Ejemplo

    COLLAPSE: La idea bsica

  • STATA 10 PARA ECONOMISTAS

    COLLAPSE

    El cdigo del esquema anterior

    Contenido

    1 COLLAPSE

    EjemploEl cdigo del esquema anterior

    2 MERGE

    EjemploEl cdigo del esquema anterior

    3 RESHAPE

    4 ANLISIS DE REGRESIN

    El modelo de regresin lineal simpleAnlisis de regresin mltiple

    5 Aplicacin en Stata

  • STATA 10 PARA ECONOMISTAS

    COLLAPSE

    El cdigo del esquema anterior

    COLLAPSE: Sintaxis

    Vea la ayuda 0_collapse.do

    Tambin pudo haber interesado el promedio: (mean); el mayoringreso (max); el mnimo (min); la mediana (median); etc

    Ms opciones: -help collapse-.

  • STATA 10 PARA ECONOMISTAS

    MERGE

    Ejemplo

    Contenido

    1 COLLAPSE

    EjemploEl cdigo del esquema anterior

    2 MERGE

    EjemploEl cdigo del esquema anterior

    3 RESHAPE

    4 ANLISIS DE REGRESIN

    El modelo de regresin lineal simpleAnlisis de regresin mltiple

    5 Aplicacin en Stata

  • STATA 10 PARA ECONOMISTAS

    MERGE

    Ejemplo

    MERGE: La idea bsica

  • STATA 10 PARA ECONOMISTAS

    MERGE

    El cdigo del esquema anterior

    Contenido

    1 COLLAPSE

    EjemploEl cdigo del esquema anterior

    2 MERGE

    EjemploEl cdigo del esquema anterior

    3 RESHAPE

    4 ANLISIS DE REGRESIN

    El modelo de regresin lineal simpleAnlisis de regresin mltiple

    5 Aplicacin en Stata

  • STATA 10 PARA ECONOMISTAS

    MERGE

    El cdigo del esquema anterior

    MERGE: Sintaxis

    Vea la ayuda 1_merge.do

    Una opcin bastante til: keep

    Ms opciones: -help merge-.

  • STATA 10 PARA ECONOMISTAS

    RESHAPE

    RESHAPE: La idea bsica

  • STATA 10 PARA ECONOMISTAS

    RESHAPE

    RESHAPE: La idea bsica

  • STATA 10 PARA ECONOMISTAS

    RESHAPE

    Vea la ayuda 2_merge.do

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    El modelo de regresin lineal simple

    Contenido

    1 COLLAPSE

    EjemploEl cdigo del esquema anterior

    2 MERGE

    EjemploEl cdigo del esquema anterior

    3 RESHAPE

    4 ANLISIS DE REGRESIN

    El modelo de regresin lineal simpleAnlisis de regresin mltiple

    5 Aplicacin en Stata

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    El modelo de regresin lineal simple

    Terminologa

    El modelo y = 0 + 1x + u

    y Variable dependiente, variable explicada.

    x Variable independiente, regresor, variable explicativa,variable de control o covariado.

    u Trmino de error poblacional.

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    El modelo de regresin lineal simple

    Supuestos

    El valor promedio del trmino de error poblacional es cero. Esdecir:

    E (u) = 0

    x no contiene informacin relevante para u. Es decir:

    E (u/x) = 0 E (ux) = 0 (L.E.I: E (Z ) = E [E (Z/I )])

    Por lo tanto: E (y/x) = 0 + 1x

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    El modelo de regresin lineal simple

    Estimacin

    La idea es estimar los parmetros poblacionales a partir de unamuestra de tamao n : [(xi , yi); i = 1, .., n]

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    El modelo de regresin lineal simple

    Estimacin

    Ya sea por el mtodo de los MCO o por el mtodo de losmomentos se tiene que:

    y = 0 1x 0 = y 1x

    1 =n

    i=1(xi x)(yi y)/n

    i=1(xi x)2

    Probar que: 1 = y/x

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    El modelo de regresin lineal simple

    Grficamente

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Contenido

    1 COLLAPSE

    EjemploEl cdigo del esquema anterior

    2 MERGE

    EjemploEl cdigo del esquema anterior

    3 RESHAPE

    4 ANLISIS DE REGRESIN

    El modelo de regresin lineal simpleAnlisis de regresin mltiple

    5 Aplicacin en Stata

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Estimacin

    Es la generalizacin del modelo de regresin simple:y = 0 + 1x1 + 2x2 + ... + kxk + uDonde:

    0 es el intercepto

    1 a k se suelen llamar pendientes

    u es el trmino de error que se supone E (u/x1, x2..xk) = 0

    El criterio de optimizacin es el mismo slo que ahora setienen k + 1 condiciones de primer orden

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Bondad de ajuste: Anlisis de varianza

    Cada observacin se puede descomponer de una parte explicada yotra no explicada: yi = yi + ui . A partir de esto definimos:

    STC Suma total de cuadradosn

    i=1(yi y)2

    SEC Suma explicada al cuadradon

    i=1(yi y)2

    SRC Suma de residuos al cuadradon

    i=1(ui )2

    Finalmente STC=SEC+SRC

    R2 = SECSTC

    = 1 SRCSTC

    o tambin:

    R2 Es el cuadrado de la correlacin entre yi y yi

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Anlisis de varianza

    Debido a que la obtencin de los parmetros se obtiene alminimizar SRC , agregar ms variables explicativas por logeneral reduce la SRC

    Debido a que el R2 usualmente mejora con el nmero devariables explicativas, no es til para comparar modelos.

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Ms o menos variables?: Variables omitidas

    Modelo correcto Y = 0 + 1X1 + 2X2

    Modelo estimado Y = 0 + 1X1

    E (1) = 1 +Cov(X1,X2)

    V (X1)2

    V (Estimado1

    ) < V (Correcto1

    )

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Ms o menos variables?: Variables

    irrelevantes

    Modelo correcto Y = 0 + 1X1

    Modelo estimado Y = 0 + 1X1 + 2X2

    E (1) = 1 (Insesgado)

    V (Estimado1

    ) > V (Correcto1

    )

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Supuestos en el modelo de regresin lineal

    mltiple (RLM)

    Suposicin RLM1 Lineal en los parmetros:y = 0 + 1x1 + 2x2 + ... + kxk + u

    Suposicin RLM2 Muestreo aleatorio: La muestra de nobservaciones es escogida al azar de la poblacin

    Suposicin RLM3 Media condicionada cero:E (u/x1, x2, ..., xk) = 0

    Suposicin RLM4 Colinealidad imperfecta: No hay relacionesexactas entre las variables independientes

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Varianza de los estimadores

    Suposicin RLM5 Homocedasticidad:Var(u/x1, x2, ..., xk) =

    2 Var(y/x) = 2

    Los cinco supuestos hasta ahora mencionados son conocidoscomo los supuestos de Gauss-Markov

    Var(j) =2

    SCj (1R2

    j), donde

    SCj =

    (xij xj) y R2

    j es el R2 de regresionar xj sobre todos

    los otros x s

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Varianza de los estimadores

    Sin embargo, no conocemos 2 porque no observamos loserrores poblacionales ui

    Lo que se conoce son los residuos o errores muestrales de laestimacin ui

    Entonces el 2 se estima a partir de los errores:2 =

    (u2i )/(n k 1) = SRC/GL

    GL (Grados de libertad) es el nmero de observaciones menosel nmero de parmetros estimados (constante ms kpendientes)

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Teorema de Gauss-Markov

    Dados los cincos supuestos de Gauss-Markov se puede mostrar quela estimacin por MCO es MELI:

    Mejor

    Estimador

    Linealmente

    Insesgado

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Supuesto para la inferencia

    Suposicin RLM6: Normalidad. Con el fin de probar hiptesisse necesita agregar un supuesto adicional a los cinco supuestosya vistos: u N(o, 2) El error poblacional se distribuye comouna normal con media cero y varianza 2

    Lo anterior implica quey/x N(0 + 1x1 + 2x2 + ... + kxk ,

    2)

    Tambin j = N(j , Var(j)), por lo que estandarizando setiene:jj

    Es(j ) N(0, 1)

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    P-Value

    Adems de la prueba T y el intervalo de confianza existe untercer enfoque para evaluar la significancia individual de losparmetros

    El P-value o valor P es el valor exacto de cometer un error tipoI (Rechazar la nula cuando esta en realidad es cierta)

    Lo tpico es tomar como referencia a 0.05. As, si el P-value esmenor a 0.05 entonces se dice que se rechaza la nula a unnivel de significancia del 5 por ciento

    La ventaja del uso de este indicador es que no requiereobservar ninguna tabla estadstica, slo depende del nivel deerror que esta dispuesto a tolerar el analista

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Prueba global: Prueba F

    La prueba F permite determinar, si en conjunto, todas lasvariables incluidas en el modelo explican a la variable analizada.

    Ms concretamente, dada la regresin:y = 0 + 1x1 + 2x2 + ... + kxk + u

    La Hiptesis nula que se plantea es 1 = 2 = ... = k = 0

    Es decir, que todos los parmetros poblacionales, excepto elintercepto, tienen un valor poblacional de cero.

    En trminos sencillos lo que se pregunta la prueba F es siincluir un conjunto de variables explicativas le gana a unaregresin ingenua (y = 0 + u)

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    Prueba F

    Genricamente el estadstico del test se define comoF = (SCRRSCRNR)/k

    SCRNR/(nk1). Donde el subndice R denota restringido

    y el NR no restringido.

    Pero en el caso especfico de significancia global se puede

    probar que F = (SCENR)/kSCRNR/(nk1)

    = (R2)/k

    (1R2)/(nk1)

    Intuitivamente si las variables no explican nada o muy poco ala y entonces la SCR de ambas regresiones sern parecidas porlo que el estadstico F ser cercano a cero.

  • STATA 10 PARA ECONOMISTAS

    ANLISIS DE REGRESIN

    Anlisis de regresin mltiple

    P-value

    Como todo estadstico la prueba F tambin tiene asociado unP-Value, el cual tiene la misma interpretacin prctica: en lamedida que esta probabilidad sea pequea (referencialmentemenor a 5 %) entonces se rechaza la hiptesis nula de que lasvariables explicativas no sirven para explicar a y

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Aplicacin en Stata

    El objetivo de las siguientes lneas es simular una ecuacin deingresos de este tipoy = 200 + 50 exp 2 exp2 20 mujer + resid .

    set obs 1000 /*prepara la base para el ingreso de 1000 datos*/

    gen resid=invnormal(uniform()) /*crea la dist. normalestndar resid*/

    gen exp=1+(50-1)*uniform() /*dist. uniforme de 1 a 50 aosde exp.*/

    sum resid exp

    g exp2=exp*exp

    g mujer=round(uniform()) /*1 es mujer y 0 hombre*/

    g y=200+50*exp-2*exp2-20*mujer+resid

    reg y exp exp2 mujer

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Variables Dummy

    Una variable dummy es una variable que toma slo uno de dosvalores: 1 0. De ah que tambin se le conozca comovariables binarias.

    Ejemplos de ello son el gnero: (=1 si es mujer y cero en otrocaso), el mbito geogrfico (=1 si la persona vive en el rearural y cero si vive en el rea urbana), etc

    Otros nombres que son usados para este tipo de variables son:variables ficticias o variables dicotmicas

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Variable dummy como variable independiente

    Sea un modelo regresin lineal mltiple con y y x siendovariables continuas y d una variable dummy:.

    y = 0 + 0d + 1x + u

    Lo cual puede ser interpretado como un cambio en elintercepto:

    Si d = 0, entonces y = 0 + 1x + uSi d = 1, entonces y = (0 + 0) + 1x + u

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Variable dummy como variable independiente

    Grficamente y cuando 0 > 0 se tendra:

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Variable dummy como variable independiente

    La variable categrica Gnero tiene dos categoras (Hombre ymujer) Porqu slo se considera una dicotmica en losmodelos de regresin: y = 0 + 0Mujer + 1x + u y no sehace esto: y = 0 + 0Mujer + 1Hombre + 1x + u

    Multicolinealidad perfecta: Hombre + Mujer = 1

    Es decir, de una variable categrica que tiene dos categoras,slo una se debe incluir en el modelo de regresin. En general,si la variable tiene N categoras, el modelo de regresin deberacontar con N 1 variables dicotmicas.

    Dicotmica en stata: gen mujer=sexo==2 (Crea la dicotmicamujer)

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Variable dummy como variable independiente

    As,si se quisiera saber si existe diferencia en los ingresos entrelos 24 departamentos de Per la ecuacin de Mincer deberatener 23 dicotmicas, cada una representando a undepartamento. La categora no incluida se conoce como lacategora base y su impacto vendra a ser dado por elintercepto de la regresin.En Stata una forma rpida de crear dicotmicas, una paracada categora es: tab departamento,g(jose) (crea lasdicotmicas: jose1, jose2, ..., jose23)En el trabajo aplicado tambin se suele convertir una variablecontinua en dicotmica. Por ejemplo convertir la variable edad(continua)en una variable categrica que identifica a losjvenes y a los adultos.En Stata lo anterior se podra hacer del siguiente modo: genjoven=edad

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Trminos de interaccin entre dicotmicas

    Consiste en incluir la multiplicacin de variables dicotmicasen la regresin.

    As, si se tienen las variables dicotmicas: mujer y rural; unavariable dicotmica que se puede incluir es mujer*rural

    y = 0 + 1mujer rural , con las siguientes posibilidades:

    mujer=0 y rural=0; entonces y = 0mujer=1 y rural=1; entonces y = 0 + 1mujer=0 y rural=1; entonces y = 0mujer=1 y rural=0; entonces y = 0

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Trminos de interaccin entre dicotmicas

    Hasta el momento todas las dicotmicas vistas slo provocancambios en los interceptos

    Es posible modelar cambios en las pendientes de la siguientemanera: y = 0 + 1x + 1 x mujer + u:

    mujer=0; y = 0 + 1x + +umujer=1; y = 0 + (1 + 1)x + u

    En general se puede modelar cambio en pendiente e intercepto:y = 0 + 0mujer + 1x mujer + 1 x mujer + u

    mujer=0; y = 0 + 1x + +umujer=1; y = (0 + 0) + (1 + 1)x + u

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Trminos de interaccin entre dicotmicas

    Grficamente y cuando 0 > 0 y 1 < 0 se tendra:

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Aplicacin: Vamos a comparar 4 modelos

    reg yest store jose0reg y expest store jose1reg y exp exp2est store jose2reg y exp exp2 mujerest store jose3est table jose0 jose1 jose2 jose3,seest table jose0 jose1 jose2 jose3,pest table jose0 jose1 jose2 jose3,test table jose0 jose1 jose2 jose3,star stats(N F r2_a aic bic)est table jose0 jose1 jose2 jose3,p stats(N F r2_a aic bic)

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    Proyecto 3

    Siga las instrucciones

  • STATA 10 PARA ECONOMISTAS

    Aplicacin en Stata

    STATA 10 PARA ECONOMISTASSESIN 3 - COLLAPSE, MERGE, RESHAPE Y

    ANLISIS DE REGRESIN

    Jos A. Valderrama

    Pontificia Universidad Catlica del PerDireccin de Informtica Acadmica - Instituto de Informtica

    Lima, 18 de abril de 2009

    COLLAPSEEjemploEl cdigo del esquema anterior

    MERGEEjemploEl cdigo del esquema anterior

    RESHAPEANLISIS DE REGRESINEl modelo de regresin lineal simpleAnlisis de regresin mltiple

    Aplicacin en Stata