120902 STATA - Completo Edicion

download 120902 STATA - Completo Edicion

of 72

Transcript of 120902 STATA - Completo Edicion

  • 8/11/2019 120902 STATA - Completo Edicion

    1/72

    1

    ECONOMETRA APLICADA: STATA 12.0

    Guillermo Jopen [email protected]

    Hiroshi Toma Uza Christian Colonio Cossio Roysenberg Snchez Ballesteros

    [email protected] [email protected] [email protected]

    Departamento de EconomaPontificia Universidad Catlica del Per

    Agosto, 2012RESUMEN

    El presente documento tiene como objetivo principal introducir a los estudiantes de la especialidad deEconoma, de Ciencias Sociales, y del lector interesado, al manejo y aplicacin del software estadsticoeconomtrico Stata 12. Ello, mediante el repaso general y aplicacin de los tpicos principales de estadstica yeconometra bsicos.

    Cabe mencionar que el presente documento no pretende sustituir a los cursos de nivel universitario deEstadstica y Econometra (con nfasis en la especialidad de Economa y Ciencias Sociales en general). Sinoque por el contrario buscar afianzar estos conocimientos, permitiendo un mejor desenvolvimiento en cuantoal dominio de softwaresestadsticoeconomtricos como este. Siendo as que se recomienda la revisin en

    paralelo de la bibliografa recomendada; as como de los textos a los que el mismo lector tenga acceso.

    ABSTRACT

    FALTA ABSTRACT

    Clasificacin JEL:A33, C01Palabras Claves:Manual, Econometra

    La realizacin y culminacin del presente documento fue lograda gracias a los invalorables comentarios recibidos de parte deXXXX y de XXXX, profesores del Departamento de Economa (PUCP). Todos los errores u omisiones son de la enteraresponsabilidad de los autores.Guillermo Jopen Snchez: Asistente de Docencia del Departamento de Economa, y Licenciado de Economa por la PontificiaUniversidad Catlica del Per (Av. Universitaria 1801, San Miguel, Lima 32, Per. Telf. (511) 626-2000, Anexo 4979).ChristianColonio Cossio, Roysenberg Snchez Ballesteros e Hiroshi Toma Uza: Asistentes de investigacin y estudiantes de laespecialidad de Economa, Facultad de Ciencias Sociales de la Pontificia Universidad Catlica del Per.

    mailto:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]
  • 8/11/2019 120902 STATA - Completo Edicion

    2/72

    2

    NDICE DETALLADO

    I. Entorno del software Stata 12 ........................................................................................................... 4

    1. Aspectos generales ....................................................................................................................... 4

    2. Ventanas de trabajo ...................................................................................................................... 5

    3. Manejo de Bases de Datos (Data Management) ........................................................................... 6

    4. Archivos de instrucciones (DO-files) ......................................................................................... 12

    5. Bitcoras de trabajo (Log-files) .................................................................................................. 12

    II. Estadstica ....................................................................................................................................... 131. Vector aleatorio .......................................................................................................................... 13

    2. Distribuciones importantes ......................................................................................................... 14

    III. Modelo de Regresin Lineal Clsico Multivariado ........................................................................ 171. El Modelo Clsico de Regresin Lineal Multivariado (MRLCK).............................................. 17

    2. Metodologa de MCO y sus propiedades .................................................................................... 17

    3. Omisin de variables relevantes ................................................................................................. 19

    4. Inclusin de variables irrelevantes .............................................................................................. 20

    5. Anlisis de descomposicin de varianza (ANOVA)................................................................... 20

    6. Criterios de seleccin entre modelos anidados ........................................................................... 21

    7. Inferencia del modelo lineal mltiple ......................................................................................... 22

    IV. Levantamiento de Supuestos I ........................................................................................................ 251. Multicolinealidad ........................................................................................................................ 25

    2. Las variables ficticias o dummy y su interpretacin ................................................................... 25

    3. Modelos lineales y no lineales .................................................................................................... 27

    V. Levantamiento de Supuestos II ....................................................................................................... 291. Perturbaciones no esfricas......................................................................................................... 29

    2. Heterocedasticidad...................................................................................................................... 30

  • 8/11/2019 120902 STATA - Completo Edicion

    3/72

    3

    3. Autocorrelacin .......................................................................................................................... 32

    VI. Levantamiento de Supuestos III ...................................................................................................... 36FALTAN BASE Y EJEMPLOS ............................................................................................................... 36

    1. Modelos con Problemas de Endogeneidad ................................................................................. 36

    2. Anlisis del problema: causas, deteccin y soluciones ............................................................... 36

    3. Estimador de Variables Instrumentales (VI) y Mnimos Cuadrados Dos Etapas (MC2E). Mtodo

    de Momentos Generalizados (MGM) .......................................................................................................... 37

    VII. Levantamiento de Supuestos IV ..................................................................................................... 401. Modelos con Variables Dependientes Limitadas ........................................................................ 40

    2. Modelos de Eleccin Binaria y Mltiple: Logit, Probit y extensiones....................................... 40

    3. Modelos con Datos Censurados y Truncados ............................................................................. 42

    4. Modelos de Seleccin. ................................................................................................................ 43

    VIII. Series de tiempo .............................................................................................................................. 441. Procesos Estocsticos y Estacionariedad .................................................................................... 44

    2. Metodologa Box-Jenkins ........................................................................................................... 46

    3. Series de Tiempo no Estacionarias ............................................................................................. 49

    4. Vectores Autoregresivos (VAR) ................................................................................................. 51

    5. Cointegracin y Modelo de Correccin de Errores (VECM) ..................................................... 57

    6. Descomposicin de una serie ...................................................................................................... 61

    IX. Modelos de Datos de Panel ............................................................................................................. 631. Estimacin Agrupada (Pooled Regression) ................................................................................ 64

    2. Datos de Panel: Efectos Aleatorios (RE) .................................................................................... 65

    3. Datos de Panel: Efectos Fijos (FE) ............................................................................................. 66

    4. Datos de Panel Esttico y Extensiones ....................................................................................... 68

    5. Modelo Lineal Dinmico de Datos de Panel: Mtodo Generalizado de Momentos................... 70

  • 8/11/2019 120902 STATA - Completo Edicion

    4/72

    4

    I. Entorno del softwareStata 12

    1.

    Aspectos generales

    ElsoftwareStata 12.01es un paquete estadstico y economtrico cuyo formato de trabajo se basa en el uso deprogramacin y de ejecucin de comandos. Todos los comandos de Stata (excepto los de programacin) se

    encuentran implementados en cuadros de dilogo, a los que se puede acceder mediante el men principal, elcual est organizado por tpicos de la siguiente manera:

    La interfaz tambin se muestran conos de acceso rpido, desde donde se puede: abrir bases de datos deextensin .dta; guardar bases de datos recientemente editadas; imprimir los contenidos de la pantalla y

    grficos recientes; inicio de bitcoras, mostrar ventanas de ayuda inactivas; edicin de grficos; inicio dearchivos tipo DO; mostrar ventana de edicin de datos; mostrar navegador de los datos; cono de estado; ymostrar el estado de la ejecucin de comandos y programacin; funciones ordenadas en conos de la siguiente

    manera:

    Si bien Stata (en sus versiones a partir de la versin 8) permite trabajar a travs de botones, sigue siendo unprograma manejado por comandos (al igual que RATS 6, y versiones posteriores, entre otros programas),debido a que cada ventana se encuentra asociada a un comando (a diferencia de Eviews, en donde lasventanas desplegables estn orientadas a objetos), por lo que aprender a manejar Stata 12 mediante comandosser de mucha utilidad, sobre todo si lo que se desea es programar en este lenguaje.

    En tal sentido, es necesario detallar previamente la sintaxis que usa Stata. El manejo de rdenes o comandossiguen el siguiente esquema:

    Los comandos muchas veces pueden ser reducidos a sus tres (03) primeros caracteres, seguidos de la lista devariables a utilizar como insumo para cada comando. Las extensiones de comandos entre corchetes sonopcionales (las expresiones ifo in, se detallarn ms adelante).

    1 Para beneficio del lector, varios de los comandos y usos mostrados en el presente documento son herencia de las versionesanteriores delsoftware. No obstante, hay que hacer la acotacin de que tambin son varios los comandos y usos que son propiosde esta versin de Stata (que se detallarn en su respectivo momento), por lo que se recomienda para estos efectos la revisin dela opcin de ayuda o helpdel mismosoftware.

    comando lista de variables[ifexpresin] [inexpresin], [opciones]

    Conectores relacionales= mayor o igual que!= diferente a (puede usarse ~=)Conectores lgicos& y (& se evala antes que el | )

    | o! no es el caso (puede usarse ~ )Operadores aritmticos+ suma- resta* multiplicacin/ divisin^ potencia+ concatenacin de cadenas alfanumricas

  • 8/11/2019 120902 STATA - Completo Edicion

    5/72

    5

    En este punto, el uso de operadores lgicos es relevante y necesario en ciertos casos. Por tal motivo sedetallan en el recuadro anterior los ms importantes.

    2.Ventanas de trabajo

    Como se mencion lneas arriba, Stata permite trabajar haciendo uso de ventanas, cada una de las cualespresenta un tipo diferente de informacin.

    Se detallan hasta cinco ventanas de trabajo: La ventana de resultados ( results) donde se presenta loscomandos, resultados y mensajes de error; la ventana de historial (review) donde aparecen los comandos,usualmente segn el orden de ejecucin; la ventana de variables ( variables) que muestra la lista de variablescargada en la memoria; la ventana de comandos (command) que es la ventana en la que se ingresan loscomandos; y finalmente la ventana de propiedades (properties) donde se detallan las propiedades de lasvariables cargadas en la memoria delsoftware2.

    De esta manera, al iniciar elsoftware, Stata muestra lo siguiente:

    Adicional a ello, es posible contar con ventanas de trabajo como el editor de Stata (Stata Editor) y elnavegador(Stata Browser) que permiten navegar y modificar los datos de la base como si fuese una hoja declculo respectivamente; la ventana de ayuda (Stata Viewer) que permite acceder a informacin en lnea ytambin a la ayuda del programa; la ventana de grficos (Stata Graphs) que presenta el ltimo grficorealizado; y el editor de archivos tipo DO (Stata Do-file Editor) que es una ventana separada y que funcionacomo un editor de textos que permite ejecutar una lista de comandos3.

    2Esta ventana es una innovacin de la versin 12. Facilita en buena cuenta la edicin de ciertas caractersticas de las variablescargadas en la memoria, como cuestiones asociadas a nombres, formatos, etiquetas de las variables y de las observaciones, etc.3La personalizacin de las opciones, disposicin de ventanas, etc. se realiza a travs de la ruta: Pref/save windowing preferences.Mientras que si alguna ventana est cerrada podemos abrirla desde el men Window.

  • 8/11/2019 120902 STATA - Completo Edicion

    6/72

    6

    3.

    Manejo de Bases de Datos (Data Management)

    Stata permite trabajar con bases de datos de todo tipo, incluyendo hasta bases de datos del tipo censal (queson de mayor tamao); claro est, en funcin a la capacidad del ordenador en el que se utilice el software4.

    Asimismo, hasta versiones anteriores al Stata 12, era necesario habilitar la disposicin de trabajo del softwarepara trabajar con bases de datos de un tamao mayor a 1024 Kb, por lo que si se requera la ampliacin de lacapacidad antes mencionada mediante el comando: set memory o simplemente set mem, de la siguientemanera:

    set memory 200m

    Que, por ejemplo, permitira ampliar la capacidad de la memoria a bases de datos con tamao hasta de 200Mb. A partir de la ltima versin (Stata 12) ya no es necesaria dicha especificacin.

    Abrir bases de datos

    Antes de abrir una base de datos e iniciar una sesin de trabajo, es recomendable mantener una carpeta deregistro en la que se pueda almacenar todos los archivos que en la sesin pudieren crearse (estimaciones,

    bases de datos, grficos, etc.). Para tal sentido, el comando cd(change directory) permite hacer eso.

    cd "C:\Documents and Settings\Escritorio\Nueva carpeta"

    Para abrir una base de datos desde el men principal seguimos la siguiente ruta: File/Open. En el cuadro dedilogo que aparece a continuacin se elige el archivo deseado, que en este caso tiene la extensin de losarchivos de datos naturales de Stata, dta. Tambin esposible utilizar el atajo ctrl + o.

    As, a manera de sesin modelo, se har uso de la base de datos mcdogasolita_iv.dta5.

    4Al respecto cabe mencionar que son varios los tipos de Stata existentes en el mercado. Se cuenta con la versin Stata/MP, quees la versin ms rpida de Stata (en funcin a los procesadores utilizados); la versin Stata/SE, que es la versin ms comn y

    permite trabajar con grandes conjuntos de datos; la versin Stata/IC, que se limita a bases de datos de tamao moderado; laversin Small Stata, que se encarga de pequeos conjuntos de datos; y finamente el Stata Numrico que solo permite operar coninformacin integrada o va Stata WEB.

  • 8/11/2019 120902 STATA - Completo Edicion

    7/72

    7

    Ntese que una vez cargada la base de datos, se actualiza la ventana de variables, mostrndose en esta lainformacin correspondiente a las mismas. Asimismo, ntese tambin que al ejecutar los comandos medianteestos mens se registran automticamente estos en la ventana Reviewel(los) comando(s) equivalente(s) parala ventana Command. Caracterstica muy til cuando se aprende Stata porque es posible ejecutar un comandomediante la GUI y luego repetirlo empleando comandos.

    Inspeccin de los datos

    Para inspeccionar la informacin contenida en la base de datos cargada, es posible realizar una descripcinrpida de los datos mediante el comando describe. Para copiar a un procesador de textoslo que acaba deaparecer en la ventana de resultados seleccionamos dicho resultado y lo copiamos como texto o como tabla, ocomo imagen, como se ve a continuacin.

    describe

    Es posible tambin el uso de la versin resumida del comando describe, sera ds, que permite obtenernicamente una lista compacta de las variables con las que cuenta la base de datos.

    ds

    Cabe mencionar que si se desea editar la informacin correspondiente a nombres de variables, etiquetas, notas

    de autor, tipos de variables, etc. Es posible acceder a la ventana de propiedades, liberar el seguro de edicin(con forma de candado en la esquina superior izquierda de la ventana) y proceder con la misma, tal como sesigue a continuacin:

    5 Para los ejemplos de este documento se hace uso de la Base de Datos mcdogasolita_iv.dta utilizada en el texto de Greene(2006), excepto cuando se indique lo contrario. La Base de Datos se puede descargar desde el siguiente link:http://people.stern.nyu.edu/wgreene/Text/Edition6/

    Sorted by:

    ps float %9.0g

    pn float %9.0g

    pd float %9.0g

    ppt float %9.0g

    puc float %9.0g

    pnc float %9.0g

    income int %8.0g

    gasp float %9.0g

    pop long %12.0g

    gasexp float %9.0g

    year int %8.0g

    variable name type format label variable label

    storage display value

    size: 2,080

    vars: 11

    obs: 52

    Contains data from C:\Documents and Settings\mcdogasolita_iv.dta

    year gasexp pop gasp income pnc puc ppt pd pn ps

    http://people.stern.nyu.edu/wgreene/Text/Edition6/http://people.stern.nyu.edu/wgreene/Text/Edition6/http://people.stern.nyu.edu/wgreene/Text/Edition6/http://people.stern.nyu.edu/wgreene/Text/Edition6/
  • 8/11/2019 120902 STATA - Completo Edicion

    8/72

    8

    En versiones anteriores al Stata 12, era necesario hacer uso directo del comando label variable.Actualmente an es posible realizar este tipo de procedimientos por comandos.

    De esta forma que el comando describe permitir revisa la metainformacin relacionada las variables de la

    base de datos. Mientras que por otro lado, el comando codebook permitir inspeccionar informacinadicional.

    codebook gasexp

    Por otro lado, si se desea explorar la informacin en un formato tipo hoja de clculo, el comando browsepermite abrir la ventana de navegacin de datos (Stata Browser), que en esta versin ya permite hacer uso de

    10.6 15.4 58.15 111.8 137.9

    percentiles: 10% 25% 50% 75% 90%

    std. dev: 57.5147

    mean: 70.1019

    unique values: 51 missing .: 0/52

    range: [7.4,224.5] units: .1

    type: numeric (float)

    gasexp (unlabeled)

    Tipos de Variables: Stata puede manejar distintos tipos de variables separadas en: stringo variables de texto.Variables que Stata por defecto le asigna formato float,al generar una variable nueva. Asimismo, IntercooledStata8.0 en adelante soporta cadenas de hasta 80 caracteres de largo. Estas son:

    str1 cadenas de 1 carcter

    str240 cadenas de 240 caracteresAsimismo, las variables numricas, que se organizan en los siguientes sub-tipos

    float nmeros reales en formato 8,5 (8 cifras enteras, cinco decimales)

    double nmeros reales en formato 16,5

    byte enteros entre127 y 100

    int enteros entre32767 y 32740

    long enteros entre3147483647 y 2147483620

  • 8/11/2019 120902 STATA - Completo Edicion

    9/72

    9

    filtros de anlisis y muestra de datos. Mientras que para editar esta informacin, el comando edit, abrir ensu defecto la ventana de edicin de datos (Stata Editor).

    Cabe mencionar que en versiones anteriores no era posible seguir trabajando con los datos (generar o editarvariables, etc.) mientras alguna de estas ventanas estaba abierta. A partir del Stata 12 ya es posible mantenerestas ventanas abiertas y seguir con la sesin de trabajo.

    Generacin bsica de variables

    El software no solamente permite trabajar con la informacin de las bases de datos en bruto, sino tambingenerar variables en funcin a los requerimientos del usuario. As, en principio, para las varias aplicacioneseconomtricas y dems se requerir de la generacin de ciertos tipos de variables.

    Para ello, desde el men principal, utilizamos la siguiente ruta: Data/Create or change variables/Create newvariable, luego de lo cual aparecer un cuadro de dilogo en el cual debemos ingresar el nombre de lavariable y su regla de creacin.

    As, si, por ejemplo, se necesita crear el logaritmo natural de la variable income, en la casilla Generatevariablese escribe el nombre de la variable (en este caso lnincome, por ejemplo), luego se pulsa el botnCreate, y elige la opcin Functions/mathematical,en la que se elige la opcin logaritmo natural con dobleclick. Luego, en lugar de x se escribe el nombre de la variable insumo (en este caso income). Finalmente se

    pulsa el botn OK en los dos cuadros de dilogo.

  • 8/11/2019 120902 STATA - Completo Edicion

    10/72

    10

    Al final de este proceso se observa que ha aparecido una nueva variable (lnincome) y que el comandoempleado en su creacin ha aparecido en la ventana de Resultsy en la ventanaReview. Asimismo, ntese quees posible utilizar cualquiera de las siguientes formas6:

    generate float lnincome = ln(income)

    generate lnincome = ln(income)

    gen lnincome = ln(income)

    De forma similar, algunas otras opciones importantes sobre generacin de variables se asocian a:

    Reemplazos de variables, debido a que el programa no puede sobreescribir variables, la opcin sera

    generar reemplazos sobre variables ya existentes (replace var_antigua =nuevo_contenido).

    Borrar una o ms variables antiguas, mediante el comando drop. Se enumeran las variables que sedesea borrar.

    Borrar una o ms variables antiguas, mediante el comando keep. Se enumeran las variables que se

    desea mantener.

    Generacin bsica de grficos

    Para crear grficos se requiere un procedimiento similar. Desde el men principal: Graphics/Twoway graphsaparece un cuadro de dilogo, donde se elige la opcin crear, y finalmente la opcin de tipo de grafico (en

    este caso se elige la opcinscatter, y la variable

    y la variable

    ). Luego se presiona el botn OK.

    6En Stata 12.0 los comandos deben ir siempre en minsculas. Adems, para los nombres de las variables Stata tomar en cuentasi empleamos minsculas o maysculas, no son la misma variable Modelo, modelo, MODELO ni moDelO.

    Otros comandos asociados a manipulacin de datos: Algunos comandos relevantes que se suelen utilizar antes derealizar anlisis estadstico y/o economtrico son los siguientes:

    sort: ordena las observaciones de una base de datos de manera ascendente a partir de los valores de una(s)determinada(s) variable(s):

    sort varlist [in] [, stable]

    gsort: ordena las observaciones de una base de datos de manera ascendente o descendente a partir de losvalores de una(s) determinada(s) variable(s):

    gsort [+|-] varname [[+|-] varname ...] [, generate(newvar) mfirst]

    rename: cambia el nombre de una variable existente:rename old_varname new_varname

    generate: crea una nueva variable:

    generate [type] newvar[:lblname] =exp [if] [in]

    egen: extension de generateegen [type] newvar = fcn(arguments) [if] [in] [, options]

    replace: cambia el contenido de una variable existente:

    replace oldvar =exp [if] [in] [, nopromote]

    recode: permite recodificar los valores de una variable:recode varlist (rule) [(rule) ...] [, generate(newvar)]

  • 8/11/2019 120902 STATA - Completo Edicion

    11/72

    11

    Asimismo, ntese que es posible utilizar cualquiera de las siguientes formas:

    twoway (scatter gasexp income)

    scatter gasexp income

    Guardar una base de datos.

    Como se mencion anteriormente, Stata emplea la extensin .dta para los archivos de bases de datos. Paragrabar se pulsa el botn que tiene el icono de un disco o desde el men principal: File/ Save o File /Saveas

    En este caso, grabaremos la base de datos con el nuevo nombre: trabajo1.dta7

    Extensiones de comandos: Conectores relacionales y lgicos

    Es posible agregar a la gran mayora de comandos extensiones o especificaciones de acuerdo a losrequerimientos de trabajo. Estas especificaciones pueden ser principalmente condicionales: ifo in,

    7Cabe mencionar, que en el caso de Stata 12 es necesario guardar las bases de datos en formato compatible si es que se deseaabrir la misma en versiones anteriores. Ello se logra mediante el comando saveold.

    0

    50

    10000 15000 20000 25000 30000

    ingreso per cpita disponible

  • 8/11/2019 120902 STATA - Completo Edicion

    12/72

    12

    con respecto a rangos o pertenencia a conjuntos. Con la peculiaridad que estos conectoresrelacionales no deben de ser confundidos con operadores matemticos, siendo que =, no ser lo

    mismo que ==, como se puede ver en el siguiente ejemplo , en el que se crea la variable logaritmonatural del ingreso (lnincome) solamente para ciertos casos en funcin a los aos:

    gen lnincome = ln(income) if year >= 2004

    gen lnincome = ln(income) if year == 2004gen lnincome = ln(income) if year

  • 8/11/2019 120902 STATA - Completo Edicion

    13/72

    13

    II. Estadstica

    En las Ciencias Sociales y, en especial, en la Economa es de uso recurrente la aplicacin de la Estadstica. Ental sentido, en el presente capitulo se exponen los principales conceptos de Estadstica, necesarios para elanlisis de datos.

    1.

    Vector aleatorio

    Regularmente en el anlisis cuantitativo se recurre al anlisis del comportamiento y relaciones entre variables.Por ejemplo, la determinacin del crecimiento econmico, la evaluacin del impacto de las crisis financierasinternacionales, el mejoramiento de la calidad de servicios de salud en determinado pas, anlisis del impactode la contaminacin ambiental de cierta explotacin minera en cierta localidad, el impacto de cierto programasocial sobre la reduccin de la pobreza, entre otros tipos de anlisis involucran la aplicacin de una o msvariables aleatorias.

    As, el concepto ms bsico es el de variable aleatoria, que al agruparse con otras similares se puedecontemplar como un vector aleatorio. Es entonces que un vector aleatorio ( ) puede ser entendido como unconjunto de datos cuyos componentes son las variables aleatorias

    e

    , definidas ambas sobre el mismo

    espacio muestral .Evento, Frecuencia y Funcin de Probabilidad y Densidad

    De esta manera, es posible tomar, por ejemplo, la variable ingreso per cpita (income) como una variablealeatoria, pues esta puede tomar cualquier valor de forma aleatoria dentro de un rango de posibles eventos oespacio muestral. As, mediante el comando summarize, es posible obtener informacin estadstica bsicasobre la informacin contenida por la variable aleatoria:

    summarize income

    Mientras que la opcin , detailo , d permite ampliar la informacin estadstica acerca de la variablealeatoria deseada:sum income, d

    Asimismo, esta informacin se puede organizar en funcin a sus ocurrencias o frecuencias (y en formaagrupada) mediante tablas de tabulacin con el comando tabulate mostrndose los eventos ocurridos, elnmero de veces en las que ocurri o frecuencia, la frecuencia en porcentajes y a nivel acumulado. Mientrasque la forma grfica usual para mostrar las frecuencias es mediante un histograma, de la siguiente forma:

    income 52 16805.06 5552.026 8685 27113

    Variable Obs Mean Std. Dev. Min Max

    99% 27113 27113 Kurtosis 1.826983

    95% 26352 26437 Skewness .1459415

    90% 24464 26352 Variance 3.08e+07

    75% 21442 25449 Largest Std. Dev. 5552.026

    50% 16692.5 Mean 16805.06

    25% 11705.5 9343 Sum of Wgt. 52

    10% 9534 9137 Obs 52

    5% 9137 8883

    1% 8685 8685

    Percentiles Smallest

    ingreso per cpita disponible

  • 8/11/2019 120902 STATA - Completo Edicion

    14/72

    14

    histogram income, title (Solo barras) frequency

    histogram income, title (Con Funcin de Densidad) kdensity

    Generalizando, en trminos estadsticos un vector aleatorio de dos variables como , es posible definir que la probabilidad con la que ocurre un valor o evento cualquiera como 6668888se encuentra en funcin de la frecuencia con la que se da el mismo evento en el espaciomuestral. As, la probabilidad conjunta, entendida como: , proporciona la

    probabilidad de que ocurra un evento en pareja ; es decir, que simultneamente la variable aleatoriatome el valor particular y la variable aleatoria tome el valor particular .De forma similar, es posible definir las distribuciones marginales, que proporcionan las distribucionesindividuales dee , que son las mismas que se obtendran en procesos individuales:

    Por otro lado, la funcin de probabilidad condicional, permite realizar pronsticos acerca de alguno de loscomponentes del vector aleatorio , al fijar valores para el otro componente.

    Mientras que en lo que respecta a la funcin de densidad se define como ; de manera anloga a lafuncin de probabilidad marginal (discreta), esta es una funcin continua tal que:

    La funcin de densidad condicional de dado que es denotada , mediante: . Y anlogamente se define la funcin de densidad condicional de dado que ,denotada , mediante: 2. Distri buciones importantes

    0

    5

    10

    15

    10000 15000 20000 25000

    income

    Solo barras

    0

    10000 15000 20000 25000 30000

    income

    Con Funcin de Densidad

  • 8/11/2019 120902 STATA - Completo Edicion

    15/72

    15

    Es usual hacer uso de algunas formas de distribuciones estandarizadas. A continuacin se muestran lasdistribuciones discretas ms comunes:

    Distribucin BinomialEs una de las distribuciones discretas de probabilidad ms tiles. Su aplicacin se da en el caso donde el

    resultado es la ocurrencia la no ocurrencia del evento, por ejemplo en la investigacin de opiniones,inspeccin de calidad, etc. donde cada experimento es independiente del siguiente, siendo el nmero deexperimentos. Adems, llmese a la probabilidad de ocurrencia y a la probabilidad de noocurrencia.

    , donde es la cantidad de xitos en los n ensayos. Distribucin Geomtrica Como en el caso de la distribucin binomial, consideramos un experimento con solo dos resultados posibles:

    V (xito) y F (fracaso). Repetimos el experimento hasta obtener el V, por ejemplo el nmero de excavacionespetroleras necesarias hasta hallar un pozo petrolero y su distribucin es:

    donde la x indica las pruebas necesarias hasta obtener el xito. Distribucin Pascal o Binomial Negativa Al igual que la distribucin binomial se observa una secuencia de ensayos independientes; en lugar de fijar elnmero de ensayos en y observar el nmero de xitos, se siguen los ensayos hasta haber ocurrido xitos.

    Distribucin de Poisson En esta distribucin la variable aleatoria representa el nmero de eventos independiente que ocurren a unavelocidad constante, por ejemplo, el nmero de automviles que pasa por un peaje en un tiempo determinado.Sea x el nmero de eventos aleatorios independientes sobre un determinado tiempo o espacio.

    donde

    siendo

    el nmero de ocurrencia y

    el intervalo de tiempo.

    Asimismo, a continuacin se presentan algunas distribuciones continuas regulares. Pues en la realidad elcomportamiento aleatorio de una determinada variable, ya sea econmica, o de cualquier otro tipo, puede serdiverso.

    Distribucin Normal

  • 8/11/2019 120902 STATA - Completo Edicion

    16/72

    16

    Esta distribucin se presenta constantemente e indudablemente es la ms importante y la de mayor uso detodas las distribuciones continuas, cuando sea cual fuese la distribucin inicial de la variable aleatoria, engrandes muestras tienden a tomar la forma de una distribucin normal.

    Donde los parmetros y son caractersticos de la funcin. Es decir La grfica tiene una distribucin simtrica con media y con puntos de inflexin , si se mantiene fija yaumenta (disminuye), entonces la distribucin se aplana (angosta).Si ahora definimos a , entonces se cumple que , esto permite reducir el clculo deuna probabilidad en una distribucin general, al clculo equivalente en una distribucin . Ladistribucin acumulativa ha sido tabulada y permite calcular probabilidades.Distribucin Gamma La funcin de densidad Gamma se presenta de modo natural en un proceso de Poisson, cuando medimos eltiempo entre varias ocurrencias del evento E. La grfica es asimtrica a la derecha, pero conforme crece , la

    asimetra se atena y est definida por la funcin de densidad:

    Distribucin Exponencial

    La variable aleatoria es el tiempo que transcurre hasta que se da el primer evento de Poisson. Es decir, ladistribucin exponencial puede modelar el lapso entre dos eventos consecutivos de Poisson que ocurren demanera independiente y a una frecuencia constante.

  • 8/11/2019 120902 STATA - Completo Edicion

    17/72

    17

    III. Modelo de Regresin Lineal Clsico Multivariado

    Quiz los objetivos ms importantes de la Econometra son el poder predecir y explicar los fenmenossociaoeconmicos. La herramienta ms simple para cumplir con estas tareas es el Modelo de RegresinLineal Clsico Multivariado.

    1.

    El Modelo Clsico de Regresin L ineal M ulti variado (MRLCK)

    Se tiene una variable endgena que es funcin lineal de variables exgenas y de untrmino estocstico . Si se cuenta con observaciones, entonces el modelo tendr la siguiente forma:

    En la ecuacin anterior cada puede ser expresado mediante una matriz compuesta por vectores aleatoriosindependientes entre s; tal que . Por otro lado es el coeficiente correspondiente a cadavariable. Adems se suele incluir en esta ecuacin un componente que identifique al intercepto de la misma(

    ); con

    . As, el modelo anterior puede ser expresado de forma matricial de la siguiente manera:

    2. Metodologa de MCO y sus propiedades

    La metodologa comnmente utilizada para hallar estimaciones de los parmetros es la de los MnimosCuadrados Ordinarios (MCO). Esta consiste en el proceso de minimizacin del margen de error existenteentre las observaciones reales (muestrales) y los valores predichos para estos mediante el modelo de regresinlineal clsico multivariado. Tal que:

    Donde es posible hallar como resultado:

    Vector que contiene la informacin estimada para cada uno de los parmetros del modelo. Y que cumple contener las propiedades de ser lineal, insesgado y tener varianza mnima. Caractersticas que componen ladefinicin del Mejor(es) Estimador(es) Lineal(es) Insesgado(s) o simplemente MELI.

    Este modelo (denominado como modelo poblacional) cumple con los siguientes supuestos (conocidos comosupuestos clsicos):

    Los parmetros son lineales.

    El rango de es completo, no hay dependencia lineal en la matriz .

    | (, )=0,

    |

  • 8/11/2019 120902 STATA - Completo Edicion

    18/72

    18

    De forma similar, esta metodologa permite obtener un estimador que aproxima la varianza para cada

    estimador de denotada por:

    Tomando en cuenta que no se conoce directamente

    , se necesita hallar su estimador, de la siguiente forma:

    Donde es el nmero de observaciones y es el nmero de regresores excluyendo el trmino constante.Siendo un estimador insesgado para .As, para el mejor entendimiento de esta metodologa, se procede a generar la variable endgena logaritmonatural del gastoper cpitaen gasolina (lngasexppc) mediante el siguiente comando:

    gen lngasexppc= ln(gasexp/pop)

    Para posteriormente estimar el siguiente modelo terico:

    regress lngasexppc income pnc puc

    Ntese que luego de la aplicacin del comando regress(o simplemente reg) se realiza una estimacinmediante la metodologa de MCO, obtenindose el outputo tabla de resultados de la misma.

    _cons -11.69836 .2800051 -41.78 0.000 -12.26135 -11.13537

    puc -.0154985 .0058335 -2.66 0.011 -.0272275 -.0037695

    pnc .0245954 .0082855 2.97 0.005 .0079362 .0412545 income .000133 .0000201 6.61 0.000 .0000925 .0001734

    lngasexppc Coef. Std. Err. t P>|t| [95% Conf. Interval]

    Total 40.4833487 51 .79379115 Root MSE = .23417

    Adj R-squared = 0.9309

    Residual 2.63212375 48 .054835912 R-squared = 0.9350

    Model 37.8512249 3 12.617075 Prob > F = 0.0000

    F( 3, 48) = 230.09

    Source SS df MS Number of obs = 52

  • 8/11/2019 120902 STATA - Completo Edicion

    19/72

    19

    3.

    Omi sin de variables relevantes

    Sea el siguiente modelo particionado:

    Realizamos la estimacin en un modelo en el cual se elimina la variable .

    (1) Source | (2) SS (6) df MS (10) Number of obs = 51 (14)

    -------------+------------------------------ F( 1, 49) = 0.07 (15)

    Model |(3).51166559 (7) 1 .511665591 (11) Prob > F = 0.7966 (16)

    Residual |(4)373.40990 (8)49 7.62061027 (12) R-squared = 0.0014 (17)

    -------------+------------------------------ Adj R-squared = -0.0190 (18)

    Total |(5)373.92156 (9)50 7.47843137 (13) Root MSE = 2.7605 (19)

    ------------------------------------------------------------------------------

    (20) y |(23) Coef.(24)Std. Err. (25)t(26)P>|t|(27) [95% Conf. Interval]-------------+----------------------------------------------------------------

    (21) x | -.0034628 .0133639 -0.26 0.797 -.0303185 .0233929

    (22)_cons | 12.53665 .7419461 16.90 0.000 11.04565 14.02764

    ------------------------------------------------------------------------------

    (1) Fuentes de Varianza: En esta parte se muestral la descomposicin de la varianza. La varianza total (Total) sedescompone en la varianza explicada por el modelo (i. e. por las variables independientes) (Model) y en la varianza noexplicada por el modelo (Residual). Ntese que

    (2) Suma de cuadrados (Sum of Squares) asociadas a las tres fuentes de varianza. Estas son las medidas de variabilidadrespecto a la media.

    (3) Suma de cuadrados explicada (ESS): (4) Suma de cuadrados residual (RSS): (5) Suma de cuadrados total (TSS): (6) Grados de libertad (Degrees of Freedom): estos son los grados de libertad asociados a las fuentes de la varianza.(7) Los grados de libertad del modelo son

    , donde es el nmero de variables explicativas (incluyendo la constante)

    (8) Los grados de libertad del residuo son los grados de libertad totales menos los grados de libertad del modelo:8 9 7(9) La varianza total tiene grados de libertad donde es el nmero de observaciones.

    (10) Mean Squares: , es decir, el Mean Square es igual a la suma de cuadrados dividida por los grados de libertadrespectivos. Con estos datos uno puede construir el estadstico F [desarrollado en 15]

    (11) 7(12) 48(13) 59(14) Nmero de observaciones(15) Estadstico F de significancia global:

    (16) Valor pdel test de significancia global(17) :

    (18)

    :

    7

    (19) Root Mean Squared Error (o Residual): es el desvo estndar del trmino de error.(20) Variable explicada(21) Variables explicativas: en este caso solo se tiene una variable explicativa, pero si tuviera ms cada una se presenta en una

    fila.(22) Constante

    (23) Vector de los coeficientes estimados: (24) Desvo estndar de los coeficientes estimados: (25) Estadstico t: (26) Valor del test de significancia individual (con dos colas)(27) Intervalo de confianza del coeficiente estimado: 00, donde .

  • 8/11/2019 120902 STATA - Completo Edicion

    20/72

    20

    Al realizar la estimacin del parmetro obtenemos la siguiente media y varianza:

    Se observa que la eliminacin de variables relevantes crea sesgo en los estimadores, el cual depende de larelacin entre las variables omitidas. Adems, se genera un aumento de la varianza de los estimadores.

    4. I nclu sin de vari ables ir relevantes

    Se propone el siguiente modelo particionado:

    Incluyendo una variable irrelevante obtenemos el siguiente modelo:

    Se obtienen la siguiente media y varianza de los estimadores

    La inclusin de variables irrelevantes lleva a un incremento de la varianza de los estimadores y con ello a unaproporcin menos explicada de la regresin.

    5.

    Anli sis de descomposicin de varianza (ANOVA)

    El anlisis de descomposicin de varianza permite observar las relaciones entre las variaciones de lasvariables explicativas y el cambio en la variable endgena, dejando de forma residual el cambio en el trminode perturbacin.

    Fuente de variacin Suma de cuadrados Grados de libertad Media de cuadrados

    Regresin Residuos Total

    y ajustadoEl coeficiente de bondad de ajuste o es la correlacin al cuadrado entre los valores de la regresinestimada y los valores de . Este estadstico muestra qu tan bien explica la regresin a lo que

  • 8/11/2019 120902 STATA - Completo Edicion

    21/72

    21

    verdaderamente se observa. A travs de este podemos comparar entre modelos distintos y determinar cul esel ms adecuado. Se determina de la siguiente manera:

    Alternativamente se puede representar como:

    Sin embargo, es conocido que el estadstico tiene el problema que no castiga la adicin de variables, siempreaumentando cuando esto sucede. Esto podra llevarnos a elegir modelos incorrectos. Para solucionar esto se

    propone el ajustado, el cual s castiga la adicin de variables en el modelo. Se determina de la siguienteforma:

    Visto de otra manera:

    6.

    Criteri os de seleccin entre modelos anidados

    Aparte de los estadsticos propuestos en la seccin anterior hay otros criterios de seleccin entre modelos. Losms usados son los siguientes:

    Criterio de Akaike

    Se elige aquel modelo que resulte con un AIC menor.

    Criterio de Schwarz o Bayesiano

    Al igual que el caso anterior, se elige el modelo que tenga el BIC menor.

    Se puede obtener ambos criterios de informacin usando el siguiente comando luego de haber realizado laregresin:

    estat ic

  • 8/11/2019 120902 STATA - Completo Edicion

    22/72

    22

    7.

    I nferencia del modelo l ineal mlti ple

    Sea , donde . Sabemos que donde es la traza de , y que yson independientes, por lo cual podemos usar la siguiente expresin:

    Donde es el componente de la matriz .Con esta nueva expresin se puede obtener una distribucin de t de Student.

    Donde es el desvo estndar del estimador . El resultado de esta expresin podemos utilizarlo paracontrastar una hiptesis nula o para hallar un intervalo de confianza para cada .Prueba de hiptesis individual

    Se realiza una prueba de hiptesis para conocer la significancia de cada variable dentro del modelo. Lashiptesis individuales toman la forma siguiente:

    0

    Siguiendo los supuestos clsicos, se comprueban las hiptesis a travs del uso del estadstico t de Student.

    0 El valor resultante del estadstico se compara con los valores de tabla para conocer la significancia de lavariable. Para realizar una prueba de hiptesis de significancia en Stata se utiliza el siguiente comando (en elejemplo se realiza la prueba para la variable income):

    test income

    Prueba de hiptesis conjunta

    . 52 -67.27563 3.784966 4 .4300677 8.235043

    Model Obs ll(null) ll(model) df AIC BIC

    Prob > F = 0.0000

    F( 1, 48) = 43.70

    ( 1) income = 0

  • 8/11/2019 120902 STATA - Completo Edicion

    23/72

    23

    Surge un problema ms complicado cuando se intenta evaluar simultneamente varias hiptesis queenvuelvan a varios . Estas hiptesis pueden adoptar la forma:

    0 A la cual aplicando el supuesto de normalidad y haciendo uso de la tabla Fisherse puede obtener la siguiente

    expresin:

    La cual se puede reducir a las siguientes expresiones para el caso de una prueba de significancia conjunta:

    Si el valor obtenido a travs del F estadstico es superior al F de tabla, se puede rechazar la hiptesis conjunta.

    A continuacin se muestran algunos ejemplos de hiptesis conjuntas:

    test income pnc puc

    test (income+pnc+puc=0)

    test (income) (pnc+puc=0)

    Intervalos de confianza

    Un intervalo de confianza consta de un rango limitado dentro del cual se ubicar el valor de una variabledesconocida con una determinada probabilidad. Para lo que interesa en este caso, se muestra el intervalo de

    confianza para el estimador : (

    0 )

    Prob > F = 0.0000

    F( 3, 48) = 230.09

    ( 3) puc = 0

    ( 2) pnc = 0

    ( 1) income = 0

    Prob > F = 0.0119

    F( 1, 48) = 6.84

    ( 1) income + pnc + puc = 0

    Prob > F = 0.0000

    F( 2, 48) = 88.96

    ( 2) pnc + puc = 0

    ( 1) income = 0

  • 8/11/2019 120902 STATA - Completo Edicion

    24/72

    24

    Aqu es el nivel de significancia de la estimacin. Por otro lado, y son los valores crticos quetienen que ser comparados con la tabla de la distribucin normal.

    Prediccin en el modelo de -variablesSea el siguiente conjunto de valores de las variables explicativas:

    Donde los superndicesindican que se trata de un predictor.Se desea predecir el valor de para los valores dados de . Existen dos posibles caminos: una prediccin

    puntual o un intervalo de confianza para la prediccin. Para el caso de prediccin puntual solo es necesariohacer una regresin estimada de la forma siguiente:

    Para hallar una prediccin de intervalo de confianza podemos usar la distribucin de c

    :

    Con lo cual se obtiene:

    Esto genera un intervalo de confianza al de confianza

    Para almacenar los valores de prediccin se ingresa el siguiente comando:

    predict y_hat

  • 8/11/2019 120902 STATA - Completo Edicion

    25/72

    25

    IV. Levantamiento de Supuestos I

    Como se vio en el captulo 3, existen mltiples supuestos en los modelos de regresin clsicos. Sin embargo,los datos de los que se disponen no siempre cumplen con esos supuestos, por lo que las estimaciones tienenque hacerse de otra manera. Es aqu en donde se empiezan a levantar algunos supuestos para poder llegar a lasmejores estimaciones.

    1.

    Multicolinealidad

    La multicolinealidad surge cuando las variables explicativas se encuentran correlacionadas entre s y no esposible analizar con precisin los efectos individuales de cada una de ellas. Si las variables se encuentranperfectamente correlacionadas, se dice que existe multicolinealidad perfecta y se cumple la siguientecondicin:

    Donde

    son constantes distintas de cero.

    Sin embargo, lo ms comn es que las variables muestren correlacin alta, pero no perfecta. Esta es lacondicin que se debe cumplir para este caso:

    Para detectar si existe multicolinealidad se puede realizar la prueba VIF. Para realizarla en Stata se inserta elsiguiente comando luego de la regresin:

    estat vif

    Si el VIF promedio es 0 entonces no hay multicolinealidad, si est entre 0 y 10 hay multicolinealidadimperfecta baja y si es mayor a 10 hay multicolinealidad imperfecta alta.

    2. Las vari ables fi cticias o dummy y su in terpretacin

    Las variables ficticias o tambin denominadas binarias son una herramienta para introducir cambios discretos

    en la funcin de un modelo de regresin. Estas variables sirven para indicar la presencia o ausencia de unacualidad o atributo. Suelen tomar los valores de 0 y 1 para cuantificar un atributo. La siguiente ecuacinrepresenta la introduccin de una variable explicativa cualitativa en un modelo de regresin.

    Donde si pertenece al grupo 1 y si pertenece al grupo 2.Para la generacin de variables dummiesen Stata se insertan los siguientes comandos.

    Mean VIF 60.65

    income 11.60 0.086212

    puc 82.54 0.012115 pnc 87.82 0.011387

    Variable VIF 1/VIF

  • 8/11/2019 120902 STATA - Completo Edicion

    26/72

    26

    gen d = 0

    replace d = 1 if gasexp

  • 8/11/2019 120902 STATA - Completo Edicion

    27/72

    27

    Cambio en el intercepto y la pendiente

    0

    FALTAN COMANDOS CHOW

    Pruebas CUSUM y CUSUM cuadrado

    Otra manera de ver el cambio estructural, a travs de las variables dummy, es con las pruebas CUSUM yCUSUM cuadrado.

    Antes que todo, es necesario descargar la prueba CUSUM cuadrado.ssc install cusum6

    Para usar el test CUSUM, primero se tiene que establecer una variable de tiempo:tsset year

    Luego se escribe el siguiente comando (siempre poniendo la variable dummyadelante):cusum6 d gasexp

    Para ambas pruebas, si es que la curva sale de las bandas de confianza, entonces existe un cambio estructuralen los datos.

    3.

    Modelos li neales y no l ineales

    Las tcnicas economtricas tambin pueden ser empleadas para estimar relaciones no lineales en los

    parmetros (por ejemplo, ). La estimacin de estos modelos no puede realizarse por MCO.Para ello es necesario realizar transformaciones a los modelos.

    CUSUM

    Ao

    CUSUM

    1956 2004

    0 0

    CUSUMs

    quared

    Ao

    CUSUM squared

    1956 2004

    0

    1

  • 8/11/2019 120902 STATA - Completo Edicion

    28/72

    28

    a. Transformaciones doble-logartmicas: Este modelo adopta una o ms variables de esta forma: Un ejemplo de este modelo es la funcin Cobb-Douglas ( ). El modelo linealizadoadoptara la siguiente forma:

    El parmetro resulta ser la elasticidad de con respecto a.

    b. Transformaciones semi-logartmicas: Se realiza una transformacin a los modelos aplicandologaritmos como sigue: El parmetro representa en este caso la tasa de crecimiento promedio de la variable respecto a lavariable

    .

    c. Transformaciones recprocas: Esta transformacin surge cuando al menos una de las variables poseeasntota. La especificacin general de este modelo sera: Donde es la asntota de Y, y la asntota deX. Para poder realizar la estimacin de este modelo es necesario asignar valores sucesivos al parmetroy escoger aquella estimacin que tenga el mejor ajuste.

    Las transformaciones doble-logartimica y semi-logartmica pueden estimarse mediante el comando

    regress, dado que an respetan los supuestos del MRLCK. Las transformaciones recprocas, al no ser

    lineales, se deben de estimar mediante el comando nl, cuya sintaxis es similar al de generacin de variables.

  • 8/11/2019 120902 STATA - Completo Edicion

    29/72

    29

    V. Levantamiento de Supuestos II

    1.

    Perturbaciones no esfricas

    Levantando el supuesto de perturbaciones esfricas ahora se asume:

    Es decir, la varianza ya no es constante y la covarianza puede ser distinta de cero.

    Propiedades del estimador MCO con perturbaciones no esfricas

    Este levantamiento del supuesto afecta a las propiedades de los estimadores. La esperanza toma la siguienteforma:

    Es decir, el estimador sigue siendo insesgado.

    Analizando la varianza:

    Se observa que la violacin del supuesto de perturbaciones esfricas ocasiona un incremento de la varianza.

    El estimador de Mnimos Cuadrados Generalizados (MCG)

    El estimador deja de ser el mejor estimador lineal puesto que se puede hallar otro con menor varianza,este ltimo es el estimador de MCG. Para estimar un modelo con perturbaciones no esfricas se crea unamatriz

    de transformacin. Donde P cumple con lo siguiente:

    Adems:

  • 8/11/2019 120902 STATA - Completo Edicion

    30/72

    30

    As el modelo transformado debe tener la siguiente forma:

    Siguiendo el proceso de minimizacin de errores, llegamos al siguiente estimador:

    Cuya esperanza y varianza son:

    Para realizar una estimacin de mnimos cuadrados generalizados en Stata es necesario introducir el comando

    glm, de igual forma que se hara con el comando regress.

    glm lngasexppc income pnc puc

    2.

    Heterocedastici dad

    Se tiene un problema de heterocedasticidad cuando la varianza de los trminos estocsticos no es constante.Entonces la matriz de varianzas de sera la siguiente:

    _cons -11.69836 .2800051 -41.78 0.000 -12.24716 -11.14956

    puc -.0154985 .0058335 -2.66 0.008 -.0269319 -.004065

    pnc .0245954 .0082855 2.97 0.003 .0083561 .0408347

    income .000133 .0000201 6.61 0.000 .0000936 .0001724

    lngasexppc Coef. Std. Err. z P>|z| [95% Conf. Interval]

    OIM

    Log likelihood = 3.784966158 BIC = -187.0276

    AIC = .0082705

    Link function : g(u) = u [Identity]

    Variance function: V(u) = 1 [Gaussian]

    Pearson = 2.632123752 (1/df) Pearson = .0548359

    Deviance = 2.632123752 (1/df) Deviance = .0548359

    Scale parameter = .0548359

    Optimization : ML Residual df = 48

    Generalized linear models No. of obs = 52

  • 8/11/2019 120902 STATA - Completo Edicion

    31/72

    31

    Se observa que las perturbaciones siguen no correlacionadas entre s, es decir que la covarianza entre ellas escero. Cuando la varianza de las perturbaciones es proporcional a una variable se cumplir que:

    Eficiencia de los estimadores MCO y MCG

    El principal problema de la existencia de heterocedasticidad es que los estimadores hallados por MCO sonineficientes, pese a que siguen siendo insesgados. Como consecuencia de esto ltimo, las pruebas t y F

    pueden arrojar resultados imprecisos que lleven a determinar un coeficiente como no significativo cuando, enrealidad, s lo es. Entonces el mejor mtodo a usar ante la existencia de heterocedasticidad es MCG.

    Pruebas de heterocedasticidad

    Existen diversos contrastes de heterocedasticidad los cuales se basan en la hiptesis nula de que la varianza delas perturbaciones es homocedstica. Los mtodos ms conocidos son los siguientes:

    a)

    Contraste de BreuschPaganGodfrey (BPG)

    La prueba BPG primero estima el modelo mediante MCO. Luego obtiene el estimador de Mxima

    Verosimilitud de la varianza ( ). Despus construye la siguiente constante para toda lamuestra: ; donde puede ser (variable explicativa original oalgunas de ellas, de las cuales se sospecha, generan la heterocedasticidad). Finalmente, sobre la basede la de la regresin anterior, se genera el siguiente estadstico: 5 El comportamiento asinttico del estadstico puede ser descrito como de una distribucin , por loque al compararra con el valor de tabla, si el calculado resulta mayor entonces se rechaza la hiptesisnula.

    Para realizar esta prueba en Stata 12 es necesario introducir luego de la regresin el comando:estat hettest

    Si el valor obtenido a travs de la prueba es superior al de tabla, entonces se rechaza la hiptesis nulade varianza constante.

    b) Contraste de White

    Esta es la prueba ms popular para detectar heterocedasticidad. Sin embargo, tiene la desventaja deno reconocer la causa de la heterocedasticidad ni su forma.Para realizar este test, se tiene que realizar una regresin de los errores mnimos cuadrticos,elevados al cuadrado, contra: una constante, los cuadrados de , y los productos cruzados desegundo orden.

    Prob > chi2 = 0.1647

    chi2(1) = 1.93

    Variables: fitted values of lngasexppc

    Ho: Constant variance

    Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

  • 8/11/2019 120902 STATA - Completo Edicion

    32/72

    32

    Esta regresin, por Teora Asinttica, por la Ley de los Grandes Nmeros, genera un estadstico que se puede contrastar con los valores de tabla.

    Para el uso de esta prueba en Stata, es necesario descargala. Para ello se inserta el siguientecomando:

    ssc install whitetst

    Inmediatamente despus de una regresin, se ingresa el comando de la prueba.

    whitetst

    Se observa el P-value y se constata si se puede rechazar o no la presencia de heterocedasticidad.

    Soluciones al problema de heterocedasticidad

    a) Utilizacion del mtodo de MCG

    Es importante especificar bien (inversa de la matriz de covarianzas) para que los estimadores de MCG seaninsesgados. Aplicando el mtodo al modelo inicial se obtiene:

    b) Utilizacin de las varianzas corregidas de White

    Suponiendo que el estimador obtenido por MCO es insesgado y consistente, y que el tamao de la muestra esgrande, podemos utilizar las varianzas consistentes con heterocedasticidad de White, la cual es:

    donde

    Y se hace referencia a los residuos de la estimacin MCO del modelo original.

    3. Autocorrelacin

    Se afirma que existe autocorrelacin cuando la covarianza entre los trminos de perturbacin es diferente de

    cero. Esto es comn en muestras de series de tiempo.

    Dada la siguiente funcin de autocorrelacin:

    White's general test statistic : 26.11993 Chi-sq( 9) P-value = .002

  • 8/11/2019 120902 STATA - Completo Edicion

    33/72

    33

    Donde . La matriz de varianzas y covarianzas adopta la siguiente forma:

    La autocorrelacin surge a causa de diversas razones como la exclusin de variables correlacionadas, error deespecificacin, errores de medicin que se acumulan y estn autocorrelacionados, etc. Las perturbaciones

    pueden generarse de un proceso autoregresivo (AR) o de promedios mviles (MA).

    Eficiencia de los estimadores MCO y MCG

    Al igual que en el caso de heterocedasticidad, en el caso de autocorrelacin los estimadores continan siendolineales e insesgados, pero no son eficientes porque no poseen varianza mnima. Por lo tanto, los estimadoresobtenidos mediante MCG resultan ms eficientes puesto que incorporan el factor de autocorrelacin.

    Pruebas de autocorrelacin

    a. Contraste de Durbin-Watson (DW)Es un constraste que toma la siguiente forma:

    Donde es la autocorrelacin muestral, por lo cual, si la muestra es grande:

    Notemos adems que es el coeficiente MCO de regresionar sobre .Valores del estadstico cercanos a cero indican autocorrelacin positiva de primer orden, mientras quevalores cercanos a cuatro indican autocorrelacin negativa de primer orden. Es vlido, adems, afirmarque valores de que tienden a ser menores (mayores) que 2 ser indicio de autocorrelacin positiva(negativa) en las perturbaciones.

    La comparacin formal de la prueba se hace con los valores de tabla de Durbin y Watson, el cualcuenta con un lmite superior y un lmite inferior, que dependen nicamente del tamao de la muestra

    y del nmero de variables explicativas en la regresin.

    Aceptar si Rechazar si

    No se llega a una conclusin si

  • 8/11/2019 120902 STATA - Completo Edicion

    34/72

    34

    Esta prueba no es vlida cuando la matrizX no es estrictamente no estocstica, cuando la regresin noincluye un trmino constante (intercepto) y cuando el proceso autoregresivo (AR) no es de primerorden.

    Se necesita contar con una base de datos de serie de tiempo para realizar esta prueba. Para ello seemplear la siguiente disponible en la web:

    webuse air2

    Luego de contar con la base de datos, establecemos la variable tiempo de esta forma:

    tsset t

    Una vez establecida la variable y realizada la regresin (regress air L.air), podemos emplear elcomando para la prueba:

    estat dwatson

    b. Contraste de Breusch-Godfrey:

    Es una prueba ms general que la de Durbin-Watson, puesto que es vlidad para cualquier orden decorrelacin. Para realizar la prueba se asume que los trminos de error siguen un patrn autoregresivocontra los valores rezagados de perodos atrs.

    Donde es un trmino estocstico.Se plantea la hiptesis nula de no autocorrelacin:

    0

    Luego de realizar la estimacin mediante MCO al modelo que se plantee, se debe obtener los residuos. Estos ltimos deben volverse a estimar de la siguiente forma:

    Empleamos el obtenido en esta ltima regresin y la empleamos en la expresin:(

    (TIMESLAB: Airline passengers)

    delta: 1 unit

    time variable: t, 1 to 144

  • 8/11/2019 120902 STATA - Completo Edicion

    35/72

    35

    Este valor luego se compara con los valores de la tabla para llegar luego a una conclusin sobre laexistencia de autocorrelacin.

    La utilizacin de esta prueba en Stata debe realizarse siguiendo el comando:

    Estat bgodfrey

    Si se desea realizar la prueba con ms de un valor rezagado, debe cambiarse el nmero (1) por elnmero de rezagos empleados.

    Soluciones al problema de autocorrelacin

    FALTAN SOLUCIONES

    H0: no serial correlation

    1 15.439 1 0.0001

    lags(p) chi2 df Prob > chi2

    Breusch-Godfrey LM test for autocorrelation

  • 8/11/2019 120902 STATA - Completo Edicion

    36/72

    36

    VI. Levantamiento de Supuestos III8FALTAN BASE Y EJEMPLOS

    Hasta ahora hemos visto modelos en donde las variables son independientes de los residuos. Sinembargo, no siempre se encontrarn datos que concuerden con estos modelos; en algunos casosexiste una correlacin entre alguna de las variables explicativas y alguna variable no explicitada en

    el modelo (cuyo efecto se encuentra contabilizado en el trmino de error). Este es el problema de laendogeneidad.

    1.

    Modelos con Probl emas de Endogeneidad

    Uno de los supuestos del modelo clsico de regresin lineal es: Y, naturalmente:

    No obstante, se puede dar que los datos con los que se trabaja lleven a que no se cumpla estacondicin. Por lo que se tendra en estos casos que:

    2.

    Anlisis del problema: causas, deteccin y soluciones

    Las posibles causas para este problema son:a)

    Cuando hay variables omitidas no observables.b)

    Cuando hay errores en la medicin en las variables.c)

    Estimacin de sistemas de ecuaciones.

    La manera ms simple para saber si es que se tiene un problema de endogeneidad es hacer unaprueba de correlacin entre las variables explicativas y el trmino de error. De ser esta correlacindistinta a 0, entonces nos encontramos ante un problema de endogeneidad.

    Para hacer este test en Stata, primero se debe almacenar los residuos luego de hacer una regresin:regress lngasexppc income pnc puc

    predict resid

    Luego se puede hacer el test de correlacin de Pearson:corr income pnc puc resid

    8Para este captulo se usar la base de datos XXXXX.

  • 8/11/2019 120902 STATA - Completo Edicion

    37/72

    37

    Como se puede observar, las correlaciones entre los residuos y las variables exgenas son diferentesde 0. Entonces hay un problema de endogeneidad.

    Este problema no se puede solucionar desde el lado de los datos, pero s se puede llegar a mejoresestimaciones si es que se usan ciertos mtodos que se mostrarn en la siguiente seccin.

    3. Estimador de Variables I nstrumentales (VI ) y Mnimos Cuadrados Dos Etapas (MC2E).Mtodo de Momentos General izados (MGM )

    Variables instrumentales

    Se considera un conjunto de variables instrumentales

    , el cual cumple con las siguientes

    condiciones:

    Relevancia, es decir debe estar correlacionada con las explicativas.Exogeneidad, es decir no debe estar correlacionada con la perturbacin.

    Mnimos cuadrados en 2 etapas (MC2E)

    Ahora se pasa a ver el mtodo de mnimos cuadrados en 2 etapas (MC2E), que es la forma mscomn de usar variables instrumentales.

    Sea la matriz de variables independientes y la matriz de instrumentos, se realiza la siguienteregresin: De aqu se obtiene de la siguiente manera: Al obtener

    se ha instrumentalizado a la variable

    , la cual presentaba el problema de

    endogeneidad. Finalmente se lleva a cabo la regresin que se tena en mente al inicio, pero con la

    matriz de variables instrumentalizadas. 0 De aqu obtendremos el estimador .Para llevar a cabo la regresin de variables instrumentales en Stata, se pone el siguiente comando:ivreg lngasexppc(lnincome pnc puc = pd pn ps)

    resid 0.9935 0.9646 0.9500 1.0000

    puc 0.9526 0.9939 1.0000

    pnc 0.9556 1.0000

    income 1.0000

    income pnc puc resid

  • 8/11/2019 120902 STATA - Completo Edicion

    38/72

    38

    Donde se tiene a pd, pn y ps como instrumentos para las variables explicativas.Sin embargo, con este comando se instrumentalizan todas las variables independientes.

    Si es que queremos instrumentalizar una variable en especfico, se puede seguir el siguienteproceso:regress [variable a instrumentalizar] [instrumentos]

    predict [instrumentalizada]

    regress [endgena] [exgenas] [instrumentalizada]

    Este proceso que se acaba de describir bsicamente ha seguido los pasos descritos lneas arribasobre el mtodo de MC2E.

    Prueba de Hausman:

    Una manera para conocer si el estimador es ms eficiente que el estimador obtenido por MCOes aplicando el test de Hausman. Dicho contraste se basa en la comparacin de los estimadoresMCO y VI, determinando si la diferencia entre ellos es estadsticamente significativa.Para llevar a cabo este test, primero se debe guardar los estimadores luego de las regresiones MCOy VI. Esto se hace poniendo lo siguiente inmediatamente despus de cada regresin:

    regress lngasexppc income pnc puc

    estimates store mco

    ivreg lngasexppc(lnincome pnc puc = pd pn ps)

    estimates store vi

    Para el test de Hausman, el comando es el siguiente:

    hausman mco vi

  • 8/11/2019 120902 STATA - Completo Edicion

    39/72

    39

    Mtodo generalizado de momentos(MGM)

    En el caso de contar con una muestra grande, ante el problema de endogeneidad, se puede usar el

    Mtodo Generalizado de Momentos (MGM). El uso de este mtodo se da generalmente cuando se

    desconoce la funcin de distribucin de las variables aleatorias.

    La funcin objetivo del MGM es:

    De donde se obtiene que:

    Adems,

    es la matriz de ponderadores, la cual es la inversa de la matriz de covarianzas de las

    restricciones, que a su vez depende de la matriz de covarianzas poblacional de los trminos de error.

    Para hacer uso de este mtodo, se debe poner en Stata el siguiente comando, usando la base de datos

    auto:

    webuse auto, clear

    gmm (mpg - {b1}*weight - {b2}*length - {b0}), instruments(weight length)

  • 8/11/2019 120902 STATA - Completo Edicion

    40/72

    40

    VII. Levantamiento de Supuestos IV

    1.Modelos con Var iables Dependientes Limi tadas

    En captulos anteriores se analiz a la variable dependiente cuando era cuantitativa, es decir, la variable

    respuesta tomaba cantidades numricas; sin embargo, ahora se analiza a la variable dependiente tomando

    respuesta cualitativa, por ejemplo, la variable dependiente responde al resultado de votar a favor de

    Ollanta o votar en favor de Keiko, donde Ollanta =0 y Keiko = 1, incluso podemos extender el resultado

    de la variable respuesta a votar en favor de Toledo = 2. De esta manera, la variable dependiente no solo

    puede ser dicotmica o binaria, sino polictoma o mltiple pero siempre limitada.

    2. Modelos de Eleccin Binari a y Mlt iple: Logit, Probit y extensiones.

    En los modelos con variables dependientes cualitativas los resultados se comportan de manera discreta,

    es decir, un nmero acotado de respuestas, por este motivo a la hora de encontrar la ocurrencia se usa la

    probabilidad de que el acontecimiento se d.

    En el caso de un modelo con variable regresada dicotmica, donde dicha variable toma valores de 0 o 1,

    sigue una distribucion de Bernoulli, de tal manera que el modelo tiene: Existen diversos problemas con respecto al Modelo de eleccin binaria. Primero, la no necesaria

    existencia de normalidad del trmino de perturbacin , pero este no resulta un problema mayor, puesen muestras grandes tiende a tener una distribucion normal. Segundo, la heterocedasticidad del modelo,

    debido a que la varianza es una funcin de los regresores esta no es constante, pero el problema de

    heterocedasticidad, al igual que el de la no normalidad, no es insuperable. Tercero, el incremento

  • 8/11/2019 120902 STATA - Completo Edicion

    41/72

    41

    marginal de siempre permanece constante, algo que no concuerda con la realidad. Finalmente, el que escape de sus intervalos 0 y 1, aunque esto a priori esto es verdadero, no hay garanta de losestimadores de cumplan necesariamente esta condicin por ese motivo se formula la existenciade una variable latente o ndice, es decir, una demarcacin a partir de la cual los nmeros mayores a esta

    toman el valor de 1, as mismo los valores menores a esta toman el valor de 0; el segundo procedimiento

    es disear una tcnica de estimacin que garantice que las probabilidades condicionales se encuentren

    entre 0 y 1.

    Se necesita de modelos probabilsticos con los que se pueda conciliar en el tercer y ltimo problema

    descrito. Por ese motivo se usa los modelos Logit y Probit, ambos con funcin de distribucion

    acumulativa, debido a que .Modelo Logit

    La funcin de distribucion logstica representada como:

    Se encuentra dentro de un rango 0 a 1, para cualquier valor de entre , con lo que la

    probabilidad no est linealmente relacionado con Z, de esta manera se satisface los dos requisitos

    considerados antes.

    Modelo Probit

    La funcin de distribucion probabilstica representada como:

  • 8/11/2019 120902 STATA - Completo Edicion

    42/72

  • 8/11/2019 120902 STATA - Completo Edicion

    43/72

    43

    quiere analizar la ecuacin de salario de los trabajadores de una empresa en funcin de sus

    caractersticas socio laborales, el criterio de seleccin debe tener como salario mayor o igual que el

    salario interprofesional mnimo vigente.

    La funcin de Densidad de una variable truncada, parte de la definicin de probabilidad condicional, es

    decir, el efecto de truncar equivale a acotar el rango en el cual se integre la funcin de densidad. La

    distribucion Normal truncada sigue el siguiente comportamiento:

    Siendo , donde a es el lmite del truncamientoEl clculo del modelo de regresin truncado no se estima por MCO, sino mediante el mtodo de mxima

    verosimilitud. El proceso de maximizacin de esta funcin, an es muy complicado, debido a la poca

    linealidad de la misma.

    4. Modelos de Seleccin.

  • 8/11/2019 120902 STATA - Completo Edicion

    44/72

    44

    VIII. Series de tiempo

    La informacin de series temporales o series de tiempo es distinta a los casos de corte transversal pues

    requieren de un tratamiento distinto. Especficamente, las modelaciones de variables antes mostradas pueden

    sufrir ciertas fallas de especificacin ante estos casos. Motivo por el cual se requiere de la utilizacin demodelaciones distintas que tomen en cuenta especificaciones matemticas lineales basadas en la dependencia

    de una variable con respecto a su informacin pasada. Ello porque conocer el proceso generador de datos de

    una serie de tiempo permitira predecir el comportamiento de la variable, caracterizarla y, en cierta medida,

    conocer como afectarla, y en algunos casos controlarla.

    En este tipo de casos de bases de datos (series de tiempo) se requiere realizar una declaracin de la base de

    datos a Stata, debido a que por defecto el softwarereconoce todas las bases de datos como del tipo de corte

    transversal. Adems, el comando tssetimplica tambin el reconocimiento de una variable de tiempo (que

    puede ser anual, semestral, trimestral, mensual, etc.). As por ejemplo al utilizar la base de datos air2.dta:

    webuse air2.dta, clear

    tsset t

    1.

    Procesos Estocsticos y Estacionar iedad

    Sea una serie de tiempo donde el subndice representa observaciones en el tiempo sedenomina proceso estocstico discreto. Siendo que este proceso estocstico puede ser tambin estacionarioen el sentido dbil9, en tanto que cumpla con tener media y varianza constantes, y con covarianzas que

    solamente dependen de la distancia entre las observaciones:

    As, un proceso estocstico en el que la media es cero, la varianza es constante y las covarianzas nulas, se

    denominar como Ruido Blanco (White Noise). Proceso que implica el mximo nivel de aleatoriedad y/o

    independencia de una variable con respecto a sus rezagos. Por ejemplo, a continuacin se generar una

    9Pues la estacionariedad en el sentido fuerte, implica que tanto como tienen la misma funcin de probabilidad, para todo y .Adems de que las funciones de probabilidad conjuntas del vector y del vector tambin deben de ser iguales.Motivo por el cual todos los momentos relevantes seran independientes del tiempo.

  • 8/11/2019 120902 STATA - Completo Edicion

    45/72

    45

    muestra de 100 observaciones de una variable () que sigue una distribucin normal , tal querepresenta un caso de Ruido Blanco pues ninguna observacin depende de su rezago:

    clear

    set obs 100

    gen time=_n

    tsset time

    gen e=invnorm(uniform())

    tsline e

    histogram e, normal

    Por otro lado, si es que la serie tiene relacin con sus rezagos 10, esta puede modelarse como un proceso

    autoregresivo. As podra tener dependencia con respecto a su primer rezago; proceso denominado tambin

    como proceso autoregresivo de orden 1, donde se cuenta tambin con un trmino aleatorio oRuido Blanco:

    Generalizando, tambin es posible especificar un caso de proceso autoregresivo de orden o modeloAR, que a la vez incluye un trmino aleatorio . Tal que: Donde gracias al supuesto de estacionariedad, se debera de cumplir que || .Por otro lado, otra forma alternativa de modelacin es mediante los procesos de medias mviles de orden o modelo MA, que a la vez incluye un trmino aleatorio . Tal que:

    Que al igual que en los modelos AR, en los modelos MA se requiere que || para que el modelo seaestacionario.En tal sentido, tanto los modelos AR como los modelos MA, pertenecen a una familia mayor de modelos

    estacionarios de series de tiempo denominados modelos ARMA(Procesos Autoregresivos y de MediasMviles Estacionarias). Procesos que operan bajo la siguiente forma:

    10Para poder obtener unas primeras seales sobre si las variables muestran autocorrelacin. Revisar el captulo XX. [Ver si en elcaptulo de Levantamiento de Supuestos I hay comandos sobre Durbin Watson, Ljung-Box o Estadstico Q]

    -3

    -2

    -1

    0

    1

    2

    e

    0 20 40 60 80 100time

    0

    .2

    .4

    .6

    -3 -2 -1 0 1 2e

  • 8/11/2019 120902 STATA - Completo Edicion

    46/72

    46

    Y que por agregacin cumplen las condiciones de estacionariedad: || y || .2. Metodologa Box -Jenki ns

    La metodologa BoxJenkins (1976)11 tiene como objetivo perseguir la parsimonia del modelo (i.e. usar la

    menor cantidad de parmetros a estimar). Por ejemplo, en la dcada de 1960 se observ el desarrollo de

    modelos macroeconmicos de gran dimensin con el propsito de describir la economa con cientos de

    variables y ecuaciones. Muchos modelos de este tipo mostraron un buen ajuste en el perodo de estimacin,

    sin embargo, sus proyecciones (en trminos de predicciones fuera de la muestra) resultaron pobres 12.Ello

    probablemente debido a la falta de especificacin del modelo de comportamiento de las variables. La

    metodologa BoxJenkins propone un anlisis por etapas que permitira llegar al mejor modelo que describa

    la conducta de series temporales.

    Para efectos de un mejor entendimiento de la aplicacin de Stata a este tipo de datos se utilizar la base de

    datos utilizada por Enders (2004, 87-93)13

    , que considera un modelo ARMA del ndice de Precios al porMayor (IPM o WPI por sus siglas en ingls), utilizando datos trimestrales durante el perodo 19601990.

    webuse wpi1, clear

    tsset t

    i. Etapa de Identificacin: El primer paso que se debe de realizar es diferenciar la(s) series(s) con la(s)

    que se va a trabajar, cuantas veces sea necesario para lograr que esta sea estacionaria (que cumpla con las

    condiciones de estacionariedad). Para ello, es posible brindar una idea del comportamiento de la serie

    mediante un anlisis grfico mediante el comando line. Si se intuye la no estacionariedad de la serie,

    resultara necesario diferenciarla (en algunos casos como este segn el modelo ser posible simplemente

    obtener los logaritmos de la serie).tsline wpi

    tsline ln_wpi

    11Box, G. E. P., and G. M. Jenkins. 1976. Time Series Analysis: Forecasting and Control. Oakland, CA: HoldenDay.

    12Hamilton, J (1994). Time Series Analysis, pag 109.13Enders, W. 2004. Applied Econometric Time Series. 2nd ed. New York: Wiley.

    20

    40

    60

    80

    100

    120

    wpi

    1960q1 1970q1 1980q1 1990q1t

    3.5

    4

    4.5

    5

    1960q1 1970q1 1980q1 1990q1t

  • 8/11/2019 120902 STATA - Completo Edicion

    47/72

    47

    En este caso, la serie resulta ser no estacionaria!; motivo por el cual se optara por trabajar con las primeras

    diferencias de la serie. As, se hace uso de la especificacin D. que permite hacer uso de las primeras

    diferencias de una serie de datos a travs del tiempo, sin necesidad de realizar transformacin. Vale decir que

    si se desea obtener las segundas diferencias de la serie bastara con utilizar la especificacin D2., y as

    sucesivamente. Ello con la intencin de volver la serie estacionaria.

    Asimismo, mediante las funciones de Autocorrelacin Simple y Parcial es posible obtener una mejor idea

    sobre la estacionariedad de la serie. Adems, es posible adquirir una nocin de la naturaleza del proceso, si es

    autoregresivo, de medias mviles, y de que orden. Es as que en este caso se utilizaran los comandos

    corrgram, acy pac. De tal manera que se obtendra lo siguiente14:

    tsline D.wpi

    tsline D.ln_wpi

    corrgram D.ln_wpi, lags(20)

    ac D.ln_wpi, title (Autocorrelacin)

    pac D.ln_wpi, title (Autocorrelacin Parcial)

    Siendo entonces que de acuerdo a estos cuadros y grficas se obtiene para este ejemplo, que la serie muestra

    una conducta modelable mediante un proceso AR y por un MA o MA4 o en otras palabras, elproceso puede modelar por un modelo ARMAo un modelo ARMA4. Motivo por el cual se procedea realizar la estimacin correspondiente mediante ese modelo.

    14Cabe mencionar que con la extensin de comando , lags(n) es posible especificar el nmero de rezagos que se desea mostrar().

    -2

    0

    2

    4

    1960q1 1970q1 1980q1 1990q1t

    -.02

    0

    .02

    .04

    .06

    .08

    1960q1 1970q1 1980q1 1990q1t

    -0.4

    0

    -0.2

    0

    0.0

    0

    0.2

    0

    0.4

    0

    0.6

    0

    0 10 20 30 40Lag

    Bartlett's formula for MA(q) 95% confidence bands

    Autocorrelacin

    -0.2

    0

    0.0

    0

    0.2

    0

    0.4

    0

    0.6

    0

    0 10 20 30 40Lag

    95% Confidence bands [se = 1/sqrt(n)]

    Autocorrelacin Parcial

  • 8/11/2019 120902 STATA - Completo Edicion

    48/72

    48

    ii. Etapa de Estimacin: Implica la estimacin de cada uno de los modelos tentativos identificados en la

    etapa anterior, para luego, seleccionar mediante la utilizacin de los criterios AIC y BIC el ms apropiado.

    Siendo as, el comando arima permite la estimacin mediante el modelo ARMA, el comando predict

    permite obtener los residuos correspondientes a esa estimacin, y la utilizacin del comando corrgram

    permitir verificar el ajuste del modelo escogido. As:

    arima D.ln_wpi, ar(1) ma(1)

    estimates store arma11

    arima D.ln_wpi, ar(1) ma(4)

    estimates store arma14

    est table arma*, stats (N ll chi2 aic bic) star style(noline)

    As, para mayor facilidad el cuadro siguiente resume algunas de los casos que podran suceder con la Funcin

    de Autocorrelacin y de la Funcin de Autocorrelacin Parcial, de forma que facilita la identificacin del

    modelo ARMA a elegir:

    Proceso Autocorrelacin (AC) Autocorrelacin Parcial (PAC)15

    Ruido Blanco AR(1), si Cada Exponencial AR(1), si Cada Oscilante

    15Donde r refiere a la raz j-sima del proceso autoregresivo.

    Iteration 9: log likelihood = 382.16034

    Iteration 8: log likelihood = 382.16031

    Iteration 7: log likelihood = 382.1594

    Iteration 6: log likelihood = 382.12659

    Iteration 5: log likelihood = 381.98513

    (switching optimization to BFGS)

    Iteration 4: log likelihood = 381.9634

    Iteration 3: log likelihood = 381.82255

    Iteration 2: log likelihood = 381.18194

    Iteration 1: log likelihood = 380.82961

    Iteration 0: log likelihood = 380.18931

    (setting optimization to BHHH)

    . arima D.ln_wpi, ar(1) ma(4)

    /sigma .0107907 .0004447 24.27 0.000 .0099192 .0116622

    L4. .3024168 .0688106 4.39 0.000 .1675505 .4372831

    ma

    L1. .5368759 .0810246 6.63 0.000 .3780705 .6956813

    ar

    ARMA

    _cons .0110096 .0034943 3.15 0.002 .004161 .0178583ln_wpi

    D.ln_wpi Coef. Std. Err. z P>|z| [95% Conf. Interval]

    OPG

    Log likelihood = 382.1603 Prob > chi2 = 0.0000

    Wald chi2(2) = 89.36

    Sample: 1960q2 - 1990q4 Number of obs = 123

    ARIMA regression

  • 8/11/2019 120902 STATA - Completo Edicion

    49/72

    49

    AR(p) Cada Exponencial u Oscilante MA(1), si Pico positivo en . Cada Oscilante MA(1), si Pico negativo en . Cada Exponencial ARMA(1,1), si

    Cada exponencial en

    Cada Oscilante comenzando en

    ARMA(1,1), si Cada oscilante en Cada exponencial comenzando en ARMA(p,q) Cada oscilante o exponencial

    comenzando en el rezago Cada oscilante o exponencialcomenzando en el rezago iii. Diagnstico: Como se mencion anteriormente, para medir la bondad de ajuste de un modelo

    estimado, los estadsticos ms utilizados son los antes mencionados criterios de seleccin de modelos

    anidados ( cuadrado, el cuadrado ajustado, el AIC y el BIC). Adicional a ello, se suele graficar losresiduos estimados del modelo para analizar el grado de ajuste del modelo; pues cualquier indicio deautocorrelacin que se mantenga implicara un mejor ajuste del modelo.

    predict resid_arma, resid

    corrgram resid_arma

    Siendo que si los residuos estimados no se comportan como un Ruido Blanco, se debera de buscar outlierso

    comportamientos anmalos o un mejor modelo de estimacin. Ante ello una sugerencia sera particionar la

    muestra y analizar de forma separada para encontrar cambios en la estructura de la modelizacin. Para el caso

    de outliersel comando hadimvopuede ser utilidad para su deteccin. Otra posibilidad es la existencia de

    races unitarias.

    iv. Prediccin: Como forma adicional de evaluar la correcta especificacin del modelo, se puede utilizar

    comandos que permitan realizar predicciones de la variable dependiente a partir de los parmetros estimados.

    Ello, pues otra forma de analizar un modelo es a travs de su capacidad predictiva (mediante un prediccin

    fuera de la muestra), por lo que se procede a ampliar la muestra y reestimar la variable a analizar el

    mantenimiento de la estacionariedad.

    predict ln_wpiest

    set obs 248

    replace t=_n

    predict ln_wpiest2

    3.

    Seri es de Ti empo no Estacionari as

    As como se mencion en el punto anterior, es posible que las series de tiempo sean descritas por procesos no

    estacionarios (en los que la media y la varianza no son constantes pues dependen del tiempo). En tal sentido

    es posible una modelacin asumiendo que:

    La serie incluye una tendencia temporal deterministica:

  • 8/11/2019 120902 STATA - Completo Edicion

    50/72

    50

    La serie posee una raz unitaria: La deteccin de la existencia o no de races unitarias en series resulta relevante pues la definicin de

    estacionariedad o no en una serie tiene implicancias importantes. As por ejemplo los shocksque afectan a

    series estacionarias son temporales (i.e. se disipan con el tiempo); mientras que en casos de series no

    estacionarias, el efecto es permanente. Para ello algunos indicios seran: La no existencia de un valor medio de largo plazo al cual retorne la serie

    Varianza dependiente del tiempo

    Las funciones de autocorrelacin tericas no convergen; pero en muestras finitas, el correlograma

    converge lentamente.

    Dado que la evaluacin de los correlogramas es solo un indio de la estacionariedad de las variables, resulta de

    utilidad realizar pruebas de raz unitaria. Siendo que para el caso de Stata se cuenta con algunos de los

    principales tipos de contrastes: DickeyFuller, DickeyFuller Aumentado, DFGLS y el PhillipsPerron.

    i. Contraste Dickey Fuller: Es este caso el modelo ms sencillo es el desarrollado por Dickey y

    Fuller: Siendo que al restar a ambos lados , se obtiene que: Por lo que el contraste trabaja bajo la hiptesis nula de que . No obstante, este contraste tambin admiteespecificaciones sobre la forma del modelo a utilizar (inclusin de tendencia lineal, intercepto, etc.)

    ii. Contraste DickeyFuller Aumentado: permite realizar un anlisis mucho ms amplio ya que admite

    no solamente la existencia de un proceso AR(1), sino la existencia de un AR(p). As el comando dfuller

    permite la especificacin del nmero de rezagos que se desea evaluar:

    Donde se muestra evidencia para no rechazar la hiptesis nula de existencia de raz unitaria en la serie.

    MacKinnon approximate p-value for Z(t) = 0.9617

    Z(t) 0.040 -3.503 -2.889 -2.579

    Statistic Value Value Value

    Test 1% Critical 5% Critical 10% Critical

    Interpolated Dickey-Fuller

    Augmented Dickey-Fuller test for unit root Number of obs = 121

    . dfuller ln_wpi, regress lags(2)

    _cons .0030292 .0082969 0.37 0.716 -.0134024 .0194609

    L2D. .2582904 .0899031 2.87 0.005 .0802421 .4363387

    LD. .456857 .089732 5.09 0.000 .2791475 .6345665

    L1. .0000821 .0020639 0.04 0.968 -.0040054 .0041696

    ln_wpi

    D.ln_wpi Coef. Std. Err. t P>|t| [95% Conf. Interval]

  • 8/11/2019 120902 STATA - Completo Edicion

    51/72

    51

    No obstante, son varios los estudios (Enders cap 3, Hayashi cap9, Hamilton cap 15 y16) que ponen a prueba

    este contraste obtenindose que la regresin por MCO aqu realizada, no permite modelar bien el

    comportamiento de la serie. En tal sentido se realiza una revisin a este contraste mediante el uso de la

    metodologa MCG.

    iii. Contraste DFGLS o Contraste Elliot, Rothenberg y Stock (ERS): Utiliza el modelo propuesto por

    el contraste DickeyFuller Aumentado, pero lo estima mediante la metodologa de MCG.

    0 Donde se recomienda ser muy cauteloso, y evaluar la posible existencia de tendencia en los datos ( ),constante (0), o una combinacin de ambas posibilidades.

    Donde se entiende que bajo el criterio secuencial Ng Perron se s