Guia STATA Trabajo Econometria

GUIA DE STATA

En primer Lugar se debe adecuar la base de datos, para pasarla a STATA.

• Variables Dicotómicas

• Variables numéricas sin separadores.

Para cargar los datos, cliqueamos el botón data Editor en la barra de herramientas. Inmediatamente después se despliega una ventana con una cuadricula similar a Excel, en la que se proseguirá a montar la

base de datos.

Se seleccionan los datos de la hoja de datos en Excel.

Situado en la celda ubicada en la parte superior izquierda del <<Data Editor>> en STATA, Clic derechoà Paste, para pegar los datos. En forma similar situándose en la misma celda y usando la combinación de teclas <<CTRL + v>> tiene el mismo efecto. En la ventana variables (parte inferior izquierda de la pantalla) aparecerá las variables que

se acaban de importar.

Para poder realizar en análisis, es necesario cerrar el <<Data Editor>>. Recuerde Siempre cerrar el Editor de datos (data Editor)

Antes de realizar un análisis estadístico, primero una breve referencia a como guardar y abrir los datos y los resultados. STATA utiliza dos tipos de archivos:

• Archivos con extensión .dta que son los que utiliza para guardar los datos (las variables y sus valores.

• Archivos .do que se utilizan para guardar rutinas y para guardar los resultados obtenidos al hacer el tratamiento a los datos.

Para guardar los datos prosiga de la siguiente forma: Acceda al Menu Fileàsave as

Al hacer esto aparecerá un cuadro de dialogo en el que se indicara el destino o lugar donde se van a guardar los datos. Luego de indicar el nombre y destino, se da clic en guardar.

Para recuperar los datos al iniciar a trabajar de nuevo, en la pantalla principal se utiliza el botón open (abrir) (botón amarillo) y se busca donde se guardaron los datos con anterioridad.

Por otro lado, para guardar los resultados, se prosigue así. En la barra de herramientas se da clic en el botón New Do file Editor, abriendo una nueva ventana con una hoja en blanco, con el titulo en la parte superior “untitle.do”.

En la ventana de resultados del STATA se seleccionan los resultados, y luego se copian. Posteriormente en el archivo do en blanco que se abrió antes se da clic derecho paste.

Ahora en el menú fileàsave as. Se indica la ubicación donde se desea guardar.

Para recuperar los resultados se prosigue de nuevo desde el botón New do file editor. Y se da clic en el botón abrir (botón amarillo) y se ubica donde se guardo el archivo.

Para estimar el modelo de regresión, se escribe el siguiente comando en la ventana comand de la pantalla principal de STATA:

Reg Y X1 X2 X3 …Xk

Donde las palabras en Rojo son comandos de STATA, y las palabras en Azul son nombres de variables dadas por el usuario. A su vez, Y es la variable dependiente del modelo y x1 a xk son las variables independientes del mismo. En este caso particular se tiene:

reg valormconstruccion puntaje edad tipo2 tipo3 tipo5 estrato2 estrato3 estrato5 localidad7 localidad8 localidad9 localidad11 localidad16 localidad19

Oprimimos la tecla Enter Para Ejecutar el comando. Inmediatamente aparecerán los resultados del modelo estimado.

Ahora se prosigue a ejecutar el mismo comando, pero esta vez eliminando las variables dicótomas que generarían problemas de multicolinealidad perfecta (aparecen con el texto dropped), haciendo imposible el calculo matemático de modelo. Para hacerlo, se puede escribir el comando como en la instrucción anterior, o se puede cliquear en la lista de comandos en la venta review el último comando ejecutado, y borrar en la ventana comand las variables con el texto dropped.

De esta forma, el modelo estimado seria:

En Forma similar se prosigue a eliminar las variables no significativas (que no sirven) del modelo. Para esto se estima la regresión borrando del comando a ejecutar las variables que tengan un Valor P mayor a 0.10 (el valor P se observa en la tabla de salida de la regresión en la columna P>|t|. Este procedimiento se ejecuta de mayor a menor, borrando una sola variable, la que tenga el valor P mas alto

En el ejemplo se elimina la variable Localidad8 por presentar el mayor valor P.

Se prosigue igual hasta que todas las variables tengan un Valor P inferior a 0.1.

Se prosigue entonces a hacer las pruebas de normalidad de los Errores. Para esto se deben calcular los errores (residuales) del modelo. En la ventana comand se digita el siguiente comando:

predict erroresmodelo, resid

Donde el texto en azul, erroresmodelo es el nombre que el usuario asigna a la variable que esta calculando. No se puede asignar nombres que correspondan a comandos de STATA ni nombres con espacios. Al ejecutar el comando (oprimiendo la tecla enter) aparecerá en la ventana de variables una nueva variable con el nombre que el usuario asigno (En este caso erroresmodelo)

Luego de calcular los residuales se prosigue a efectuar las pruebas de normalidad.

Para efectuar la prueba de normalidad Shapiro-Wilk se utiliza la siguiente ruta en el menú

Summaries, tables, & Testà Distributions Plots & testà Shapiro-Wilk Normality test

Aparecerá un cuadro de dialogo en el que se seleccionara la Variable sobre la que se realizara la prueba de normalidad.

En pantalla aparecerán los resultados del Test. Tomando como criterio de decisión un valor de la columna Prob>z inferior a 0.05, que indicaría ausencia de normalidad (no normalidad) de los errores del modelo. En este Caso el valor es superior a 0.44662 por lo que el supuesto de normalidad se cumple.

En forma análoga esta prueba puede realizarse utilizando el comando

swilk erroresmodelo

Con la palabra swilk como nombre de comando de STATA y erroresmodelo (en azul) como variable a la que se aplica el test.

En caso que la prueba indique la presencia de no normalidad se utilizan los residuales studinizados. Que sirven para eliminar los datos atípicos que generan el problema de no normalidad. Para esto se calculan los errores studinizados utilizando el siguiente comando:

Predict errorestudinizados, rstudent

Donde errorestudinizados (en azul) es el nombre (cualquiera) que el usuario le asigna a los residuos studinizados.

En forma análoga desde la ruta Menú StatisticsàLineal Models and relatedàpostestimationà Predictions, residuals, etc.

Aparece una ventana donde se indica en el campo New variable name el nombre de la nueva variable, y se cliquea OK. Aparecerá en la ventana variables la nueva variable con el nombre que se le indico (errorestudinizados en este caso)

Para eliminar los Datos atípicos se prosigue ingresar al Data Editor. Se da clic en el rotulo (nombre) de la variable que corresponde los residuos studinizados y se da clic en el Botón Sort (esto con el

fin de ordenar la base de datos utilizando como referencia la variable studinizados previamente calculada)

Luego se prosigue a eliminar los registros que en la variable errorestudinizados este por fuera del intervalo (-2,2). Para eliminar un registro se selecciona con el indicador numero de registro en la parte izquierda de la pantalla en el ejemplo (aunque no es necesario realizar este procedimiento porque no existen problemas de normalidad) se selecciona el primer registro porque esta fuera del rango indicado. Luego se cliquea el botón Delete en la parte superior, apareciendo un cuadro de dialogo que pide al usuario confirme la acción a realizar. En este caso se selecciona la opción <<Delete observation 1>>, porque se desea borrar la observación 1 y finalmente clic en el botón OK.

Ahora se prosigue a calcular de nuevo los residuos del modelo sin la presencia de los datos atípicos que generaban el problema de no normalidad. Se calcula entonces de nuevo la regresión con el Comando reg:

Nótese que es la última regresión que se había calculado (con todas las variables significativas, es decir las que quedaron luego de eliminar todas las que tenían valor P superior a 0.1). Se vuelve a calcular la regresión porque los coeficientes tomarían un valor diferente porque cambiaron elementos de la muestra.

Ahora se calculan los residuos del nuevo modelo. Se utiliza de nuevo el comando predict, asignando ahora un nombre diferente a la variable. En este caso Erroresmodelo2.

Se calcula de nuevo la prueba shapiro-Wilk desde el menú Statistics o utilizando el comando:

Se repite el mismo procedimiento (calcular los residuos studinizados, eliminar datos atipicos, calcular el nuevo modelo, calcular los errore del nuevo modelo y aplicar la prueba de normalidad shapiro-wilk) hasta que la prueba arroje un p Valor (prob<z) Mayor a 0.05)

Para determinar si se cumple el supuesto de Homocedasticidad se prosigue a la aplicación de la prueba de white. Dicha prueba puede realizarse desde el menú: StatisticsàLineal Models and relatedà regression Diagnosticsà Specification Test, etc

Se selecciona las opciones Information Matrix test (imtest) y <<Perform White’s Original Heteroskedsticity test) situados en la parte superior e inferior del cuadro de dialogo abierto. Clic en el botón OK.

A esta prueba también puede Accederse con el comando estat imtest, white. Obteniendo un resultado idéntico.

El criterio de decisión será nuevamente un valor p (Prob > chi2) superior o inferior a 0.05. Con un valor inferior que indicaría la presencia de heteroscedasticidad (ausencia de homoscedasticidad) y un valor superior que indicaría que se cumple el supuesto. Para el ejemplo el valor P es de 0.0459.

En caso que la prueba indique la presencia de heterocesdasticidad puede utilizarse otro test para verificar el resultado. Puede utilizarse la prueba Breusch-Pagan. Para acceder a esta prueba se

puede utilizar el comando estat hettest; o acceder desde el menú StatisticsàLineal Models and relatedà regression Diagnosticsà Specification Test, etc:

t

Se selecciona la opcion test for Heteroskedasticity (hettest) y se da clic en OK, obteniendo un resultado similar a este:

De nuevo el criterio de decisión es que sea superior a 0.05. En el ejemplo es 0.51 lo que indica la ausencia de heteroscedasticidad (es decir se cumple el supuesto de homocesdasticidad). Si la nueva pruba corroborara la presencia de heteroscedasticidad, se pueden utilizar los errores

estándar robustos, que se utilizarían para realizar las pruebas de significancia individual realizada en pasos anteriores. Para efectos de este ejercicio académico solo se calcularan pero no se

realizaran dichas pruebas. Para calcular la regresión con errores estándar robustos se utiliza el comando de regresión que se ha utilizado hasta ahora, seguido de una coma y la palabra robust:

reg valormconstruccion puntaje localidad7 localidad9 localidad11 localidad19, robust

Ahora, para detectar problemas de multicolinealidad (violación del supuesto de no multicolinealidad) se prosigue a Calcular El VIF (Variance Inflation Factors) que es una prueba utilizada para ese efecto (detectar multicolinealidad). La multicolinealidad es la correlación (relación estadística) entre las variables exógenas o independientes del modelo.

Para acceder a esta prueba desde el menú: StatisticsàLineal Models and relatedà regression Diagnosticsà Specification Test, etc:

En forma análoga puede utilizarse el comando estat vif. Obteniendo los siguientes idénticos. En la pantalla de resultados del STATA se obtienen un resultado semejante. El criterio de decisión en este caso es que el valor del Mean vif sea superior a 10, indicando esto la presencia de multicolinealidad.

En caso que hubiese Multicolinealidad debe proseguirse a:

• Eliminar las variables que generan el problema (las que tienen el valor en la columna VIF mas alto)

• Ó estimar el modelo con una forma funcional diferente.

Para estimar el modelo con una forma funcional diferente (por ejemplo log-log, log-lin, lin-log, etc) se deben calcular o generar nuevas variables con el comando:

Gen nombredelanuevavaraible= Expresión

Donde nombredelanuevavaraible (En azul) es el nombre que la persona quiera asignarle a la nueva variable. Generalmente este nombre indica la transformacion que se le hace a la variable original para generar la nueva (por ejemplo lnmetrocuadrado para indicar que la variable lnmetrocuadrado es igual al logaritmo natural de la variable (original) metrocuadrado). Por su parte Expresión (también en azul) indica la transformación que se le hace a la variable original. Por ejemplo:

Gen edadpor2= edad*2

Para indicar que la variable con nombre edadpor2 será calculada tomando la variable edad y multiplicándola por la cosntante 2. Y,

Gen lnmetrocuadrado= ln(metrocuadrado)

Para indicar que la variable lnmetrocuadrado será calculada como el logaritmo natural de la variable metro cuadrado. Al presionar la tecla enter luego del comando, aparecerá en la ventana variables la variable generada.

Luego de generar las variables se estima el modelo como de costumbre con el comando reg explicado antes en este documento. Se deberían realizar de nuevo las pruebas de significancia individual, normalidad y heteroscedasticidad para el nuevo modelo.

Entre las posibles transformaciones que generalmente se hacen se encuentran:

Nombre del modelo Variable dependiente Variables independientes Log-log En logaritmo En logaritmo Log-lin En logaritmo Sin transformar Lin-log Sin transformar En logaritmo

Cabe señalar que con cada uno de estos modelos cambia la interpretación de los coeficientes.

La auto correlación esta definida como la relación que tienen los errores del modelo entre si (los errores para una observación están relacionados con los errores de otra observación). STATA no tiene definida una prueba para calcular la correlación del modelo econométrico. Sin embargo puede hacerse uso de una variable ficticia para hacerle creer a STATA que los datos provienen de una muestra de datos de tipo series de tiempo (es decir una muestra que contiene valores en diferentes momentos del tiempo para la misma variable, como por ejemplo la inflación calculada por el DANE una para cada mes). Para hacer esto primero se debe verificar el número de registros que se tienen en la base datos. Para esto accediendo al data editor se observa el número de registro (observación, datos, etc.) con que se dispone.

Ahora en Excel, en una columna se crea una serie de datos que va desde el 1 hasta el número de registros que tiene en la base de STATA (en este caso 79). Para hacerlo se digitan algunos valores de la serie (en el ejemplo se digitaron de 1 a 4), se seleccionan y se sitúa el puntero del ratón en la esquina inferior izquierda de esa selección. Se debe notar como el puntero cambia de aspecto y toma la forma de una cruz negra. Se da clic sostenido (sin soltarlo) y se arrastran los datos hasta que se complete la serie con el número deseado (en este caso 79)

El resultado Seria:

Se prosigue entonces a pasar esta nueva variable a Excel. Se prosigue igual que al principio de este documento, se selecciona la variable t con todos sus datos (en el ejemplo del 1 al 79) se copia y se lleva al editor de datos (Data Editor) de STATA

En el editor de Datos, se pueden observar todas las variables utilizadas a lo largo de la estimación de modelo, las ultimas variables a la derecha muy seguramente será las estimaciones de los residuales (errores) del modelo. Lo que se busca es situarse con el ratón al lado derecho de la última variable y en la fila correspondiente al primer registro. Tal como indica la grafica abajo.

Situación en dicha celda, se da clic derecho y se selecciona la opción Paste (pegar). De esta forma se creo una nueva variable con el nombre t que posibilitara la realización de la prueba de auto correlación Breusch-Godfrey. Recuerde Cerrar el Editor de Datos.

Ahora se le indicara a STATA que la nueva variable es el indicador de una serie de datos temporales (primer registro corresponde al primer periodo (por ejemplo enero), segundo registro al siguiente periodo (febrero) y así en toda la base). Esto se realiza con la instrucción:

tsset t

Donde t (en azul) es el nombre de la variable indicadora de la serie de tiempo (la que se acabo de agregar al editor de Datos).

Ahora el la ventana de comando se digita la siguiente instrucción para realizar el test:

Arrojando los siguientes resultados. De nuevo el criterio para decir la presencia o no presencia de auto correlación es que el P valor sea superior o inferior a 0.05 indicado lo primero la ausencia de auto correlación (cumplimiento del supuesto). En este caso el valor p es de 0.19 lo que indica un

buen comportamiento del modelo.

Finalmente para probar la buena especificación, o la capacidad explicadora del modelo, se prosigue a realizar una última prueba, la prueba RESET. Para hacerlo se utiliza el comando

estat ovtest

Para que el modelo este bien especificado el Prob>f debe ser mayor a 0.05. Este caso el modelo esta bien especificado.

Preparado por:

Jorge Rojas

Est. Especialización en Avalúos

Universidad Distrital Francisco José de Caldas

Correo [email protected]�

Guia STATA Trabajo Econometria

Documents

Transcript of Guia STATA Trabajo Econometria