Introducción al Análisis y Modelación de Datos con Stata 12 en español (Rojas y Gordillo)

220
R El Distribuidor de Software Científico Líder en Latinoamérica Brayan Rojas Darwin Marcelo Gordillo

description

Manual de stata de Gordillo en pdf

Transcript of Introducción al Análisis y Modelación de Datos con Stata 12 en español (Rojas y Gordillo)

  • R El Distribuidor de Software Cientfico Lder en Latinoamrica

    Brayan RojasDarwin Marcelo Gordillo

  • SOFTWARE shop 3020 Issaquah Pine Lake Rd Sammamish WA, 98075 USA

    ________________________________________________________________________________ Copyright 2013 por SOFWARE Shop Todos los derechos Reservados

    Ni la totalidad ni parte de esta publicacin pueden reproducirse, registrarse o transmitirse, por un sistema de recuperacin de informacin, en ninguna forma ni por ningn medio, sea electrnico, mecnico, fotoqumico, magntico o electroptico, por fotocopia, grabacin o cualquier otro, sin permiso previo por escrito del autor.

  • DARWIN MARCELO

    Darwin Marcelo tiene nueve aos de experiencia en investigacin aplicada en economa a travs de distintos pases de Amrica Latina. El principal rea de enfoque de su trabajo ha sido el desarrollo sostenible, con nfasis en infraestructura, desarrollo rural, violencia, empleo y pobreza.

    Posee fuertes conocimientos en anlisis y habilidades en econometra aplicada, mtodos de evaluacin de impacto, modelos estadsticos y manejo de software como Stata, Eviews, Systat, Rats, GIS, Axum y MI Win.

    Cuenta con cuatro aos de experiencia en el departamento de economa, desarrollo sostenible para Amrica Latina y el Caribe del Banco Mundial y 5 aos de experiencia como economista en el Departamento Nacional de Planeacin de Colombia.

    As mismo, ha trabajado como consultor externo en el Instituto de Polticas de Desarrollo de Colombia (IPD), el Programa Nacional de Desarrollo Humano (PNDH), el Departamento Nacional de Estadstica (DANE), la Presidencia de la Republica de Colombia, y se ha desempeado como profesor en la facultad de economa de la Universidad Central y de la Universidad Javeriana.

    BRAYAN ROJAS

    Economista de la Universidad Nacional de Colombia, con especializacin en Gestin de Riesgo y Control de Instituciones Financieras de la Universidad de los Andes, realizando posgrado en estadstica en la Universidad Nacional de Colombia.

    Profesor de la Universidad del Rosario y de la Universidad Piloto, trabaj en el rea de Investigaciones del Banco de la Repblica de Colombia. Posee fuertes conocimientos en anlisis y habilidades en econometra aplicada, modelos estadsticos y manejo de software como Stata, Eviews, Risk Simualtor, Crystal Ball, @Risk, Rats, entre otros.

    Ha impartido varias capacitaciones en temas de estadstica y riesgos financieros a importantes entidades como bancos centrales, ministerios, bancos y empresas reguladoras en el sector financiero, universidades a nivel Latinoamrica.

  • CONTENIDO

    1. INTRODUCCIN ........................................................................................................................... 1

    1.1 Descripcin del libro ...............................................................................................................................1 2. MANEJO FUNDAMENTAL DE STATA 12 ....................................................................................... 3

    2.1 Conociendo el entorno de Stata .............................................................................................................3 2.2 Barras .....................................................................................................................................................5 2.3 El men de ayuda ...................................................................................................................................5

    2.3.1 Actualizaciones en Stata:............................................................................................. 8

    2.4 Tipos de archivo .....................................................................................................................................8 2.5 Estructura de comandos .........................................................................................................................9 2.6 Ventana de comandos .......................................................................................................................... 10 2.7 Configuracin de la memoria de Stata .................................................................................................. 11 2.8 Cambiar el directorio de trabajo de Stata ............................................................................................. 11 2.9 Bases de datos de ejemplo .................................................................................................................. 11 2.10 Tipos de variables ................................................................................................................................. 12

    2.10.1 Formato de las variables: .......................................................................................... 13

    3. MANEJO DE BASE DE DATOS ..................................................................................................... 15

    3.1 Fundamentos de bases de datos .......................................................................................................... 15 3.1.1 Creacin de un archivo log ........................................................................................ 15

    3.1.2 Abrir una base de datos ............................................................................................ 16

    3.1.3 Importar una base de datos .CSV o TXT .................................................................... 16

    3.1.4 Importar una base de datos .XLS o .XLSX .................................................................. 17

    3.1.5 Importar otros tipos de archivo ................................................................................ 20

    3.2 Salvando una base de datos ................................................................................................................ 20 3.3 Descripcin de la base de datos ........................................................................................................... 20

    Cargar una base de datos del programa ........................................................................... 21 Observar los datos ............................................................................................................. 21 Describir los datos ............................................................................................................. 21

    3.4 Creacin de Variables .......................................................................................................................... 22 3.4.1 Extensiones en la creacin de variables .................................................................... 26

    3.5 Ordenar variables y bases de datos ..................................................................................................... 26 3.6 Clculos por grupos .............................................................................................................................. 27 3.7 Codebook e Inspect .............................................................................................................................. 28 3.8 Conservar y recargar bases de datos ................................................................................................... 29 3.9 Filtros de la base de datos .................................................................................................................... 29 3.10 Administrador de variables ................................................................................................................... 30

    3.10.1 Rename ..................................................................................................................... 32

    3.10.2 Label Variable ............................................................................................................ 32

    3.10.3 Notes ......................................................................................................................... 32

  • 3.11 Creacin de categoras ......................................................................................................................... 32 3.12 Modificacin y transformacin de variables .......................................................................................... 34

    3.12.1 Recode ....................................................................................................................... 34

    3.12.2 Divisin de Variables de texto ................................................................................... 36

    3.13 Combinacin de bases de datos ........................................................................................................... 36 3.13.1 Combinacin Vertical Append ................................................................................ 36

    3.13.2 Combinacin Horizontal Merge ............................................................................. 37

    3.14 Cambio en la organizacin de los datos ............................................................................................... 39 3.14.1 Collapse ..................................................................................................................... 39

    3.14.2 Reshape ..................................................................................................................... 40

    3.14.3 Xpose ......................................................................................................................... 43

    3.14.4 Stack .......................................................................................................................... 44

    3.15 Problemas en el manejo de bases de datos ......................................................................................... 45 3.15.1 Replicar informacin ................................................................................................ 45

    3.15.2 Verificacin de datos ................................................................................................. 46

    3.15.3 Contador y reporte de datos repetidos..................................................................... 47

    3.16 Anlisis de duplicados .......................................................................................................................... 47 3.17 Creacin de programas editor de texto .............................................................................................. 50 3.18 Ejemplo aplicado .................................................................................................................................. 51

    3.18.1 Cambiando la orientacin de la base de datos: De horizontal a vertical y viceversa 53

    3.18.2 Ejercicio ..................................................................................................................... 53

    3.19 Comandos usados ................................................................................................................................ 54 3.19.1 Otros comandos recomendados ............................................................................... 55

    capture ...................................................................................................................................... 55

    4. ANLISIS ESTADSTICOS CON STATA ......................................................................................... 56

    4.1 Estadstica descriptiva .......................................................................................................................... 57 4.2 Ponderadores -weight- ........................................................................................................................ 58 4.3 Calculo de medias ................................................................................................................................ 58 4.4 Intervalos de confianza ......................................................................................................................... 59 4.5 Pruebas de hiptesis ............................................................................................................................ 60

    4.5.1 Media ........................................................................................................................ 60

    4.5.2 Varianza ..................................................................................................................... 61

    4.5.3 Proporciones ............................................................................................................. 61

    4.6 Manejo de tablas de datos .................................................................................................................... 61 4.6.1 Tabstat ....................................................................................................................... 62

    4.6.2 Tabulate (tab) ............................................................................................................ 63

    4.6.3 Table .......................................................................................................................... 64

    4.7 Pruebas no paramtricas ...................................................................................................................... 66 4.8 Ejemplo aplicado .................................................................................................................................. 68

  • 4.8.1 Comandos Bsicos ..................................................................................................... 68

    4.8.2 Ayuda visual table y tabstat ..................................................................................... 69

    4.8.3 Tablas de contingencia .............................................................................................. 71

    4.8.4 Tablas de frecuencia .................................................................................................. 72

    4.8.5 Correlaciones ............................................................................................................. 73

    4.8.6 Prueba para la media ................................................................................................ 74

    4.8.7 Prueba para detectar normalidad ............................................................................. 75

    4.8.8 Pruebas para la media: dos muestras independientes ............................................. 75

    4.8.9 Comparacin de k medias independientes ............................................................... 76

    4.8.10 Exportar tablas .......................................................................................................... 79

    4.8.11 Ejercicio ..................................................................................................................... 80

    4.9 Comandos usados ................................................................................................................................ 80 4.9.1 Otros comandos recomendados ............................................................................... 81

    5. GRAFICAS CON STATA ............................................................................................................... 82

    5.1 Histograma ........................................................................................................................................... 84 5.2 Grfico de tortas ................................................................................................................................... 85 5.3 Graficas twoway ................................................................................................................................... 87 5.4 Editor de grficos de Stata ................................................................................................................... 90

    5.4.1 Haciendo doble clic sobre el rea de la grafica ......................................................... 91

    5.5 Grfico de series de tiempo .................................................................................................................. 92 5.6 Grfico de dispersin ............................................................................................................................ 93 5.7 Grfico de puntos ................................................................................................................................. 95 5.8 Grfico de barras .................................................................................................................................. 96 5.9 Generando Funciones .......................................................................................................................... 98 5.10 Combinando grficas ............................................................................................................................ 98 5.11 Ejemplo aplicado .................................................................................................................................. 99

    5.11.1 Transformaciones Tukey ........................................................................................... 99

    5.11.2 Grficos de matriz ................................................................................................... 100

    5.11.3 Grficos de lneas .................................................................................................... 101

    5.11.4 Edicin de grficos .................................................................................................. 101

    5.11.5 Grfica de histogramas............................................................................................ 102

    5.11.6 Diagramas de dispersin ......................................................................................... 103

    5.11.7 Exportar grficos ..................................................................................................... 105

    5.12 Comandos usados .............................................................................................................................. 107 6. REGRESIN LINEAL EN STATA ................................................................................................. 108

    6.1 Ejercicio .............................................................................................................................................. 108 6.2 Descripcin estadstica de la informacin ........................................................................................... 109 6.3 Relacin lineal entre las variables dependientes e independientes .................................................... 109 6.4 Representacin grfica de las relaciones entre variables ................................................................... 110 6.5 Estimacin del modelo lineal de regresin ......................................................................................... 112

  • 6.5.1 Pruebas de hiptesis lineales .................................................................................. 114

    6.5.2 Ejercicio ................................................................................................................... 114

    6.6 Comprobacin del cumplimiento de los supuestos de M.C.O. ........................................................... 115 6.6.1 Multicolinealidad (Asociacin lineal entre variables) ............................................. 115

    6.6.2 Homocedasticidad ................................................................................................... 115

    6.6.3 Normalidad de los residuos ..................................................................................... 117

    6.6.4 Exogeneidad de las variables independientes ........................................................ 119

    6.6.5 Ejercicio ................................................................................................................... 120

    6.7 Pronstico ........................................................................................................................................... 120 6.7.1 Representacin grfica del pronstico de la variable dependiente y su relacin con los regresores .......................................................................................................................... 120

    6.7.2 Ejercicio ................................................................................................................... 121

    6.8 Exportar tabla de contenido ................................................................................................................ 121 6.9 Ejemplo aplicado ................................................................................................................................ 122

    6.9.1 Prueba de hiptesis ................................................................................................. 123

    6.9.2 Supuestos para mnimos cuadrados ordinarios ...................................................... 123

    6.10 Comandos usados .............................................................................................................................. 127 7. MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT ....................... 128

    7.1 Representacin de las relaciones entre variables .............................................................................. 129 7.1.1 Participacin y Gnero ............................................................................................ 129

    7.1.2 Participacin y Nivel Educativo ............................................................................... 130

    7.1.3 Participacin y Edad ................................................................................................ 131

    7.2 El modelo tipo Logit encuesta Casen 2006. ....................................................................................... 131 7.2.1 Interpretacin de resultados ................................................................................... 132

    7.2.2 Odds - Ratio (p/q) .................................................................................................... 133

    7.2.3 Post estimacin .................................................................................................... 133

    7.3 Modelo Lineal de probabilidad y modelo tipo Probit ........................................................................... 135 7.3.1 Modelo Lineal .......................................................................................................... 135

    7.3.2 Modelo tipo Probit .................................................................................................. 136

    7.3.3 Comprobacin de supuestos ................................................................................... 139

    7.3.4 Pronstico ............................................................................................................... 143

    7.3.5 Ejercicio ................................................................................................................... 143

    7.4 Ejemplo aplicado ................................................................................................................................ 144 7.4.1 Modelos con variable dependiente binaria MLP, Logit y Probit ............................ 144

    7.5 Comandos usados .............................................................................................................................. 148 8. MODELOS DE SERIES DE TIEMPO ............................................................................................ 149

  • 8.1 Serie de tiempo en Stata modelos autorregresivos de media movil (arma) ....................................... 149 8.1.1 Generacin de variables con formato de fecha ...................................................... 149

    8.1.2 Designando la variable que representa al tiempo .................................................. 150

    8.1.3 Variables con rezago ............................................................................................... 151

    8.2 Metodologa Box Jenkins (BJ) aplicada al caso de seleccin y estimacin de un modelo arma para pronstico de la inflacin. ................................................................................................................................ 152

    8.2.1 Fase de identificacin .............................................................................................. 152

    8.2.2 Fase de estimacin .................................................................................................. 154

    8.2.3 Fase de verificacin y diagnostico ........................................................................... 155

    8.2.4 Pronsticos .............................................................................................................. 156

    8.2.5 Ejercicio ................................................................................................................... 157

    8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA. ......................................................... 158

    8.3 Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidado con heterocedasticidad 171

    8.3.1 Antecedentes .......................................................................................................... 171

    8.3.2 El modelo GARCH(1,0) ............................................................................................. 172

    8.3.3 Metodologa ARCH EN STATA ................................................................................. 173

    8.3.4 Ejemplo aplicado ..................................................................................................... 173

    8.4 Comandos usados .............................................................................................................................. 179 9. MODELOS DE DATOS PANEL O LONGITUDINALES .................................................................. 179

    9.1 Anlisis de datos panel ....................................................................................................................... 180 9.1.1 Estructura de bases de datos panel ........................................................................ 181

    9.2 Ejemplo Prctico El caso de la CASEN ........................................................................................... 182 9.2.1 Grficos de evolucin .............................................................................................. 184

    9.2.2 Modelos economtricos para datos de panel ......................................................... 187

    9.2.3 Comparacin de modelos ....................................................................................... 192

    9.2.4 Interpretacin de los parmetros de efectos fijos. ................................................. 193

    9.3 Comandos usados .............................................................................................................................. 193 10. INTRODUCCIN A LA PROGRAMACIN .............................................................................. 195

    10.1 Local macros ...................................................................................................................................... 195 10.2 Creando ciclos .................................................................................................................................... 195

    10.2.1 Comando IF ............................................................................................................. 195

    10.2.2 Comando For ........................................................................................................... 196

    10.2.3 Comando Forvalues ................................................................................................. 196

    10.2.4 Comando While: ...................................................................................................... 196

    10.3 ESCALARES Y MATRICES ............................................................................................................... 196 10.3.1 Ejercicio ................................................................................................................... 199

  • 11. TRUCOS CON STATA ............................................................................................................ 200

    11.1 Algunos consejos con Stata ............................................................................................................... 200 11.2 Ejecutando comandos en Stata sin resultados (quietly) ..................................................................... 203 11.3 Herramienta de calificacin de Stata 12 ............................................................................................. 205 11.4 Archivos en PDF de logs y grficas con Stata 12 ............................................................................... 207 11.5 Material de apoyo ............................................................................................................................... 209 12. BIBLIOGRAFIA ...................................................................................................................... 210

  • 1

    1. INTRODUCCIN

    Hoy en da es comn encontrar diferentes aplicaciones computacionales capaces de realizar sin fin de procedimientos en milsimas de segundo, desde hace varios aos el computador ha sido una herramienta muy til para las diferentes reas del conocimiento y las ciencias econmicas no han sido la excepcin, los grandes avances tericos han llevado a necesitar cada vez ms de las aplicaciones computacionales para poder pasar de la teora a la prctica.

    Las ciencias econmicas, sociales y aplicadas se han vinculado desde hace varias dcadas a las ciencias puras para poder por medio de los mtodos cuantitativos verificar los hechos sociales, el uso de la estadstica, la matemtica y la fsica cada da van en incremento; pero de igual forma stos mtodos han necesitado de diferentes recursos para su aplicacin, es en busca de suplir estas necesidades que Stata Corp se ha comprometido da a da en apoyar al desarrollo de la teora con la prctica haciendo uso del total de recursos disponibles.

    Se aclara que Stata no es un software libre ni gratuito, para poder acceder a l es necesario adquirir un plan de licenciamiento, para mayor informacin ingresar a www.stata.com. Una de las ventajas del software es la posibilidad de trabajo por ambiente GUI (interactivo) y/o por ambiente de comandos con una programacin bastante potente, incluyendo un lenguaje de programacin para matrices conocido como MATA.

    Este material es dirigido a todo tipo de usuario, para el estudiante que se est involucrando al mundo de la estadstica y econometra, el docente que utiliza la herramienta para impartir sus clases usando para ello un software de alto nivel como es Stata y para profesionales e investigadores que da a da requieren una herramienta que les sirva para apoyar sus labores y sus investigaciones.

    El documento se ha dividido en 11 captulos, el primero comprende esta introduccin, los cuatro siguientes se podr encontrar informacin sobre la capacidad de manejo de Stata 12, manejo en la bases de datos y manipulacin de datos, estadstica descriptiva, as como la presentacin de resultados por medio de grficas y tablas; en el captulo 6 encontrar el tema de regresin, captulo 7 modelos de regresin con variable discreta, captulo 8 modelos de series de tiempo para tratar los temas de filtros, ARIMA y ARCH, captulo 9 modelos de datos de panel y los ltimos dos captulos es introduccin a la programacin y algunos trucos y recomendaciones.

    1.1 Descripcin del libro

    Este manual es de carcter acadmico y representa una gua para los usuarios de Stata.

  • 2

    El manual contiene 216 pginas, las cuales describe los principales usos para un usuario de diferente nivel y estudios. Para el mejor entendimiento del manual se describe el siguiente cuadro:

    Descripcin Caractersticas

    Comando Tipo de Letra cursiva, fuente Arial, tamao de letra 11.

    Ejemplo del comando Tipo de Letra cursiva, fuente Arial, tamao de letra 9, antecedido de un .

    Notas o recomendaciones Resaltado en un cuadro de texto

    Rutas de acceso por medio de los mens Se describe el nombre del Men seguido por el smbolo

    Mensajes de Error Color de Fuente Rojo

    Tabla 1. Descripcin y caractersticas del manual

  • 3

    2. MANEJO FUNDAMENTAL DE STATA 12

    Stata es un programa estadstico para investigadores de diferentes disciplinas, como bioestadsticos investigadores sociales y econmicos. Los diferentes tipos de anlisis integrados a Stata estn documentados y soportados tericamente por numerosos documentos, publicaciones y revistas. Los manuales de Stata renen en 21 volmenes con ejemplos estadsticos, explicaciones tericas, mtodos, frmulas y documentos de referencia (ver www.stata.com/manuals/). Al tratarse de un programa en ambiente Windows, su interface es similar a la de todos los programas bajo este ambiente.

    Nota: Adems del sistema operativo Windows, Stata Corp ha desarrollado la plataforma para los sistemas operativos en Mac y Unix, con sus respectivos manuales de introduccin.

    Stata est disponible en 4 tipos de versin.

    Small Stata Versin estudiantil de Stata

    Intercooled Stata Versin estndar de Stata

    Stata/SE Versin especial de Stata para manejo de bases de datos grandes.

    Stata/MP Versin especial de Stata diseada para trabajar en equipos con ms de un procesador o ncleo (2 a 32 procesadores)

    Tabla 2. Tipos de versin Stata

    A continuacin se presentan las principales diferencias entre las versiones Intercooled y SE de Stata1:

    Small Stata/IC Stata/MP and Stata/SE

    Nmero de observaciones 1,200 2,147,483,647 2,147,483,647

    Nmero de Variables 99 2,047 32,767

    Tabla 3. Caractersticas de versin la Stata

    2.1 Conociendo el entorno de Stata

    Una vez que se hace clic en el icono de Stata en el men de inicio, se despliegan los siguientes cuadros de trabajo. Estas ventanas constituyen el cuerpo bsico Stata para llevar a cabo un anlisis de datos, teniendo una interface bastante amigable. 1 Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comando help limits.

  • 4

    Figura 1. Ventana de Stata

    Ventana de Variables: Muestra el listado de variables de la base de datos activa.

    Ventana de Comandos: En este cuadro se escriben y almacenan las lneas de comandos, si se desea recuperar un comando previo puede utilizar las teclas RePg o AvPg y podr autocompletar el nombre de la variable utilizando la tecla TAB.

    Ventana de Resultados: Permite visualizar la sintaxis, y los resultados de los procedimientos ejecutados por el usuario. Aqu encontrar el logo de Stata, indicando la versin y el tipo de licencia y el nmero mximo de variables a importar. Una de las caractersticas de sta ventana es que por medio de colores el programa informa si un comando ha sido correctamente ejecutado, si aparece en color negro no hubo problema en la realizacin, rojo indicar error y el azul es un hipervnculo al men de ayuda.

    Ventana de Revisin: Bitcora que permite llevar un completo registro de todos los procedimientos ejecutados durante una sesin de Stata ya sea que se ejecutaron por el ambiente GUI, por la ventana de comandos o por un editor .do. Una de las propiedades de la ventana Review es que si se desea repetir un comando simplemente debe hacer doble clic sobre el comando deseado y Stata lo ejecutar de nuevo.

    VENTANA DE RESULTADOS

    VENTANA DE COMANDOS

    VENT

    ANA

    DE

    REVI

    SIN

    VENTANA DE VARIABLES

    VENTANA DE PROPIEDADES DE

    VARIABLES

  • 5

    Ventana de Propiedades: Presenta la informacin de cada variable, como nombre, tipo de variable, formato, las notas de la base de datos (puede usar el comando notes para verlas en la ventana de resultados), entre otras caractersticas.

    2.2 Barras

    Figura 2. Men de Stata

    Barra de Nombre: Indica la versin de Stata disponible, el nombre y la ruta de la base de datos activa.

    Barra de Mens: Es el conjunto de las diferentes herramientas que tiene Stata las cuales le permiten al usuario cargar, transformar, modificar, analizar, graficar y solicitar informacin y ayuda del programa.

    Barra de Herramientas: Es el conjunto de conos de acceso rpido a herramientas fundamentales como son abrir, salvar, creacin de un archivo Log, un archivo .do, abrir el editor, el visor y el administrador de variables.

    2.3 El men de ayuda

    Stata ha incorporado a partir de la versin 11 un conjunto de nuevas opciones en el men de ayuda para facilitarle al usuario la mejor forma de entender cmo funciona el programa. Una de las novedades principales es que se ha agregado la opcin de tener disponibles los manuales de Stata en formato PDF.

    Para acceder a los manuales de ayuda debe seguir la ruta Help PDF Documentation

    El men de ayuda de Stata le permite:

    Ver el ndice de contenidos del programa

    Barra de Nombre

    Barra de Mens

    Barra de Herramientas

  • 6

    Buscar informacin sobre algn tema, la rutina que permite ejecutarla en Stata, o el sitio desde donde es posible descargar la macro para alimentar el programa.

    Obtener ayuda sobre algn comando de Stata

    Listar y descargar las ltimas actualizaciones del programa.

    Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o del boletn tcnico Stata Technical Bulletin.

    Acceder a lugares de inters en el sitio Web de Stata.

    El sistema de ayuda para los comandos de Stata es una de las herramientas que ms rpidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente al sistema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido del comando del cual desea informacin.

    Por ejemplo al digitar en el cuadro de comandos: help describe emerge la siguiente ventana

    Figura 3. Ayuda de Stata

  • 7

    La ayuda de Stata ofrece informacin sobre:

    La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,

    Descripcin del comando,

    Opciones adicionales para ejecutar el comando,

    Ejemplos sobre cmo usar el comando,

    Hipervnculos a otros comandos relacionados y/o similares y,

    El manual impreso de Stata en el que puede consultar los detalles sobre el comando.

    Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algn procedimiento en Stata. En estos casos es conveniente realizar una bsqueda temtica por medio del comando search. A travs de este comando Stata realiza una bsqueda en lnea en:

    Los ejemplos oficiales de Stata disponibles en su sitio web,

    El sitio de preguntas frecuentes Frequently Asked Questions de Stata,

    Ejemplos en lnea compilados por la universidad de UCLA,

    Las referencias bibliogrficas en Stata Journal y Stata Technical Bulletin.

    Por ejemplo, suponga que se quiere calcular en Stata el coeficiente de concentracin gini (procedimiento muy conocido en economa y estadstica), pero no se sabe si Stata realiza este clculo y, adems, si es posible hacerlo, no se conoce el comando para ejecutarlo. En estos casos el comando search resulta de gran ayuda. Por ejemplo al escribir en el cuadro de comandos . search gini Se despliega el siguiente cuadro de ayuda:

  • 8

    Figura 4. Comando search

    En el cuadro de ayuda aparecen en azul hipervnculos a sitios oficiales (Stata Journal SJ, o Stata Technical Bulletin STB) desde donde se pueden descargar macros relacionadas con el procedimiento que calcula el coeficiente de concentracin gini.

    2.3.1 Actualizaciones en Stata: Automticamente Stata hace actualizaciones peridicas del programa. Sin embargo el usuario puede pedir manualmente al programa que se actualice a travs del comando update as:

    . update all

    . adoupdate, update

    2.4 Tipos de archivo

    Antes de iniciar una sesin de trabajo es importante tener en cuenta que Stata opera a travs de diferentes tipos de archivos.

  • 9

    Tipo de Archivo Extensin

    Archivos de datos *.dta

    Archivos grficos *.gph

    Bitcoras de salida *.smcl

    Archivos de comandos *.do

    Archivos de programacin *.ado

    Tabla 4. Tipos de archivos

    2.5 Estructura de comandos

    La creacin de las variables se realiza por medio del comando generate, los comandos en Stata no son necesarios escribirlos en su totalidad. La mayora de los comandos pueden ser reducidos en un prefijo, para conocer el prefijo de cada comando escriba help nombre del comando y en la ayuda, aparecer subrayado el nombre hasta cierto carcter indicando que puede usar solamente ese texto para ejecutar el comando, por ejemplo g es igual a generate

    [by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]

    Por ejemplo:

    Se debe tener en cuenta que Stata distingue entre letras maysculas y minsculas. Todos los comandos del programa se deben escribir en letras minsculas. De lo contrario el programa no lo reconoce. Los parntesis cuadrados indican que no es un carcter obligatorio dependiendo el comando especfico.

    Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando regress que permite realizar el procedimiento de regresin se puede ejecutar digitando solamente los tres primeros caracteres, es decir al tener reg ejecuta la misma funcin que al escribir regress.

    Para conocer mayor informacin sobre la estructura de los comandos de Stata, busque informacin as: help syntax

  • 10

    2.6 Ventana de comandos

    Es comn encontrar en las ventanas emergentes de Stata el nombre del comando que permite realizar la instruccin que se le ordenar al programa para que realice, por ejemplo, al seguir la ruta

    File Import Text Data created by a spreadsheet

    En este caso es el comando insheet. A continuacin se explican algunas caractersticas generales de las ventanas emergentes de Stata para la realizacin de procedimientos, este manual no presentar las ventanas en las cuales se ejecutan las instrucciones sino los comandos y las opciones correspondientes.

    Como se menciono anteriormente en la parte superior de cada ventana aparece el nombre del comando correspondiente, si el usuario desea llamar una ventana puede hacerlo desde la ventana de comandos por medio de db nombre_comando.

    Comando

    Descripcin del comando

    Copiar como comando

    Ejecutar No Ejecutar

    Ayuda de la instruccin

    Ejecutar y mantener la ventana

    activa

    Limpiar la ventana

    Figura 5. Caractersticas de una ventana

  • 11

    2.7 Configuracin de la memoria de Stata

    Stata funciona exclusivamente desde la memoria RAM. El programa nicamente interacta con el disco duro del computador cuando se hacen salvados de bases de datos, grficos, archivos log, o archivos de comandos. En la versin 12, Stata configura automticamente el tamao de la memoria para poder trabajar con bases de datos muy grandes.

    Para versiones inferiores a la 12 las versiones SE y MP del programa trabajan con 10 megas de memoria RAM. Sin embargo, cuando se trabaja con bases de datos muy grandes, es posible configurar la cantidad de memoria RAM disponible para una sesin de trabajo a travs del comando set memory.2 Por ejemplo, para trabajar con 100 megas de memoria RAM la sintaxis es3:

    set mem 100m

    Es muy importante que antes de empezar una sesin de trabajo el usuario configure la cantidad de memoria RAM que necesita de lo contrario emerger el siguiente error:

    no room to add more observations r (901);

    2.8 Cambiar el directorio de trabajo de Stata

    La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de acceso a las bases de datos o el lugar en el disco duro donde se quieran almacenar los resultados. Una forma prctica de abreviar la sintaxis en ambos casos consiste en indicarle a Stata, antes de comenzar la sesin de trabajo, el lugar en el disco duro de donde se desean tomar los datos y donde se quieren almacenar los resultados. Este procedimiento se lleva a cabo a travs del comando cd as: . cd "C:\...." La otra opcin es por medio del Men File Change Working Directory Entre comillas se debe encontrar la direccin o ruta de la carpeta donde se encuentran las bases de datos que sern empleadas en la sesin de trabajo de Stata.

    2.9 Bases de datos de ejemplo

    En el momento en que Stata se instala en su equipo se incluyen bases de datos de ejemplo las cuales le permitirn trabajar con el software, tenga en cuenta estos archivos 2 Si desea conocer qu versin tiene de Stata y la configuracin de la memoria y la licencia del programa escriba el comando about o creturn list. 3 Se recomienda revisar la ayuda sobre el comando set y el comando memory

  • 12

    Continua Ordinal Nominal

    dado que la ayuda en muchas ocasiones se referencia a las bases de datos del software, para acceder a ellas siga la ruta File Example Datasets Example datasets installed with Stata o para acceder a todas las bases de datos seleccione Stata 12 manual datasets pero debe tener acceso a internet.

    El comando asociado es:

    . sysuse dir * para ver el directorio de bases de ejemplo en su equipo

    . sysuse auto.dta * cargar la base auto.dta que es una base de ejemplo de Stata

    2.10 Tipos de variables

    Una de las preguntas comunes en el manejo de un software estadstico es cmo el programa clasifica o categoriza las variables, es decir que formato es posible asignarle a una variable, para ello es necesario primero que el usuario tenga claro el tipo de variable.

    Las variables se pueden dividir de acuerdo al siguiente esquema:

    F

    Stata es case sensitive, es decir, distingue entre maysculas y minsculas, de forma que las variables var1 es diferente a Var1.

    Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cuales se diferencian por el rango de los datos o por el tamao en el nmero de caracteres disponibles a continuacin se presenta una tabla que describa los tipos de datos.

    VARIABLE

    CUANTITATIVA CUALITATIVA

    Discreta

    Figura 6. Tipo de variables

  • 13

    TIPO DE VARIABLE RANGO

    FORMATO MNIMO MXIMO

    Byte -127 100 %8.0g

    Int -32,767 32,740 %8.0g

    Long -2,147,483,647 2,147,483,620 %12.0g

    Float -1.70141E+38 1.70141173319*10^38 %9.0g

    Double -8.9885E+307 8.9884656743*10^307 %10.0g

    Precisin para FLOAT 3.795x10^-8.

    Precisin para DOBLE 1.414x10^-16.

    Tabla 5. Tipos de Variable

    El nmero que aparece despus del smbolo % es el nmero mximo de dgitos enteros o ancho que soporta el formato y el nmero a la derecha ndica el nmero de decimales, posteriormente se encuentra una letra. Donde [f] es aproximacin al entero ms cercano, [e] indica notacin cientfica y [g] indica decimales.

    Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variables alfanumricas, estas variables en las que se encuentran principalmente las variables cualitativas, Stata define un formato especial para ellas, y es el formato STRING, %str# es la visualizacin de este formato, en el cual el carcter # indica el largo de la cadena.

    2.10.1 Formato de las variables: El formato de las variables hace referencias a la forma como son almacenadas y desplegadas las variables en STATA. Para cambiar el formato de una de una variable a travs del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable siempre antecedido por el smbolo %.

    Variables de cadena

    Variable numrica

    % 20 s Variable String

    Inicio de un formato nmero de caracteres

  • 14

    Si desea cambiar el formato de una variable utilice el comando recast.

    . sysuse auto

    . describe Price

    . recast float price Para mayor informacin: help data_types y help recast

    Formato general g, Notacin cientfica e, formato fijo f

    % 10. 0 g c opcional, separados de miles por comas Inicio de un formato

    Dgitos antes del punto decimal Dgitos despus del punto decimal

  • 15

    3. MANEJO DE BASE DE DATOS

    Antes de realizar un anlisis de la informacin ya sea de tipo descriptivo o inferencial, se debe contar con toda la informacin que sea pertinente para el anlisis respectivo y las condiciones que deben tener cada una de las variables para poder establecer un entorno eficiente en Stata 12, para ello en esta seccin podr ver como se manipulan las bases de datos en Stata 12, por ejemplo series financieras (precio de activos) y econmicas (inflacin, desempleo, crecimiento econmico, entre otras).

    Una de las ventajas de Stata es su fortaleza en el manejo de bases de datos, principalmente porque permite al usuario administrar gran cantidad de variables y de observaciones, adems, es posible realizar manipulacin y transformaciones como son crear, eliminar, modificar, concatenar y tambin permite agregar variables y observaciones a una base de datos con otras bases, entre muchas ms.

    Entre opciones avanzadas se encuentran la proteccin de bases de datos, la creacin de firmas y restricciones a usuarios. Stata permite a los usuarios manejar bases de datos de formatos como son MS Excel, texto, SQL, SAS, entre otros, de igual forma permite exportar archivos a dichos formatos.

    3.1 Fundamentos de bases de datos

    Hay ciertas caractersticas que usted podr aprender para el manejo de la informacin, entre ellas los pasos fundamentales, como son, importar una base de datos, eliminacin, transformacin de bases de datos, entre otros.

    3.1.1 Creacin de un archivo log

    Un archivo tipo texto con extensin .log o .smcl4, permite guardar todo lo que usted digite y ejecute en la lnea de comandos as como las salidas obtenidas en la ventana de resultados realizadas durante la sesin activa de Stata.

    Se recomienda que la extensin sea SMCL, dado que le permite conservar las fuentes y colores de su ventana de resultados y adems podr configurarlo para imprimir.

    4 Iniciales de Stata Markup and Control Language.

  • 16

    Figura 7. Creacin de un archivo Log

    Para la creacin de un archivo log por medio de comandos debe usar

    . log using tables.log, replace

    3.1.2 Abrir una base de datos El primer paso es cargar una base de datos, para ello depende el formato de la base de datos. Es comn que los usuarios contengan su informacin en archivos tipo Excel, para ello es necesario tener claro que Stata requiere que el separador decimal debe ser el punto (.), para ello se recomienda utilizar la herramienta de buscar-reemplazar de Excel o hacer cambio de la configuracin de Excel o de la configuracin regional de su equipo.

    Recuerde que las bases de datos de Stata finalizan con la extensin .dta, cuando se tiene un base tipo Stata para abrirla puede utilizar la ruta File Open o mediante el teclado CTRL+ O y seleccionar el archivo o por el cono abrir de la barra de herramientas, por medio de comandos podr usar la instruccin use

    . use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear

    Recuerde la seccin 2.8 en donde se indica como activar un directorio de trabajo para no tener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene un directorio activo la instruccin es:

    . use ipc_raw, clear

    Dado que la instruccin solo importa bases de datos de formato Stata no se requiere ingresar la extensin .dta.

    Finalmente con el comando use podr seleccionar solamente las variables que desea usando la opcin using importar por ejemplo

    . use fecha ipc inflacin using ipc_ra, clear

    3.1.3 Importar una base de datos .CSV o TXT Uno de los formatos ms comunes en el manejo de informacin estadstica es el formato Separado por Comas (CSV), para importar una base de dato se sigue la ruta:

    File Import Text Data created by a spreadsheet

  • 17

    En este caso el comando insheet tiene la siguiente estructura

    insheet [variables] using ruta, opciones

    Por ejemplo:

    . insheet using "C:\Users\USER\Documents\Software Shop\Stata\Taller docentes\Docentes_01.csv", delimiter (":") clear

    En el caso que el usuario no requiera importar la totalidad de la base de datos debe especificar despus del comando insheet el nombre de las variables; entre las opciones se encuentran, los tipos de formato que separa los datos, como son tabulaciones (tab), comas (comma) o especificado por el usuario (delimiter(x)).

    La funcin anterior es similar para archivos con extensin .TXT.

    3.1.4 Importar una base de datos .XLS o .XLSX 3.1.4.1 Editor de datos en Stata

    Es comn que las bases de datos y los archivos que se usan a diario por las empresas y sus trabajadores sean de hojas de clculo, para facilitar el trabajo de uso de Stata cuando las bases son de una hoja de clculo se puede sin mayor problema copiar los datos de la hoja correspondiente y posteriormente en la ventana edit dar clic derecho y seleccionar pegar o la secuencia CTRL+V, de sta forma Stata reconoce los datos correspondientes. El software abrir una ventana en donde se pregunta si los datos que se encuentran en la primera fila son las etiquetas de los datos o si no lo son, dependiendo de la fuente de los datos se toma la decisin.

    Figura 8. Pegar datos desde Excel

    Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata trabaja los separadores decimales con el punto y no con la coma como se usa en la configuracin de los computadores con idioma espaol. Para ello se recomienda al usuario cambiar el formato de separador decimal y de miles en su hoja de clculo o directamente desde la configuracin regional

  • 18

    de su equipo. De igual forma usar la tcnica de buscar y reemplazar le permite obtener un buen resultado.

    Se recomienda ver informacin adicional con help input, infix e infile.

    Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el cono de la ventana Data Editor, presionando CTRL+8, o haciendo clic en

    Data Data Editor Editor.

    Figura 9. Editor de datos.

    Snapshots: Permite preservar y restaurar la base de datos a un punto predeterminado por el usuario.

    Filter Observations: Mientras est abierto el editor de datos, a travs de esta opcin es posible mantener un filtro sobre la base la base de datos.

    Variable Properties: Esta opcin permite renombrar variables, asignar etiquetas a variables y valores de variables categricas, y ajustar los tipos de variables y los formatos de las variables.

    Variable Manager: Similar a la opcin anterior, adems permite visualizar simultneamente varias variables y adicionar notas a estas.

    3.1.4.2 Asistente de Importacin de Excel files La versin 12 de Stata ha incorporado una nueva herramienta para importar bases de datos tipo .xls o .xlsx, para acceder al asistente siga la ruta File Import Excel spreadsheet (*.xls, *.xlsx) emerger la siguiente ventana:

    Edit Mode Browse Mode

    Filter Observations

    Variables Manager Snapshots

    Variable Properties

  • 19

    Figura 10. Asistente Importacin Archivos de Excel

    Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo contrario el asistente no realizar la importacin.

    La estructura del comando es:

    import excel [using] filename [, import_excel_options]

    En las opciones podr seleccionar:

    sheet("sheetname") Nombre de la hoja a importar cellrange([start][:end]) Rango de celdas a cargar firstrow Tomar la primera fila como los nombres de las variables allstring Importar todas las variables como texto clear Reemplazar los datos en la memoria

    Para el ejemplo la instruccin es:

    . import excel "C:\Users\Brayan\Desktop\base1.xlsx", sheet("base 1") firstrow

    Busque el archivo de Excel

    Seleccione la hoja a importar

    Active la casilla si en su hoja la primera fila contiene los nombres de las variables

    Seleccione el rango de los datos

  • 20

    3.1.5 Importar otros tipos de archivo Hay otro tipo de archivos que Stata le permite importar automticamente como archivo para ello se recomienda tener en cuenta las siguientes recomendaciones:

    TIPO DE BASE COMANDO ODBC Odbc Archivo de Texto sin diccionario (.raw)

    Infile

    Archivo de Texto con ancho fijo (.raw)

    Infix

    Archivo de Texto con diccionario ( infile2 Formatos SAS XPORT o .xpf import sasxport Formato tipo haver Haver XML files Xmlsave

    Tabla 6. Otros comandos para importar archivos

    Finalmente si tiene otro tipo de archivos se recomienda que adquiera el software Stat/Transfer, para mayor informacin ingrese a www.stata.com/products/stat-transfer/, este programa permite importar archivos tipo SPSS, SAS, R, RATS, Statistics, MATLAB, GAUSS, entre otros

    3.2 Salvando una base de datos

    Como los datos han sido cargados en la memoria RAM, slo puede modificarse la base de datos original de tres formas

    Haciendo clic en el icono de salvado en la barra de herramientas

    Haciendo clic en CTRL+S

    A travs del cuadro de comandos empleando el comando save, por ejemplo:

    . save base1.dta, replace

    La opcin replace le permite sobre escribir un archivo que tenga en el mismo directorio de trabajo activo y con el mismo nombre.

    Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio que estos ocupan utilizando el comando compress este comando comprime la base de datos. Es muy til cuando se trabaja con bases de datos grandes.

    3.3 Descripcin de la base de datos

    Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtener informacin de ella, para ellos Stata le permite al usuario por medio de diferentes procedimientos entender cada variable y su contenido.

  • 21

    Lo primero que debe realizar el usuario una vez importa o abre una base de datos es observar la base, para ello se encuentran diferentes formas de visualizar los datos, entre ellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja de clculo, la otra opcin es por medio del comando list que permite visualizar la o las variables en la ventana de resultados, se recomienda usar los comandos edit, browse y list con las opciones if in (ver ms informacin en la seccin 3.4).

    Adicional a esto el usuario puede recibir informacin especfica de cada variable por medio de las opciones del men Data Describe Data. En ste men las opciones de describe data in memory, describe data contents e inspect variables, le da la posibilidad al usuario de obtener informacin correspondiente al nombre, la etiqueta, el tipo y formato de la variable, notas, etiquetas sobre valores, el nmero de valores perdidos, entre otras. A continuacin se presenta un ejemplo del uso de estos comandos

    Cargar una base de datos del programa . sysuse auto

    Observar los datos . browse

    Figura 11. Comando browse

    Describir los datos . describe make rice mpg

  • 22

    Tabla 7. Comando describe para algunas variables

    Cuando se desea aplicar un comando para todas las variables de la base de datos podr hacerlo ingresando el comando sin incluir ninguna variable de esta forma Stata tomar la instruccin para toda la base de datos, otra alternativa es escribir _all posterior al comando por ejemplo:

    . sysuse auto

    . describe _all

    Tabla 8. Describe de todas las variables en la base de datos

    3.4 Creacin de Variables

    Por medio del men Data se puede encontrar opciones como crear nuevas variables

    Data Create or Change Data Create New Variable:

    .

    mpg int %8.0g Mileage (mpg)price int %8.0gc Pricemake str18 %-18s Make and Model variable name type format label variable label storage display value

    foreign byte %8.0g origin Car typegear_ratio float %6.2f Gear Ratiodisplacement int %8.0g Displacement (cu. in.)turn int %8.0g Turn Circle (ft.)length int %8.0g Length (in.)weight int %8.0gc Weight (lbs.)trunk int %8.0g Trunk space (cu. ft.)headroom float %6.1f Headroom (in.)rep78 int %8.0g Repair Record 1978mpg int %8.0g Mileage (mpg)price int %8.0gc Pricemake str18 %-18s Make and Model variable name type format label variable label storage display value

  • 23

    Figura 12. Comando generate

    Figura 13. Prefijo de un comando

    Algunos ejemplos de creacin de variables:

    . generate suma = var1 + var2

    . gen resta = var1 var2

    . g multiplicacin = var1 * var2 Para la creacin de las variables se recomienda usar el siguiente cuadro

  • 24

    Tabla 9. Operadores

    En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son los caracteres _n y _N o denominadas variables del sistema, _n es un contador del nmero de observaciones, y _N indica el total de observaciones de la base de datos.

    . gen tendencia = _n

    . gen totales = _N Para la creacin de variables con condiciones puede utilizar la opcin de la estructura de comandos [if] [in], estas opciones le permitirn poner restricciones no solo para la creacin de variables si no para la gran mayora de comandos que contiene Stata, debe tener en cuenta que solo debe escribir una vez el carcter if o in, a continuacin algunos ejemplos en el uso de estos caracteres especiales:

    . gen dummy = 1 if TV >5 *crea una variable con valores = 1 si TV > 5, perdido en otro caso.

    . list make mpg if mpg>25

    . list price in 10/20 * crea una lista para las observaciones entre la 10 y 20

    . list price in -10/l * crea una lista con las ltimas 10 observaciones

    Para la opcin in se puede utilizar las siguientes estructuras:

    # Condicin sobre una nica observacin

    #/# Condicin sobre un rango de observaciones

    #/l Condicin sobre una observacin hasta la ltima (l)

  • 25

    f/# Condicin desde la primera observacin (f) hasta una observacin

    -#/# Condicin desde las ltimas # observaciones hasta # que puede ser la ltima con l, *L minscula*

    A continuacin se listan algunas funciones matemticas, estadsticas y de fecha importantes en la creacin de variables

    Funcin Ejemplo Descripcin ln() g lpib = ln(pib) Logaritmo natural

    exp() g epib = exp(pib) Exponencial sqrt() g y = sqrt(epib) Raz cuadrada abs() g x = abs(y) Valor absoluto cos() g coseno = cos() Coseno logit() g logit = logit(x) Retorna el logaritmo de los odds ratio de x

    runiform() g uniforme = runiform() Genera nmeros aleatorios de una distribucin uniforme [0,1)

    rnormal() g normal = rnormal() Genera nmeros aleatorios de una distribucin normal estndar (0,1)

    rnormal(m,s) g normal = rnormal(10,2) Genera nmeros aleatorios de una distribucin normal con media m y desviacin estndar s

    int() g enteros = int(pib) Convierte una variable o dato en entero invnormal(p) g inversa = invnormal(prob) Genera una variable como la inversa de la

    probabilidad de una distribucin normal length(s) g largo = length(nombre) Presenta el nmero de caracteres de una

    variable string Tabla 10. Ejemplos Funciones generate

    Ejemplo:

    . use personas, clear

    *Logaritmo natural de los ingresos laborales

    . gen lny=ln(i_laboral)

    *Logaritmo natural de las horas de trabajo al mes

    . gen lnm=ln(htm)

    *Aos de experiencia laboral al cuadrado

    . gen exp2=exp^2

    *Horas de trabajo al mes expresadas en nmeros enteros . gen horas=int(htm)

    *Generacin de una variable aleatoria uniforme (0,1) . gen uniforme=uniform()

  • 26

    *Horas de trabajo al mes expresadas en nmeros enteros (redondeado)

    . gen horasr=round(htm)

    * Si cumple la condicin (ser menor de 25 aos) marcar con el nmero 1

    . gen men25=1 if e025,1,0)

    . gen dummy = (TV>5)

    . egen concatenar = concat(variable1 variable2)

    FUNCIN EJEMPLO DESCRIPCIN max() egen maximo = max(ingresos) Presenta el mximo de una variable min() egen minimo = min(ingresos) Presenta el mnimo de una variable

    mean() egen promedio = mean(ingresos) Presenta el promedio de una variable kurt() egen curtosis = kurt(ingresos) Presenta la curtosis de una variable sd() egen desviacin = sd(ingresos) Presenta la desviacin estndar de una

    variable Tabla 11. Funciones generate y egen.

    3.5 Ordenar variables y bases de datos

    Ordenar datos Data Sort Ascending Sort:

  • 27

    Figura 14. Ordenar datos

    Para ordenar en forma descendente se recomienda usar el comando gsort de la siguiente forma:

    . gsort var1 var2 +var3

    El comando anterior produce un ordenamiento descendente primero por la variables VAR1, seguido por la variable VAR2 y de forma ascendente por la variable VAR3, indicando que se debe ubicar un signo (-) para establecer descendente y un signo (+) para orden ascendente, aunque este ltimo no es necesario en el comando.

    Existe otro caso y es en el caso que se dese ordenar las variables, es decir cambiar el orden en la base de datos, por medio del comando order es posible realizar esto, de igual forma es posible utilizar aorder para que las variables queden ordenadas en forma alfabtica. Finalmente el comando move permite modificar la ubicacin de las variables, pero a partir de la versin 11, este comando es reemplazado por order.

    3.6 Clculos por grupos

    En algunas ocasiones el usuario requiere de verificar la informacin por una caracterstica particular, grupales, entre otras, para ellos Stata cuenta con el prefijo by el cual se ubica previo al comando estadstico, grfico o de modelo.

    Ejemplo:

    . use http://www.Stata-press.com/data/imeus/census2d, clear

    . gsort region -pop

    . by region: generate totpop = sum(pop)

    . by region: list region totpop if _n = = _N

    . by region: egen meanpop = mean(pop)

    . by region popsize, sort: egen meanpop2 = mean(pop)

    . by sex age: regress wage expert expert2 occup

  • 28

    El comando by permite generar variables por diversas categoras, adems, permite ordenar de acuerdo a alguna variable. En el ltimo ejemplo hace una regresin por cada categora entre el gnero y la edad.

    3.7 Codebook e Inspect

    codebook, escribe el contenido de las variables, indicando nmero de observaciones, valores perdidos, percentiles, entre otros.

    . codebook foreign

    Tabla 12. Comando codebook foreign.

    . codebook price

    Tabla 13. Comando codebook price

    El comando inspect, entrega el nmero de observaciones de una variable identificando los valores positivos, negativos, cero, missing, y si estos corresponden a nmeros enteros o no. Los missing values se sealan en Stata mediante un punto (.). Se considera que un missing value es mayor que cualquier valor.

    3 1 Foreign 12 0 Domestic tabulation: Freq. Numeric Label

    unique values: 2 missing .: 0/15 range: [0,1] units: 1

    label: origin type: numeric (byte)

    foreign Car type

    3 15906 3 14500 3 13594 3 13466 3 12990 tabulation: Freq. Value

    unique values: 5 missing .: 0/15 range: [12990,15906] units: 1

    type: numeric (int)

    price Price

  • 29

    Tabla 14. Comando inspect rep78

    3.8 Conservar y recargar bases de datos

    Es importante cuidar la base de datos que se est trabajando, por eso se recomienda salvar la base de datos, pero adems, Stata ofrece opciones que le permitirn al usuario guardar la base de datos de forma virtual, por medio de los comandos preserve y snapshot y para recuperar la base con el comando restore

    . preserve

    . restore

    . snapshot save, label("nombre del elemento guardado")

    . snapshot restore 1

    Figura 15. Opcin snapshot

    La diferencia entre el snapshot y el preserve es que este ltimo solo permite guardar una vez la base de datos, mientras el snapshot varias veces.

    3.9 Filtros de la base de datos

    Ejemplo acerca de la opcin filtros:

    . browse if pop > 10000000

    . browse if pop > 10000000 & marriage > 100000

    . browse if pop > 10000000 & marriage > 100000 & popurban > 10000000

    . browse if pop > 10000000 | marriage > 100000 & popurban > 10000000 Uso del in

    (5 unique values)1 5 74 . # # # # Missing 5 # # # Total 69 69 - # # # Positive 69 69 - # Zero - - - # Negative - - - Total Integers Nonintegers rep78: Repair Record 1978 Number of Observations

    . inspect rep78

    Snapshot

    Agregar Snapshot

    Remover Snapshot

    Cambiar el nombre

    Restaurar

  • 30

    . browse pop in 1/10 . browse pop in f/10 f = FIRST, l = LAST . browse pop in 10/l hasta el ltimo Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep, drop y list.

    drop elimina observaciones y/o variables, keep conserva observaciones y/o variables, list presenta variables y/o observaciones en la ventana de resultados, edit permite visualizar los datos en una hoja de datos y podr editar y modificar los datos, browse realiza las mismas opciones de edit pero no se puede modificar la informacin.

    El comando keep y drop tienen la misma estructura

    keep/drop variables keep/drop if expression

    keep/drop in rango Ejemplo:

    . sysuse census

    . drop death divorce * Elimina las variables death y divorce

    . keep state pop medage marriage * Conserva las variables indicadas

    . drop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30

    . sort popurban

    . keep in -10/l * Conserva las ltimas 10 observaciones con mayor popurban

    3.10 Administrador de variables

    En la versin 11 de Stata se incluy la ventana del administrador de variables, este administrador de variables permite modificar informacin de cada variable, principalmente el cambio de nombre, etiquetas, tipo de variable, formato, notas y creacin de categoras y etiquetas.

    . varmanage

  • 31

    Figura 16. Administrador de variables.

    Para la modificacin de la variable, deber ser seleccionada la variable y una vez modificada la informacin correspondiente debe dar clic en Apply.

    En la versin 12, Stata ha incluido una nueva ventana que es la ventana de propiedades en la cual se pueden modificar la informacin de cada variable:

    Figura 17. Ventana de Propiedades

    Entre los cambios del administrador de variables y la ventana de propiedades se encuentran las siguientes opciones, se describe el comando correspondiente para automatizacin de tareas.

  • 32

    3.10.1 Rename Este comando permite cambiar el nombre de una variable. Por ejemplo:

    rename nombreviejo nombrenuevo

    . rename price precio

    3.10.2 Label Variable Para colocar la etiqueta a la variable, con la cual se describe la informacin de la misma:

    label var nombrevariable etiqueta variable

    . label var precio Precio del auto

    3.10.3 Notes Se pueden crear dos tipos de notas, una para las variables o para la base de datos, a continuacin un ejemplo para cada caso:

    . notes divorce: 1 si la persona es divorciada, 0 en otro caso * nota para la variable divorce

    . notes _dta: Censo 1994 * nota para la base de datos

    3.11 Creacin de categoras

    La forma ms sencilla de crear categoras de variables es por medio del administrador de variables, la variable que seleccionar debe ser discreta, una vez inicie el administrador debe seleccionar la variable que codificar, luego debe dar clic en Manage que se encuentra a la derecha de la opcin Value label

    Figura 18. Manage

    La figura 16 presenta el administrador de etiquetas, en el cual podr crear, editar o eliminar etiquetas y para las etiquetas ya creadas puede agregar, editar o eliminar valores que se encuentran en una etiqueta creada.

  • 33

    Figura 19. Administrador de Value Labels

    Para crear una nueva etiqueta haga clic en Create Label, en la figura 17 podr agregar, eliminar y editar las categoras con su correspondiente descripcin.

    Figura 20. Creacin de Labels

    Una vez haya creado la etiqueta deber asignarla a la(s) variable(s) que correspondan, para ello en el administrador de variable a la izquierda de Manage seleccione el nombre de la etiqueta.

  • 34

    Figura 21. Asignacin de etiquetas

    Por medio de comandos

    . label define respuestas 1 si 2 no * Creacin de la etiqueta con sus valores

    . label values pregunta1 respuestas *Se asigna a la variable pregunta1 la etiqueta respuestas

    3.12 Modificacin y transformacin de variables

    En la seccin anterior se present la forma de creacin de variables por medio de los comandos gen y egen, de igual forma el comando replace. Pero existen otras formas de modificar variables ya sea en su formato, tipo de variable, codificacin entre otras, a continuacin se presentan las ms importantes.

    3.12.1 Recode Este comando permite recodificar algn valor de una variable

    . recode x (1=2), gen(nx) *Ejemplo 1

    . recode x1 (1=2) (2=1), gen(nx1) *Ejemplo 2

    En el ejemplo 1 se recodifica la variable x, cambiando los valores 1 por valores 2, la variable transformada se guarda como nx.

  • 35

    Figura 22. Recode

    En el ejemplo 2 se cambia de 1 a 2 y de 2 a 1, generando la variable nx1.

    3.12.1.1 Variables categricas a partir de variables continuas. Ejemplo:

    Suponga que se quiere generar una variable que segmente a la poblacin en grupos de edad (menores de 18 aos, entre 18 y 25 aos, entre 26 y 40 aos, entre 41 y 60 aos, mayores de 60 aos), con un numero distintivo para cada categora. Una opcin es emplear el comando recode y generate (desde el do-file editor ) as: . recode e02 (min/17=1) (18/25=2) (26/40=3) (41/60=4) (61/max=5), gen(gedad) o en forma alternativa

    recode e02 (min/17=1 "Menores de edad") (18/25=2 "Entre 18 y 25 aos") (26/40=3 "Entre 26 y 40 aos") (41/60=4 "Entre 41 y 60 aos") (61/max=5 "Mayores de 60 aos"), gen(gedad) La variable gedad es una recodificacin de e02 (edad). Note que se han aplicado etiquetas a cada una de las categoras entre comillas.

    . codebook gedad

  • 36

    Tabla 15. Comando codebook

    3.12.2 Divisin de Variables de texto Split divide una variable texto en nuevas variables por el espacio o un carcter especfico

    split var1, parse(,) gen(geog)

    3.13 Combinacin de bases de datos

    La combinacin de bases de datos es un problema muy comn para el investigador o el analista de informacin, Stata le permite realizar diferentes tipos de fusiones de bases de datos, a continuacin se presentan los dos formatos ms importantes, la adicin vertical (merge) y horizontal (append).

    Figura 23. Combinacin de base de datos

    3.13.1 Combinacin Vertical Append Este comando agrega filas a la base de datos, las variables deben como regla contener los mismos nombres, el mismo tipo de variable y adems la base de datos sus variables deben estar ordenadas de igual forma. Para combinar conjuntos de datos verticalmente se emplea el comando append.

    En nuestro ejemplo, a la base de datos HOMBRES se va adicionar los casos correspondientes la informacin de las mujeres as:

    EDUCACION.dta

    HOMBRES.dta

    Adicin casos: append

    No es necesaria variable llave

    MUJERES.dta

    Adicin de variables: merge

    Es necesaria variable llave. Las bases de datos deben estar ordenadas. Revisar la variable _merge

  • 37

    . use hombres, clear

    . append using MUJERES En la nueva base de datos se ha combinado la informacin hombres y mujeres en una nica base de datos.

    . d

    Tabla 16. Comando describe

    En este punto se deben tener en cuenta dos aspectos.

    1. El comando append debe estar acompaado de la palabra using la cual indica que el nombre a continuacin corresponde a la base de datos de datos que ser adicionada verticalmente.

    2. Como la base de datos cargada en la memoria RAM ha cambiado es conveniente que el usuario salve la nueva informacin con otro nombre as. . save PERSONAS, replace

    3.13.2 Combinacin Horizontal Merge Se usa cuando se quieren traer nuevas variables de una base llamada using a una base de datos ya existente o master, ste comando une dos bases de datos utilizando una variable en comn (generalmente es una ID, llave o cdigo que identifica las observaciones de la base de datos). Las dos bases de datos deben estar guardadas en formato .dta, y deben estar ordenadas de acuerdo a la variable que se va a pegar. El objetivo de este comando es agregar variables (columnas).

    Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:

    1. Ordenar (sort) la base de datos B de acuerdo a las variables con las que se har la unin de las bases, es decir de acuerdo al ID, y guardar.

    2. Abrir la base A y ordenarla de acuerdo al paso 1.

  • 38

    3. Usar el comando merge 4. Guardar la base de datos (save)

    Si la base no est ordenada y contiene datos repetidos emerge el siguiente error:

    Using data not sorted Master data not sorted Para verificar que usted tenga un identificador nico se recomienda que lo verifique por medio del comando isid.

    . isid id num

    Si emerge error es porque el identificador se repite y si va hacer una fusin tendr inconvenientes. Al momento de realizar el merge se crea una variable denominado _merge, que contiene tres valores:

    _merge = = 1 Las observaciones son originarias del archivo master o base

    _merge = = 2 Las observaciones son originarias del archivo using

    _merge = = 3 Las observaciones se encuentran en ambos archivos

    Siguiendo con el ejemplo anterior, se va a agregar a la base de datos PERSONAS.dta, nuevas variables con la informacin sobre el nivel educativo y los aos de educacin aprobados de las personas. Esta informacin se encuentra en la base de datos EDUCACION.dta. Los pasos a seguir para realizar este tipo de pegue son:

    1. Cargar la base using (EDUCACION.dta) de donde se quiere traer las nuevas variables, la ordenamos de acuerdo con la(s) variable(s) identificadora(s) numero y e01 y salvamos los cambios. El comando para ordenar las observaciones es sort as:

    . use EDUCACION . sort numero e01 . d . save EDUCACION, replace

    En este caso, el comando save est acompaado de la opcin replace la cual denota que se est sobrescribiendo en la base EDUCACION original.

    2. Cargar la base master (PERSONAS.dta), se ordenan por el mismo criterio anterior y se guardan los cambios.

    . use PERSONAS . sort numero e01 . d

  • 39

    . save PERSONAS, replace

    3. Se aplica el comando merge para pegar horizontalmente las dos bases as:

    La base de datos PERSONAS.dta contiene ahora las variables de la base de datos EDUCACION.dta, creando automticamente la variable _merge.

    3.14 Cambio en la organizacin de los datos

    Cuando una base de datos tiene ms de una observacin por unidad de estudio (individuo, pas, empresa, etc.) nos puede interesar slo trabajar con una observacin por unidad (collapse) o mantener las observaciones distintas para cada individuo pero que se creen como variables o columnas distintas (reshape)

    3.14.1 Collapse Si se tiene una base de datos de hogares, cada observacin es un miembro del hogar. Si cada hogar dispone de un identificador nico, entonces se puede formar una base de datos alternativa que contenga una sola observacin por hogar (en lugar de una observacin por individuo) para cada una de las variables deseadas. Esta observacin puede contener la media, desviacin estndar, suma u otro estadstico. Ejemplo:

    . collapse (mean) edad (max) educacin (p50) ingreso, by(hogar)

    Lo anterior crea una base de datos con cuatro variables, hogar, edad, ingreso y educacin.

    Con frecuencia, la informacin estadstica tiene algn grado de reserva o confidencialidad que la hace no accesible al pblico en su forma original. La mayor parte de la informacin proveniente de bases de datos grandes, por ejemplo las encuestas (de personas, de hogares, de empresas de la industria manufacturera, etc.) o los censos (de poblacin, de instituciones educativas, de edificaciones, etc.) suele ser presentada en tablas resumen y en bases de datos colapsadas o agregadas.

    En Stata es posible colapsar bases de datos a travs del comando collapse. Debe tenerse en cuenta:

    1. La(s) variable(s) de agregacin: Variable(s) que definen las nuevas unidades de observacin u observaciones agregadas.

  • 40

    2. El(Los) criterio(s) de agregacin: Es la(s) operacin(es) matemtica(s) que ser(n) aplicados a la base de datos original para obtener las nuevas unidades de observacin colapsadas: suma, media, mediana, cuenta, percentil, etc.

    3. La base de datos original ha sido modificada. Debera salvarse con un nuevo nombre.

    Por ejemplo, a partir de la base personas.dta, se puede obtener una base de datos agregada por localidad y sexo as:

    . collapse (mean) edu007, by(localid e03)

    Tabla 17. Collapse

    La variable edu007 corresponde a los aos de educacin promedio y jefe a la suma de los jefes de hogar, en ambos casos, por localidad y sexo.

    3.14.2 Reshape En algunas ocasiones dependiendo del estudio muestral y de la construccin de la base de datos, usted encontrar su informacin en dos formatos, ancho (wide) y largo (long), el formato ancho es aquel en el cual usted tiene un conjunto i de individuos y un nmero j de variables, donde j es generalmente una variable con informacin para diferentes perodos de tiempo.

    Para mostrar un ejemplo, se utilizar la base de datos reshapeState descrita en el libro [1]:

    . use http://www.Stata-press.com/data/imeus/reshapeState, clear

    . list

  • 41

    Tabla 18. Comando list

    En este caso se encuentran seis cdigos de estados de nueva Inglaterra, y aparece la informacin de la poblacin desde 1970 hasta el 2000 calculada cada dcada, a continuacin se transforma la base de datos de formato wide a long por medio del comando reshape, la estructura de este comando es:

    reshape long variable_j, i(variable_individuos) j(nombre nueva variable) reshape wide variable_j, i(variable_individuos) j(variable_temporal)

    Con la base de datos actual se pasa de wide a long

    . reshape long pop, i(state) j(ao)

    Tabla 19. Reshape long

    . list

    6. VT .1086679 .0445188 .5644092 .7219492 .6759487 5. RI .684176 .2551499 .2110077 .4079702 .0580662 4. NH .6047949 .8714491 .8414094 .1180158 .8944746 3. ME .5578017 .5552388 .5219247 .2769154 .4216726 2. MA .6432207 .0610638 .8983462 .9477426 .4611429 1. CT .1369841 .6184582 .4241557 .2648021 .871691 state pop1970 pop1980 pop1990 pop2000 area

    pop1970 pop1980 ... pop2000 -> popxij variables:j variable (4 values) -> aoNumber of variables 6 -> 4Number of obs. 6 -> 24 > Data wide -> long

  • 42

    Tabla 20. Comando list despus de Reshape long

    Si se encuentra usted con una base de datos similar a la generada con el comando reshape, podr pasarla a formato wide, en nuestro caso se usar la siguiente sintaxis

    reshape wide pop, i(state) j(year)

    Continuando con el ejemplo de la encuesta de hogares. Se puede hablar de orientacin vertical u horizontal cuando a cada una de las observaciones i en una base de datos, se las segmenta por algn criterio j (v.g., diferentes periodos de tiempo). En nuestro ejemplo, cada una de las localidades i, ha sido segmentada por sexo j, mientras que la base de datos en conjunto ha sido desplegada de forma vertical. En este caso sin embargo, puede resultar ms cmodo emplear una base de datos orientada horizontalmente, en particular si se quieren hacer comparaciones para cada una de las localidades entre hombres y mujeres. Se puede emplear el comando reshape, acompaado de las opciones wide (despliegue horizontal) o long (despliegue vertical), para cambiar la orientacin de la base de datos colapsada as:

    . reshape wide edu007, i(localid) j(e03)

    24. VT 2