Estadística Descriptiva para
variables continuas
Tópicos a tratar…
• Repaso clase anterior• Identificación de variables continuas• Medidas de tendencia central y dispersión• Presentaciones gráficas• Estimación puntual e intervalos de
confianza• Manejo de valores fuera de rango
Que buscamos?Obtener un ‘sabor’ de los datos
continuos…
•Estimar algunos parametros de la poblacion, en forma puntual y por intervalos
•‘Aprender’ de los datos continuos a través de una visualización gráfica
•Examinar la calidad de los datos
Clasificación general:
Categórica Cuantitativa o numérica
Nominal Ordinal Discreta Continua
Ejemplos:
• Nominales: Sexo, estado civil, presencia de morbilidad, resultado del tratamiento
• Ordinales: Severidad de morbilidad, riesgo quirúrgico, resistencia a antibioticos
• Discretas: Cociente intelectual, tiempo de tratamiento u hospitalización
• Contínuas: concentración de alcohol en la sangre
Comandos usados en STATA para identificar el tipo de variable:
• codebook
• tabulate
ATENCION !
• STATA puede identificar un tipo de variable de manera erronea !
• Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.
Recordemos las características de una variable continua con distribución normal…
Figure 10.10
66
Distribución de frecuencias
Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.
Raw Score Frequency64 263 161 259 256 252 151 238 436 334 531 529 527 525 124 221 217 215 16 23 1
n = 50
Raw Scores(Intervals of Five) Frequency
60–64 555–59 450–54 345–49 040–44 035–39 730–34 1025–29 1120–24 415–19 310–14 05–9 20–4 1
n = 50
De ‘variables continuas’ a ‘variables categóricas’
MIRKO, usa tabulate con generate aqui para representar esto
Ojo que se les ha indicado que esto se usa mas para covariables que para sus outcomes
Representación gráfica de una tabulación bivariada
Comando “histogram”
Estadísticas de resumen:
El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.
Medidas de tendencia central:
• Promedio o media aritmética. Mas sensible a valores extremos
• Mediana o percentil 50: Valor que divide una distribución ordenada por la mitad
• Moda: Valor mas frecuente. Es mas usada para variables categóricas
Medidas de dispersión:• Rango
• Intervalo intercuartil (diferencia entre los percentiles 25 y 75)
• Desviación estándar: en que monto promedio se desvían los valores observados de la media
• Varianza: media de las desviaciones (DE) elevada al cuadrado (?)
Comandos usados en STATA para obtener estadísticas de resumen
• codebook (variables numéricas)
• tabulate
Estimación puntual e intervalos de confianza
• Los parámetros de una población tienen un valor fijo, (es un número exacto)
• Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’
• Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población.
• La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’
Efectos del ‘muestreo’ en la estimación de un parámetro
Es mejor estimar el intervalo de confianza de un parámetro antes
que su estimación puntual…
• El intervalo de confianza es una ‘variable aleatoria’
• El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado
Intervalos de confianza de variables normales
Std.Err. = Std.Dev / sqrt(N)
Ci varlist, level( )
Exploración gráfica
• Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos.
• Método muy usado para presentar resultados.
• Un solo gráfico puede contener una densidad muy alta de información
• Sujeta a interpretaciones subjetivas y problemas de ilusión
Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball
Figure 10.8
6666
Representación gráfica de una tabulación bivariada
Comparando Desviaciones Estandard
Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Data B
Data A
Mean = 15.5 s = .9258
11 12 13 14 15 16 17 18 19 20 21
Mean = 15.5 s = 4.57
Data C
Dos bases de datos hipotéticas… Es importante tener una imagen visual de la distribución de la variable
La media provee una buena representación de los valores en la base de datos.
Datos de baja variabilidad
Datos con alta variabilidad
La media ya NO provee ahora una buena información de los datos comosucedía anterioremente
Al incrementar datos la distribución cambia..
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución:
Simétrica o sesgada
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución: Simétrica o sesgada
SimétricaMedia = Mediana = Moda
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución: Simétrica o sesgada
Sesgada izquierda SimétricaMean = Median = ModeMean Median Mode
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución: Simétrica o sesgada
Sesgada derechaSesgada izquierda SimétricaMedia = Mediana = ModaMedia Mediana Moda Mediana MediaModa
El comando ‘histogram’ en STATA
Histogram inf_edad, bin(12) kdensity
Box Plot (Gráfico de cajas)
• Se muestra gráficamente los datos utilizando 5 números (estadísticas de
resumen)
Mediana
4 6 8 10 12
Q3Q1 XMáximoXMínimo
Relación entre el perfil de la distribución y el Box Plot
Sesgada derechaSesgada izquierda Simétrica
Q1 Mediana Q3Q1 Mediana Q3 Q1
Mediana Q3
El comando ‘Graph’ en STATA
graph box inf_edad
0.0
1.0
2.0
3D
ensi
ty
0 20 40 60 80Edad del paciente
Box plot
Los gráficos ‘box-plot’ permiten realizar comparaciones
Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA
Scatter-plots y Ejemplos de Relaciones No-lineales
Ejemplos en Stata!
Ganancias25%
Ganancias25%
Representación gráfica y problemas éticos
Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis.
That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front …
Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.
Ganancias25%
.
Representación gráfica y potenciales abusos
Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.
No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down.
LaborCosts
AdministrativeCosts
LaborCosts
AdministrativeCosts
Now, if you could only show this declining sales picture as going up, all my problems would be solved.
Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up.
‘87 ‘88 ‘89 ‘90 ‘91 ‘920
25
50
75
100
‘87 ‘88 ‘89 ‘90 ‘91 ‘920
25
50
75
100
Representación gráfica y potenciales abusos
Manejo de datos fuera de rango (outliers)
• Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos.
• Razones para darse:• 1. Errores de medición• 2. Resultados atípicos
• La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas.
• PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’
Análisis de OUTLIERS:
Datos Simétricos
Valores que se exceden en 3 DS de la media
-3s X
outlier region
outlier region
+ 3sXX
Análisis de OUTLIERS:
Datos sesgados:
Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente)
Sesgada izquierda Sesgada Positiva
Q1 – 3(Q3 – Q1)Q1 Q3 Q1 Q3 Q3 + 3(Q3 – Q1)
outlier region outlier
region
Top Related