Download - Estadística Descriptiva para variables continuas

Estadística Descriptiva para

variables continuas

Tópicos a tratar…

• Repaso clase anterior• Identificación de variables continuas• Medidas de tendencia central y dispersión• Presentaciones gráficas• Estimación puntual e intervalos de

confianza• Manejo de valores fuera de rango

Que buscamos?Obtener un ‘sabor’ de los datos

continuos…

•Estimar algunos parametros de la poblacion, en forma puntual y por intervalos

•‘Aprender’ de los datos continuos a través de una visualización gráfica

•Examinar la calidad de los datos

Clasificación general:

Categórica Cuantitativa o numérica

Nominal Ordinal Discreta Continua

Ejemplos:

• Nominales: Sexo, estado civil, presencia de morbilidad, resultado del tratamiento

• Ordinales: Severidad de morbilidad, riesgo quirúrgico, resistencia a antibioticos

• Discretas: Cociente intelectual, tiempo de tratamiento u hospitalización

• Contínuas: concentración de alcohol en la sangre

Comandos usados en STATA para identificar el tipo de variable:

• codebook

• tabulate

ATENCION !

• STATA puede identificar un tipo de variable de manera erronea !

• Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.

Recordemos las características de una variable continua con distribución normal…

Figure 10.10

66

Distribución de frecuencias

Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.

Raw Score Frequency64 263 161 259 256 252 151 238 436 334 531 529 527 525 124 221 217 215 16 23 1

n = 50

Raw Scores(Intervals of Five) Frequency

60–64 555–59 450–54 345–49 040–44 035–39 730–34 1025–29 1120–24 415–19 310–14 05–9 20–4 1

n = 50

De ‘variables continuas’ a ‘variables categóricas’

MIRKO, usa tabulate con generate aqui para representar esto

Ojo que se les ha indicado que esto se usa mas para covariables que para sus outcomes

Representación gráfica de una tabulación bivariada

Comando “histogram”

Estadísticas de resumen:

El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.

Medidas de tendencia central:

• Promedio o media aritmética. Mas sensible a valores extremos

• Mediana o percentil 50: Valor que divide una distribución ordenada por la mitad

• Moda: Valor mas frecuente. Es mas usada para variables categóricas

Medidas de dispersión:• Rango

• Intervalo intercuartil (diferencia entre los percentiles 25 y 75)

• Desviación estándar: en que monto promedio se desvían los valores observados de la media

• Varianza: media de las desviaciones (DE) elevada al cuadrado (?)

Comandos usados en STATA para obtener estadísticas de resumen

• codebook (variables numéricas)

• tabulate

Estimación puntual e intervalos de confianza

• Los parámetros de una población tienen un valor fijo, (es un número exacto)

• Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’

• Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población.

• La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’

Efectos del ‘muestreo’ en la estimación de un parámetro

Es mejor estimar el intervalo de confianza de un parámetro antes

que su estimación puntual…

• El intervalo de confianza es una ‘variable aleatoria’

• El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado

Intervalos de confianza de variables normales

Std.Err. = Std.Dev / sqrt(N)

Ci varlist, level( )

Exploración gráfica

• Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos.

• Método muy usado para presentar resultados.

• Un solo gráfico puede contener una densidad muy alta de información

• Sujeta a interpretaciones subjetivas y problemas de ilusión

Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball

Figure 10.8

6666

Representación gráfica de una tabulación bivariada

Comparando Desviaciones Estandard

Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

Data B

Data A

Mean = 15.5 s = .9258

11 12 13 14 15 16 17 18 19 20 21

Mean = 15.5 s = 4.57

Data C

Dos bases de datos hipotéticas… Es importante tener una imagen visual de la distribución de la variable

La media provee una buena representación de los valores en la base de datos.

Datos de baja variabilidad

Datos con alta variabilidad

La media ya NO provee ahora una buena información de los datos comosucedía anterioremente

Al incrementar datos la distribución cambia..

Perfil de la distribución

• Describe cómo los Datos están Distribuídos

• Caracterización del perfil de la distribución:

Simétrica o sesgada



• Caracterización del perfil de la distribución: Simétrica o sesgada

SimétricaMedia = Mediana = Moda




Sesgada izquierda SimétricaMean = Median = ModeMean Median Mode




Sesgada derechaSesgada izquierda SimétricaMedia = Mediana = ModaMedia Mediana Moda Mediana MediaModa

El comando ‘histogram’ en STATA

Histogram inf_edad, bin(12) kdensity

Box Plot (Gráfico de cajas)

• Se muestra gráficamente los datos utilizando 5 números (estadísticas de

resumen)

Mediana

4 6 8 10 12

Q3Q1 XMáximoXMínimo

Relación entre el perfil de la distribución y el Box Plot

Sesgada derechaSesgada izquierda Simétrica

Q1 Mediana Q3Q1 Mediana Q3 Q1

Mediana Q3

El comando ‘Graph’ en STATA

graph box inf_edad

0.0

1.0

2.0

3D

ensi

ty

0 20 40 60 80Edad del paciente

Box plot

Los gráficos ‘box-plot’ permiten realizar comparaciones

Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA

Scatter-plots y Ejemplos de Relaciones No-lineales

Ejemplos en Stata!

Ganancias25%

Ganancias25%

Representación gráfica y problemas éticos

Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis.

That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front …

Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

Ganancias25%

.

Representación gráfica y potenciales abusos

Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.

No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down.

LaborCosts

AdministrativeCosts

LaborCosts

AdministrativeCosts

Now, if you could only show this declining sales picture as going up, all my problems would be solved.

Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up.

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

Representación gráfica y potenciales abusos

Manejo de datos fuera de rango (outliers)

• Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos.

• Razones para darse:• 1. Errores de medición• 2. Resultados atípicos

• La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas.

• PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

Análisis de OUTLIERS:

Datos Simétricos

Valores que se exceden en 3 DS de la media

-3s X

outlier region

outlier region

+ 3sXX

Análisis de OUTLIERS:

Datos sesgados:

Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente)

Sesgada izquierda Sesgada Positiva

Q1 – 3(Q3 – Q1)Q1 Q3 Q1 Q3 Q3 + 3(Q3 – Q1)

outlier region outlier

region