Post on 14-Dec-2015
Definiciones La estadística descriptiva se emplea
para describir un universo o como primer paso para el análisis inferencial de una muestra
La estadística inferencial se emplea para inferir conclusiones hacia una población a partir de los datos obtenidos de una muestra de población
Qué es un fenómeno aleatorio Es un fenómeno sobre el cual no se
tiene certeza (no hay una ley); ser atropellado al cruzar la calle, tener éxito si se compra un billete de lotería, comprar un vehículo que falle al primer año de uso, etc.
Un fenómeno sobre el que se tiene certeza se llama un fenómeno determinístico; la ley de la gravedad permite calcular con certeza cuánto se demorará un objeto en caer; cuánta agua desplazará un objeto sumergido de un cierto tamaño, etc
Niveles de medición y tipo de variables
El nivel de medición y la forma en que serán medidas las variables depende del nivel de detalle que se desee en el análisis
Tipos de variables Categóricas (también llamadas
cualitativas, de cadena o de texto) hacen referencia a la presencia o ausencia de una cualidad
Numéricas hacen referencia a un número que significa “cantidad”
“Otros tipos de variables” teléfonos, fechas, horas.
Niveles de medición Categóricas
Nominal (cualidades sin orden jerárquico) Binomial (dos posibles cualidades) Multinomial (más de dos posibles cualidades)
Ordinal (cualidades con orden jerárquico) Numéricas
De intervalo (el cero no es absoluto, no hay proporcionalidad en la escala)
De razón (el cero es absoluto, hay proporciónalidad en la escala)
Implicaciones para el análisis 30% fuman y 70% no fuman (Pregunta A
¿cuánto fuman los que fuman?) 10% fuman más de 5 paquetes día, 20%
fuman de 1 a 5 paquetes día, 70% no fuma (Pregunta B del grupo intermedio ¿son más los que fuman 5 paquetes que los que fuman 1?)
Resultados de la escala 0 10%, 1 12%, 2 25%, etc
Número de cigarrillos que fuma a diario permite responder las preguntas A y B, generar un promedio y calcular estadísticas más sofisticadas
Medidas de tendencia central
Sirven para describir en dónde se localiza el centro de los datos Media aritmética, media o promedio Media recortada Mediana Moda
Media
Se afecta por los valores extremos
Ejemplo promedio de notas= (4 + 4,2 + 4,5 + 3,5)/4= 4,05Ejemplo promedio de notas con un valor extremo= (4 + 4,2 + 4,5 + 3,5 + 1)/5= 3,44
n
xn
i
i 1 Media
Mediana I Es el valor bajo y por encima del cual está el
50% de los datos y por encima del cual está el 50% restante de los datos
No se afecta por los valores extremos; es similar a la media si los datos no son asimétricos
Si el número de datos es par la mediana está en el promedio entre el valor de la mitad y el que está inmediatamente después
Ejemplo: Edades ordenadas de 10 personas 20, 23, 25, 28, 32, 38, 46, 47, 48, 49
0,5*10= 5 resulta entre el valor que está en la quinta y la sexta
posición (32+38)/2=35
Mediana II
Si el número de datos es par, la mediana está en el valor que corresponde a la posición central más uno Ejemplo: Edades ordenadas de 11 personas 20, 23, 25, 28, 32, 38, 46, 47, 48, 49, 52
0,5*11= 5,5 la mediana correspondería al valor que esta en la
posición 5 más uno es decir en la sexta posición 38
Medidas de dispersión Sirven para describir cómo se
dispersan los datos alrededor del centro Recorrido Mínimo Máximo Desviación estándar Varianza Percentiles
Mínimo, máximo, recorrido
Mínimo es el valor mínimo en los datos ordenados
Máximo es el máximo valor en los datos ordenados
Recorrido resulta de restar el máximo menos el mínimo
Desviación estándar
Ejemplo promedio de notas (media=4,05)d.e.= raiz cuadrada ((4-4.05)2 + (4,2-4,05)2 + (4,5-
4,05)2 + (3,5-4,05)2 /3) = 0,42
Se puede interpretar intuitivamente como cuánto varia en promedio cada dato con respecto a la media
1.. 1
2
n
mediaxed
n
ii
Percentiles
Percentil 25 25% de los datos están por debajo de
este valor y 75% de los datos están por encima de este valor
Se calcula igual que la mediana
Medidas de dispersión relativa
Coeficiente de variaciónCV=d.e./media Ejemplo cuáles datos varían mas con
respecto a la media: ¿la edad o el ingreso de los alumnos?Edad 30, 32, 35, 36, 38, 39, 40Ingresos 1.5, 2, 2.3, 2.8, 3.5, 3.9, 4.7CV edad= 3,68 / 35,71 = 0,10 CV ingresos=1,13 / 2,95 = 0,38
Otras medidas de resumen Proporciones: El 30% de la población
son hombres
Razones: Por cada mujer hay 0,42 hombres
ba
aproporción
3,0
73
3
b
arazón
mujer)(1
hombres)(42,0
7
3
Estadísticas vs. nivel de medición
Binomial Multinomial Ordinal De intervalo De razónProporciones ▲ ▲ ▲Razones ▲ ▲Mediana ▲ ▲Moda ▲ ▲Recorrido ▲ ▲Mínimo ▲ ▲Máximo ▲ ▲Percentiles ▲ ▲Media ▲Desviación estándar ▲
Nivel de mediciónEstadística
Tipos de gráficos descriptivos
Arañas Barras (ordenadas, apiladas) Líneas Pasteles Histogramas Boxplot (cajas y bigotes) Puntos dispersos
Arañas
Variables binomiales, multinomiales u ordinales con las mismas categorías de de respuesta
Describen varios aspectos en una sola gráfica; son una buena manera de resumir.
Por el tipo radial, resultan engañosas dado que es más amplia el área al final de la araña que al principio
010
2030
4050
6070
8090
100Higiene
Equipos
Personal
Medicamentos
Infraestructura
Manuales
Extintores
Evacuación
Señal código azul
Señal codigo verde
Totalestablecimientos
Establecimientosque cumplen
Barras no apiladas Variables
multinomiales ordenando por frecuencia
Variables ordinales ordenando según categorías de respuesta
Permiten mostrar de manera rápida el aspecto más relevante y en ocasiones destacan más si son horizontales
0 20 40 60
Excelente
Bueno
Malo
Pésimo
Ca
lid
ad
pe
rcib
ida
de
l s
erv
icio
Porcentaje
0 20 40 60
Vergüenza
Dolor
Acceso
Falta de dinero
Mo
tiv
o d
e
ina
sis
ten
cia
Porcentaje
Barras apiladas
Variables multinomiales, ordinales o binomiales que tengan las mismas categorías de respuesta
Describen varios aspectos en una sola gráfica; son una buena manera de resumir
0% 20% 40% 60% 80% 100%
Higiene
Equipos
Personal
Medicamentos
Infraestructura
Manuales
Extintores
Evacuación
Señal código azul
Señal codigo verde
Asp
ecto
Porcentaje
Cumplen
No cumplen
Líneas Usualmente se
emplean para describir variables numéricas de razón con una secuencia temporal
Implican una secuencia ininterrumpida en el tiempo
0
10000
20000
30000
40000
50000
60000
19
81
19
83
19
85
19
87
19
89
19
91
19
93
19
95
19
97
19
99
20
01
Muertes
Añ
o
Tumores malignos
Enfermedades transmisibles
Tumores benignos y decomportamiento incierto
Enfermedades del sistemacirculatorio
Ciertas afecciones originadasen el período perinatal
Causas externas
Resto de causas
Síntomas, signos y afeccionesmal definidas
Pasteles
Utilidad similar a la de las barras no apiladas
Nunca deberían tener más de 7 categorías
Vergüenza
Dolor
Accesogeográfico
Falta de dinero
Histograma Se emplea para
variables numéricas medidas a nivel de razón
Muestra rápidamente la distribución de la población
Gráficas vs. nivel de medición
Binomial Multinomial Ordinal De intervalo De razónArañas ▲* ▲*Barras apiladas ▲* ▲ ▲**Barras no apiladas ▲ ▲**Pasteles ▲ ▲**Lineas ▲ ▲Histogramas ▲Boxplot ▲ ▲Puntos dispersos ▲* Sólo para resumir varias variables en una sola gráfica** Ordenadas por jerarquía
Nivel de mediciónGráfico