Estadísti...pptx

32
Estadística descriptiva

Transcript of Estadísti...pptx

Estadística descriptiva

Definiciones La estadística descriptiva se emplea

para describir un universo o como primer paso para el análisis inferencial de una muestra

La estadística inferencial se emplea para inferir conclusiones hacia una población a partir de los datos obtenidos de una muestra de población

Definición de la estadística

Es la ciencia que se ocupa del estudio de los fenómenos aleatorios

Qué es un fenómeno aleatorio Es un fenómeno sobre el cual no se

tiene certeza (no hay una ley); ser atropellado al cruzar la calle, tener éxito si se compra un billete de lotería, comprar un vehículo que falle al primer año de uso, etc.

Un fenómeno sobre el que se tiene certeza se llama un fenómeno determinístico; la ley de la gravedad permite calcular con certeza cuánto se demorará un objeto en caer; cuánta agua desplazará un objeto sumergido de un cierto tamaño, etc

Niveles de medición de variables

Características de una variable

Debe ser medible Debe variar en la población

Niveles de medición y tipo de variables

El nivel de medición y la forma en que serán medidas las variables depende del nivel de detalle que se desee en el análisis

Tipos de variables Categóricas (también llamadas

cualitativas, de cadena o de texto) hacen referencia a la presencia o ausencia de una cualidad

Numéricas hacen referencia a un número que significa “cantidad”

“Otros tipos de variables” teléfonos, fechas, horas.

Niveles de medición Categóricas

Nominal (cualidades sin orden jerárquico) Binomial (dos posibles cualidades) Multinomial (más de dos posibles cualidades)

Ordinal (cualidades con orden jerárquico) Numéricas

De intervalo (el cero no es absoluto, no hay proporcionalidad en la escala)

De razón (el cero es absoluto, hay proporciónalidad en la escala)

Implicaciones para el análisis 30% fuman y 70% no fuman (Pregunta A

¿cuánto fuman los que fuman?) 10% fuman más de 5 paquetes día, 20%

fuman de 1 a 5 paquetes día, 70% no fuma (Pregunta B del grupo intermedio ¿son más los que fuman 5 paquetes que los que fuman 1?)

Resultados de la escala 0 10%, 1 12%, 2 25%, etc

Número de cigarrillos que fuma a diario permite responder las preguntas A y B, generar un promedio y calcular estadísticas más sofisticadas

Medidas de tendencia central

Sirven para describir en dónde se localiza el centro de los datos Media aritmética, media o promedio Media recortada Mediana Moda

Media

Se afecta por los valores extremos

Ejemplo promedio de notas= (4 + 4,2 + 4,5 + 3,5)/4= 4,05Ejemplo promedio de notas con un valor extremo= (4 + 4,2 + 4,5 + 3,5 + 1)/5= 3,44

n

xn

i

i 1 Media

Mediana I Es el valor bajo y por encima del cual está el

50% de los datos y por encima del cual está el 50% restante de los datos

No se afecta por los valores extremos; es similar a la media si los datos no son asimétricos

Si el número de datos es par la mediana está en el promedio entre el valor de la mitad y el que está inmediatamente después

Ejemplo: Edades ordenadas de 10 personas 20, 23, 25, 28, 32, 38, 46, 47, 48, 49

0,5*10= 5 resulta entre el valor que está en la quinta y la sexta

posición (32+38)/2=35

Mediana II

Si el número de datos es par, la mediana está en el valor que corresponde a la posición central más uno Ejemplo: Edades ordenadas de 11 personas 20, 23, 25, 28, 32, 38, 46, 47, 48, 49, 52

0,5*11= 5,5 la mediana correspondería al valor que esta en la

posición 5 más uno es decir en la sexta posición 38

Medidas de dispersión Sirven para describir cómo se

dispersan los datos alrededor del centro Recorrido Mínimo Máximo Desviación estándar Varianza Percentiles

Mínimo, máximo, recorrido

Mínimo es el valor mínimo en los datos ordenados

Máximo es el máximo valor en los datos ordenados

Recorrido resulta de restar el máximo menos el mínimo

Desviación estándar

Ejemplo promedio de notas (media=4,05)d.e.= raiz cuadrada ((4-4.05)2 + (4,2-4,05)2 + (4,5-

4,05)2 + (3,5-4,05)2 /3) = 0,42

Se puede interpretar intuitivamente como cuánto varia en promedio cada dato con respecto a la media

1.. 1

2

n

mediaxed

n

ii

Percentiles

Percentil 25 25% de los datos están por debajo de

este valor y 75% de los datos están por encima de este valor

Se calcula igual que la mediana

Medidas de dispersión relativa

Coeficiente de variaciónCV=d.e./media Ejemplo cuáles datos varían mas con

respecto a la media: ¿la edad o el ingreso de los alumnos?Edad 30, 32, 35, 36, 38, 39, 40Ingresos 1.5, 2, 2.3, 2.8, 3.5, 3.9, 4.7CV edad= 3,68 / 35,71 = 0,10 CV ingresos=1,13 / 2,95 = 0,38

Otras medidas de resumen Proporciones: El 30% de la población

son hombres

Razones: Por cada mujer hay 0,42 hombres

ba

aproporción

3,0

73

3

b

arazón

mujer)(1

hombres)(42,0

7

3

Estadísticas vs. nivel de medición

Estadísticas vs. nivel de medición

Binomial Multinomial Ordinal De intervalo De razónProporciones ▲ ▲ ▲Razones ▲ ▲Mediana ▲ ▲Moda ▲ ▲Recorrido ▲ ▲Mínimo ▲ ▲Máximo ▲ ▲Percentiles ▲ ▲Media ▲Desviación estándar ▲

Nivel de mediciónEstadística

Gráficos descriptivos

Tipos de gráficos descriptivos

Arañas Barras (ordenadas, apiladas) Líneas Pasteles Histogramas Boxplot (cajas y bigotes) Puntos dispersos

Arañas

Variables binomiales, multinomiales u ordinales con las mismas categorías de de respuesta

Describen varios aspectos en una sola gráfica; son una buena manera de resumir.

Por el tipo radial, resultan engañosas dado que es más amplia el área al final de la araña que al principio

010

2030

4050

6070

8090

100Higiene

Equipos

Personal

Medicamentos

Infraestructura

Manuales

Extintores

Evacuación

Señal código azul

Señal codigo verde

Totalestablecimientos

Establecimientosque cumplen

Barras no apiladas Variables

multinomiales ordenando por frecuencia

Variables ordinales ordenando según categorías de respuesta

Permiten mostrar de manera rápida el aspecto más relevante y en ocasiones destacan más si son horizontales

0 20 40 60

Excelente

Bueno

Malo

Pésimo

Ca

lid

ad

pe

rcib

ida

de

l s

erv

icio

Porcentaje

0 20 40 60

Vergüenza

Dolor

Acceso

Falta de dinero

Mo

tiv

o d

e

ina

sis

ten

cia

Porcentaje

Barras apiladas

Variables multinomiales, ordinales o binomiales que tengan las mismas categorías de respuesta

Describen varios aspectos en una sola gráfica; son una buena manera de resumir

0% 20% 40% 60% 80% 100%

Higiene

Equipos

Personal

Medicamentos

Infraestructura

Manuales

Extintores

Evacuación

Señal código azul

Señal codigo verde

Asp

ecto

Porcentaje

Cumplen

No cumplen

Líneas Usualmente se

emplean para describir variables numéricas de razón con una secuencia temporal

Implican una secuencia ininterrumpida en el tiempo

0

10000

20000

30000

40000

50000

60000

19

81

19

83

19

85

19

87

19

89

19

91

19

93

19

95

19

97

19

99

20

01

Muertes

o

Tumores malignos

Enfermedades transmisibles

Tumores benignos y decomportamiento incierto

Enfermedades del sistemacirculatorio

Ciertas afecciones originadasen el período perinatal

Causas externas

Resto de causas

Síntomas, signos y afeccionesmal definidas

Pasteles

Utilidad similar a la de las barras no apiladas

Nunca deberían tener más de 7 categorías

Vergüenza

Dolor

Accesogeográfico

Falta de dinero

Histograma Se emplea para

variables numéricas medidas a nivel de razón

Muestra rápidamente la distribución de la población

Gráfico de cajas Es un gráfico muy

potente; resume de manera muy rápida y eficiente datos numéricos

Gráficas vs. nivel de medición

Binomial Multinomial Ordinal De intervalo De razónArañas ▲* ▲*Barras apiladas ▲* ▲ ▲**Barras no apiladas ▲ ▲**Pasteles ▲ ▲**Lineas ▲ ▲Histogramas ▲Boxplot ▲ ▲Puntos dispersos ▲* Sólo para resumir varias variables en una sola gráfica** Ordenadas por jerarquía

Nivel de mediciónGráfico