Estadística descriptiva: el análisis exploratorio de los
datos
Martes, Viernes y Sábados de 9-11 hs
Mapa del epidemiólogo británico John Snow (1854)
2Estadística 2018 - Prof. Tamara Burdisso
Boleta mariposa del condado de Palm Beach del estado de Florida – Elecciones presidenciales EE.UU. año 2000
3Estadística 2018 - Prof. Tamara Burdisso
Elecciones presidenciales EE.UU. año 2000. Estado de la Florida, 67 condados
0
500
1000
1500
2000
2500
3000
3500
0 50000 100000 150000 200000 250000 300000 350000 400000
Votos a presidente para Al Gore
Vo
tos
a p
resid
en
te p
ara
Bu
ch
an
an
4Estadística 2018 - Prof. Tamara Burdisso
El desastre del Challenger – 28 de enero de 1986
0
1
2
3
25 35 45 55 65 75 85
Temperatura en °F en las juntas al momento del lanzamineto
Nú
mero
de ju
nta
s c
on
alg
ún
dañ
o
Temperatura prevista en el
momento del lanzamiento
5Estadística 2018 - Prof. Tamara Burdisso
El desastre del Challenger – 28 de enero de 1986
0
1
2
3
25 35 45 55 65 75 85
Temperatura en °F en las juntas al momento del lanzamineto
Nú
mero
de ju
nta
s c
on
alg
ún
dañ
o
Temperatura prevista en el
momento del lanzamiento
0
1
2
3
25 35 45 55 65 75 85
Temperatura en °F en las juntas al momento del lanzamiento
Nú
mero
de ju
nta
s c
on
alg
ún
dañ
o
6Estadística 2018 - Prof. Tamara Burdisso
Estadística descriptiva
• Primer análisis de un conjuntos de datos
• A través de un grupo de medidas resumen: métodos numéricos
• A través del análisis exploratorio: métodos gráficos y tabulares.
7Estadística 2018 - Prof. Tamara Burdisso
Estadística descriptiva: medidas resumen de un conjunto de datos
• Para resumir la información de un conjunto de datos, la estadística dispone de unas pocas medidas que concentran la máxima información -no más de 6 valores- que brindan un idea clara del comportamiento general de los datos.
• Estas medidas suelen presentarse en tres grandes grupos
• De tendencia central
• De dispersión
• De posición
8Estadística 2018 - Prof. Tamara Burdisso
• La media o promedio aritmético es la medida de tendencia central más popular (fácil de entender y de calcular)
• ¡Cuidado! ¿Qué ocurre si queremos obtener el promedio de dos medias, , con y observaciones respectivamente?
De tendencia central: la media
=
= ==+++
=n
i
i
n
i
i
n xnn
x
n
xxxx
1
121 1...
2n1n21 xyx
n
xnxn
nn
xnxnx 2211
21
2211 +=
+
+=
9Estadística 2018 - Prof. Tamara Burdisso
• En una empresa la edad media de sus trabajadores es de 36 años para los hombres y 32 para las mujeres. ¿Cuál es la edad media de sus trabajadores? ¿De qué depende?
• Ejemplo: Considere el siguiente conjunto de datos: 6, 7, 5, 2, 3, 8, 9
• Gran sensibilidad de la media a la presencia de valores extremos/atípicos/inusuales/anómalos/outliers.
De tendencia central: la media
)()( 21222111 nnnfynnnf +=+=
2211 xfxfx +=
71.57
9832576=
++++++=x
99 57.18=x
10Estadística 2018 - Prof. Tamara Burdisso
De tendencia central: la mediana
• La mediana es el valor que al ordenar los datos de menor a mayor, deja 50% de los datos a la izquierda de ese valor y 50% de los datos a la derecha.
• En el ejemplo anterior la mediana es: 2, 3, 5, 6, 7, 8, 9
• Y si la muestra es 2, 3, 5, 6, 7, 8, 99 ¿cual es la media? ¿y la mediana?
• Escasa influencia de los valores extremos de la muestra en el cálculo de la mediana.
• Más recomendable que la media cuando se trabaja con datos que aún no han sido depurados.
• Es la medida de tendencia central que se debería mirar cuando se analizan variables como salarios, ingresos totales, etc.
11Estadística 2018 - Prof. Tamara Burdisso
De tendencia central: la mediana
• Escasa influencia de los valores extremos de la muestra. Se diceq ue la mediana es una medida central robusta (a la presencia de valores extremos).
• Más recomendable que la media cuando se trabaja con datos que aún no han sido depurados.
• Es la medida de tendencia central que se debería mirar cuando se analizan variables como salarios, ingresos totales, etc.
• https://www.lanacion.com.ar/2107355-walter-sosa-escudero-los-datos-estadisticos-no-dicen-nada-son-interpretaciones
12Estadística 2018 - Prof. Tamara Burdisso
De tendencia central: la mediana y la moda
• Cómo se calcula la mediana cuando el nro. de observaciones es par?
2, 3, 5, 5, 6, 7, 8, 9
• La moda es el valor más frecuente. En 2, 3, 5, 5, 6, 7, 8, 9, es el 5.
• Si la muestra fuese 2, 3, 5, 5, 6, 7, 8, 9, 9 entonces la moda es 5 y 9.
• Tiene más sentido con datos cualitativos. Ej. En una muestra el color de ojos más frecuente.
• Su presencia como medida de tendencia central se debe más a la tradición que a su utilidad.
Mediana=(5+6)/2=5.5
13Estadística 2018 - Prof. Tamara Burdisso
De dispersión
• Un estadístico podría meter su cabeza en un horno y sus pies en hielo y decir que en promedio se encuentra bien. ¿Exagerado no? Pero piensen en el PIB per capita, indicador referente al bienestar de una nación.
• Resumir toda la información en un número sin atender a la variabilidad que presentan los datos es un problema grave.
• Se debe entonces cuantificar la dispersión
14Estadística 2018 - Prof. Tamara Burdisso
De dispersión: rango, varianza muestral y desvío estándar muestral
• El rango es la diferencia entre el valor máximo y el mínimo observado en la muestra. Ej 2, 3, 5, 5, 6, 7, 8, 9; Rango=9-2=7
• Medida muy sencilla pero poco confiable. Sólo tiene en cuenta los extremos del conjunto de datos. Podrían ser anómalos. Su utilidad puede estar en muestras pequeñas (menos de 10 datos).
• La medida de variabilidad más utilizada es el desvío estándar muestral o desviación típica.
• ¿Cómo haríamos para cuantificar la dispersión o variabilidad de un conjunto de datos? ¿La dispersión con respecto a quién?
15Estadística 2018 - Prof. Tamara Burdisso
De dispersión: varianza muestral y desvío estándar muestral
( )siempre0=
−
i
i
n
xx
• Supongamos que disponemos de una muestra que es : 1, 2 ,4 ,7, 9. La media es 4.6.
1 2 4 7 9
4.6
16Estadística 2018 - Prof. Tamara Burdisso
• La varianza muestral es una medida bastante buena para medir la variabilidad
• Al igual que la media es muy sensible a la presencia de valores extremos (más aún por estar elevada al cuadrado)
• El inconveniente de la varianza es que las unidades son las mismas que la de los datos elevadas al cuadrado. Difícil de interpretar.
• La raíz cuadrada de la varianza se llama desvío estándar. La ventaja del desvío estándar es que se expresa las mismas unidades físicas de las observaciones.
De dispersión: varianza y desvío estándar
1
)(1
2
2
−
−
==
n
xx
s
n
i
i
1
)(1
2
−
−
==
n
xx
s
n
i
i
17Estadística 2018 - Prof. Tamara Burdisso
Cálculo de la varianza muestral y desvío estándar
1
)(1
2
2
−
−
==
n
xx
s
n
i
i
• Cómo se calcula a mano la varianza?
• En excel, varianza=var(lista de números) y el desvío estándar =desvest(lista de números)
• Varianza( esperanza de vida)=82.94 años2
• Desvío estándar (esperanza de vida)=9.11 años
País Esperanza de vida en años
1 Afghanistan 60.9
2 Albania 77.4
3 Algeria 71.0
4 Angola 51.9
5 Antigua and Barbuda 76.0
6 Argentina 76.3
7 Armenia 74.6
…
…
183 Zambia 58.1
184 Zimbabwe 59.9
13.70=x
1
)(1
2
2
−
−
==
n
xx
s
n
i
i
18Estadística 2018 - Prof. Tamara Burdisso
Cálculo de la varianza muestral y desvío estándar
• Cómo se calcula a mano la varianza?
• En Excel, media=promedio(lista de números)
• En excel, varianza=var(lista de números) y el desvío estándar =desvest(lista de números)
19Estadística 2018 - Prof. Tamara Burdisso
(xi-media) (xi-media)2
2 -2.83 8.03
4 -0.83 0.69
3 -1.83 3.36
8 3.17 10.03
5 0.17 0.03
7 2.17 4.69
suma 29 suma 26.83
# de observaciones 6 varianza 5.37
media 4.83 desvío 2.32
Cálculo de la varianza y desvío estándar
• ¿Por qué usamos las desviaciones respecto de la media al cuadrado en el cálculo de la varianza?
• Porque es una forma fácil de deshacerse de los valores negativos, y así las observaciones que se encuentran a la derecha y/o a la izquierda son penalizadas de la misma manera.
• Y como se trata de una función cuadrática cuanto más lejos están de la media más ponderan, i.e más aumenta la variabilidad.
• Tener presente que la varianza y el desvío estándar no son dos medidas diferentes de dispersión. Cuando se conoce una de ellas, inmediatamente se conoce la otra.
20Estadística 2018 - Prof. Tamara Burdisso
• La desviación media absoluta (DMA) pone el foco en las desviaciones y no en los signos de estas. Muestra menos sensibilidad a los valores extremos que la varianza o la desviación estándar. Matemáticamente es más complejo trabajar con la DMA.
• La desviación mediana absoluta (DMedA). De utilidad frente a la presencia de valores extremos.
De dispersión: otras medidas
n
xxn
i
i=
−
= 1absoluto medio desvío
n
medianaxn
i
i=
−
= 1absoluta mediana desviación
21Estadística 2018 - Prof. Tamara Burdisso
Otra medida descriptiva: coeficiente de variación
• Supóngase que se disponen de dos o más muestras, y si quiere determinar cual de ellas tienen mayor variabilidad. ¿Que medida utilizo?
• Recordemos que la varianza (desvío estándar) es respecto de la propia media de la variable en cuestión. ¿Cómo hago para comparar la variabilidad de dos o más variables cuando tienen distintos desvíos estándar y distintas medias?
• La solución nos la brinda el 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 =𝑠
ത𝑋
• Expresa al desvío estándar como proporción de la media. Por lo tanto, es una medida libre de unidades.
22Estadística 2018 - Prof. Tamara Burdisso
Otra medida descriptiva: coeficiente de variación
• Cuanto mayor el coeficiente de variación (CV) mayor la variabilidad presente en los datos.
• Por lo general el CV es menor a 1.
• Para una mejor interpretación se suele presentar al CV multiplicado por 100 ( como un %).
• El coeficiente de variación es capaz de lidiar con los problemas de dimensionalidad de las variables de distintas muestras (e.g. peso y altura) y problemas de diferencia enormes en las medias de las muestras (e.g. peso de los elefante y de las hormigas).
23Estadística 2018 - Prof. Tamara Burdisso
Otra medida descriptiva: coeficiente de variación
• El CV tiene algunos problemas.
• La media debería ser positiva (i.e. las observaciones positivas o nulas), porque el CV es una medida de variabilidad y por ende es nula o positiva.
• Cuando la media es cercana a 0 ( el aumento en el CV no necesariamente se debe a mayor variabilidad en los datos) el CV pierde significado.
• No es invariante a cambios en el origen.
• Es invariante a cambios de escala.
• Ejemplo: ¿quien presenta mayor variabilidad, el peso o la altura?
24Estadística 2018 - Prof. Tamara Burdisso
Peso hombres
(cm.)
Altura hombres
(cm.)
media 74.5 168.8
desvío típico 13 14
Muestra de cierto país
Otras medidas: Q1, Q2 y Q3 o medidas de posición
• Recordemos que la mediana es el valor que deja 50% de los datos a izquierda y 50% a derecha.
• De la misma forma, se podría determinar el valor que deja 50% de los datos a izquierda y 50% de los datos a la derecha dentro de la primera mitad. Esta nueva mediana es el primer cuartil y se denota por Q1 (quartile) equivalente al 25% de los datos.
• El mismo procedimiento podría realizarse con la mitad de los datos por encima de la mediana. En este caso se estaría determinando el tercer cuartil, Q3, equivalente al 75% de los datos.
Mediana=Q2Q1 Q3
25% 25% 25% 25%
75%
75%
25Estadística 2018 - Prof. Tamara Burdisso
Otras medidas: Q1, Q2 y Q3 y rango intercuartílico
• Q1, Q2 y Q3 son medidas de posición, para establecer “mojones”.
• La medida más sencilla de dispersión es el Rango=valor máximo-valor mínimo. Poco confiable.
• Rango intercuartílico: RIC (IQR son las siglas en inglés) Se calcula como Q3-Q1. Corresponde al 50% de los datos.
• Se trata de una medida de dispersión que elimina la influencia de los valores extremos.
• El rango intercuartílico es una medida robusta de dispersión.
• Ejemplo: dada la muestra 2825, 2380, 2210, 2630, 2255, 2380, 2350, 2390, 2440, 2450, 2420, 2550; hallar Q1, Q2 y Q3.
26Estadística 2018 - Prof. Tamara Burdisso
Otras medidas de posición
• Existen otras medidas de posición o “mojones” de la distribución . Se denominan percentiles.
• Los percentiles dan información de como se distribuyen los datos observados.
• El p-ésimo percentil es un valor tal que por lo menos un p% de los elementos tiene este valor o menos, y al menos un (100-p)% tienen este valor o más.
• Percentiles “famosos”: los percentiles de las tablas de pesos de los pediatras; los deciles de la distribución del ingreso, etc.
27Estadística 2018 - Prof. Tamara Burdisso
Como se calcula un p-ésimo percentil
1. Ordenar los datos de forma ascendente
2. Calcular el índice i, donde p es el percentil de interés y n es la cantidad de observaciones en la muestra.
3. (a) Si i no resulta entero, se redondea. El valor entero inmediato mayor que i, indica la posición del p-esimo percentil.
(b) Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1
Ejemplo: dada la muestra 2825, 2380, 2210, 2630, 2255, 2380, 2350, 2390, 2440, 2450, 2420, 2550; hallar el percentilo 20 y el percentilo 50.
np
i
=
100
28Estadística 2018 - Prof. Tamara Burdisso
Medidas robustas
• Ejercicio: ¿quién está menos afectado por los valores extremos, la media o la mediana? ¿Y quién entre el desvío estándar y el RIC?
a. Media y desvío
b. Media y RIC
c. Mediana y RIC
d. Mediana y SD
29Estadística 2018 - Prof. Tamara Burdisso
Resumiendo…
Robusta No Robusta
de tendencia central Q2=mediana media
de dispersiónIQR=rango
intercuartílico
desvío estándar,
rango
30Estadística 2018 - Prof. Tamara Burdisso
• La media y el desvío estándar pueden ser aprovechados para aprender acerca de un conjunto de datos
• Se puede determinar la localización relativa de cualquier valor de un conjunto de datos
• Supongamos que se dispone de una muestra de datos de tamaño n, i.e. y que conocemos su media y su desvío estándar .
• Valor z o valor estandarizado:
• El valor se interpreta como la cantidad de desviaciones estándar que la observación dista de
• Ejemplo: 46, 54, 42, 46, 32
Medidas de localización relativa: valor z
nxxx ,...,, 21 xs
s
xxz i
i
−=
iz
xix
31Estadística 2018 - Prof. Tamara Burdisso
• Si indica que es 1.5 desvíos estándar mayor que la media,
• Si indica que está a 0.5 ó ½ desvío estándar por debajo(signo negativo) de la media.
• Valores mayores que cero indican que la observación es mayor a la media. Valores menores que cero indica observaciones por debajo de la media.
• Valores igual a cero corresponde a datos igual al promedio.
• Para cualquier elemento de la muestra el valor indica la ubicación relativa del elemento en un conjunto de datos.
• Si los elementos de dos diferentes conjuntos de datos tienen el mismo valor , se puede afirmar que poseen la misma ubicación relativa.
• Los valores de un conjunto de datos revelan rápidamente cuales podrían considerarse como valores inusuales o extremos.
Medidas de localización relativa: valor z
z
z
z
x
ix
5.11 =z 1x
5.0−=iz
z
z
z
32Estadística 2018 - Prof. Tamara Burdisso
• La desigualdad de Chebyshev permite inferir el porcentaje de elementos (observaciones) que deben quedar dentro de una cantidad específica de desvíos estándar respecto a la media.
• Teorema: dado un número y una muestra , por lo menos de las observaciones, estará entre
• La desigualdad de Chebyshev proporciona una cota para la distribución de los datos, sin importar como se distribuyen, ni la variabilidad que exhiban.
Desigualdad de Chebyshev (1845/1850)
( )%11100 2k−
nxxx ,...,, 21
( )ksxksx +− ,
1k
Valor z2 75% de las observaciones están a menos de 2 desvíos estándar3 89% de las observaciones están a menos de 3 desvíos estándar4 94% de las observaciones están a menos de 4 desvíos estándar
33Estadística 2018 - Prof. Tamara Burdisso
Estadística descriptiva: métodos gráficos
• Datos numéricos - Fuente: www.gapminder.org
• Datos categóricos - Fuente: openintro.org
País Esperanza de vida en años
1 Afghanistan 60.9
2 Albania 77.4
3 Algeria 71.0
4 Angola 51.9
5 Antigua and Barbuda 76.0
6 Argentina 76.3
7 Armenia 74.6
…
…
183 Zambia 58.1
184 Zimbabwe 59.9
gender age maritalStatushighestQualificationnationality ethnicity
Male 38 Divorced No QualificationBritish White
Female 42 Single No QualificationBritish White
Male 40 Married Degree English White
Female 40 Married Degree English White
Female 39 Married GCSE/O LevelBritish White
Female 37 Married GCSE/O LevelBritish White
Male 53 Married Degree British White
34Estadística 2018 - Prof. Tamara Burdisso
Estadística descriptiva: datos numéricos
• Fuente: www.gapminder.org
País Esperanza de vida en años
1 Afghanistan 60.9
2 Albania 77.4
3 Algeria 71.0
4 Angola 51.9
5 Antigua and Barbuda 76.0
6 Argentina 76.3
7 Armenia 74.6
…
…
183 Zambia 58.1
184 Zimbabwe 59.9
35Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: histograma
• Representación gráfica que se utiliza para identificar patrones de un conjunto de datos, la densidad de los mismos, agrupándolos en un número relativamente pequeño de clases no solapadas.
Tabulation of Esperanza de vida en años
Date: 02/05/15 Time: 18:00
Sample: 1 184
Included observations: 180
Number of categories: 8
Cumulative CumulativeValue Count Percent Count Percent
[45, 50) 5 2.78 5 2.78
[50, 55) 9 5 14 7.78
[55, 60) 14 7.78 28 15.56
[60, 65) 19 10.56 47 26.11
[65, 70) 27 15 74 41.11
[70, 75) 43 23.89 117 65
[75, 80) 38 21.11 155 86.11[80, 85) 25 13.89 180 100
Total 180 100 180 100
Frecuencia de
clase
clases
Frecuencia
relativa
Frecuencia
acumulada
Frecuencia
relativa
acumulada
Tabla de frecuencias o distribución de frecuencias
36Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: histograma
• Cantidad de clases: entre 5 y 20
• Ancho de clase aprox: (valor máx.-valor mín.)/cantidad de clases
• Su utilidad radica en revelar rápidamente la forma de la distribución de los datos.
Distribución de frecuencias relativas de la esperanza de vida
0
5
10
15
20
25
30
[45, 50) [50, 55) [55, 60) [60, 65) [65, 70) [70, 75) [75, 80) [80, 85)
0
10
20
30
40
50
45 50 55 60 65 70 75 80 85
Fre
qu
en
cy
Esperanza de vida
37Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: histograma
• ¡Cuidado con el ancho de clase! Puede alterar la historia de lo que se está contando.
0
10
20
30
40
50
45 50 55 60 65 70 75 80 85
Fre
qu
en
cy
Esperanza de vida
20
40
60
80
100
120
140
40 50 60 70 80 90 100
Fre
qu
en
cy
Esperanza de vida
0
2
4
6
8
10
12
14
16
44 48 52 56 60 64 68 72 76 80 84
Fre
qu
en
cy
Esperanza de vida
38Estadística 2018 - Prof. Tamara Burdisso
Forma del histograma: asimetría o sesgo
• Cuando los datos se mueven en una dirección se dice que la distribución tiene cola larga/pesada. Si la distribución tiene cola larga hacia la izquierda (derecha), entonces es sesgada hacia la izquierda (derecha).
Asimetría o sesgo a la derecha
Asimetría o sesgo a la izquierda
Simétrica
39Estadística 2018 - Prof. Tamara Burdisso
Forma del histograma: asimetría o sesgo
• ¿Dónde se ubican la media y la mediana en estas distribuciones?
Asimetría o sesgo a la derecha
Asimetría o sesgo a la izquierda
Simétrica
MEDIA……...MEDIANA MEDIA……...MEDIANA MEDIA…..….MEDIANA
40Estadística 2018 - Prof. Tamara Burdisso
Forma de la distribución: asimetría o sesgo
Asimetría o sesgo a la derecha
Asimetría o sesgo a la izquierda
Simétrica
MEDIA < MEDIANA MEDIA ~ MEDIANA MEDIA > MEDIANA
media
mediana mediana
media
41Estadística 2018 - Prof. Tamara Burdisso
Forma del histograma: moda
• ¿Cuantos picos (máximos locales) prominentes tiene el histograma?
• Sólo uno → unimodal
• Dos → bimodal
• Tres o más → multimodal
• Ningún pico → uniforme42
Estadística 2018 - Prof. Tamara Burdisso
Forma del histograma: outliers
• ¿Existen observaciones anómalas o inusuales en los datos?
• ¿Por qué los outliers son importantes?
• Revelan información sobre la falta de simetría/ sesgo.
• Pueden llevar a revisar la carga de los datos (errores de tipeo)
• Brindan información interesante sobre la distribución de los datos.
43Estadística 2018 - Prof. Tamara Burdisso
Forma del histograma: outliers
• Moda
• Sesgo
unimodal bimodal multimodal uniforme
simétrica Sesgada a izquierda Sesgada a derecha44
Estadística 2018 - Prof. Tamara Burdisso
Ejercicio
• ¿Cuales de estas variables esperaría que muestren una distribución uniforme?
• Precios de los departamentos en la Ciudad de Buenos Aires.
• Salarios de una muestra de individuos tomada al azar en la provincia de Santa Fe.
• La fecha de nacimiento (día y mes) de todos los alumnos que actualmente cursan Estadística.
45Estadística 2018 - Prof. Tamara Burdisso
Ejercicio
• ¿Cuál de las siguientes alternativa se ajusta mejor al histograma del porcentaje de tiempo que los alumnos de una clase destinan a tomar nota de la clase vs. a navegar en Facebook, Twitter, whatsApp, etc ?
a) mediana > media c) media ~ mediana
b) media > mediana d) no puede inferirse46
Estadística 2018 - Prof. Tamara Burdisso
• Anatomía del box-plot
• Ejercicio: calcular el LS y el LI de los bigotes (wiskers)
Datos numéricos: diagrama de cajas (Box-Plot)
RICQRICQ *3 lejanooutlier ó *3lejanooutlier 13 −+
45
50
55
60
65
70
75
80
85
ESPERANZA_VIDA
Descriptive Statistics for
Esperanza de vida
Mean 70.25
Median 72.72
Max 83.58
Min. 45.56
Quant. p=0.25 64.27
Quant. p=0.75 76.58
Std. Dev. 9.10
Obs. 180
RICQRICQRICQRICQ *5.1 cercanooutlier *3 ó *3 cercanooutlier *5.1 1133 −−++
47Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: histogramas vs. boxplots
48Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: diagrama de tallos y hojas (stem and leaf)
Stem-and-leaf plot for lifeexpectancyatbirth (Life expectancy at birth)
Steam
4s
4
5*
5t
5f
5s
5
6*
6t
6f
6s
6
7*
7t
7f
7s
7
8*
8t
8f
8 8 8 8 8 9 9 9
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 2 2 2 3 3
4
8 8 8 8 8 8 8 8 8 9 9 9 9 9 9
2 2 2 2 2 2 2 3 3 3 3 3 3 3
6 6 6 6 6 6 6 7 7 7 7 7 7
0 0 0 1 1 1 1 1 1 1 1
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
0 1 1 1 1
2 2 2 2 2 2 3 3 3 3 3
4 4 4 5 5 5
6 6 6 7 7 7 7
4 4 5 5 5 5 5
6 67 7
8 8 9 9 9 9
Leaf
6
8 9 9
0 0 0 1 1
2 3 3
http://www.calculatorsoup.com/calculators/statistics/stemleaf.php
49Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: series de tiempo
• Cuando se desea tener en cuenta el orden en que se han tomado los datos, los histogramas no son útiles.
• En estos casos se considera un gráfico de series de tiempo.
• Cuidado con las escalas! No caer en la trampa, particularmente cuando se realizan comparaciones.
Argentina- Tasa de inflación anual
-500
0
500
1000
1500
2000
2500
3000
3500
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
2012
en p
orc
enta
je
Argentina- Tasa de inflación anual
-5
0
5
10
15
20
25
30
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
en p
orc
enta
je
50Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• El diagrama de puntos o scatterplot es la herramienta cuando se analiza la relación de dos variables en forma conjunta.
País
1 Afghanistan 1907 60.9
2 Albania 9489 77.4
3 Algeria 12957 71.0
4 Angola 7319 51.9
5 Antigua and Barbuda 20002 76.0
6 Argentina 17629 76.3
7 Armenia 7501 74.6
… … …
… … …
183 Zambia 3070 58.1
184 Zimbabwe 1445 59.9
Esperanza de
vida en años
PBI per capita
PPP ($US de
2011)
51Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• Cada punto del plano es un par ordenado (x,y)=(PIB per capita, esperanza de vida). Son datos apareados.
Datos 2013
40
45
50
55
60
65
70
75
80
85
90
0 20000 40000 60000 80000 100000 120000 140000 160000
PIB per capita (PPP en U$S 2011)
Esp
era
nza d
e v
ida a
l n
acer
(en
añ
os)
Outlier?
52Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• Cada punto del plano es un par ordenado (x,y)=(PIB per capita, esperanza de vida). Son datos apareados.
Datos 2013
40
45
50
55
60
65
70
75
80
85
90
0 20000 40000 60000 80000 100000 120000 140000 160000
PIB per capita (PPP en U$S 2011)
Esp
eran
za d
e vi
da
al n
acer
(en
añ
os)
Qatar
Guinea
Bostwana
53Estadística 2018 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• Evaluación de la relación
lineal
curvada
negativa
positiva
Dirección Forma
Intensidad
fuerte
débil
lineal
Outliers
54Estadística 2018 - Prof. Tamara Burdisso
• Hasta ahora vimos métodos numéricos cuyo objeto es resumir los datos de una sóla variable.
• Pero el interés puede radicar en la relación entre dos variables.
• Supongamos que tenemos 2 muestra de tamaño n. Sean
• La covarianza de la muestra o covarianza muestral se define como
Medida de asociación entre dos variables
nn yyyxxx ,...,y ,...,, 2121
1
))((
−
−−=
n
yyxxs
ii
xy
55Estadística 2018 - Prof. Tamara Burdisso
Medida de asociación entre dos variables
nn yyyxxx ,...,y ,...,, 2121
13.70=y
1
))((
−
−−=
n
yyxxs
ii
xy
País
1 Afghanistan 1907 60.9
2 Albania 9489 77.4
3 Algeria 12957 71.0
4 Angola 7319 51.9
5 Antigua and Barbuda 20002 76.0
6 Argentina 17629 76.3
7 Armenia 7501 74.6
… … …
… … …
183 Zambia 3070 58.1
184 Zimbabwe 1445 59.9
Esperanza de
vida en años
PBI per capita
PPP ($US de
2011)
3.16543=x
En excel, =covar(lista de números var1, lista de números var2)
56Estadística 2018 - Prof. Tamara Burdisso
75.101091=xys
Medida de asociación entre dos variablesDatos 2013
40
45
50
55
60
65
70
75
80
85
90
0 20000 40000 60000 80000 100000 120000 140000 160000
PIB per capita (PPP en U$S 2011)
Es
pe
ran
za
de
vid
a a
l n
ace
r (e
n a
ño
s)
III
III
IV
57Estadística 2018 - Prof. Tamara Burdisso
• Una covarianza positiva (negativa) indica asociación linealpositiva (negativa).
• Sin embargo nada se puede decir de la intensidad de esta relación porque el problema con la covarianza es que depende de las unidades de medida de las variables de interés.
• El coeficiente de correlación es la solución a este problema, ya que lo independiza de las unidades
• En excel =coef.de.correl(lista de números var1, lista de números var2)
Medida de asociación entre dos variables
)1()()1()(
1
))((
22 −−−−
−
−−
==
nyynxx
n
yyxx
ss
sr
ii
ii
yx
xy
xy
58Estadística 2018 - Prof. Tamara Burdisso
• El coeficiente de correlación toma valores entre -1 y 1.
• Si el coeficiente de correlación es igual a 1, se tiene una asociación lineal positiva perfecta, intensidad máxima.
• Si el coeficiente de correlación es igual a -1, se tiene una asociación lineal negativa perfecta, intensidad máxima.
• Si el coeficiente de correlación es igual a 0, indica que no hay relación lineal.
• En el ejemplo de ingreso per capita y esperanza de vida el coeficiente es
Medida de asociación entre dos variables
11 − xyr
594.0=xyr
59Estadística 2018 - Prof. Tamara Burdisso
Diferente grados de correlaciones muestrales
Estadística 2018 - Prof. Tamara Burdisso60
Datos numéricos: diagrama de puntos (scatterplot)
• Advertencia: que se observe una estrecha relación entre las variables no implica que exista una relación causa-efecto entre las mismas.
• Ejemplo: Pensar en un scatterplot donde en el eje de las x se representa los daños ocasionados en el siniestro y en el eje de las y la cantidad de bomberos que actuaron en determinado siniestro . A mayor daño, mayor la cantidad de bomberos que actúan en el siniestro, pero claramente no son los bomberos los que causan el daño. Existe una tercera variable (omitida), que es la que mantiene la relación causa-efecto. En este ejemplo es la magnitud del incendio.
• En series de tiempo, puede haber correlaciones espurias entre variables que tienen tendencia (http://www.tylervigen.com/spuriouscorrelations)
61Estadística 2018 - Prof. Tamara Burdisso
Datos categóricos
• Al igual que los datos numéricos, los datos categóricos pueden ser ordenados/tabulados y analizados.
gender age maritalStatus highestQualification nationality ethnicity
Male 38 Divorced No Qualification British White
Female 42 Single No Qualification British White
Male 40 Married Degree English White
Female 40 Married Degree English White
Female 39 Married GCSE/O Level British White
Female 37 Married GCSE/O Level British White
Male 53 Married Degree British White
Male 44 Single Degree English White
Male 40 Single GCSE/CSE English White
Female 41 Married No Qualification English White
Tabulation of ESTADO_CIVIL
Date: 02/05/15 Time: 17:38
Sample: 1 1691
Included observations: 1691
Number of categories: 5
Cumulative Cumulative
Value Count Percent Count Percent
Divorced 161 9.52 161 9.52
Married 812 48.02 973 57.54
Separated 68 4.02 1041 61.56
Single 427 25.25 1468 86.81
Widowed 223 13.19 1691 100
Total 1691 100.00 1691 100
Tabla de frecuencias o distribución de frecuencias
62Estadística 2018 - Prof. Tamara Burdisso
Datos categóricos: gráfico de barras
0
100
200
300
400
500
600
700
800
900
Divorced Married Separated Single Widowed
cantidad d
e o
bserv
acio
nes
0
10
20
30
40
50
60
Divorced Married Separated Single Widowed
en p
orc
enta
jes
0
20
40
60
80
100
120
1
en p
orc
enta
jes
Divorced Married Separated Single Widowed
El gráfico de barras es para datos categóricos. El orden de las categorías es intercambiable
El histograma es para datos numéricos. El eje de las abscisas es numérico. ¡El orden importa!
63Estadística 2018 - Prof. Tamara Burdisso
Datos categóricos
• Cuando se dispone de más de una variable categórica, la tabulación se denomina Tabla de contingencia.
Tabla de contingencia
Tabulation of ESTADO_CIVIL and SEXO
Date: 02/09/15 Time: 19:12
Sample: 1 1691
Included observations: 1691
Tabulation Summary
Variable Categories
ESTADO_CIVIL 5
SEXO 2
Product of Categories 10
SEXO
Count Female Male Total
Divorced 111 50 161
Married 423 389 812
ESTADO_CIVIL Separated 46 22 68
Single 222 205 427
Widowed 163 60 223
Total 965 726 1691
64Estadística 2018 - Prof. Tamara Burdisso
Datos categóricos y datos numéricos
0
20
40
60
80
100
Divorced
0
20
40
60
80
100
Married
0
20
40
60
80
100
Separated
0
20
40
60
80
100
Single
0
20
40
60
80
100
Widowed
EDAD by ESTADO_CIVIL
Distribución de las edades de los individuos de la muestra según el estado civil
Edad: var. numérica
Estado civil: var. categórica
65Estadística 2018 - Prof. Tamara Burdisso
Top Related