Estadística descriptiva: el
análisis exploratorio de los
datos
Segunda Parte
Forma del histograma: asimetría o sesgo
• Cuando los datos se mueven en una dirección se dice que la
distribución tiene cola larga/pesada. Si la distribución tiene
cola larga hacia la izquierda (derecha), entonces es sesgada
hacia la izquierda (derecha).
Asimetría o sesgo a la
derecha
Asimetría o sesgo a la
izquierdaSimétrica
2Estadísca 2016 - Prof. Tamara Burdisso
Forma del histograma: asimetría o sesgo
• ¿Dónde se ubican la media y la mediana en estas
distribuciones?
Asimetría o sesgo a la
derecha
Asimetría o sesgo a la
izquierdaSimétrica
MEDIA……...MEDIANA MEDIA……...MEDIANA MEDIA…..….MEDIANA
3Estadísca 2016 - Prof. Tamara Burdisso
Forma de la distribución: asimetría o sesgo
Asimetría o sesgo a la
derecha
Asimetría o sesgo a la
izquierdaSimétrica
MEDIA < MEDIANA MEDIA ~ MEDIANA MEDIA > MEDIANA
media
mediana mediana
media
4Estadísca 2016 - Prof. Tamara Burdisso
Forma del histograma: moda
• ¿Cuantos picos (máximos locales) prominentes tiene el
histograma?
• Sólo uno → unimodal
• Dos → bimodal
• Tres o más → multimodal
• Ningún pico → uniforme5
Estadísca 2016 - Prof. Tamara Burdisso
Forma del histograma: outliers
• ¿Existen observaciones anómalas o inusuales en los datos?
• ¿Por qué los outliers son importantes?
• Revelan información sobre la falta de simetría/ sesgo.
• Pueden llevar a revisar la carga de los datos (errores de tipeo)
• Brindan información interesante sobre la distribución de los datos.
6Estadísca 2016 - Prof. Tamara Burdisso
Forma del histograma: outliers
• Moda
• Sesgo
unimodal bimodal multimodal uniforme
simétrica Sesgada a izquierda Sesgada a derecha
7Estadísca 2016 - Prof. Tamara Burdisso
Ejercicio
• ¿Cuales de estas variables esperaría que muestren
una distribución uniforme?
• Precios de los departamentos en la Ciudad de Buenos
Aires.
• Salarios de una muestra de individuos tomada al azar
en la provincia de Santa Fe.
• La fecha de nacimiento (día y mes) de todos los
alumnos que actualmente cursan Estadística.
8Estadísca 2016 - Prof. Tamara Burdisso
• Anatomía del box-plot
• Ejercicio: calcular el LS y el LI de los bigotes (wiskers)
Datos numéricos: diagrama de cajas (Box-Plot)
RICQRICQ *3 lejanooutlier ó *3lejanooutlier 13 −<+>
RICQRICQRICQRICQ *5.1 cercanooutlier *3 ó *3 cercanooutlier *5.1 1133 −<<−+<<+
9Estadísca 2016 - Prof. Tamara Burdisso
Datos numéricos: histogramas vs. boxplots
10Estadísca 2016 - Prof. Tamara Burdisso
Datos numéricos: diagrama de tallos y hojas (stem
and leaf)
https://www.easycalculation.com/statistics/stem-leaf-plot.php 11Estadísca 2016 - Prof. Tamara Burdisso
Datos numéricos: series de tiempo
• Cuando se desea tener en cuenta el orden en que se han
tomado los datos, los histogramas no son útiles.
• En estos casos se considera un gráfico de series de tiempo.
• Cuidado con las escalas! No caer en la trampa, particularmente
cuando se realizan comparaciones.
Argentina- Tasa de inflación anual
-500
0
500
1000
1500
2000
2500
3000
3500
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
2012
en porcentaje
Argentina- Tasa de inflación anual
-5
0
5
10
15
20
25
30
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
en porcentaje
12Estadísca 2016 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• El diagrama de puntos o scatterplot es la herramienta cuando
se analiza la relación de dos variables en forma conjunta.
País
1 Afghanistan 1907 60.9
2 Albania 9489 77.4
3 Algeria 12957 71.0
4 Angola 7319 51.9
5 Antigua and Barbuda 20002 76.0
6 Argentina 17629 76.3
7 Armenia 7501 74.6
… … …
… … …
183 Zambia 3070 58.1
184 Zimbabwe 1445 59.9
Esperanza de
vida en años
PBI per capita
PPP ($US de
2011)
13Estadísca 2016 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,
esperanza de vida). Son datos apareados.
Datos 2013
40
45
50
55
60
65
70
75
80
85
90
0 20000 40000 60000 80000 100000 120000 140000 160000
PIB per capita (PPP en U$S 2011)
Esperanza de vida al nacer (en años)
Outlier?
14Estadísca 2016 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,
esperanza de vida). Son datos apareados.
Datos 2013
40
45
50
55
60
65
70
75
80
85
90
0 20000 40000 60000 80000 100000 120000 140000 160000
PIB per capita (PPP en U$S 2011)
Esp
era
nza
de
vid
a a
l n
ace
r (e
n a
ño
s)
Qatar
Guinea
Bostwana
15Estadísca 2016 - Prof. Tamara Burdisso
Datos numéricos: diagrama de puntos (scatterplot)
• Evaluación de la relación
lineal
curvada
negativa
positiva
Dirección Forma
Intensidad
fuerte
débil
lineal
Outliers
16Estadísca 2016 - Prof. Tamara Burdisso
• Hasta ahora vimos métodos numéricos cuyo objeto es resumir
los datos de una sóla variable.
• Pero el interés puede radicar en la relación entre dos variables.
• Supongamos que tenemos 2 muestra de tamaño n. Sean
• La covarianza de la muestra o covarianza muestral se define
como
Medida de asociación entre dos variables
nn yyyxxx ,...,y ,...,, 2121
1
))((
−
−−=∑
n
yyxxs
ii
xy
17Estadísca 2016 - Prof. Tamara Burdisso
Medida de asociación entre dos variables
nn yyyxxx ,...,y ,...,, 2121
13.70=y
1
))((
−
−−=∑
n
yyxxs
ii
xy
País
1 Afghanistan 1907 60.9
2 Albania 9489 77.4
3 Algeria 12957 71.0
4 Angola 7319 51.9
5 Antigua and Barbuda 20002 76.0
6 Argentina 17629 76.3
7 Armenia 7501 74.6
… … …
… … …
183 Zambia 3070 58.1
184 Zimbabwe 1445 59.9
Esperanza de
vida en años
PBI per capita
PPP ($US de
2011)
3.16543=x
En excel, =covarianza.m(lista de números var1, lista de números var2)
18Estadísca 2016 - Prof. Tamara Burdisso
75.101091=xys
Medida de asociación entre dos variablesDatos 2013
40
45
50
55
60
65
70
75
80
85
90
0 20000 40000 60000 80000 100000 120000 140000 160000
PIB per capita (PPP en U$S 2011)
Esperanza de vida al nacer (en años)
III
III
IV
19Estadísca 2016 - Prof. Tamara Burdisso
• Una covarianza positiva (negativa) indica asociación lineal
positiva (negativa).
• Sin embargo nada se puede decir de la intensidad de esta
relación porque el problema con la covarianza es que depende
de las unidades de medida de las variables de interés.
• El coeficiente de correlación es la solución a este problema, ya
que lo independiza de las unidades
• En excel =coef.de.correl(lista de números var1, lista de
números var2)
Medida de asociación entre dos variables
)1()()1()(
1
))((
22−−−−
−
−−
==
∑∑
∑
nyynxx
n
yyxx
ss
sr
ii
ii
yx
xy
xy
20Estadísca 2016 - Prof. Tamara Burdisso
• El coeficiente de correlación toma valores entre -1 y 1.
• Si el coeficiente de correlación es igual a 1, se tiene una
asociación lineal positiva perfecta, intensidad máxima.
• Si el coeficiente de correlación es igual a -1, se tiene una
asociación lineal negativa perfecta, intensidad máxima.
• Si el coeficiente de correlación es igual a 0, indica que no hay
relación lineal.
• En el ejemplo de ingreso per capita y esperanza de vida el
coeficiente es
Medida de asociación entre dos variables
11 ≤≤− xyr
594.0=xyr
21Estadísca 2016 - Prof. Tamara Burdisso
Diferente grados de correlaciones muestrales
Estadísca 2016 - Prof. Tamara Burdisso22
Datos numéricos: diagrama de puntos (scatterplot)
• Advertencia: que se observe una estrecha relación entre las
variables no implica que exista una relación causa-efecto entre
las mismas.
• Ejemplo: Pensar en un scatterplot donde en el eje de las x se
representa los daños ocasionados en el siniestro y en el eje de
las y la cantidad de bomberos que actuaron en determinado
siniestro . A mayor daño, mayor la cantidad de bomberos que
actúan en el siniestro, pero claramente no son los bomberos
los que causan el daño. Existe una tercera variable (omitida),
que es la que mantiene la relación causa-efecto. En este
ejemplo es la magnitud del incendio.
• En series de tiempo, puede haber correlaciones espurias entre
variables que tienen tendencia (http://www.tylervigen.com/spurious-
correlations)23
Estadísca 2016 - Prof. Tamara Burdisso
Datos categóricos
• Al igual que los datos numéricos, los datos categóricos pueden
ser ordenados/tabulados y analizados.
Tabla de frecuencias o distribución de frecuencias
24Estadísca 2016 - Prof. Tamara Burdisso
Rank Year Dept Divison Gender
Professor 1963 Music Fine_Arts Male
Professor 1965 Dance Fine_Arts Female
Professor 1966 PoliSci Soc_Science Male
Professor 1967 Kin Soc_Science Male
Professor 1967 Psychology Soc_Science Male
Professor 1968 Educ Soc_Science Female
Professor 1968 Theatre Fine_Arts Male
Professor 1969 Art Fine_Arts Male
Professor 1969 CS Nat_Science Male
Professor 1969 English HumanititiesMale
http://www.math.hope.edu/swanson/data/hope_prof-2.txt
Etiquetas de fila Cantidad Porcentaje Cantidad Acumulada Porcentaje Acumulado
Fine_Arts 32 14.41% 32 14.41%
Humanitities 59 26.58% 91 40.99%
Nat_Science 62 27.93% 153 68.92%
Soc_Science 69 31.08% 222 100.00%
Total general 222 100.00%
Datos categóricos: gráfico de barras
El gráfico de barras es
para datos categóricos.
El orden de las
categorías es
intercambiableEl histograma es para
datos numéricos. El eje
de las abscisas es
numérico. ¡El orden
importa!
25Estadísca 2016 - Prof. Tamara Burdisso
58
60
62
64
66
68
70
Nat_Science Soc_Science
26%
27%
27%
28%
28%
29%
29%
30%
30%
31%
31%
32%
Nat_Science Soc_Science
Datos categóricos
• Cuando se dispone de más de una variable categórica, la
tabulación se denomina Tabla de contingencia.
Tabla de contingencia
26Estadísca 2016 - Prof. Tamara Burdisso
Cuenta de Gender Etiquetas de columna
Etiquetas de fila Female Male Total general
Fine_Arts 13 19 32
Humanitities 25 34 59
Nat_Science 22 40 62
Soc_Science 29 40 69
Total general 89 133 222
Datos categóricos y datos numéricos
Año de ingreso de los profesores en base a la división.
Año: var. Numérica División: var. categórica27
Estadísca 2016 - Prof. Tamara Burdisso
Fine_Arts Humanities Nat_Science Soc_Science
Top Related