Download - Estadística descriptiva: el análisis exploratorio de los datos · 2018-08-27 · Otra medida descriptiva: coeficiente de variación •Cuanto mayor el coeficiente de variación

Estadística descriptiva: el análisis exploratorio de los

datos

Martes, Viernes y Sábados de 9-11 hs

Mapa del epidemiólogo británico John Snow (1854)

2Estadística 2018 - Prof. Tamara Burdisso

Boleta mariposa del condado de Palm Beach del estado de Florida – Elecciones presidenciales EE.UU. año 2000


Elecciones presidenciales EE.UU. año 2000. Estado de la Florida, 67 condados

0

500

1000

1500

2000

2500

3000

3500

0 50000 100000 150000 200000 250000 300000 350000 400000

Votos a presidente para Al Gore

Vo

tos

a p

resid

en

te p

ara

Bu

ch

an

an


El desastre del Challenger – 28 de enero de 1986

0

1

2

3

25 35 45 55 65 75 85

Temperatura en °F en las juntas al momento del lanzamineto

Nú

mero

de ju

nta

s c

on

alg

ún

dañ

o

Temperatura prevista en el

momento del lanzamiento


El desastre del Challenger – 28 de enero de 1986

0

1

2

3

25 35 45 55 65 75 85

Temperatura en °F en las juntas al momento del lanzamineto

Nú

mero

de ju

nta

s c

on

alg

ún

dañ

o

Temperatura prevista en el

momento del lanzamiento

0

1

2

3

25 35 45 55 65 75 85

Temperatura en °F en las juntas al momento del lanzamiento

Nú

mero

de ju

nta

s c

on

alg

ún

dañ

o


Estadística descriptiva

• Primer análisis de un conjuntos de datos

• A través de un grupo de medidas resumen: métodos numéricos

• A través del análisis exploratorio: métodos gráficos y tabulares.


Estadística descriptiva: medidas resumen de un conjunto de datos

• Para resumir la información de un conjunto de datos, la estadística dispone de unas pocas medidas que concentran la máxima información -no más de 6 valores- que brindan un idea clara del comportamiento general de los datos.

• Estas medidas suelen presentarse en tres grandes grupos

• De tendencia central

• De dispersión

• De posición


• La media o promedio aritmético es la medida de tendencia central más popular (fácil de entender y de calcular)

• ¡Cuidado! ¿Qué ocurre si queremos obtener el promedio de dos medias, , con y observaciones respectivamente?

De tendencia central: la media

=

= ==+++

=n

i

i

n

i

i

n xnn

x

n

xxxx

1

121 1...

2n1n21 xyx

n

xnxn

nn

xnxnx 2211

21

2211 +=

+

+=


• En una empresa la edad media de sus trabajadores es de 36 años para los hombres y 32 para las mujeres. ¿Cuál es la edad media de sus trabajadores? ¿De qué depende?

• Ejemplo: Considere el siguiente conjunto de datos: 6, 7, 5, 2, 3, 8, 9

• Gran sensibilidad de la media a la presencia de valores extremos/atípicos/inusuales/anómalos/outliers.

De tendencia central: la media

)()( 21222111 nnnfynnnf +=+=

2211 xfxfx +=

71.57

9832576=

++++++=x

99 57.18=x


De tendencia central: la mediana

• La mediana es el valor que al ordenar los datos de menor a mayor, deja 50% de los datos a la izquierda de ese valor y 50% de los datos a la derecha.

• En el ejemplo anterior la mediana es: 2, 3, 5, 6, 7, 8, 9

• Y si la muestra es 2, 3, 5, 6, 7, 8, 99 ¿cual es la media? ¿y la mediana?

• Escasa influencia de los valores extremos de la muestra en el cálculo de la mediana.

• Más recomendable que la media cuando se trabaja con datos que aún no han sido depurados.

• Es la medida de tendencia central que se debería mirar cuando se analizan variables como salarios, ingresos totales, etc.


De tendencia central: la mediana

• Escasa influencia de los valores extremos de la muestra. Se diceq ue la mediana es una medida central robusta (a la presencia de valores extremos).

• Más recomendable que la media cuando se trabaja con datos que aún no han sido depurados.

• Es la medida de tendencia central que se debería mirar cuando se analizan variables como salarios, ingresos totales, etc.

• https://www.lanacion.com.ar/2107355-walter-sosa-escudero-los-datos-estadisticos-no-dicen-nada-son-interpretaciones


https://www.lanacion.com.ar/2107355-walter-sosa-escudero-los-datos-estadisticos-no-dicen-nada-son-interpretaciones

De tendencia central: la mediana y la moda

• Cómo se calcula la mediana cuando el nro. de observaciones es par?

2, 3, 5, 5, 6, 7, 8, 9

• La moda es el valor más frecuente. En 2, 3, 5, 5, 6, 7, 8, 9, es el 5.

• Si la muestra fuese 2, 3, 5, 5, 6, 7, 8, 9, 9 entonces la moda es 5 y 9.

• Tiene más sentido con datos cualitativos. Ej. En una muestra el color de ojos más frecuente.

• Su presencia como medida de tendencia central se debe más a la tradición que a su utilidad.

Mediana=(5+6)/2=5.5


De dispersión

• Un estadístico podría meter su cabeza en un horno y sus pies en hielo y decir que en promedio se encuentra bien. ¿Exagerado no? Pero piensen en el PIB per capita, indicador referente al bienestar de una nación.

• Resumir toda la información en un número sin atender a la variabilidad que presentan los datos es un problema grave.

• Se debe entonces cuantificar la dispersión


De dispersión: rango, varianza muestral y desvío estándar muestral

• El rango es la diferencia entre el valor máximo y el mínimo observado en la muestra. Ej 2, 3, 5, 5, 6, 7, 8, 9; Rango=9-2=7

• Medida muy sencilla pero poco confiable. Sólo tiene en cuenta los extremos del conjunto de datos. Podrían ser anómalos. Su utilidad puede estar en muestras pequeñas (menos de 10 datos).

• La medida de variabilidad más utilizada es el desvío estándar muestral o desviación típica.

• ¿Cómo haríamos para cuantificar la dispersión o variabilidad de un conjunto de datos? ¿La dispersión con respecto a quién?


De dispersión: varianza muestral y desvío estándar muestral

( )siempre0=

−

i

i

n

xx

• Supongamos que disponemos de una muestra que es : 1, 2 ,4 ,7, 9. La media es 4.6.

1 2 4 7 9

4.6


• La varianza muestral es una medida bastante buena para medir la variabilidad

• Al igual que la media es muy sensible a la presencia de valores extremos (más aún por estar elevada al cuadrado)

• El inconveniente de la varianza es que las unidades son las mismas que la de los datos elevadas al cuadrado. Difícil de interpretar.

• La raíz cuadrada de la varianza se llama desvío estándar. La ventaja del desvío estándar es que se expresa las mismas unidades físicas de las observaciones.

De dispersión: varianza y desvío estándar

1

)(1

2

2

−

−

==

n

xx

s

n

i

i

1

)(1

2

−

−

==

n

xx

s

n

i

i


Cálculo de la varianza muestral y desvío estándar

1

)(1

2

2

−

−

==

n

xx

s

n

i

i

• Cómo se calcula a mano la varianza?

• En excel, varianza=var(lista de números) y el desvío estándar =desvest(lista de números)

• Varianza( esperanza de vida)=82.94 años2

• Desvío estándar (esperanza de vida)=9.11 años

País Esperanza de vida en años

1 Afghanistan 60.9

2 Albania 77.4

3 Algeria 71.0

4 Angola 51.9

5 Antigua and Barbuda 76.0

6 Argentina 76.3

7 Armenia 74.6

…

…

183 Zambia 58.1

184 Zimbabwe 59.9

13.70=x

1

)(1

2

2

−

−

==

n

xx

s

n

i

i


Cálculo de la varianza muestral y desvío estándar

• Cómo se calcula a mano la varianza?

• En Excel, media=promedio(lista de números)

• En excel, varianza=var(lista de números) y el desvío estándar =desvest(lista de números)


(xi-media) (xi-media)2

2 -2.83 8.03

4 -0.83 0.69

3 -1.83 3.36

8 3.17 10.03

5 0.17 0.03

7 2.17 4.69

suma 29 suma 26.83

# de observaciones 6 varianza 5.37

media 4.83 desvío 2.32

Cálculo de la varianza y desvío estándar

• ¿Por qué usamos las desviaciones respecto de la media al cuadrado en el cálculo de la varianza?

• Porque es una forma fácil de deshacerse de los valores negativos, y así las observaciones que se encuentran a la derecha y/o a la izquierda son penalizadas de la misma manera.

• Y como se trata de una función cuadrática cuanto más lejos están de la media más ponderan, i.e más aumenta la variabilidad.

• Tener presente que la varianza y el desvío estándar no son dos medidas diferentes de dispersión. Cuando se conoce una de ellas, inmediatamente se conoce la otra.


• La desviación media absoluta (DMA) pone el foco en las desviaciones y no en los signos de estas. Muestra menos sensibilidad a los valores extremos que la varianza o la desviación estándar. Matemáticamente es más complejo trabajar con la DMA.

• La desviación mediana absoluta (DMedA). De utilidad frente a la presencia de valores extremos.

De dispersión: otras medidas

n

xxn

i

i=

−

= 1absoluto medio desvío

n

medianaxn

i

i=

−

= 1absoluta mediana desviación


Otra medida descriptiva: coeficiente de variación

• Supóngase que se disponen de dos o más muestras, y si quiere determinar cual de ellas tienen mayor variabilidad. ¿Que medida utilizo?

• Recordemos que la varianza (desvío estándar) es respecto de la propia media de la variable en cuestión. ¿Cómo hago para comparar la variabilidad de dos o más variables cuando tienen distintos desvíos estándar y distintas medias?

• La solución nos la brinda el 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 =𝑠

ത𝑋

• Expresa al desvío estándar como proporción de la media. Por lo tanto, es una medida libre de unidades.



• Cuanto mayor el coeficiente de variación (CV) mayor la variabilidad presente en los datos.

• Por lo general el CV es menor a 1.

• Para una mejor interpretación se suele presentar al CV multiplicado por 100 ( como un %).

• El coeficiente de variación es capaz de lidiar con los problemas de dimensionalidad de las variables de distintas muestras (e.g. peso y altura) y problemas de diferencia enormes en las medias de las muestras (e.g. peso de los elefante y de las hormigas).



• El CV tiene algunos problemas.

• La media debería ser positiva (i.e. las observaciones positivas o nulas), porque el CV es una medida de variabilidad y por ende es nula o positiva.

• Cuando la media es cercana a 0 ( el aumento en el CV no necesariamente se debe a mayor variabilidad en los datos) el CV pierde significado.

• No es invariante a cambios en el origen.

• Es invariante a cambios de escala.

• Ejemplo: ¿quien presenta mayor variabilidad, el peso o la altura?


Peso hombres

(cm.)

Altura hombres

(cm.)

media 74.5 168.8

desvío típico 13 14

Muestra de cierto país

Otras medidas: Q1, Q2 y Q3 o medidas de posición

• Recordemos que la mediana es el valor que deja 50% de los datos a izquierda y 50% a derecha.

• De la misma forma, se podría determinar el valor que deja 50% de los datos a izquierda y 50% de los datos a la derecha dentro de la primera mitad. Esta nueva mediana es el primer cuartil y se denota por Q1 (quartile) equivalente al 25% de los datos.

• El mismo procedimiento podría realizarse con la mitad de los datos por encima de la mediana. En este caso se estaría determinando el tercer cuartil, Q3, equivalente al 75% de los datos.

Mediana=Q2Q1 Q3

25% 25% 25% 25%

75%

75%


Otras medidas: Q1, Q2 y Q3 y rango intercuartílico

• Q1, Q2 y Q3 son medidas de posición, para establecer “mojones”.

• La medida más sencilla de dispersión es el Rango=valor máximo-valor mínimo. Poco confiable.

• Rango intercuartílico: RIC (IQR son las siglas en inglés) Se calcula como Q3-Q1. Corresponde al 50% de los datos.

• Se trata de una medida de dispersión que elimina la influencia de los valores extremos.

• El rango intercuartílico es una medida robusta de dispersión.

• Ejemplo: dada la muestra 2825, 2380, 2210, 2630, 2255, 2380, 2350, 2390, 2440, 2450, 2420, 2550; hallar Q1, Q2 y Q3.


Otras medidas de posición

• Existen otras medidas de posición o “mojones” de la distribución . Se denominan percentiles.

• Los percentiles dan información de como se distribuyen los datos observados.

• El p-ésimo percentil es un valor tal que por lo menos un p% de los elementos tiene este valor o menos, y al menos un (100-p)% tienen este valor o más.

• Percentiles “famosos”: los percentiles de las tablas de pesos de los pediatras; los deciles de la distribución del ingreso, etc.


Como se calcula un p-ésimo percentil

1. Ordenar los datos de forma ascendente

2. Calcular el índice i, donde p es el percentil de interés y n es la cantidad de observaciones en la muestra.

3. (a) Si i no resulta entero, se redondea. El valor entero inmediato mayor que i, indica la posición del p-esimo percentil.

(b) Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1

Ejemplo: dada la muestra 2825, 2380, 2210, 2630, 2255, 2380, 2350, 2390, 2440, 2450, 2420, 2550; hallar el percentilo 20 y el percentilo 50.

np

i

=

100


Medidas robustas

• Ejercicio: ¿quién está menos afectado por los valores extremos, la media o la mediana? ¿Y quién entre el desvío estándar y el RIC?

a. Media y desvío

b. Media y RIC

c. Mediana y RIC

d. Mediana y SD


Resumiendo…

Robusta No Robusta

de tendencia central Q2=mediana media

de dispersiónIQR=rango

intercuartílico

desvío estándar,

rango


• La media y el desvío estándar pueden ser aprovechados para aprender acerca de un conjunto de datos

• Se puede determinar la localización relativa de cualquier valor de un conjunto de datos

• Supongamos que se dispone de una muestra de datos de tamaño n, i.e. y que conocemos su media y su desvío estándar .

• Valor z o valor estandarizado:

• El valor se interpreta como la cantidad de desviaciones estándar que la observación dista de

• Ejemplo: 46, 54, 42, 46, 32

Medidas de localización relativa: valor z

nxxx ,...,, 21 xs

s

xxz i

i

−=

iz

xix


• Si indica que es 1.5 desvíos estándar mayor que la media,

• Si indica que está a 0.5 ó ½ desvío estándar por debajo(signo negativo) de la media.

• Valores mayores que cero indican que la observación es mayor a la media. Valores menores que cero indica observaciones por debajo de la media.

• Valores igual a cero corresponde a datos igual al promedio.

• Para cualquier elemento de la muestra el valor indica la ubicación relativa del elemento en un conjunto de datos.

• Si los elementos de dos diferentes conjuntos de datos tienen el mismo valor , se puede afirmar que poseen la misma ubicación relativa.

• Los valores de un conjunto de datos revelan rápidamente cuales podrían considerarse como valores inusuales o extremos.

Medidas de localización relativa: valor z

z

z

z

x

ix

5.11 =z 1x

5.0−=iz

z

z

z


• La desigualdad de Chebyshev permite inferir el porcentaje de elementos (observaciones) que deben quedar dentro de una cantidad específica de desvíos estándar respecto a la media.

• Teorema: dado un número y una muestra , por lo menos de las observaciones, estará entre

• La desigualdad de Chebyshev proporciona una cota para la distribución de los datos, sin importar como se distribuyen, ni la variabilidad que exhiban.

Desigualdad de Chebyshev (1845/1850)

( )%11100 2k−

nxxx ,...,, 21

( )ksxksx +− ,

1k

Valor z2 75% de las observaciones están a menos de 2 desvíos estándar3 89% de las observaciones están a menos de 3 desvíos estándar4 94% de las observaciones están a menos de 4 desvíos estándar


Estadística descriptiva: métodos gráficos

• Datos numéricos - Fuente: www.gapminder.org

• Datos categóricos - Fuente: openintro.org


1 Afghanistan 60.9

2 Albania 77.4

3 Algeria 71.0

4 Angola 51.9


6 Argentina 76.3

7 Armenia 74.6

…

…

183 Zambia 58.1

184 Zimbabwe 59.9

gender age maritalStatushighestQualificationnationality ethnicity

Male 38 Divorced No QualificationBritish White

Female 42 Single No QualificationBritish White

Male 40 Married Degree English White

Female 40 Married Degree English White

Female 39 Married GCSE/O LevelBritish White

Female 37 Married GCSE/O LevelBritish White

Male 53 Married Degree British White


http://www.gapminder.org/

Estadística descriptiva: datos numéricos

• Fuente: www.gapminder.org


1 Afghanistan 60.9

2 Albania 77.4

3 Algeria 71.0

4 Angola 51.9


6 Argentina 76.3

7 Armenia 74.6

…

…

183 Zambia 58.1

184 Zimbabwe 59.9


http://www.gapminder.org/

Datos numéricos: histograma

• Representación gráfica que se utiliza para identificar patrones de un conjunto de datos, la densidad de los mismos, agrupándolos en un número relativamente pequeño de clases no solapadas.

Tabulation of Esperanza de vida en años

Date: 02/05/15 Time: 18:00

Sample: 1 184

Included observations: 180

Number of categories: 8

Cumulative CumulativeValue Count Percent Count Percent

[45, 50) 5 2.78 5 2.78

[50, 55) 9 5 14 7.78

[55, 60) 14 7.78 28 15.56

[60, 65) 19 10.56 47 26.11

[65, 70) 27 15 74 41.11

[70, 75) 43 23.89 117 65

[75, 80) 38 21.11 155 86.11[80, 85) 25 13.89 180 100

Total 180 100 180 100

Frecuencia de

clase

clases

Frecuencia

relativa

Frecuencia

acumulada

Frecuencia

relativa

acumulada

Tabla de frecuencias o distribución de frecuencias



• Cantidad de clases: entre 5 y 20

• Ancho de clase aprox: (valor máx.-valor mín.)/cantidad de clases

• Su utilidad radica en revelar rápidamente la forma de la distribución de los datos.

Distribución de frecuencias relativas de la esperanza de vida

0

5

10

15

20

25

30

[45, 50) [50, 55) [55, 60) [60, 65) [65, 70) [70, 75) [75, 80) [80, 85)

0

10

20

30

40

50

45 50 55 60 65 70 75 80 85

Fre

qu

en

cy

Esperanza de vida



• ¡Cuidado con el ancho de clase! Puede alterar la historia de lo que se está contando.

0

10

20

30

40

50

45 50 55 60 65 70 75 80 85

Fre

qu

en

cy

Esperanza de vida

20

40

60

80

100

120

140

40 50 60 70 80 90 100

Fre

qu

en

cy

Esperanza de vida

0

2

4

6

8

10

12

14

16

44 48 52 56 60 64 68 72 76 80 84

Fre

qu

en

cy

Esperanza de vida


Forma del histograma: asimetría o sesgo

• Cuando los datos se mueven en una dirección se dice que la distribución tiene cola larga/pesada. Si la distribución tiene cola larga hacia la izquierda (derecha), entonces es sesgada hacia la izquierda (derecha).

Asimetría o sesgo a la derecha

Asimetría o sesgo a la izquierda

Simétrica


Forma del histograma: asimetría o sesgo

• ¿Dónde se ubican la media y la mediana en estas distribuciones?



Simétrica

MEDIA……...MEDIANA MEDIA……...MEDIANA MEDIA…..….MEDIANA


Forma de la distribución: asimetría o sesgo



Simétrica

MEDIA < MEDIANA MEDIA ~ MEDIANA MEDIA > MEDIANA

media

mediana mediana

media


Forma del histograma: moda

• ¿Cuantos picos (máximos locales) prominentes tiene el histograma?

• Sólo uno → unimodal

• Dos → bimodal

• Tres o más → multimodal

• Ningún pico → uniforme42

Estadística 2018 - Prof. Tamara Burdisso

Forma del histograma: outliers

• ¿Existen observaciones anómalas o inusuales en los datos?

• ¿Por qué los outliers son importantes?

• Revelan información sobre la falta de simetría/ sesgo.

• Pueden llevar a revisar la carga de los datos (errores de tipeo)

• Brindan información interesante sobre la distribución de los datos.


Forma del histograma: outliers

• Moda

• Sesgo

unimodal bimodal multimodal uniforme

simétrica Sesgada a izquierda Sesgada a derecha44


Ejercicio

• ¿Cuales de estas variables esperaría que muestren una distribución uniforme?

• Precios de los departamentos en la Ciudad de Buenos Aires.

• Salarios de una muestra de individuos tomada al azar en la provincia de Santa Fe.

• La fecha de nacimiento (día y mes) de todos los alumnos que actualmente cursan Estadística.


Ejercicio

• ¿Cuál de las siguientes alternativa se ajusta mejor al histograma del porcentaje de tiempo que los alumnos de una clase destinan a tomar nota de la clase vs. a navegar en Facebook, Twitter, whatsApp, etc ?

a) mediana > media c) media ~ mediana

b) media > mediana d) no puede inferirse46


• Anatomía del box-plot

• Ejercicio: calcular el LS y el LI de los bigotes (wiskers)

Datos numéricos: diagrama de cajas (Box-Plot)

RICQRICQ *3 lejanooutlier ó *3lejanooutlier 13 −+

45

50

55

60

65

70

75

80

85

ESPERANZA_VIDA

Descriptive Statistics for

Esperanza de vida

Mean 70.25

Median 72.72

Max 83.58

Min. 45.56

Quant. p=0.25 64.27

Quant. p=0.75 76.58

Std. Dev. 9.10

Obs. 180

RICQRICQRICQRICQ *5.1 cercanooutlier *3 ó *3 cercanooutlier *5.1 1133 −−++


Datos numéricos: histogramas vs. boxplots


Datos numéricos: diagrama de tallos y hojas (stem and leaf)

Stem-and-leaf plot for lifeexpectancyatbirth (Life expectancy at birth)

Steam

4s

4

5*

5t

5f

5s

5

6*

6t

6f

6s

6

7*

7t

7f

7s

7

8*

8t

8f

8 8 8 8 8 9 9 9

0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2 2 2 3 3

4

8 8 8 8 8 8 8 8 8 9 9 9 9 9 9

2 2 2 2 2 2 2 3 3 3 3 3 3 3

6 6 6 6 6 6 6 7 7 7 7 7 7

0 0 0 1 1 1 1 1 1 1 1

4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

0 1 1 1 1

2 2 2 2 2 2 3 3 3 3 3

4 4 4 5 5 5

6 6 6 7 7 7 7

4 4 5 5 5 5 5

6 67 7

8 8 9 9 9 9

Leaf

6

8 9 9

0 0 0 1 1

2 3 3

http://www.calculatorsoup.com/calculators/statistics/stemleaf.php


http://www.calculatorsoup.com/calculators/statistics/stemleaf.php

Datos numéricos: series de tiempo

• Cuando se desea tener en cuenta el orden en que se han tomado los datos, los histogramas no son útiles.

• En estos casos se considera un gráfico de series de tiempo.

• Cuidado con las escalas! No caer en la trampa, particularmente cuando se realizan comparaciones.

Argentina- Tasa de inflación anual

-500

0

500

1000

1500

2000

2500

3000

3500

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

2002

2004

2006

2008

2010

2012

en p

orc

enta

je

Argentina- Tasa de inflación anual

-5

0

5

10

15

20

25

30

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

en p

orc

enta

je


Datos numéricos: diagrama de puntos (scatterplot)

• El diagrama de puntos o scatterplot es la herramienta cuando se analiza la relación de dos variables en forma conjunta.

País

1 Afghanistan 1907 60.9

2 Albania 9489 77.4

3 Algeria 12957 71.0

4 Angola 7319 51.9

5 Antigua and Barbuda 20002 76.0

6 Argentina 17629 76.3

7 Armenia 7501 74.6

… … …

… … …

183 Zambia 3070 58.1

184 Zimbabwe 1445 59.9

Esperanza de

vida en años

PBI per capita

PPP ($US de

2011)



• Cada punto del plano es un par ordenado (x,y)=(PIB per capita, esperanza de vida). Son datos apareados.

Datos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

Esp

era

nza d

e v

ida a

l n

acer

(en

añ

os)

Outlier?



• Cada punto del plano es un par ordenado (x,y)=(PIB per capita, esperanza de vida). Son datos apareados.

Datos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000


Esp

eran

za d

e vi

da

al n

acer

(en

añ

os)

Qatar

Guinea

Bostwana



• Evaluación de la relación

lineal

curvada

negativa

positiva

Dirección Forma

Intensidad

fuerte

débil

lineal

Outliers


• Hasta ahora vimos métodos numéricos cuyo objeto es resumir los datos de una sóla variable.

• Pero el interés puede radicar en la relación entre dos variables.

• Supongamos que tenemos 2 muestra de tamaño n. Sean

• La covarianza de la muestra o covarianza muestral se define como

Medida de asociación entre dos variables

nn yyyxxx ,...,y ,...,, 2121

1

))((

−

−−=

n

yyxxs

ii

xy



nn yyyxxx ,...,y ,...,, 2121

13.70=y

1

))((

−

−−=

n

yyxxs

ii

xy

País

1 Afghanistan 1907 60.9

2 Albania 9489 77.4

3 Algeria 12957 71.0

4 Angola 7319 51.9

5 Antigua and Barbuda 20002 76.0

6 Argentina 17629 76.3

7 Armenia 7501 74.6

… … …

… … …

183 Zambia 3070 58.1

184 Zimbabwe 1445 59.9

Esperanza de

vida en años

PBI per capita

PPP ($US de

2011)

3.16543=x

En excel, =covar(lista de números var1, lista de números var2)


75.101091=xys

Medida de asociación entre dos variablesDatos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000


Es

pe

ran

za

de

vid

a a

l n

ace

r (e

n a

ño

s)

III

III

IV


• Una covarianza positiva (negativa) indica asociación linealpositiva (negativa).

• Sin embargo nada se puede decir de la intensidad de esta relación porque el problema con la covarianza es que depende de las unidades de medida de las variables de interés.

• El coeficiente de correlación es la solución a este problema, ya que lo independiza de las unidades

• En excel =coef.de.correl(lista de números var1, lista de números var2)


)1()()1()(

1

))((

22 −−−−

−

−−

==

nyynxx

n

yyxx

ss

sr

ii

ii

yx

xy

xy


• El coeficiente de correlación toma valores entre -1 y 1.

• Si el coeficiente de correlación es igual a 1, se tiene una asociación lineal positiva perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a -1, se tiene una asociación lineal negativa perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a 0, indica que no hay relación lineal.

• En el ejemplo de ingreso per capita y esperanza de vida el coeficiente es


11 − xyr

594.0=xyr


Diferente grados de correlaciones muestrales

Estadística 2018 - Prof. Tamara Burdisso60


• Advertencia: que se observe una estrecha relación entre las variables no implica que exista una relación causa-efecto entre las mismas.

• Ejemplo: Pensar en un scatterplot donde en el eje de las x se representa los daños ocasionados en el siniestro y en el eje de las y la cantidad de bomberos que actuaron en determinado siniestro . A mayor daño, mayor la cantidad de bomberos que actúan en el siniestro, pero claramente no son los bomberos los que causan el daño. Existe una tercera variable (omitida), que es la que mantiene la relación causa-efecto. En este ejemplo es la magnitud del incendio.

• En series de tiempo, puede haber correlaciones espurias entre variables que tienen tendencia (http://www.tylervigen.com/spuriouscorrelations)


Datos categóricos

• Al igual que los datos numéricos, los datos categóricos pueden ser ordenados/tabulados y analizados.

gender age maritalStatus highestQualification nationality ethnicity

Male 38 Divorced No Qualification British White

Female 42 Single No Qualification British White

Male 40 Married Degree English White

Female 40 Married Degree English White

Female 39 Married GCSE/O Level British White

Female 37 Married GCSE/O Level British White

Male 53 Married Degree British White

Male 44 Single Degree English White

Male 40 Single GCSE/CSE English White

Female 41 Married No Qualification English White

Tabulation of ESTADO_CIVIL

Date: 02/05/15 Time: 17:38

Sample: 1 1691


Number of categories: 5

Cumulative Cumulative

Value Count Percent Count Percent

Divorced 161 9.52 161 9.52

Married 812 48.02 973 57.54

Separated 68 4.02 1041 61.56

Single 427 25.25 1468 86.81

Widowed 223 13.19 1691 100

Total 1691 100.00 1691 100

Tabla de frecuencias o distribución de frecuencias


Datos categóricos: gráfico de barras

0

100

200

300

400

500

600

700

800

900

Divorced Married Separated Single Widowed

cantidad d

e o

bserv

acio

nes

0

10

20

30

40

50

60


en p

orc

enta

jes

0

20

40

60

80

100

120

1

en p

orc

enta

jes


El gráfico de barras es para datos categóricos. El orden de las categorías es intercambiable

El histograma es para datos numéricos. El eje de las abscisas es numérico. ¡El orden importa!


Datos categóricos

• Cuando se dispone de más de una variable categórica, la tabulación se denomina Tabla de contingencia.

Tabla de contingencia

Tabulation of ESTADO_CIVIL and SEXO

Date: 02/09/15 Time: 19:12

Sample: 1 1691


Tabulation Summary

Variable Categories

ESTADO_CIVIL 5

SEXO 2

Product of Categories 10

SEXO

Count Female Male Total

Divorced 111 50 161

Married 423 389 812

ESTADO_CIVIL Separated 46 22 68

Single 222 205 427

Widowed 163 60 223

Total 965 726 1691


Datos categóricos y datos numéricos

0

20

40

60

80

100

Divorced

0

20

40

60

80

100

Married

0

20

40

60

80

100

Separated

0

20

40

60

80

100

Single

0

20

40

60

80

100

Widowed

EDAD by ESTADO_CIVIL

Distribución de las edades de los individuos de la muestra según el estado civil

Edad: var. numérica

Estado civil: var. categórica