Estadística I Tema 3: Análisis de datos bivariantes · Introducci on. Datos bivariantes I >Afecta...

41
Estad´ ıstica I Tema 3: An´ alisis de datos bivariantes

Transcript of Estadística I Tema 3: Análisis de datos bivariantes · Introducci on. Datos bivariantes I >Afecta...

Estadıstica ITema 3: Analisis de datos bivariantes

Tema 3: Analisis de datos bivariantes

Contenidos

1. Introduccion. Datos bivariantes.

2. Representaciones.I Tablas de doble entrada. Distribucion conjunta de frecuencias.

I Frecuencias marginales y condicionadas.

I Tabla de doble entrada con alguna variable cuantitativa.

3. Graficos y resumenes numericos:I Variables cualitativas: diagramas de barras (agrupadas, apiladas)

I Variable cualitativa y cuantitativa:I Multiples diagramas de caja, histogramas

I Multiples resumenes numericos.

I Variables cuantitativas:I Diagrama de dispersion.

I Tipos de relacion entre dos variables cuantitativas.

I Medidas de asociacion lineal: covarianza y coeficiente de correlacion

Tema 3: Analisis de datos bivariantes

Lecturas recomendadasI Pena, D. y Romo, J., Introduccion a la Estadıstica para las Ciencias

Sociales.I Capıtulos 7, 8 y 9.

I Newbold, P. Estadıstica para los Negocios y la Economıa.I Secciones 2.5 y 12.1–12.4.

Introduccion. Datos bivariantes

I ¿Afecta el paro en igual medida a toda la poblacionindependientemente de su formacion?

I ¿Los individuos con mayor nivel educativo estan mas, menos oigualmente satisfechos con su vida que aquellos que tienen menornivel educativo?

I ¿Cambia el patron de consumo y produccion responsable en lospaıses con mayores ingresos con respecto a aquellos con menoresingresos?

I ¿Sigue habiendo brecha de genero en el salario?

I ¿Existe alguna relacion entre el volumen de ventas de una empresa ysus activos humanos?

I ¿Estan relacionadas la superficie de una vivienda y su precio?

I ¿Hay alguna relacion entre los resultados medios de un paıs encomprension lectora y en matematicas en las evaluaciones PISA?

Introduccion. Datos bivariantes

I Datos bivariantes: provienen de la observacion simultanea de dosvariables (X ,Y ) en una muestra de n individuos. Los datosbivariantes son pares de valores, numericos o no, de la forma

(x1, y1), (x2, y2), . . . , (xn, yn)

I Ademas de analizar cada variable por separado, queremos estudiar siexiste relacion entre ellas, y en tal caso analizar tal relacion.

Tablas de doble entrada. Distribucion conjunta defrecuencias absolutas.

I Muestra: 10 madrilenos.

I Variable X : Nivel educativo (1=Primaria o menor, 2=Secundaria,3=Post-secundaria)

I Variable Y : Situacion laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

Individuo 1 2 3 4 5 6 7 8 9 10Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2Situacion laboral (Y ) 3 1 1 3 3 3 3 3 1 3

X \Y Empleado (1) Desempleado (2) Inactivo (3)Primaria (1) 0 0 2

Secundaria (2) 1 0 4Post-secundaria (3) 2 0 1

Tablas de doble entrada. Distribucion conjunta defrecuencias absolutas.

I Muestra: 10 madrilenos.

I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,3=Post-secundaria)

I Variable Y : Situacion laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

Individuo 1 2 3 4 5 6 7 8 9 10Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2Situacion laboral (Y ) 3 1 1 3 3 3 3 3 1 3

X \ Y Empleado (1) Desempleado (2) Inactivo (3)Primaria (1) 0 0 2

Secundaria (2) 1 0 4Post-secundaria (3) 2 0 1

Ejemplo: Distribucion conjunta de frecuencias absolutas.

Cuando al menos una variable es cualitativa, la tabla de doble entradatambien se denomina tabla de contingencia.

I Muestra: 1508 madrilenos (Encuesta de Condiciones de Vida, INE).

I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,3=Post-secundaria)

I Variable Y : Situacion laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

X \ Y Empleado Desempleado InactivoPrimaria 95 6 315

Secundaria 393 28 257Post-secundaria 317 8 89

Distribuciones de frecuencias absolutas: conjunta ymarginales.

¿Y si solo nos interesa la situacion laboral de los madrilenos?

¿o solo su nivel educativo?

X \ Y Empleado Desempleado Inactivo TotalPrimaria 95 6 315 416

Secundaria 393 28 257 678Post-secundaria 317 8 89 414

Total 805 42 661 1508

Tabla de doble entrada de frecuencias absolutas

I Tabla de doble entrada con k filas y m columnas

Yc ′1 · · · c ′j · · · c ′m Total

c1 n11 · · · n1j · · · n1m n1�...

......

......

X ci ni1 · · · nij · · · nim ni�...

......

......

ck nk1 · · · nkj · · · nkm nk�Total n�1 · · · n�j · · · n�m n��

I Notacion:

Frec. absoluta conjunta para las clases ci de X y c ′j de Y : nijFrec. absoluta marginal para la clase ci de X : ni� = ni1 + · · ·+ nimFrec. absoluta marginal para la clase c ′j de Y : n�j = n1j + · · ·+ nkj

Tamano muestral: n�� = n

Distribuciones de frecuencias relativas: conjunta ymarginales.

X \ Y Empleado Desempleado Inactivo TotalPrimaria 0.0630 0.0040 0.2089 0.2759

Secundaria 0.2606 0.0186 0.1704 0.4496Post-secundaria 0.2102 0.0053 0.0590 0.2745

Total 0.5338 0.0279 0.4383 1

I El 0.53 % de los encuestados tiene estudios de Post-secundaria yesta desempleado.

I Empleando frecuencias relativas podrıamos comparar los resultadosobtenidos en estudios similares (de otros paıses) con distintostamanos muestrales.

Tabla de doble entrada de frecuencias relativasI fij = nij/n: Frec. relativa conjunta para las clases ci de X y c ′j de Y

Yc ′1 · · · c ′j · · · c ′m Total

c1 f11 · · · f1j · · · f1m f1�...

......

......

X ci fi1 · · · fij · · · fim fi�...

......

......

ck fk1 · · · fkj · · · fkm fk�Total f�1 · · · f�j · · · f�m 1

I Frecuencia relativa marginal para la fila i (clase ci de X ):

fi� = fi1 + · · ·+ fij + · · ·+ fim

I Frecuencia relativa marginal para la columna j (clase c ′j de Y ):

f�j = f1j + · · ·+ fij + · · ·+ fkj

Representaciones graficas. Diagramas de barras agrupadasy apiladas

En Excel: Insertar grafico → Columna agrupada

Distribuciones de frecuencias condicionadas

I ¿Y si solo nos interesa la situacion laboral de los individuos con niveleducativo mas alto?

I ¿Y si queremos analizar la relacion entre el nivel educativo y lasituacion laboral?

I ¿Tiene sentido comparar el numero de desempleados con estudios desecundaria con el numero de desempleados con estudios depost-secudaria sin tener en cuenta cuantos individuos hay en cadacategorıa?

Distribuciones de frecuencias condicionadas

I Dada la distribucion conjunta de (X ,Y ), llamaremos distribucioncondicionada a la distribucion de frecuencias (absolutas o relativas)de una variable, suponiendo conocido el valor de la otra variable.

I Notacion: Y |X = ci , o X |Y = c ′j .

Distribucion condicionada de frecuencias de la situacion laboral (Y ) parapersonas con un nivel educativo (X ) de Post-secundaria:

Y |X = Post-secundaria Empleado Desempleado Inactivo TotalFrec. cond. absoluta 317 8 89 414Frec. cond. relativa 0.7657 0.0193 0.2150 1

I El 1.93 % de los encuestados con estudios de Post-secundaria estadesempleado

I ¿Que porcentaje de individuos con estudios de secundaria osuperiores esta desempleado?

Distribuciones de frecuencias condicionadas

Puede condicionarse tambien a que una variable tome varios valores:

I Y |X ≥ Secundaria.

Y | (X ≥ Secundaria) Empleado Desempleado Inactivo TotalFrec. cond. absoluta 710 36 346 1092Frec. cond. relativa 0.6502 0.0330 0.3168 1

I El 3.3 % de los encuestados con estudios de secundaria o superioresesta desempleado.

Distribuciones de frecuencias condicionadas

¿Podemos emplear las distribuciones condicionadas para analizar larelacion entre la situacion laboral y el nivel de estudios?

En Excel: Insertar grafico → Columna 100 % apilada

Tabla de doble entrada para variables cuantitativasI Muestra: 43 alumnos.

I Variable X : Num. de veces que ha ido al teatro en el ultimo mes.

I Variable Y : Num. de veces que ha ido al cine en el ultimo mes.

X e Y son variables cuantitativas discretas y toman un numero pequenode valores distintos ⇒ datos sin agrupar

Teatro / Cine 0 1 2 3 4 Total0 12 5 4 2 1 241 4 3 2 1 0 102 3 3 2 0 0 83 1 0 0 0 0 1

Total 20 11 8 3 1 43

I ¿Cual es el numero medio de veces que han ido al cine en el ultimomes (independientemente del numero de veces que hayan ido alteatro)? ¿y al teatro?

I ¿Cual es el numero medio de veces que han ido al cine en el ultimomes aquellos que no han ido ninguna vez al teatro? ¿y entre los quehan ido 1 vez al teatro? ¿y 2? ¿y 3?

Tabla de doble entrada para variables cuantitativasI Muestra: 1000 empresas americanas.

I Variable X : Volumen de ventas.

I Variable Y : Num. de trabajadores.

X e Y son cuantitativas discretas y toman un numero grande de valoresdistintos (o si son continuas) ⇒ datos agrupados

X / Y [1,25) [25,50) [50,75) [75,99] Total[1,100) 0.293 0.122 0.098 0.049 0.561

[100,200) 0.098 0.073 0.049 0.024 0.244[200,300] 0.073 0.073 0.049 0.000 0.195

Total 0.463 0.268 0.195 0.073 1.000

I ¿Cuantas empresas tienen un volumen de ventas menor que 100?I ¿Que porcentaje de empresas con menos de 25 trabajadores tiene un

volumen de ventas de al menos 200?I ¿Que proporcion de empresas tiene menos de 25 trabajadores y un

volumen de ventas de al menos 200?I ¿Cual es el tamano medio de todas las empresas de la muestra? ¿Y

de aquellas con un volumen de ventas menor que 100?

Ejercicio (Encuesta de Condiciones de Vida. Modulo ano 2013, INE)

I ¿Que distribuciones estan representadas en la tabla anterior?

I ¿Que porcentaje de encuestados con educacion secundaria primeraetapa puntua su satisfaccion entre 5 y 6?

Muchas tablas en informes son tablas de frecuencias condicionadas

Ejercicio (Encuesta de Condiciones de Vida. Modulo ano 2013, INE)

¿Verdadero o falso? Si es falso, ¿tienes suficiente informacion paracalcular el porcentaje verdadero?

I Entre los encuestados mas satisfechos con su vida actual(puntuacion entre 9 y 10), el 23.3 % tiene educacion superior.

I El 75.5 % de los encuestados con educacion superior esta satisfechoo muy satisfecho con su vida actual (puntuacion por encima de 7)

I El 38.5 % de los encuestados puntua su satisfaccion con su vidaactual por debajo de 5.

Es incorrecto sumar frecuencias condicionadas cuando se condiciona envalores distintos

Ejercicio

Comenta los siguientes graficos:

I ¿Que distribuciones estan representadas en el grafico de barras?

I ¿Que relacion observas entre la satisfaccion media con su vida actualy el nivel educativo de los individuos?

Peligros de las comparaciones no homogéneas: Paradoja de Simpson

Sex Bias in Graduate Admissions: Data from Berkeley, Bickel et al., Nature 187 (1975)

44%35%

56%65%

H O M B R E S M U J E R E S

ADMISIONES

Admisiones Denegadas

¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?

https://es.wikipedia.org/wiki/Paradoja_de_Simpson

Peligros de las comparaciones no homogéneas: Paradoja de Simpson

¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?

62

%

63

%

37

%

33

%

28

%

6%

44

%

82

%

68

%

34

%

35

%

24

%

7%

35

%

A B C D E F T O T A L

ADMISIONES

Hombres Mujeres

82

5

56

0

32

5

41

7

19

1

27

2

10

8

25

59

3

37

5

39

3

34

1

A B C D E F

SOLICITUDES

Hombres Mujeres

Datos de admisiones desglosados por departamentos (A, …, F) y sexo:

Variables cualitativas y cuantitativas

I En la mayorıa de los estudios se recogen datos de distintanaturaleza, cualitativos y cuantitativos.

I Es habitual que las variables cualitativas se utilicen para clasificar: seestudia el comportamiento de la variable cuantitativa segun lascategorıas de la variable cualitativa.

Ejemplo

I Muestra: 157 paıses.

I Variable Y : Puntuacion promedio obtenida acerca del grado decumplimiento del ODS12 (Produccion y Consumo Responsables)

I Variable X : Grupo de Ingresos en 2016.

¿Como cambia la puntuacion promedio en el ODS12 de los paıses segunsu nivel de ingresos?

jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text

Variables cualitativas y cuantitativas. Múltiples Box-Plot

Average score on SDG12 (Producción y consumo responsables)

0

10

20

30

40

50

60

32.8 41.5 50.2 58.9 67.6 76.3 85 93.7

FREC

UEN

CIA

CLASE

Average score on SDG12

Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
(nota: SDG = ODS)
jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
jnino
Typewritten Text
(nota: Low Income Countries (LIC), Low-Middle ... (LMIC), Upper-Middle ... (UMIC), High ... (HIC)

Average score on SDG12 (Producción y consumo responsables)

Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

Variables cualitativas y cuantitativas. Múltiples Histogramas

0

2

4

6

8

10

12

31.3 38.4 45.5 52.6 59.7 66.8 73.9

FREC

UEN

CIA

CLASE

HIC-Average Score SDG12

02468

10121416

49.2 54.6 60 65.4 70.8 76.2 81.6

FREC

UEN

CIA

CLASE

UMIC-Average Score SDG12

0

5

10

15

20

71.2 75.7 80.2 84.7 89.2 93.7

FREC

UEN

CIA

CLASE

LMIC-Average Score SDG12

012345678

76.6 78.7 80.8 82.9 85

FREC

UEN

CIA

CLASE

LIC-Average Score SDG12

Variables cualitativa y cuantitativa. Histogramas multiples

I ¿Sigue habiendo brecha de genero en el salario?

Resumenes numericos multiples. Tablas de datos

I ¿Existe relacion entre el salario y el nivel de formacion?

Son habituales las tablas que presentan medidas numericas de la variablecuantitativa para cada categorıa de la variable cualitativa:

Resumenes numericos multiples. Tablas de datosI ¿Existe relacion entre el salario y el nivel de formacion?

Los resultados de una tabla se pueden representar graficamente.

La desviacion del salario medio en % de un grupo g con respecto alsalario medio total se obtiene como:

Desvg =( xg − xtotal

xtotal

)· 100

Resumenes numericos multiples. Pictogramas

I ¿Se observan diferencias entre los salarios de los trabajadoresdependiendo de su CCAA?

Los resultados de una tabla se pueden representar por medio depictogramas. En este caso, de un cartograma:

Variables cuantitativas. Diagrama de dispersionI ¿Hay relacion entre la superficie de una vivienda y su precio?

I Muestra: 15 viviendas.

I Variable Y : Precio.

I Variable X : m2 habitables.

m2 habitables precio

107 162657114 16555491 154506

100 16210396 158271

107 166925104 161917100 16114980 15226381 151878

105 165678111 166696108 16538797 161806

106 163824

●●

●●

80 85 90 95 100 105 110 115

1550

0016

0000

1650

00

Size of a house (m^2)

Pric

e of

a h

ouse

(eu

ro)

Medidas de asociacion lineal para variables cuantitativasI La covarianza es una medida de la relacion entre dos variables.

Cuantifica la informacion en un grafico de dispersion sobre laasociacion lineal entre dos variables.

x y1 0.81186553 1.719030422 0.98151318 1.771815093 1.86964664 3.110278374 1.67494569 2.80400635 1.67159679 3.134033546 2.06896883 4.822315857 2.07458768 3.774396388 2.1276676 3.989949179 2.0867583 4.6670687

10 3.01682761 4.472385411 2.21807301 4.8772188912 1.31836091 3.5270388513 0.94868813 2.4457487514 3.71304211 8.19843302

5

6

7

8

9 Y

xi>media(x)yi>media(y)

14 3.71304211 8.1984330215 1.50010914 2.4945486116 3.08738201 5.4329960117 1.3694318 0.9241207318 1.86684042 3.8005790219 1.24087921 1.5577054720 2.07104626 4.7039160921 0.71226336 0.2664213622 1.44547522 3.0170783823 2.44837446 4.8679519824 3.38040178 6.1744001325 0.69995779 0.8548704826 0.93002587 0.0091339927 2.53962691 5.7971757628 3.00173124 5.2616040329 2.99222302 6.0049200130 2.78137228 3.5740901631 2.83313549 6.2447274932 1.21334859 1.78724959

0

1

2

3

4

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

X

xi<media(x)yi<media(y)

Covarianza:

sxy =1

n − 1

( ∑ni=1 xiyi − nx y︷ ︸︸ ︷

n∑i=1

(xi − x)(yi − y)

)−∞ < sxy <∞

Medidas de asociacion lineal: La covarianza

I sxy >> 0⇒ Relacion lineal positiva.

I sxy << 0⇒ Relacion lineal negativa.

I sxy ≈ 0⇒ No existe relacion lineal o existe relacion no lineal.

I Inconvenientes de la covarianza:I No esta acotada ni superior ni inferiormente. Por lo tanto no se sabe

cuando sxy es suficientemente grande o pequena.I Depende de las unidades de medida de las variables:

Si sxy es la covarianza de X e Y , a y b son dos numeros, yT = a + bY , entonces sxt = b sxy .

Covarianza y relacion entre variables

Medidas de asociacion lineal: La correlacion

I Correlacion (coeficiente de correlacion lineal de Pearson):

rxy =sxysxsy

I ¿Ventajas?

I Esta acotada: −1 ≤ rxy ≤ 1

I No depende de las unidades de medida de las variables (esadimensional).

I Interpretacion:I rxy > 0: Asociacion lineal positiva.I rxy < 0: Asociacion lineal negativa.I |rxy | = 1: Relacion lineal perfecta.I rxy = 0: X e Y estan incorreladas (ausencia de relacion lineal).

Correlacion y causalidad

I Supongamos que la correlacion entre dos variables X e Y es muyalta (p. ej., rxy = 0.9)

I ¿Podemos concluir que hay una relacion causal entre ambasvariables? (una es causa de la otra)

I La respuesta es que NO.

I P. ej., X = tamano de los pies de un nino, Y = capacidad decomprension lectora de un nino

I La correlacion no implica causalidad

I Ver:https://es.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc

Ejemplo

Ejemplo- Tenemos tres variables sobre 91 paıses: X = esperanza de vidaen hombres, Y = esperanza de vida en mujeres, y Z = PIB.

I Las covarianzas entre los tres posibles pares de dos variables sonsxy = 105.15, sxz = 50066.04 y syz = 57917.93.

I Las correlaciones son rxy = 0.98, rxz = 0.64 y rxz = 0.65.

I Por lo tanto, aunque las covarianzas entre la esperanza de vida enhombres y mujeres y el producto interior bruto sean mayores que lacovarianza entre la esperanza de vida para hombres y la esperanzade vida para mujeres, la correlacion es mayor entre estas dos ultimasvariables.

Ejercicio: Resultados del informe PISA 2012

I Muestra: 64 paıses cuyos estudiantes realizaron el examen PISA en 2012.

I X : Puntuacion media en lectura.

I Y : Puntuacion media en matematicas.

Se obtiene que

I La covarianza entre X e Y es sxy = 2440.78.

I La correlacion entre X e Y es rxy = 0.96.

A continuacion se muestra el diagrama de dispersion para estos datos.

I ¿Que puedes concluir sobre la relacion entre ambas variables?

Ejercicio: Resultados del informe PISA 2012

Ejercicio: Resultados del informe PISA 2012