Tema 1 Análisis exploratorio de datos multivariantes

38
Tema 1 An´ alisis exploratorio de datos multivariantes Jos´ e R. Berrendero Departamento de Matem´ aticas Universidad Aut´ onoma de Madrid

Transcript of Tema 1 Análisis exploratorio de datos multivariantes

Page 1: Tema 1 Análisis exploratorio de datos multivariantes

Tema 1Analisis exploratorio de datos multivariantes

Jose R. Berrendero

Departamento de MatematicasUniversidad Autonoma de Madrid

Page 2: Tema 1 Análisis exploratorio de datos multivariantes

Gorriones

I Tras una fuerte tormenta en febrero de 1898, un grupo degorriones moribundos fueron llevados a la Universidad Brown(Rhode Island).

I Alrededor de la mitad de los gorriones murieron. Se considerola situacion como una oportunidad de estudiar el efecto de laseleccion natural sobre los pajaros.

I Se tomaron diversas medidas morfologicas, de las que seincluyen 5 en el fichero.

Page 3: Tema 1 Análisis exploratorio de datos multivariantes

Variables

Nombre variable Descripcion

TOT Longitud totalALA Extension de las alasCAB Longitud del pico y la cabezaHUM Longitud del humeroEST Longitud del esternon

Observaciones:

I Todas las variables se miden en mm.

I El fichero contiene datos de 49 gorriones.

I Los 21 primeros gorriones fueron los supervivientes.

Page 4: Tema 1 Análisis exploratorio de datos multivariantes
Page 5: Tema 1 Análisis exploratorio de datos multivariantes

Problemas de interes relacionados con estos datos

I ¿Estan las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?

I ¿Hay diferencias significativas entre las observacionescorrespondientes a los supervivientes y a los que nosobrevivieron?

I Si la respuesta es afirmativa, ¿es posible construir una funcionde las variables que separe bien los dos grupos?

I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?

Page 6: Tema 1 Análisis exploratorio de datos multivariantes

Temario

I Analisis exploratorio de datos multivariantesI Descripcion numericaI Descripcion grafica

I Tecnicas de analisis discriminanteI Discriminacion lineal de Fisher

I Tecnicas de agrupacionI Metodos jerarquicosI Metodos por division

I Tecnicas de reduccion de la dimensionI Analisis de componentes principalesI Analisis factorial

Page 7: Tema 1 Análisis exploratorio de datos multivariantes

Bibliografıa basica

I Johnson, R.A. y Wichern, D.W. (1992). Applied MultivariateStatistical Analysis. Prentice–Hall.

I Lattin, J.M., Carroll, J.D. y Green, P.E. (2003). Analyzingmultivariate data. Thomson Brooks/Cole.

I Pena, D. (2002). Analisis de datos multivariantes. McGrawHill.

Una bibliografıa mas amplia puede encontrarse en el programa dela pagina web de la asignatura

Page 8: Tema 1 Análisis exploratorio de datos multivariantes

Lirios

Codigo DescripcionCLASS Especie

SL Longitud del sepaloSW Anchura del sepaloPL Longitud del petaloPW Anchura del petalo

CLASS PL PW SL SWsetosa 5.1 3.5 1.4 0.2

versicolor 7 3.2 4.7 1.4virginica 6.3 3.3 6 2.5

En total hay 50 lirios de cada especie (es decir, la matriz de datoses 150× 4, si no tenemos en cuenta la variable que indica elnombre de la especie)

Page 9: Tema 1 Análisis exploratorio de datos multivariantes

Problemas de interes relacionados con estos datos

I ¿Estan las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?

I ¿Hay diferencias significativas entre las observacionescorrespondientes a cada una de las especies?

I Si la respuesta es afirmativa, ¿es posible construir una funcionde las variables que separe bien los tres grupos?

I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?

Page 10: Tema 1 Análisis exploratorio de datos multivariantes

Liga espanola de futbol 2005-2006Text2 1 / 1

May 26, 2006 Crimson Editor

Equipo G P GF GCBarcelona 25 6 80 35

RMadrid 20 8 70 40Valencia 19 7 58 33Osasuna 21 12 49 43Sevilla 20 10 54 39

Celta 20 14 45 33Villarreal 14 9 50 39Deportivo 15 13 47 45

Getafe 15 14 54 49AtMadrid 13 12 45 37Zaragoza 10 12 46 51

AthBilbao 11 15 40 46Mallorca 10 15 37 51

Betis 10 16 34 51Espanyol 10 17 36 56

RSociedad 11 20 48 65Racing 9 16 36 49Alavés 9 17 35 54Cádiz 8 18 36 52

Málaga 5 24 36 68

Page 11: Tema 1 Análisis exploratorio de datos multivariantes

Variables

Nombre variable Descripcion

Equipo Nombre del equipoG Numero de partidos ganadosP Numero de partidos perdidosGF Goles a favorGC Goles en contra

Observaciones:

I El numero de partidos empatados y el numero de puntos sehan omitido puesto que son variables redundantes.

Page 12: Tema 1 Análisis exploratorio de datos multivariantes

Problemas de interes relacionados con estos datos

I ¿Estan las variables relacionadas? Al variar una, ¿como varıanlos valores de las otras?

I ¿Existen datos atıpicos?

I ¿Es razonable suponer un modelo normal multivariante?

I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?

I ¿Se pueden establecer grupos homogeneos de equipos?

Page 13: Tema 1 Análisis exploratorio de datos multivariantes

Descripcion univariante: longitud del sepalo

Frecuencias

Estadísticos

SL

1500

5,8435,800,8281,6857

4,37,9

5,1005,8006,400

VálidosPerdidos

N

MediaMedianaDesv. típ.VarianzaMínimoMáximo

255075

Percentiles

Página 1

Gráfico

8,07,06,05,04,0

sl

25

20

15

10

5

0

Frecuencia

Media =5,843Desviación típica=0,8281N =150

&[PageTitle]

Página 1

Page 14: Tema 1 Análisis exploratorio de datos multivariantes

Descripcion univariante: anchura del sepalo

Estadísticos

SW

1500

3,0543,000,4336,1880

2,04,4

2,8003,0003,300

VálidosPerdidos

N

MediaMedianaDesv. típ.VarianzaMínimoMáximo

255075

Percentiles

Página 1

4,54,03,53,02,52,0

sw

40

30

20

10

0

Frecuencia

Media =3,054Desviación típica=0,4336N =150

&[PageTitle]

Página 1

Page 15: Tema 1 Análisis exploratorio de datos multivariantes

Interpretacion de la covarianza

Page 16: Tema 1 Análisis exploratorio de datos multivariantes

Dimensiones del sepalo: covarianza y correlacion

Covarianzas

Longitud del sepalo Anchura del sepaloLongitud del sepalo 0.68569351 -0.04243400Anchura del sepalo -0.04243400 0.18997942

Correlaciones

Longitud del sepalo Anchura del sepaloLongitud del sepalo 1.0000000 -0.1175698Anchura del sepalo -0.1175698 1.0000000

Page 17: Tema 1 Análisis exploratorio de datos multivariantes

Dimensiones del sepalo: diagrama de dispersionGráfico

4,54,03,53,02,52,0

sw

8,0

7,0

6,0

5,0

4,0

sl

&[PageTitle]

Página 1

Page 18: Tema 1 Análisis exploratorio de datos multivariantes

Diagrama de cajas

4. Distancia de Mahalanobis: D2(x, x) = (x − x)′S−1(x − x). Se utiliza como herramientade clasificacion y para detectar observaciones atıpicas. Puede considerarse como una version“modificada” de la distancia euclıdea (x− x)′(x− x) que incorpora la informacion que da S.

5. Muestra y poblacion. La distribucion normal: En muchos casos es razonable suponer quelos datos son el resultado de extraer una muestra de una poblacion infinita o, expresado en otrosterminos, constituyen una muestra de observaciones independientes de una variable aleatoria(v.a.) x. Recordemos algunas propiedades de las v.a. p-dimensionales: Si a ∈ Rp entoncesE(a′x) = a′µ, V (a′x) = a′Σa, donde E(.) y V (.) denotan, respectivamente, la media y varianza“poblacionales” y µ y Σ representan el vector de medias y la matriz de covarianza poblacionalesde x. Analogamente, si A es una matriz m × p, el vector de medias (poblacionales) de Ax esAµ y la matriz de covarianzas poblacional de Ax es AΣA′.

Para motivar mejor algunas tecnicas de analisis de datos, y tambien para deducir muchaspropiedades teoricas interesantes, se supone frecuentemente que la variable x tiene distribucionnormal. Esta distribucion queda totalmente especificada por los valores de µ y Σ.

Diagrama de cajas Diagrama de estrellas

6. Algunos graficos: • Diagrama de cajas: Ver figura. • Diagrama de estrellas: Paracada dato p-variante se dibuja una estrella de p puntas o brazos. La longitud de cada brazode la estrella se determina a partir del valor, previamente “reescalado” de la correspondientevariable. Por ejemplo, se puede reescalar cada variable de manera que su valor maximo sobrelos n individuos sea 1 y el mınimo sea 0.

• Diagrama de dispersion: “Matriz de diagramas” obtenida al representar los datos comopuntos en el plano, considerando solo dos variables (para todos los posibles pares de variables).

2

Page 19: Tema 1 Análisis exploratorio de datos multivariantes

Dimensiones del sepalo: diagrama de cajas

setosa versicolor virginica

4.5

6.0

7.5

Longitud del sepalo por especies

setosa versicolor virginica

2.0

3.0

4.0

Ancho del sepalo por especies

Page 20: Tema 1 Análisis exploratorio de datos multivariantes

Dimensiones del sepalo de la especie setosa

2.5 3.0 3.5 4.0

4.5

5.0

5.5

Especie "Setosa"

Ancho del sepalo

Long

itud

del s

epal

o

Page 21: Tema 1 Análisis exploratorio de datos multivariantes

Lirios: matriz de diagramas de dispersion

Longitud.Sepalo

2.0 3.0 4.0 0.5 1.5 2.5

4.5

5.5

6.5

7.5

2.0

3.0

4.0

Ancho.Sepalo

Longitud.Petalo

12

34

56

7

4.5 5.5 6.5 7.5

0.5

1.5

2.5

1 2 3 4 5 6 7

Ancho.Petalo

Page 22: Tema 1 Análisis exploratorio de datos multivariantes

Lirios: matriz de diagramas de dispersion

longitud del sepalo

2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5

4.5

5.5

6.5

7.5

2.0

3.0

4.0 anchura del sepalo

longitud del petalo

12

34

56

7

4.5 5.5 6.5 7.5

0.5

1.5

2.5

1 2 3 4 5 6 7

anchura del petalo

Page 23: Tema 1 Análisis exploratorio de datos multivariantes

Lirios: grafico de estrellas

AS

LS

AP

LP

Page 24: Tema 1 Análisis exploratorio de datos multivariantes

Lirios: matrices de covarianzas y de correlaciones

Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo

Longitud.Sepalo 0.68569351 -0.04243400 1.2743154 0.5162707

Ancho.Sepalo -0.04243400 0.18997942 -0.3296564 -0.1216394

Longitud.Petalo 1.27431544 -0.32965638 3.1162779 1.2956094

Ancho.Petalo 0.51627069 -0.12163937 1.2956094 0.5810063

Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo

Longitud.Sepalo 1.0000000 -0.1175698 0.8717538 0.8179411

Ancho.Sepalo -0.1175698 1.0000000 -0.4284401 -0.3661259

Longitud.Petalo 0.8717538 -0.4284401 1.0000000 0.9628654

Ancho.Petalo 0.8179411 -0.3661259 0.9628654 1.0000000

Page 25: Tema 1 Análisis exploratorio de datos multivariantes

Futbol: Matriz de diagramas de dispersion

G

10 15 20

●●

●● ●

●●●

●●●●●

●●●

●●

●●●

●● ●

●●

●●●●

●●●

35 45 55 65

510

1520

25●

●●

●●●

●● ●

●●

●● ●●

● ●●

1015

20

●●

●●

●●

●●●●

●●

P

●●

●●

●●

●●●

●●●

●●

●●

● ●

● ●●

●●

●●

●●

●●●●

●●●●

●●

●●

●●

●●

●●● ●

GF

4050

6070

80●

●●

● ●

●●●

● ●● ●

5 10 15 20 25

3545

5565

●●

●●

●●

●●

40 50 60 70 80

●●

●●

GC

Page 26: Tema 1 Análisis exploratorio de datos multivariantes

Futbol: Graficos de estrellas

1 2 3 4

5 6 7 8

9 10 11 12

13 14 15 16

17 18 19 20

G

P

GF

GC

Page 27: Tema 1 Análisis exploratorio de datos multivariantes

Futbol: Medidas descriptivas numericas

Estadísticos descriptivos

13,750 5,3986 2013,750 4,4824 2046,800 12,1508 2046,800 9,7581 20

GPGFGC

MediaDesviación

típica N

Correlaciones

1 -,812 ,839 -,793. ,000 ,000 ,000

20 20 20 20-,812 1 -,776 ,878,000 . ,000 ,000

20 20 20 20,839 -,776 1 -,577,000 ,000 . ,008

20 20 20 20-,793 ,878 -,577 1,000 ,000 ,008 .

20 20 20 20

Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N

G

P

GF

GC

G P GF GC

Página 1

Page 28: Tema 1 Análisis exploratorio de datos multivariantes

Lirios: distancias de Mahalanobis

Distancias de Mahalanobis

Frec

uenc

ias

0 2 4 6 8 10 12 14

0.00

0.10

0.20

0 2 4 6 8 10 12

Page 29: Tema 1 Análisis exploratorio de datos multivariantes

Normal univariante: densidad

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

x

y2

¿Cual de las tres corresponde a la normal estandar?

Page 30: Tema 1 Análisis exploratorio de datos multivariantes

Normal multivariante: densidad

−2

−1

0

1

2

−2

−1

0

1

20

1

2

3

4

5

6

Page 31: Tema 1 Análisis exploratorio de datos multivariantes

Densidad de la normal multivariante

µ = (0, 0)′ y Σ =

(1 00 1

)

−2

−1

0

1

2

−2

−1

0

1

20

1

2

3

4

5

6

7

Page 32: Tema 1 Análisis exploratorio de datos multivariantes

µ = (0, 0)′ y Σ =

(1 0.8

0.8 1

)

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−2

−1

0

1

20

0.5

1

1.5

2

2.5

3

3.5

4

Page 33: Tema 1 Análisis exploratorio de datos multivariantes

µ = (0, 0)′ y Σ =

(1 −0.8−0.8 1

)

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−2

−1

0

1

20

0.5

1

1.5

2

2.5

3

3.5

4

Page 34: Tema 1 Análisis exploratorio de datos multivariantes

Ejemplos de datos normales bidimensionales

−5 0 5

−6

−2

02

4

−4 −2 0 2 4

−4

−2

02

4

−4 −2 0 2 4

−3

−1

01

23

−2 −1 0 1 2

−2

−1

01

Σ =

(1 00 1

)Σ =

(1 0.7

0.7 1

)Σ =

(10 00 1

)Σ =

(5 00 1

)

Page 35: Tema 1 Análisis exploratorio de datos multivariantes

Distancias de Mahalanobis para datos normales

−2 −1 0 1 2

−2−1

01

0 2 4 6 8

0.00

0.10

0.20

0.30

−2 −1 0 1 2

−3−1

01

23

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

Page 36: Tema 1 Análisis exploratorio de datos multivariantes

Distancias de Mahalanobis para datos normales

Estadısticos descriptivos para D2i en el segundo ejemplo:

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.007255 0.565100 1.314000 1.980000 2.710000 9.735000

Desviacion tipica: 1.920563

Comparacion con la densidad χ2:

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

Page 37: Tema 1 Análisis exploratorio de datos multivariantes

Futbol: distancias de Mahalanobis

Hist. MahalanobisFr

eque

ncy

0 2 4 6 8 10 12

02

46

0 2 4 6 8 10

Cajas Mahalanobis

Page 38: Tema 1 Análisis exploratorio de datos multivariantes

I La forma del histograma coincide con lo que se espera bajonormalidad (distribucion χ2)

I La distancia de Mahalanobis media es 3.8 y la varianza de lasdistancias es 9.03

I La mayor distancia es 10.90 y corresponde al Celta.

I La menor distancia es 0.22 y corresponde al Deportivo