Introducción a las técnicas de “Análisis...

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Introducción a las técnicas de “Análisis Multivariante”

Fco. Javier Burguillo Universidad de Salamanca

• Objetivo: estudio de varias variables simultáneamente:

Análisis multivariante

•Métodos con variable dependienteHay una variable que “depende” de otras que se miden como “independientes o predictoras”.Tienen un interés predictivo.

0.20.42405100Objeto 3

.............

3624Objeto 2

3412Objeto 1

• Métodos con sólo variables independientesNo se distingue entre variables dependientes e independientes. Tienen un interés descriptivo en el sentido de clasificar objetos en función de las variables.

Métodos con variable dependiente

0.20.42405100Objeto 3

.............

3624Objeto 2

3412Objeto 1

•Regresión lineal múltiple

•Regresión lineal generalizada

Regresión logística binariaRegresión logit

Métodos con sólo variables independientes

0.20.42405100Objeto 3

.............

3624Objeto 2

3412Objeto 1

X2X1Análisis de clusters

a) No se conocen los grupos de los objetos

b) Sí que se conocen los grupos de los objetos

0.20.424052Objeto 3

232Objeto 4

361Objeto 2

341Objeto 1

X2Grupo

Métodos biplot

MANOVA

Análisis en variables canónicas

Análisis discriminante

Jerárquicos K-medias

Análisis de componentes principales

Bx Crecta ylínea ejemplopor

:nteindependie leuna variab Sólo

Ahora: la regresión lineal múltipleLa regresión lineal simple

..........bb

.........aa

bxa(ySSQ ii

=⇒==∂

+−= ∑

0...............(

• Se puede explicitar cada parámetro, solución única, método exacto

3 32211 xBxBxBC y

:nteindependie leuna variab de Más

+++=∗

• Se puede explicitar cada parámetro, solución única, método exacto

• Tratamiento matemático análogo a regresión lineal simple.

Regresión lineal múltiple por mínimos cuadrados

Ejemplo de regresiEjemplo de regresi óón lineal mn lineal m úúltipleltiple

•La aplicación importante es estimar “Masa” tumoral p ara un caso nuevo

.....)1(1

)1(log 3122110 XaXaXaaL

p ++++++++========−−−−

y(i) 1=vivo0=muerto

variables: X1 , X2 , X3 ,...... p(1) = probabilidad de que y = 1

p −−−−++++====1

• La aplicación importante es estimar p(1) para un caso nuevo:

(ej: p(1) = 0.73 de sobrevivir)

RegresiRegresi óón logn log íística binariastica binaria

Análisis de clusters

......................

0.2...2405100Objeto 3

7727Objeto n

3624Objeto 2

3412Objeto 1

Dada una serie de “n” objetos y “m” variables X1, X2,…, Xm, el propósito es clasificar los objetosen grupos (clusters) según la similitud (menor distancias) entreellos:

Procedimientos:

Aglomerativos o divisivos

Jerárquicos

Supervisados (k-medias)

Análisis de 20 pacientes

¿Transformar variables?

Sin transformar

AnAn áálisis jerlisis jer áárquico de clusters (Ejemplo)rquico de clusters (Ejemplo)

Métrica distancia entre objetos

jkikijxxd

Algoritmo de unión de clusters

(((( ))))ddd ikijjki,min

Los 20 pacientes se agrupan (dendrograma)

CML ALL AML RCML

4 grupos

0.2240510Objeto 3

.............

3624Objeto 2

3412Paciente 1

Etapas de un análisis jerárquico de clusters

1) Estandarizar las variables si fuera necesario.

(variables cuantitativas)

3) Elegir un algoritmo para unir (fusionar) grupos.

2) Elegir una medida de distancia entre objetos.

4) Decidir el número final de clusters e interpreta rlos.

1) Transformación de variables para uniformar sus escalas

1) No transformar si las variables están medidas en las mismas unidades.

2) Normalizar variables a media = 0 y desviación estándar = 1:

1) Aplicar raíz cuadrada a las variables.

2) Hacer el logaritmo de las variables.

(sólo variables cuantitativas)

2a) Elegir una medida de distancia entre objetos

• Distancia Euclidia :

( )( )21

jkikij xxD ∑=

2 variables (plano)

• Distancia Euclidia al cuadrado.

• Disimilaridad de Bray-Curtis (en %).

• Distancia ciudad (city block):

jkikij xxD1

2 variables (plano)

1jx1ix

2b) Calcular la matriz de distancias

54321Objeto

Matriz de distancias

......................

0.2...2405100Objeto 3

7727Objeto 5

3624Objeto 2

3412Objeto 1

54535251

45434241

35343231

25242321

15141312

Matriz de distancias

3) Algoritmos de unión (fusión) de clusters

Cluster 1

Cluster 2Cluster 3

Vecino más próximo(single link)

Por centroides

Vecino más lejano(complete link)

El primer cluster consiste en “n” clusters de 1 objeto cada uno, el algoritmo los va fusionando por pasos hasta llegar a un último cluster que contiene los “n” objetos.

¿Qué criterio se sigue para ir fusionando los clusters?

Ejemplo del algoritmo “vecino más próximo”

54321Objeto

(1, 2, 3, 4, 5)5

(1, 2), (3, 4, 5)4

(1, 2), 3, (4, 5)3

(1, 2), 3, 4, 52

1,2,3,4,50

ClusterDistancia

Dendrograma (árbol)

Distancia entre 4 y 5

(rama)

Algoritmos de unión (fusión) de clusters (cont.)

Método del promedio del grupo

Cluster A Cluster B

6252423151413 DDDDDD

DAB+++++=

Cluster C6

282726181716 DDDDDDDAC

+++++=67

Y análogamente:

…etc

Ejemplo del algoritmo “promedio de grupo”

54321Objeto

Distance matrix

(1, 2, 3, 4, 5)7.8

(1, 2), (3, 4, 5)4.5

(1, 2), 3, (4, 5)3

(1, 2), 3, 4, 52

1,2,3,4,50

ClusterDistancia

Dendrograma (árbol)

¿¿Por donde Por donde ““ cortarcortar ”” el el dendrogramadendrograma ? ? o el o el ““ problema del nproblema del n úúmero de gruposmero de grupos ””

¿Transformar variables?Sin transformar

Métrica distancia entre objetos

ciudadciatandis

Algoritmo de unión de clusters

próximomásvecino

0.2240510Paciente 3

.............

3624Paciente 2

3412Paciente 1

Los 20 pacientes se agrupan (dendrograma)

2 grupos

CML ALL AML RCML

4 grupos

3 grupos

Ojo: el Ojo: el dendrogramadendrograma depende de la transformacidepende de la transformaci óón n de los datos, tipo de distancia y algoritmo elegido sde los datos, tipo de distancia y algoritmo elegido s

Estandarizados, distancia euclidia, vecino más próximo

Sin transformar, distancia euclidia, vecino más próximo

Estandarizados, distancia ciudad, promedio de grupo

0.20.424051003

.............

X2X1Caso

0.20.424051003

X2X1centroide

Análisis con 3 clusters

Análisis de clusters por K medias (ejemplo )• Es un análisis de clusters de tipo supervisado (no jerárquico) . • El número de clusters que se desea tiene que decidi rse a priori.

Se deciden k centroides (3 por ej.)

3) Elegir un algoritmo para reasignar los objetos a los clusters hasta alcanzar un criterio de convergencia.

Fundamento de Clusters por K-medias

1) Imaginemos “n” objetos a clasificar en base a “m” variables

2) Elegimos un procedimiento para decidir las estimas iniciales de los k centroides (semillas):

• El investigador elige los k centroides.

• Seleccionar k objetos al azar

• k primeros objetos

Semilla 2

Semilla 1

Semilla 3

.............. 162

32 ...36244

126 ...34121

X3 .... X15X5X1Caso

AnAn áálisis por lisis por ““ Componentes PrincipalesComponentes Principales ””(Ejemplo)(Ejemplo)

15 variables autoperimetría laser (campo visual)

....... 162

CP1Caso

3-4 componentes principales

XaXaXaCP

m +++=

+++=+++=

...........................................................................................................................

2222121

1212111

- Estas CP i explicarán la mayor variabilidad de las variables o riginales - Las CP i presentan incorrelación entre ellas

Reducir las 15 variables

ExtracciExtracci óón de las componentes n de las componentes principalesprincipales

CP3CP4

Transformación = UntransformedTipo de matriz = Correlation matrixTipo de puntuación = Standardised scores

Eigenvalores Proporción AcumulativaCP1 6.833E+00 0.4555 0.4555 CP2 3.724E+00 0.2483 0.7038 CP3 2.321E+00 0.1548 0.8586 CP4 1.055E+00 0.0703 0.9289 CP5 5.849E-01 0.0390 0.9679 CP6 2.691E-01 0.0179 0.9858 CP7 1.968E-01 0.0131 0.9989 CP8 7.668E-03 0.0005 0.9995 CP9 4.829E-03 0.0003 0.9998 CP10 3.070E-03 0.0002 1.0000 CP11 2.153E-04 0.0000 1.0000 CP12 6.593E-05 0.0000 1.0000 CP13 3.677E-06 0.0000 1.0000 CP14 1.308E-06 0.0000 1.0000 CP15 2.115E-07 0.0000 1.0000

Se extraen 4 componentes: CP1, CP2, CP3 y CP4

ContribuciContribuci óón de las variables n de las variables originales a CP1 y CP2originales a CP1 y CP2

Las 15 variables originales

RepresentaciRepresentaci óón de los casos bajo CP1 y CP2 n de los casos bajo CP1 y CP2 (puntuaciones o (puntuaciones o scoresscores en CP1 y CP2)en CP1 y CP2)

Los 162 pacientes

Representación Biplot: ¿Cómo surge?

Imaginemos “2” variables medidas sobre “n” sujetos, ¿se pueden representar a la vez variables y sujetos ? :

510Sujeto 3

.............

3624Sujeto 2

3412Sujeto 1

X1 (Talla)

X2 (Peso)

¿Cómo generalizarlo? : La representación Biplot

...…................

0.2240510Sujeto 3

.......Sujeto n

3624Sujeto 2

3412Sujeto 1

¿Cómo representar simultáneamente “m” variables y “n” sujetos?

1) No es posible representar, tal cual están, más de 3 variables (3D).

2) Se recurre a extraer la información mediante 2 o 3 componentes o ejes ficticios (Biplot 2D o 3D), obtenidos por descomposición de la matriz original en valores singulares (SVD).

Var 1 Var 5

Sujeto 2

Sujeto 5

Sujeto 6Sujeto 3

Sujeto 1

Sujeto 4

Representación Biplot (Interpretación)

A partir del gráfico Biplot se puede reconocer:

• La variabilidad en las variables (desviación estándar), ya que a mayor longitud del vector mayor error en la variable.

• La correlación entre variables , ya que 2 vectores formando ángulo pequeño se interpretan como variables bien correlacionadas . Vectores perpendiculares se refieren a variables con correlación nulay vectores contrarios a variables correlacionadas negativamente .

Var 1Var 5

Sujeto 2

Sujeto 5

Sujeto 6

Sujeto 3

Sujeto 1

Sujeto 4

• Agrupaciones de casos : casos próximos tiene valores parecidos de las variables.

Ejemplo: Biplot para variedades de lirios

Fisher estudió 150 muestras de lirios del campo y a to dos les medió la longitud y la anchura del sépalo y la longitud y anchur a del pétalo.

Biplot para los datos de lirios de Fisher

Biplot (fundamento matemático)1) Se tiene una matriz X de n filas por m columnas:

TVUX Σ=2) Se hace una descomposición en valores singulares (SVD):

=............

............

3) Nos quedamos con la aproximación dada por los 2 primeros valores singulares:

4) Esta aproximación se puede escribir de 3 formas:Biplot simétrico

Biplot con énfasis en filas Biplot con énfasis en columnas

Métodos con sólo variables independientes( b. Cuando se conocen los grupos de los objetos)

0.20.424052Objeto 3

232Objeto 4

361Objeto 2

341Objeto 1

X2Grupo MANOVA

Análisis en variables canónicas

Análisis discriminante

Objetivo: Estudiar las diferencias entre grupos y predeci r el grupo de nuevas muestras.

MANOVA (ANOVA de varias variables)

39342521Grupo 2Objeto 4

0.20.42452Grupo 1Objeto 3

36Grupo 1 Objeto 2

34Grupo 1Objeto 1

X1Grupo

Imaginemos que se miden 4 variables en 3 grupos:

H1 : al menos hay 2 vectores de medias que difieren significativamente de un grupo a otro.

34333231

24232221

14131211

H0 : No hay diferencia entre los vectores de medias de las 4 variables en los 3 grupos:

MANOVA (Ejemplo: datos de lirios de Fisher )

VARIABLE 1 VARIABLE 2 VARIABLE 3 VARIABLE 4GROUP 1 5.00600E+00 3.42800E+00 1.46200E+00 2.46000E-01GROUP 2 5.93600E+00 2.77000E+00 4.26000E+00 1.32600E+00GROUP 3 6.58800E+00 2.97400E+00 5.55200E+00 2.02600E+00POOLED MEAN 5.84333E+00 3.05733E+00 3.75800E+00 1.19933E+00

¿Hay diferencias entre estos vectores de medias?

MANOVA (datos de lirios de Fisher (cont.) )

VARIABLE 1 VARIABLE 2 VARIABLE 3 VARIABLE 4GROUP 1 5.00600E+00 3.42800E+00 1.46200E+00 2.46000E-01GROUP 2 5.93600E+00 2.77000E+00 4.26000E+00 1.32600E+00GROUP 3 6.58800E+00 2.97400E+00 5.55200E+00 2.02600E+00POOLED MEAN 5.84333E+00 3.05733E+00 3.75800E+00 1.19933E+00

¿Hay diferencias entre estos vectores de medias?

Como p < 0.01 se concluye que al menos 2 vectores de medias si difieren

Para decidirlo se hacen diferentes tests estadísticos:

Statistic Value Transform deg.free. pWilks lambda 2.344E-02 4.149E+00 8 288 0.0001 Reject H0 Roys largest root 3.219E+01Lawley-Hotelling T 3.248E+01 5.846E+02 8 144 0.0000 Reject H0 Pillais trace 1.192E+00

MANOVA: ¿Hay igualdad de perfiles?

MANOVA H0: selected group profiles are equal Hotelling T^2 = 2.031E+03Test statistic S = 6.632E+02Numerator DOF = 3Denominator DOF = 96P(F >= S) = 0.0000 Reject H0 at 1% sig.level

Análisis por variables canónicas

0.33745232Objeto 4

….….….….….….

0.20.424052Objeto 3

….….….

361Objeto 2

341Objeto 1

X1Grupo

Objetivos:

• Para discriminar entre los grupos todo lo posible se busca una combinación lineal de las variables que maximice la la relación de la variabilidad “entre”grupos respecto a la variabilidad “intra”grupos.

Imaginemos:

Se han medido varias variables en diferentes objetos de 2 grupos.

Esquema para 2 variables:

2121111 XaXaY +=

11x 21x

22xDirección de máxima separación

Análisis por variables canónicas (Ejemplo: Lirios de Fisher)

Grupo variables1 5.1 3.5 1.4 0.21 4.9 3.0 1.4 0.21 4.7 3.2 1.3 0.2.....................2 7.0 3.2 4.7 1.42 6.4 3.2 4.5 1.52 6.9 3.1 4.9 1.5.....................3 6.3 3.3 6.0 2.53 5.8 2.7 5.1 1.93 7.1 3.0 5.9 2.1

Muestras a asignar? 4.6 3.6 1.0 0.2? 5.9 3.2 4.8 1.8? 6.2 3.4 5.4 2.3

Análisis por variables canónicas (Fundamento matemático)

4243232221212

4143132121111

XaXaXaXaCV

+++=+++=

Correlations Eigenvalues Proportions Chi-sq. NDOF p0.9848 32.1919 0.9912 546.1153 8 0.00000.4712 0.2854 0.0088 36.5297 3 0.0000

Canonical variate means-7.608E+00 2.151E-011.825E+00 -7.279E-015.783E+00 5.128E-01

Canonical coefficients-8.294E-01 2.410E-02-1.534E+00 2.165E+002.201E+00 -9.319E-012.810E+00 2.839E+00

CV1 CV2

m0pmp1m1m

10pp11111

a xa · · · xa y

· · · · · · · · ·

a xa · · · xa y

Asignación de objetos a grupos por Análisis Discriminante

Grupo variables1 5.1 3.5 1.4 0.21 4.9 3.0 1.4 0.21 4.7 3.2 1.3 0.2.....................2 7.0 3.2 4.7 1.42 6.4 3.2 4.5 1.52 6.9 3.1 4.9 1.5.....................3 6.3 3.3 6.0 2.53 5.8 2.7 5.1 1.93 7.1 3.0 5.9 2.1

Muestras a asignar? 4.6 3.6 1.0 0.2? 5.9 3.2 4.8 1.8? 6.2 3.4 5.4 2.3

Grupo LongSep AnchSep LongPet AnchPet1 5.1 3.5 1.4 0.21 4.9 3.0 1.4 0.21 4.7 3.2 1.3 0.2---------------------------------------------------------------2 7.0 3.2 4.7 1.42 6.4 3.2 4.5 1.52 6.9 3.1 4.9 1.5--------------------------------------------------------------3 6.3 3.3 6.0 2.53 5.8 2.7 5.1 1.93 7.1 3.0 5.9 2.1

Serie de entrenamiento

4.6 3.6 1.0 0.25.9 3.2 4.8 1.86.2 3.4 5.4 2.3

Muestras a asignar a grupos

Muestra 1 Muestra 2 Muestra 3

Distancias de Mahalanobis entre grupos

Asignación de objetos a grupos por Análisis Discriminante (ej: Lirios de Fisher)

Distancias de Mahalanobis muestras- grupos

Aplicación del Análisis multivariante en las investigaciones con Chips de ADN

Los 10 Genes principales asociados a la respuesta a Imatinib

Usando la prueba t de student

#genename t-statistic pvalueR06581 -3.789523125 0.00067859H13205 -3.342012644 0.002239682AA088678 -3.105088949 0.004130574AA126760 2.934455395 0.006351529R08434 -2.872010231 0.007416606A101777 -2.790141583 0.009068974AI023731 -2.698203802 0.011333359AA456314 2.660455942 0.012407669T95268 -2.629109144 0.013371006AA775957 2.592031002 0.014599937

Exploración de datos en la serie de entrenamiento (32 pacientes y 10 genes

predictores)

Cluster jerárquico de los 32 pacientes

Componentes principales

ANALISIS DISCRIMINANTE

Distancia de Mahalanobis al cuadrado

Introducción a las técnicas de “Análisis...

Documents

Transcript of Introducción a las técnicas de “Análisis...

Analisis Multivariante 2

Análisis Multivariante, Algunas Aplicaciones en Casos ...bibcyt.ucla.edu.ve/Edocs_bciucla/Repositorio/TAQA278B752010.pdf · Análisis Multivariante, Algunas Aplicaciones en Casos

Revista de Analisis Multivariante

Módulo M11 Análisis multivariante: Modelos de regresión · Si su identificación es correcta entrará en una página web con la lista de cursos a los que está inscrito. ... como

UNIVERSIDAD DE MURCIA · asociados la variable gasto sanitario mayor de 300 euros ..... 285 4.4.9. Análisis bivariante y multivariante tipo regresión logística de los factores

Modelo de regresión logística binaria para el diagnóstico ... · 3 análisis de regresión logística multivariante, uno para cada lesión, con el objeto de identificar variables

Introducción al análisis multivariante

Técnicas de Análisis Multivariante en SAS

Modelo general de regresión lineal multivariante

INVESTIGACIÓN Análisis Multivariante en Cómic Componentes

Departament de Geografia Facultat de Filosofia i … · agraïment força especial el suport incondicional de l’Anna Cortés. També de l’ETSE, ... modelos de regresión multivariante

100 problemas de estadística multivariante

funciones multivariante

Revista Gourmet AM - Estadística Multivariante

Estadistica Multivariante

ANÁLISIS DE DATOS MULTIVARIANTE

Modelos de regresión y análisis multivariante con R-Commanderopenaccess.uoc.edu/webapps/o2/bitstream/10609/76228/4/Estadística aplicada...variables, pero no establece ningún tipo

AnÁlisis Multivariante

6-Analisis multivariante

Portada 2 pag - WordPress.com › 2010 › 02 › ...Relación y Tarea en la dimensión Claridad ..... 215 Tabla 46 Análisis de regresión multivariante para las variables Relación