© FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no...

22
© FJ Callealta ; LR Rivera (UAH) Escalado Multidimensional Objetivo • Dado un conjunto de n objetos, para los que se conocen sus relaciones de proximidad mutuas (sus respectivas disimilaridades ij i=1,...,n j=1,...,n), se trata de proyectarlos sobre un cierto espacio métrico de dimensión adecuada (p), asignándoles a cada objeto en este espacio unas coordenadas (x i =(x i1 ,...,x ip ) i=1,...,n), de forma que una cierta distancia definida en este espacio entre los puntos proyectados (generalmente la distancia euclídea) d ij i=1,...,n j=1,...,n, reproduzca lo más fielmente posible la relación original de proximidad entre los objetos. Multidimensional Scaling Nº 1

Transcript of © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no...

Page 1: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Objetivo

• Dado un conjunto de n objetos, para los que se conocensus relaciones de proximidad mutuas (sus respectivasdisimilaridades ij i=1,...,n j=1,...,n),

se trata de proyectarlos sobre un cierto espacio métrico dedimensión adecuada (p), asignándoles a cada objeto eneste espacio unas coordenadas (xi=(xi1,...,xip) i=1,...,n),

de forma que una cierta distancia definida en este espacioentre los puntos proyectados (generalmente la distanciaeuclídea) dij i=1,...,n j=1,...,n, reproduzca lo más fielmenteposible la relación original de proximidad entre los objetos.

Multidimensional Scaling Nº 1

Page 2: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional

Escalado Multidimensional Nº 2

x x x

x x x

x

x x

x

Espacio Euclídeo (p-dimensional)

A

AC B

C

Espacio de las Observaciones (Cualitativo o

Cuantitativo)

Distancia EuclideaDistancias o Disimilaridades

XA

dAB

XB

Page 3: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Escalado Métrico vs No Métrico

Las posibilidades de evaluación de la fidelidad de la reproducción de lasproximidades originales entre los objetos, induce dos metodologías:

• Escalado Multidimensional Métrico:– Supone una relación funcional creciente (o decreciente) entre la medida

de disimilaridad (o similaridad) original ij y la distancia reproducida dij

– Emplea propiedades métricas de las medidas de proximidad originales ylas distancias reproducidas para evaluar la bondad de la solución:por ejemplo, para un modelo de tipo lineal debe cumplirse que|ij-(a+b·dij)| i,j.

• Escalado Multidimensional No Métrico:– Supone una relación ordinal monótona no decreciente (o no creciente)

entre la medida de disimilaridad (o similaridad) original ij y la distanciareproducida dij

– Emplea propiedades de orden de las medidas de proximidad originales ylas distancias reproducidas para evaluar la bondad de la solución:para disimilaridades, debe cumplirse que ijkl dijdkl i,j,k,l

Multidimensional Scaling Nº 3

Page 4: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional MétricoEl Problema Clásico

• Conocidas las distancias euclídeas entre cada dosde n puntos, dij (i=1,...,n j=1,...,n), ¿podremos conocersus coordenadas xi=(xi1,...,xip)’ en algún ciertoespacio?

• Ejemplo:– Si conocemos el triángulo de distancias entre capitales

de provincias españolas, ¿podremos identificar lascoordenadas geográficas de las mismas de forma quenos permitan dibujar un mapa de posiciones?

Escalado Multidimensional Nº 4

Page 5: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico. El Problema Clásico: Ejemplo

Escalado Multidimensional Nº 5

Distancias drs

La

Coru

ña

San

Seb

asti

án

Bar

celo

na

Alm

ería

Cád

iz

Sal

aman

ca

Mad

rid

La Coruña 0

San Sebastián 763 0

Barcelona 1118 529 0

Almería 1172 1032 809 0

Cádiz 1072 1132 1284 484 0

Salamanca 473 469 778 763 599 0

Madrid 609 469 621 563 663 212 0

Page 6: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico Clásico. La solución de Torgenson-Richardson

• Richardson en 1938 y Torgenson en 1958 dan la solución para cuando la distancia de partida es la distancia euclídea.

– Llamando bij = xi’xj, entonces dij2 = bii+bjj-2bij

– Este es un sistema indeterminado con n(n-1)/2 ecuaciones l.i. y n(n+1)/2 incógnitas, con bij=bji

– Fijando como nuevo origen de coordenadas el centroide de los datos, (1’X=0), entonces ibij = jbij = 0

– Así se convierte en sistema determinado.

Escalado Multidimensional Nº 6

2

1

p

ij ik jk i j i j

k

d x x x x x x

2

ij i j i j i i i j j i j jd x x x x x x x x x x x x

Page 7: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico. El Problema Clásico: La solución de Torgenson-Richardson

• Debe resolverse: dij2=bii+bjj-2bij con ibij=jbij=0

• Así se obtiene la matriz B=((bij))=XX’

Escalado Multidimensional Nº 7

nj

niji

dbbb

nin

Td

n

Tdb

n

dT

nTnTnTd

njTnbd

niTnbd

ijjjii

ij

iiiijjj

iii

,...,2,1

,...,2,1;;

2

,...,2,1;

2

2

,...,2,1,

,...,2,1,

2

2

·

2

·

2

··

2

··

2

·

2

·

Page 8: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico. El Problema Clásico: La solución de Torgenson-Richardson

• Si (i,ei) son los autovalores y los respectivos autovectoresortonormalizados de B, entonces una solución alproblema es:

• Las variables Xi están incorrelacionadas

• Sus varianzas valen: Var(Xi)=i

• Pero la solución no es única: cualquier rotación ortogonalde la misma, provee una nueva solución:– Si X es solución y R ortogonal XR’ es solución

Escalado Multidimensional Nº 8

)·,...,·,·( 2211 nn eeeX

Page 9: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico. El Problema Clásico: Ejemplo

Escalado Multidimensional Nº 9

Distancias

drs

La

Coru

ña

San

S

ebas

tián

Bar

celo

na

Alm

ería

Cád

iz

Sal

aman

ca M

adri

d

La Coruña 0 San Sebastián 763 0 Barcelona 1118 529 0 Almería 1172 1032 809 0 Cádiz 1072 1132 1284 484 0 Salamanca 473 469 778 763 599 0 Madrid 609 469 621 563 663 212 0

Coordenadas de las Capitales

Dimensión 1 Dimensión 2

La Coruña -0,6884 1,6225

San Sebastián -1,2945 -0,1263

Barcelona -1,0401 -1,4116

Almería 1,2471 -0,9566

Cádiz 1,8101 0,3605

Salamanca -0,0286 0,4996

Madrid -0,0058 0,0118

Page 10: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico. El Problema Clásico: Ejemplo

Escalado Multidimensional Nº 10

Dimensión 1

2,01,51,0,50,0-,5-1,0-1,5

Dim

en

sió

n 2

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Madrid

Salamanca

Cádiz

Almería

Barcelona

San Sebastián

La Coruña

PORTUGAL

F

R

A

N

C

I

A

Page 11: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico.El problema general del MDS

• Conocidas las disimilaridades entre cada dos de n objetos, ij

i=1,...,n j=1,...,n, y sabiendo que estas permiten comparaciones detipo métrico ¿podremos asignar a cada objeto unascoordenadas xi=(xi1,...,xip)’ en algún cierto espacio (euclídeo),cuyas distancias reproduzcan las magnitudes de lasdisimilaridades entre cada dos de ellos?

• Ejemplo:

– Si construimos un triángulo de distancias aproximadassegún nuestro común conocimiento (disimilaridades) entrecapitales de provincias españolas, ¿podríamos obtener unascoordenadas de las mismas de forma que nos permitandibujar un mapa aproximado de sus posiciones?

Multidimensional Scaling Nº 11

Page 12: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico.El problema general del MDS

Escalado Multidimensional Nº 12

• Solución del Escalado Multidimensional Métrico– Suponer una relación funcional monótona creciente o decreciente

(generalmente lineal) entre la medida de proximidad original δij y ladistancia reproducida dij.

, generalmente del tipo

– Se buscan las coordenadas de los puntos mediante algúnprocedimiento de optimización de ajuste (generalmente del tipo demínimos cuadrados) para alguna función objetivo del tipo:

– Emplea las propiedades métricas de las medidas de proximidadoriginales y las distancias reproducidas para evaluar la bondad de lasolución: por ejemplo, para un modelo de tipo lineal, debe cumplirseque y un tan pequeño como se quiera.

ij ijd f ·ij ijd a b

2

min ij ij

i j

f d

,· i jij ijd a b

Page 13: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Nº 13

Escalado Multidimensional Métrico.El problema general del MDS

• La solución de Torgenson

– 1ª etapa: consiste en garantizar que las transformadas dij de lasdisimilaridades ij cumplen las propiedades de la distanciaeuclidea; y, para ello, define

, siendo

– 2ª etapa: consiste en aplicar el procedimiento propuesto porTorgenson-Richardson para calcular las coordenadas de los npuntos en el espacio real n, de tal manera que las distanciaseuclídeas entre cada dos de ellos reproducirían fielmente lascorrespondientes disimilaridades transformadas.

0 si

en otro caso

ij

ij

ij

i jd

c

min

, ,max ij ik kji j k

c c

Page 14: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Métrico Dimensionalidad y calidad de la solución

• La solución de un MDS Métrico Clásico cumple que:

– La solución encontrada reproduce exactamente lasdistancias (o disimilaridades transformadas).

– la dimensión necesaria para conservar la exactitud dela solución la marca el número de autovalores no nulosde la matriz B.

– Podemos relajar la solución con una perdida tolerablede exactitud, reteniendo solo las “p” primerasdimensiones del espacio asociadas a los “p” mayoresautovalores.

Multidimensional Scaling Nº 14

Page 15: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional No Métrico.

• Conocida las disimilaridades entre cada dos de n objetos, iji=1,...,n j=1,...,n, y utilizando solo comparaciones entre ellas de tipoordinal ¿podremos asignar a cada punto unas coordenadasxi=(xi1,...,xip)’ en algún cierto espacio, cuyas distanciasreproduzcan las relaciones de orden de las disimilaridadesentre cada dos individuo?

• Ejemplo:– Si construimos un triángulo de rangos de distancias entre

capitales de provincias españolas, construido usando laescala 1 a 7 que se corresponde con las escala de distanciasque se consideran desde “muy cerca” a ”muy lejos”(disimilaridades que solo admiten comparaciones deorden), ¿podríamos obtener unas coordenadas de lasmismas de forma que nos permitan dibujar un mapaaproximado de sus posiciones?

Multidimensional Scaling Nº 15

Page 16: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional No Métrico.

• Supone una relación ordinal monótona no decreciente (ono creciente) entre la medida de proximidad disimilaridad(o similaridad) original δij y la distancia reproducida dij

• Emplea las propiedades de orden de las medidas deproximidad originales y las distancias reproducidas paraevaluar la bondad de la solución:

– Para disimilaridades debe cumplirse que:

– Para similaridades debe cumplirse que:

Escalado Multidimensional Nº 16

ij ijd f

, , ,i j k lij kl ij kld d

, , ,i j k lij kl ij kld d

Page 17: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional No Métrico Algoritmo Básico de resolución

1.- Asignación de coordenadas xi=(xi1,...,xip)’- Si es la primera vez, por algún método (p.e.: azar)- Si no, usando las informaciones de 4 y 5

2.- Cálculo de todas las distancias euclídeas ((dij))

3.- Ver su adecuación con las disimilaridades iniciales ((ij)):– debe cumplirse que ijkl dijdkl i,j,k,l

– Si se adecua (con error tolerado), terminar. Si no, ir a la etapa 4.

4.- A partir de las ((dij)) y las ((ij)),– obtener las disparidades ((d*

ij)) tales que ijkl d*ijd*

kl i,j,k,l– y calcular la medida de Stress

5.- Determinar cómo varía el Stress para variaciones de cada una de lascoordenadas xij , , e ir al paso 1

Multidimensional Scaling Nº 17

ij

ijdx

dSx

ijdx

dS

Page 18: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional No Métrico. Diagrama de Shepard.

Escalado Multidimensional Nº 18

rs

drs

d*rs ers

d

Disparidades:

Caso de

estimación

logística

rsrsd

210

*

·

1

d*rs

Page 19: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional No Métrico. Medidas de Stress

• Coef. de Determinación

• Stress 2

• Stress 1 (Kruskal)

– Kruskal (1964) caracteriza los valores de S1 como:

0-perfect; 0,025-excel;0,05-bueno; 0,1-aceptable; 0,2-pobre

• S-Stress(1) de Young-Takane-de Leeuw

Escalado Multidimensional Nº 19

101 2

2

2

2

R;

rsrs

rsR

)dd(

e

10;12

2*

2

2

2

2

2/12/1

2

)(

)(

)(

SR

r srsrs

r srsrs

r srsrs

r srs

S

dd

dd

dd

e

nS

r srs

r srsrs

r srs

r srs

S

d

dd

d

e2

10;2

2*

2

2

1

2/12/1

1

)(

r srs

r srsrs

StressS

d

dd

4*

22*2

2/1

Page 20: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Dimensionalidad

• En el MDS Métrico, la dimensión del espacio la marca elnúmero de autovalores no nulos

• En el MDS No Métrico, necesitamos estudiar cuál es ladimensión del espacio mas adecuada

• Opciones:

– Kruskal sugiere realizar el análisis con variasdimensiones y dibujar el decaimiento de Stress que seproduce considerando diferentes dimensiones(variando estas desde 1,2,3,…), para quedarnos conaquella dimensión a partir de la cual no se reducesignificativamente aquel

Multidimensional Scaling Nº 20

Page 21: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional Otros Modelos de MDS

• Para colecciones de matrices de observaciones replicadas:– Modelo RMDS (Replicated Multidimensional Scaling)

• Para colecciones de matrices de distintos observadores:– Modelo INDSCAL (Indicidual Differences Scaling)

• Para matrices rectangulares:– Modelo MDSU (Multidimensional Scaling Unfolding)

• Para matrices cuadradas asimétricas:– Modelo ASCAL (Asymmetric Scaling)

Multidimensional Scaling Nº 21

Page 22: © FJ Callealta ; LR Rivera (UAH) Escalado …...la solución la marca el número de autovalores no nulos de la matriz B. –Podemos relajar la solución con una perdida tolerable

© FJ Callealta ; LR Rivera (UAH)

Escalado Multidimensional El Modelo de diferencias individuales

• Desarrollado por Carroll, J.D y Chang, J. en 1970.

• Las disimilaridades entre unos mismos individuos sepresentan en diversas tablas de estructura similar (p.e.distintos años)

• La distancia ajustada es:

• Como resultado, se conocen:

– coordenadas de cada objeto en el espacio común

– pesos de paso del espacio común a los individuales

– coordenadas de cada objeto en cada espacio individual

Escalado Multidimensional Nº 22

p

k

jkikkttij xxwd

1

2)(