Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.

Post on 31-Jan-2016

225 views 0 download

Transcript of Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.

Escalamiento Multidimensional No-Métrico

Capítulo 16 de

McCune y Grace 2002

Rasgos generales

• Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más a las posiciones de los objetos según sus distancias originales.

• Es iterativo• No supone que existan relaciones lineales

entre variables• Utiliza el orden de distancias (“ranked

distances”) como criterio principal.

Rasgos generales (continuación)

• Permite utilizar cualquier medida de distancia o relativizacion.

• Cada corrida puede resultar en ordenaciones diferentes

• Requiere muchos recursos de computación, particularmente con muchos datos

• Es posible que encuentre una solución subóptima

Procesamiento

• Calcular matriz de distancias ecológicas Δ entre muestras (disimilaridades)

• Asignar muestras en una configuración inicial de k dimensiones

• Calcular la matriz D de distancias Euclidianas en el espacio de k dimensiones

• Ordenar los elementos de Δ en orden ascendente

Procesamiento (continuación)

• Ordenar los elementos de D en el mismo orden de Δ

• Calcular Ď (matriz en la que se sustituyen las distancias no-monotónicas d con distancias monotónicas d’)

• Calcular la tensión S (“stress”) del arreglo inicial a base de la suma de las diferencias (d-d’)2.

Procesamiento (continuación)

• Minimizar la tensión S mediante la modificación del arreglo de muestras en el espacio de k dimensiones. El parámetro α (“initial step length”) indica la velocidad inicial de modificación de tensión.

• Iterar (regresar al paso 3) hasta que:– Se completen un número máximo de

iteraciones– O se obtenga un nivel de estabilidad

Analogía

• Paisaje con varias lomas y valles de distintas profundidades

• NMS intenta encontrar el valle más profundo (mínimo global)

• En ocasiones encuentra un valle menos profundo (mínimo local)

• Los mínimos locales pueden evitarse:– Haciendo varias corridas con arreglos iniciales al azar– Corriendo NMS con arreglo inicial producido por otro

método de ordenación

La mejor solución

• Seleccionar un número de dimensiones k apropiado

• Buscar tensión S baja

• Utilizar una prueba de Monte Carlo

• Evitar soluciones inestables

Número de dimensiones

• Graficar tensión final vs k– Gráfica “scree”

• Seleccionar numero de ejes mas alla de los cuales hay poca reduccion en tension

Buscar tensión baja

• Regla general:

Prueba de Monte Carlo

• Prueba de significacia de un arreglo de muestras en espacio de ordenacion

• Se rearreglan las especies de la matriz de datos un numero x de veces al azar

• Precaución con:– Rezagados muy influyentes– Especies super abundantes– Con pocas muestras la prueba puede ser

conservadora– Si la data tiene muchos ceros puede haber problema

con ciertas medidas de distancia

Evitar soluciones inestables

• Graficar tension vs iteraciones

¿Qué informar?

• Medida de distancia

• Algoritmo utilizado

• Arreglo inicial

• # de corridas con datos reales

• Cómo mide dimensionalidad

• Cuántas dimensiones en la solución final

• Tensión de la solución final

¿Qué informar?

• # de corridas con datos aleatorios

• Resultados de Monte Carlo

• Cuantas iteraciones para la solucion final

• Como evaluó la estabilidad

• Proporción de varianza representada por cada eje

• Ayudas para interpretación

s1 s2 s3 s4

s2 0.212

s3 0.594 0.549

s4 0.590 0.440 0.594

s5 0.873 0.643 0.681 0.587

Matriz de distancias originales Δ

0

1

2

3

4

5

6

0 1 2 3 4 5 6

x

y

s1s3

s5s4

s2

Matriz D

s1 s2 s3 s4

s2 3.6

s3 4 3.6

s4 6.4 3.2 4.1

s5 5 1.4 4.1 2

s1s2 0.212 s1s2 0.212s1s3 0.594 s1s4 0.359s1s4 0.359 s2s4 0.440s1s5 0.873 s2s3 0.549s2s3 0.549 s4s5 0.587s2s4 0.440 s1s3 0.594s2s5 0.643 s3s4 0.594s3s4 0.594 s2s5 0.643s3s5 0.681 s3s5 0.681s4s5 0.587 s1s5 0.873

Elementos dematriz Δ

Elementos dematriz Δ ordenados

s1s2 0.212 3.6s1s4 0.359 6.4s2s4 0.440 3.2s2s3 0.549 3.6s4s5 0.587 2.0s1s3 0.594 4.0s3s4 0.594 4.1s2s5 0.643 1.4s3s5 0.681 4.1s1s5 0.873 5.0

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1 2 3 4 5 6 7

distancias en ordenacion

dis

tan

cia

s o

rig

ina

les

1

23

4

5