Download - Contribuciones a la representación de datos ...

Contribuciones a la representación de datos multidimensionales mediante árboles aditivos

Antonio Arcas Pons

ADVERTIMENT. La consulta d’aquesta tesi queda condicionada a l’acceptació de les següents condicions d'ús: La difusió d’aquesta tesi per mitjà del servei TDX (www.tesisenxarxa.net) ha estat autoritzada pels titulars dels drets de propietat intel·lectual únicament per a usos privats emmarcats en activitats d’investigació i docència. No s’autoritza la seva reproducció amb finalitats de lucre ni la seva difusió i posada a disposició des d’un lloc aliè al servei TDX. No s’autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant al resum de presentació de la tesi com als seus continguts. En la utilització o cita de parts de la tesi és obligat indicar el nom de la persona autora. ADVERTENCIA. La consulta de esta tesis queda condicionada a la aceptación de las siguientes condiciones de uso: La difusión de esta tesis por medio del servicio TDR (www.tesisenred.net) ha sido autorizada por los titulares de los derechos de propiedad intelectual únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro ni su difusión y puesta a disposición desde un sitio ajeno al servicio TDR. No se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al resumen de presentación de la tesis como a sus contenidos. En la utilización o cita de partes de la tesis es obligado indicar el nombre de la persona autora. WARNING. On having consulted this thesis you’re accepting the following use conditions: Spreading this thesis by the TDX (www.tesisenxarxa.net) service has been authorized by the titular of the intellectual property rights only for private uses placed in investigation and teaching activities. Reproduction with lucrative aims is not authorized neither its spreading and availability from a site foreign to the TDX service. Introducing its content in a window or frame foreign to the TDX service is not authorized (framing). This rights affect to the presentation summary of the thesis as well as to its contents. In the using or citation of parts of the thesis it’s obliged to indicate the name of the author.

QMtKWMUmn.j^Á^l^íí fiEPEg§§NfAGÌQN PS SATOS mLTlJDXTiSì^SIONAI^S

§h BiHief§8

Memoria pi^^htada para

optar al •ЙШХо de

Doctor en 'M^màticas, por

Antoni АГСЙ1 -Pons

Prof; В.- Carlos M. Cuadras AvellS^à,

Catedra-èÌcò dé Sí§«s.tadística.

I5ni^§iead de Barcelona.

BaFèéloftà^ "fè 4e Febrero de l?gS6

A Q M A D'S .C I K I lE N ©

Quisiera agradecer al Dr. C.Cuadras , director de e,§t#

memoria, sus constantes consejos y orientaciones durante ;ia

realización de la misma. También a los profesores del Dpt;^,4e

Bioestadística su apoyo constante , destacando en especia-I la

inestimable e incansable cooperación del Prof. M.Salicrú

como.la colaboración y supervisión del Dr. J . M . 0 1 1 e r en IQJ^ © £ ,

:pecí;.os. de l=a memoria que tienen relación con su línea de t,r*r •

T.baja.

Me siento también complacido de poder expresar mi grert^

tud al Dr.F.Sales por el estímulo que siempre me ha proporcia,

nada. Asimismo quisiera agradecer al Dr.J.Cascante su interés

y colaboración en la línea que hemos desarrollado conjunta^tf^,

te con D. M.Salicrú.

Agradezco finalmente la supervisión del ejemplo al Dn^I..

Serra del Dpt. de Genética.

A Roser y Xénia dedicarles el trabajo al darle verdadiS

ro sentido al mismo y ser la ayuda fundamental en los momentos,

difíciles.

INDICE

PROLOGO ^

1. REPRESENTACIÓN DE UN CONJUNTO A TRAVÉS DEL ANÁLISIS

MULTIVARIANTE

1.1. Introducción 3

1.2. Principales métodos de representación ^

1.3. Relaciones entre los distintos métodos de representación .... 9

1.4. Objetivos de la memoria

2. SOBRE LOS DISTINTOS MÉTODOS DE REPRESENTACIÓN! DE,.

DATOS MULTIDIMENSIONALES

2.1. Introducción

2.2. Disirailaridades y distancias 1*7

2.3. Propiedades generales del MDS 25

2.4. Representación mediante árboles ultraraétricós 34

2.5. Representación mediante grafos piramidales

2.6. Ventajas de los árboles aditivos frente los ultraraétricós ... 43

3. REPRESENTACIÓN MEDIANTE ARBOLES ADITIVOS


3.2. Formalización de P. Buneman 51

3.3. Formalización de la representación de un conjunto asociada

- a una distancia aditiva • 56

3.4. Relaciones con las distancias ultramétricas 82

4. ESTRUCTURA DE VARIEDAD EN EL CONJUNTO DE DISTANCIAS ADITIVAS


4.2. Definiciones previas 90

4.3. Estructura del conjunto de distancias aditivas 92

4.4. Determinación de la frontera de la variedad 95

4.5. Estructura del conjunto de distancias ultramétricas dentro

de la variedad 105

4.6. Ajuste por mínimos cuadrados en una carta de la variedad 109

4.7. Representación espacial de distancias aditivas 112

5. INFERENCIA EN ARBOLES ADITIVOS


5.2. Modelo probabilistico para el vector de distancias 121

5.3. Contrastes en árboles aditivos 124

6. ALGORITMOS DE CONSTRUCCIÓN DE ARBOLES ADITIVOS


6.2. Principales algoritmos 138

6.3. Ejemplo 151

CONCLUSIONES 155

BIBLIOGRAFIA 158

PROLOGO

A raiz de la visita del Dr. F. J. Rohlf el año 1980 en la cual

trató diversos aspectos sobre análisis multivariante con el Dr. C. M.

Cuadras, comentando entre otros el tema de las representaciones mediante

árboles aditivos, el Dr. C M . Cuadras pensó entonces en la posibilidad

de una línea de trabajo basada en el desarrollo de aspectos de modelos

de representación en redes centrándonos en particular en los árboles ul-

tramétricos y árboles aditivos desde una perspectiva del análisis multi

variante. En este sentido, como primer paso realicé una tesina en la

que se formalizaban diversos aspectos de la taxonomía numérica lo cual

supuso lina verdadera motivación para seguir en una línea parecida que ha

desembocado en esta memoria, en la que se ha desarrollado un estudio for

mal sobre la representación utilizando árboles aditivos. La realización

paralela del trabajo "Eigenanalysis and metric multidimensional scaling

on hierarchical structures" por el Dr. C M . Cuadras y las conexiones de

este tema con la línea de trabajo llevada por el Dr. J.M. Oller sobre

Geometría Riemmaniana aplicada al análisis de datos, han sido también un

punto de apoyo muy importante en la realización de este estudio.

Podríamos dividir esta memoria en tres partes: En la primera

parte (cap. 1 y 2) se relaciona la representación por árboles aditivos

con otras técnicas de representación del análisis de datos. En la segun

da parte (cap. 3) se obtiene una formalización de las relaciones entre

árboles aditivos y distancias aditivas. En la tercera parte (cap. 4, 5

y 6) se analiza una estructura en el conjunto de árboles aditivos tratan

do posteriormente sobre inferencia y confección de algoritmos en árboles,

conectando esta parte con los trabajos antes citados.

DEL ANÁLISIS MULTIVARIANTE.

Resumen: En este capítulo se expone el concepto de represen

tación de un conjunto a través del análisis multiva

riante presentando los principales métodos de repre

sentación junto con sus inter-relaciones.

Sumario:

1.1.- Introducción.

1.2.- Principales métodos de representación.

1.3.- Relaciones entre los distintos métodos de representación.

1.4.- Objetivos de la memoria.

INTRODUCCIÓN

En análisis de datos es interesante por lo general, considerar

un modelo que refleje las analogías y diferencias existentes entre los -

elementos de un conjunto. Es también habitual que las proximidades y di

vergencias entre los mismos provengan de la observación de varios carac

teres. Así, en análisis multivariante se estudian métodos que tienen por

objetivo la búsqueda, representación e interpretación de los datos obte

nidos a través de varias variables.

En la mayoría de los estudios aplicados a Biología, Mediciria,-

Psicología, Educación, Agricultura, Economía, ... aparecen una serie de

medidas asociadas a distintas variables relacionadas entre sí. En este -

sentido, Romeder (1973) expone un método de diagnóstico automático de -

dos clases de ictericia a partir del conocimiento de 84 variables; -

Bartiett(1951) relaciona varios factores económicos: consumo, precio, eos

te de producción y renta de los consumidores; Petit Pierre у Cuadras -

(1977) realizan una clasificación sistemática de coleópteros del género

Timarcha a partir de 5 medidas biométricas; en Antropología, es común la

determinación del sexo a través de algunas medidas craneales.

Es evidente que una serie de análisis univariantes tratados -

por separado resultarían del todo inadecuados, pues ignoraríamos las co

rrelaciones entre las variables. Utilizaremos pues, en general, técnicas

de análisis multivariante que ayudan a interpretar las relaciones entre

las variables considerando la mutua información entre las mismas.

Cuadras (1981) establece una clasificación de los métodos más

importantes del análisis multivariante atendiendo a las diferencias e n —

tre las distintas técnicas según se trate de un estudio en una o varias

poblaciones у uno о dos grupos de variables. Así, Análisis de Componen -

tes Principales y Análisis Factorial utilizan una misma población y un -

solo grupo de variables; el primero tiene por objetivo la descripción de

la información contenida en las variables mediante un número reducido de

componentes, mientras el segundo pretende relacionar un conjunto de v a —

riables mediante un modelo lineal. Análisis canónico de poblaciones, -

análisis discriminante y análisis multivariante de la varianza utilizan

varias poblaciones y un solo grupo de variables. Regresión múltiple y -

análisis de correlación canónica utilizan una población y dos grupos de

variables.

Por otro lado, considera las técnicas que a partir de una co

lección, en general, heterogénea de objetos y una disimilaridad definida

sobre ellos tienen por objetivo la representación de los mismos en un

espacio geométrico modelo en el sentido siguiente: Si S = {з-^, ...,s^}

es el conjunto de objetos, б una disimilaridad definida sobre S y -

(X,d) el espacio geométrico modelo, se trata de hallar una función

Ф : (S, 6 ) -(X,d)

de modo que d ( 0(s^), ф(з^)) se aproxime a ) utilizando

algún criterio de ajuste.

Al proceso de búsqueda de tal función es denominado en ge —

neral como el problema de hallar una representación de los objetos de -

un conjunto.

1.2.- PRINCIPALES TÉCNICAS DE REPRESENTACIÓN

Podemos dividir las representaciones en dos grupos según el ti_

po de espacio geométrico modelo: modelos espaciales o continuos y mode—

los de redes o discretos. El objetivo en los primeros es la representa—

ción de cada objeto como las coordenadas de un punto en un espacio eucl_í

deo de modo que las distancias entre los mismos reflejen las relaciones

de proximidad observadas entre ellos, mientras que el objetivo en los mo

délos de redes es la representación de cada objeto mediante un nudo en

un grafo conexo, de modo que las relaciones entre los nudos en el grafo

reflejen la disimilaridad observada.

Las principales técnicas relativas a modelos continuos están

incluidas dentro del Multidimensional Scaling (MDS), definido por De

Leeuw(1982) como aquellos métodos de representación en que X = . Cua

dras (1981) matizando más en la naturaleza de los datos considera dentro

del MDS aquellas técnicas de representación de datos que tienen por obje

tivo la construcción de una configuración de puntos a través de una d e —

terminada información sobre las disimilaridades entre los objetos.

De los modelos de redes que se han formulado cabe citar los si

guientes:

a) Arboles ultramétricos: Se caracterizan por ser X un grafo conexo sin

ciclos con un n^do equidistante a los nudos extremos y d una distancia

ultramétrica.

b) Arboles piramidales: Es un tipo especial de grafo conexo en donde d

es una distancia compatible con un cierto orden definido sobre los obje

tos en el sentido que dados tres puntos la distancia entre los puntos ex

tremos excede a aquellas entre puntos intermedios.

c) Arboles aditivos: En este caso X es un grafo conexo sin ciclos y d es

una distancia verificando el axioma del cuarto punto (Buneman, 1971). Es

te modelo de representación será estudiado en esta memoria bajo los as-—

pectos que citaremos posteriormente.

En el siguiente capítulo se realiza una exposición más detalla

da de estos métodos de representación continuos y discretos.

Ejemplos a partir de datos reales de representaciones mediante

modelos citados anteriormente son:

Brasil •

Canm M i a

• . Israel

.Rrancia . USA

Cuba • Japón

Yugpslavia . . Rusia China .

Figura 1: Representación por MDS de un conjunto de 12 naciones según un

estudio de Wish (197o) y Wish, Deutch, Biener (1972).

а)

0.112 0.135 0.170 0.177 0.229 0.259 0.269 0.296 0.313 0.315 0.341 0.354 0.400 0.444 0.488 0.497 0.581 0.688 0.775

га о

С йО с js •н о с -и о и и э

Q о N

3 л (!) 1-1 XI 0) с •н S S -р с с <и о -Н ь. >

х: •н « ф > ^ г-4 газ.. Q X m

л с о <и Ü и го

га •и с и

•и с о со ю ш х:

с 0) о ^ ХЗ -и 03 г-1

га о о га W 3

и о йО 3 ю •о со

m -р 3 CQ гч 0) га со с

^ х: о 4-) U4 о Сх. Ы

со ф •а Ф cu Ü -н и и Ф Ф S т с •а

га со со со ьо га ti < J о о

Ь)

0.083 0.112 0.157 0.216 0.322

•р о •rt и ф з:

с х: Ф 4J CjO с х:

•н о С -rt о и

га ÍU 3 Q о N

ф л: со га с XJ Ф о

а

Figura 2:

a) Clasificación taxonómica de 20 poblaciones de Drosophila Subobscura

realizada por Salicrú (1983) partiendo de una matriz de distancias ob

tenida por Prevosti (1974) basadas en las frecuencias de las ordenado

nes cromosómicas producidas por inversiones y aplicando el método UPGMA.

b) Se observa como el estrecho de Drover es una barrera genética según

resultados del mismo estudio anterior.

8

c u Ü >o XI c £1 CD e co CO 3 o a O co ti X e <u

•H

s: á >

o o c

o c

•H

o 3 a co u

co

co

Figura 3: Representación meciiante un árbol aditivo de especies de prima

tes basada en técnicas de hibridación del DNA según un estudio de Kohne

et al., 1972.

1.З.- RELACIONES ENTRE LOS DISTINTOS MÉTODOS DE REPRESENTACIÓN

Una de las principales dificultades con que nos encontramos al

obtener una disimilaridad (u otra información relativa ala misma ) sobre

un conjunto de objetos es decidir el tipo de representación, modelos con

tinuos o en redes, que es más apropiado a nuestros datos.Este problema

ha sido discutido por diversos autores (Carroll, 1976), (Tversky, 1977),

(Cunningham,1978) coincidiendo en señalar que datos que se ajusten a una

estructura factorial (en términos de un número reducido de factores) son

preferiblemente representables mediante modelos continuos, mientras que

si se puede pensar intuitivamente en alguna estructura jerárquica o filo

genética poáría tener más sentido una representación mediante modelos de

redes.

En un interesante trabajo, Carroll (1976) concluye en la nece

sidad de que en un futuro próximo se desarrollen modelos que contengan

aspectos continuos y discretos, pues la creciente complejidad de los da

tos en los estudios experimentales así lo van a exigir.

Pruzansky, Tversky y Carroll (1982) realizan un estudio en que

tratan sobre las relaciones entre modelos continuos y en redes desde una

perspectiva empírica. Intentan desarrollar una metodología que ayude a de

cidir el tipo de representación a utilizar cuando se tiene un conjunto

de datos obtenidos a través de una disimilaridad dada sobre el conjunto

de objetos. Como técnica MDS se utiliza el ajuste a un plano mientras

que como modelo en red se utiliza árboles aditivos.

10

En una primera fase, mediante técnicas de simulación se compa

ra el grado de ajuste de conjuntos de datos obtenidos artificialmente a

representaciones en el plano y mediante estructuras de árbol. La genera

ción de datos está basada en la obtención de una distancia a través de

un plano o un árbol (reduciéndola a varianza unidad) sumándole a cada

una de las distancias una componente de error a través de una distribu-

2 2 2 2 2 ción N(0, a ) para distintos valores de a ( a = O, a = 0.25, o = 0.50)

y utilizando muestras de tamaños diferentes (n = 12, 24, 36) obteniendo

11 réplicas para cada condición, con un total de 2x9x 11 = 198 condicio

nes experimentales. A fin de realizar el ajuste a un plano o un árbol u-

tiliza los programas KYST (Krustel et al4973 ) y ADDTREE (Tversky, 1977)

basados en sendos algoritmos de transformación de una distancia a un mo

delo espacial y a un árbol aditivo respectivamente (en capítulos sucesi

vos se comentarán aspectos relativos a estos programas). La comparación

entre la distancia original y la distancia estimada se realiza mediante

el coeficiente de correlación lineal r^ . Las principales conclusiones

a las que se llegan en este estudio son:

a) Los datos surgidos del plano se adaptan mejor utilizando MDS mientras

los datos surgidos del árbol se adaptan mejor a través de modelos de re

des, resultando las correlaciones entre las distancias originales y esti

madas prácticamente idénticas para ambos casos.

b) KYST tiende a adaptar mejor datos surgidos de árbol que ADDTREE d a —

tos surgidos del plano.

En todo caso, a. partir del modelo apropiado se obtiene siempre

una correlación superior.

11

En la figura 4 se

de tamaño 24.

1

0.9

0.8

0.7 •*

•N,

0.6

0.5

0.4

0.3

0.2

0.1

KYST

ADDTREE

Plano Árbol

\

N •

0.25 0.50

Figura 4.

En una simulación parecida perturba la tercera parte (superior

o inferior) de las distancias de la distribución,tomando en este caso 5

réplicas por condición. La conclusión que obtiene es que la perturbación

de pequeñas distancias reduce el ajuste de ADDTREE y la perturbación de

distancias grandes tiene un efecto sensiblemente inferior, mientras que

en KYST parece observarse el resultado contrario.

En consecuencia,el estudio y trabajos citados anteriormente

nos inducen a pensar en la posibilidad de que la distribución de la disi

milaridad observada entre los objetos sirva para poder decidir entre un

modelo espacial o un modelo en árbol.

Sobre el mismo particular, Tversky (1977), llamando vi a la

media del conjunto de distancias y X= J .max { d{x,y); x.yeS } obtte

ne los siguientes resultados:

12

1) Si las distancias provienen de un árbol verificando ciertas condicio

nes de regularidad se cumple: p > X (sesgado a la izquierda ) .

2) En un conjunto convexo y acotado del plano euclideo con la distribu—r

ción uniforme se cumple: p < X (sesgado a la derecha ).

Este análisis sugiere que una configuración convexa de puntos

en un plano tiende- a generar muchas distancias pequeñas y pocas grandes,

mientras en un árbol se produce el fenómeno contrario. Por tanto, esto

parece indicar que el sesgo (momento central de terco? orden stand.)puede ser

una medida para diagnosticar si el conjunto de datos obtenidos es más pro

penso a ser representado por un plano o por un árbol.

En la misma línea Pruzansky et al. (1982) proponen considerar

además otra medida, la elongación, que consiste en la proporción de ter

ñas i,j,k para las cuales si d. . d 4 d.. nos resulta

XJ JK IK

2 d.. ^ d.. + d . La proporción de " triángulos elongados" JK XJ XK

tiende a ser mayor en árboles que en una representación espacial. Así,

en una distancia ultramétrica todas las ternas verifican la condición

anterior por lo que la elongación es 1.

La combinación de ambas medidas puede resultar eficaz a fin

de decidir entre ambos tipos de representaciones. La utilización de

árboles tiende a producir sesgo negativo y mayor proporción de triángu

los elongados, mientras que la representación en un plano conlleva me

nor elongación y sesgo positivo.

Realizan entonces un análisis a través de 20 conjuntos de da

tos reales obtenidos por otros autores que soporta la teoría anterior

13

tal y como se observa en el siguiente gráfico (Fig.5) que resume los re

sultados .

Figura 5: Un círculo indica que la solución KYST da mejor ajuste para el

coeficiente de correlación, mientras un cuadrado indica que ADDTREE pro

porciona mejor ajuste.

También los resultados de este estudio concuerdan con las hipó

tesis de Tversky y Cunningham puesto que conjuntos de datos como vehícu

los, animales, profesiones,... que dejan entrever una estructura jerár—

quica son representados mejor a través de un árbol, mientras que conjun

tos de colores , sonidos, con una estructura factorial clara (por ejem—

pío sonidos en términos de intensidad y frecuencias) son representados

mejor a través de un modelo espacial.

14

1.4.~ OBJETIVOS DE LA MEMORIA

En los apartados anteriores así como en el capítulo II presen

tamos y analizamos los principales resultados relativos a los métodos de

representación de datos como una parte del análisis multivariante. Queda

así centrado el estudio de las representaciones mediante árboles aditi—

vos, objetivo final de esta memoria.

Debido al carácter eminentemente práctico de las técnicas de

representación, la mayor parte de los trabajos realizados (por ejemplo,

el trabajo antes comentado de Pruzansky el al.) están dirigidos a estu—

dios empíricos, como por ejemplo la búsqueda y comparación de algorit—

mos por técnicas de simulación o la adecuación a problemas con datos re

ales. Así resulta necesario un desarrollo teórico paralelo del tema

pues , debido quizás a lo reciente del mismo y al desarrollo informáti

co, ha sido dejado un tanto de lado, siendo escasos los estudios que lo

tratan, destacando en este sentido el trabajo de Buneman (1971).

. Así pues, en esta memoria pretendemos contribuir al estudio

de las representaciones mediante árboles aditivos desarrollando aspec

tos teóricos de los mismos. En primer lugar analizamos las principales

propiedades de los árboles aditivos a través de una formalización pro

pia comparándolo con el estudio de P. Buneman (1971). Después dotamos

al conjunto de distancias aditivas (asociadas a árboles aditivos) de

una estructura matemática adecuada a fin de tratar problemas relativos

a contrastes, algoritmos y representación de distancias rociadas a árbo

les por modelos continuos.

15

DE DATOS MULTIDIMENSIONALES

Resumen: En el presente capítulo se realiza una exposición de las

principales propiedades y características de los métodos

de representación más utilizados.

Sumario:


2.2.- Disimilaridades y distancias.

2.3.- Propiedades generales del MDS.

2.4.- Representación mediante árboles ultramétricos.

2.5.- Representación mediante grafos piramidales.

2.6.- Ventajas de los árboles aditivos frente los ultramétricos.

16

En este capítulo se exponen algunos resultados generales sobre

los distintos modelos de representación que son de especial interés para

el posterior desarrollo del tema, sirviéndcros además para presentar de

un modo más detallado los diferentes métodos a que hemos hecho referen

cia en el capítulo anterior.

En la primera parte se analizan las principales propiedades

sobre los distintos tipos de disimilaridades y distancias (singular, mé

trica ,ultramétrica, aditiva) que juegan un papel fundamental en las téc

nicas de representación por árboles, obteniendo así una serie de resulta

dos básicos que utilizamos en el trabajo.

En la segunda parte presentamos detalladamente los distintos

modelos de representación que se han citado en el capítulo anterior

(Ap. 1.3), pretendiendo en este caso incidir tanto en propiedades genera

les propias del modelo que estudiamos como en observar los procediraien—

tos más importantes relativos al mismo.

Finalmente argumentamos las ventajas que supone la utilización

de árboles aditivos frente árboles ultraraétricós. De este modo, pensamos

que queda cubierto un primer objetivo como es reflejar el papel de los

árboles aditivos como métodos de representación del análisis multivarian

te en relación con los demás métodos de representación.

17

2..2.- DISIMILARIDADES Y DISTANCIAS

En este apartado analizamos los principales resultados sobre

disimilaridades y distancias que utilizamos en esta memoria. Es impor

tante resaltar las relaciones entre los distintos tipos de distancias

que introducimos.

Definición 2.1

Dado S un conjunto finito, a una función d: S x s — * - R se

la llama disimilaridad sobre S si verifica las siguientes condiciones:

DI) d(x,y) $i O V x,y e s

D2) d(x,y) = d(y,x) V x,y e S

D3) d(x,x) = 0 V X e S (1)

Definimos a continuación los tipos de disimilaridades que nos

interesa relacionar:

Definición 2.2

Una disimilaridad d es métrica si verifica las condiciones (1)

y la desigualdad triangular

D4) d(x,y) s< d(x,z) + d(z,y) Vx,y,zeS (2)

Una d.ísimilaridad d es ultramétrica si verifica las condicio—

nes (1) y la desigualdad ultramétrica

D5) d(x,y) ^ max {d(x,z), d(y,z) } Vx,y,zs S (3)

18

Si verifica las condiciones (1) y además se cumple la condi—

ción del cuarto punto, es decir

D6) d(x,y) + d(z,t) max { d(x,z) + d(y,t), d(x,t) + d(y,z) } (4)

para todo x,y,z,t e S,. decimos que d es aditiva.

Definición 2.3

Si d es una disimilaridad sobre S que cumple

D7) d(x,y) = 0 si y sólo si x = y (5)

decimos que es una disimilaridad definida.

Es inmediato pues que una disimilaridad métrica definida es

una distancia métrica o distancia sobre S.

De las definiciones anteriores se deducen los siguientes resul

tados:

Proposición 2.1

Si d es una disimilaridad ultramétrica y existen x,y,z de S

tales que

d(x,y) ^ d(x,z) ^ d(y,z)

entonces

d(x,z) = d(y,z) (6)

Demostración:

Al ser d ultramétrica, utilizando las hipótesis

d(y,z) 4 max {d(y,x), d(x,z) } = d(x,z)

con lo que queda demostrado (6).

19

Recíprocamente,si dados cualesquiera tres elementos x, y, z de

S podemos escoger un par (x, y) para el cual

d(x,y) << d(x,z) = d(y,z) (7 )

nos resulta que d es ultramétrica.

Proposición 2.2

Si d es una disimilaridad aditiva y existen x, y, z, t de S

tales que

d(x,y) + d(z,t) d(x,z) + d{y,t) ^ d(x,t) + d(y,z)

entonces

d(x,z) + d(y,t) = d(x,t) + d(y,z) (8)

La demostración es idéntica a la anterioi; utilizando (4).

Recíprocamente,si dados cualesquiera cuatro elementos x,y,z,t

de S podemos escoger dos pares para los cuales

d(x,y) + d(z,t) >$ d(x,z) + d(y,t) = d(x,t) + d(y,z) (9)

es inmediato comprobar que d es aditiva.

Intuitivamente, dada una disimilaridad ultramétrica, el "trian

guio" que forman tres puntos es isósceles. Del mismo modo, dada una disi^

milaridad aditiva y considerando el tetraedro que forman cuatro puntos,

existen dos pares de aristas opuestas cuya suma es la misma.

20

Las relaciones entre los distintos tipos de disimilaridad pue

den resumirse en las siguientes propiedades:

Proposición 2.3

Si d es una disimilaridad ultramétrica entonces es disimilari

dad métrica.

Demostración:

Dados x,y, t de S,

d(x,y) < max { d(x,t), d(y,t)}

de donde se sigue inmediatamente

d(x,y) < d(x,t) + d(y,t)

Proposición 2.4

Si d es una disimilaridad aditiva entonces es también disimila

ridad métrica.

Demostración:

Dados x,y,z e S, a través de la definición 2.2

d(x,y) + d(z,z) max { d(x,z) + d(y,z), d(x,z) + d(y,z) }

y puesto que d(z,z) = O, obtenemos

d(x,y) ^ d(x,z) + d(y,z) para x.y.zes

Proposición 2.5

Si d es disimilaridad ultramétrica entonces es disimilaridad

aditiva.

21

Demostración:

Sean x,y,z,t elementos de S y supongamos que

d(x,y) min {d(x,z), d(x,t), d(y,z), d(y,t), d(z,t) }

Por ser d una disimilaridad ultramétrica se verifica que

d(x,y) « d(x,z) = d{y,z) (10)

y

d(x,y) « d(x,t) = d(y,t) (11)

con lo que

d(x,z) + d(y,t) = d(y,z) + d(x,t) (12)

Por otro lado

d(z,t) max { d(y,z), d(y,t)}

por lo que puede ocurrir que

d(z,t) d(y,z) (13)

ó

d(z,t)< d(y,t) (14)

Si estamos en lá situación (.13), a partir de (11)

d(x,y) + d(z,t) < d(x,t) + d(y,z) = d(x,z) + d(y,t)

Del mismo modo si estamos en (14), a partir de (10)

d(x,y) + d(z,t) « d(x,z) + d(y,t)= d(x,t) + d(y,z)

con lo cual dados cuatro elementos siempre podemos elegir dos pares ta

les que cumplan la condición (4). Así pues, utilizando (9) obtenemos que

d es una disimilaridad aditiva.

A partir de la proposición 2.3 se deduce que una disimilaridad

ultramétrica definida y una disimilaridad aditiva definida son distancias,

y en lo sucesivo para referirnos a ellas las llamaremos distancias ultra-

métricas y distancias aditivas.

22

Cabe resaltar que las proposiciones 2.1, 2.2, 2.4, y 2.5 se cumplen tam

bién para distancias.

Podríamos resumir las proposiciones 2.3, 2.4, y 2.5 en el s i —

guíente cuadro de implicaciones:

^ D4) D5) tr

D6)

Definición 2.4

A una función d: S x S —»-R tal que existe f: S — R de ma

nera que

d(x,x) = • f(x) + f(y) si X 4 y, x,y e S

O si X = y

la llamamos una función singular definida sobre S. Si además d(x,y) > O,

V X , y e S, diremos que d es una disimilaridad-singular.

Proposición 2.6'

Si d es distancia aditiva y d disimilaridad singular entonces s

d + d es una distancia aditiva, s

Demostración:

(a+d|(x,y) + (d;+d|(z,t) != d(x,y) + d(z^(t) f(x)+f(y)+f(z)+f(t)

23

y por ser d aditiva

d(x,y) + d(2,t) max { d(x,z) + d(y,t), d(x,t) + d(y,z) }

de donde

(d+d„)(x,y)+(d+d„)(z,t) ^ max { d(x,z)+d(y,t)+f(x)+f(y)+f(z)+f(t), s s

d(x,t}+d(y,z)+f(x)+f{y)+f(z)+f(t) }

es decir

(d+d )(x,y) + (d+d )(z,t)^ max { (d+d^)(x,t) + (d+d )(y,z) , S o S S

(d+d^)(x,z)+(d+d^)(y,t) } s s

Corolario:

Si d es ultramétrica y d disimilaridad slr®ilar entonces d+d s s

es aditiva.

Proposición 2. 7

Si d es distancia ultramétrica tiene a lo sumo n-1 valores

distintos siendo n el cardinal de S { |S | = n ).

Demostraciones distintas pueden encontrarse en Lerman (1981) y

Arcas (1983).

En Arcas (1983) y Salicrú (1983) se explica como se puede do--

tar al conjunto de disimilaridades y distancias de una estructura de es

pacio métrico; asimismo se explica la conveniencia de utilizar en m u —

24

chos casos una distancia como un vector (gj-dimensional siendo |S| = n

en vez de la notación en forma matricial.

Otro resultado particularmente interesante es:

Proposición 2.8

Si d es distancia ultramétrica y S = {s^^, s } podemos

obtener una ordenación de la matriz (d. .) con d. .= d(s.,s.) asociada

a d en la forma

a) d. . d. . , ij ij+1 d. - . d:\ 1+1 J ij (15)

se deduce

b) V k , de é^^^^ = ... =d^i , , 3 , ^ < d^k.s.2

dj^^^j = * k j P^^^ J k+s+1 siendo s O

que nos permite observar una forma general para las matrices asociadas a

una distancia ultramétrica (Lerman, 1981), (Salicrú, 1983).

Tal como se ha expuesto anteriormente, el objetivo de esta me

moria es el estudio de la representación en modelos de redes. Sin embar

go, es interesante hacer alguna referencia a los modelos espaciales para

no perder la visión de conjunto en el estudio de las técnicas de repre—

sentación. Así en el apartado siguiente damos una relación de los resul

tados fundamentales de MDS.

25

2.3.-PROPIEDADES GENERALES DEL MDS

Como hemos expuesto en el capítulo I, MultldimensiSnal Scaling

(MDS) es un término general para un conjunto de métodos que tienen por

objetivo la búsqueda de una configuración de puntos para representar un

conjunto en un espacio R^ a partir de una disimilaridad definida s o —

bre el mismo. Nos propondremos en este apartado analizar algunas de las

principales técnicas MDS.

2.З.1.- Modelo MDS para una distancia euclidea

Dado ( S, 5 ) siendo S un conjunto de objetos y 5 una disi

milaridad definida sobre S, si existe

Ф : ( S , 6 ) ^ . ( R P , II I I )

siendo II II la norma euclidea, de modo que

I I Ф (x) - Ф (y ) I I = « (x .y)

decimos que б es una distancia euclidea y obtenemos en este caso una

solución MDS en R^ que reproduce exactamente la disimilaridad i n i —

cial.

Así pues, el problema principal radica en conocer las condi—

clones que debe verificar una distancia (Por notación <5(s^,Sj))

para ser euclidea, pudiendo citarse en este sentido los siguientes r e —

sultados.

26

Teorema 2.1

Sea ( 5^^) una distancia sobre el conjunto de objetos S con

n elementos. Si consideramos las matrices H y A definidas como

h. . = 1 - 1/n

- 1/n

si 1 = J

si i ^ j

^ j = 2

B = H.A.H

se verifica que 5 es euclidea si y sólo si B es semidefinida positi

va.

Así pues, si diagonali2amos B tenemos

B = T.D .T'

con T matriz ortogonal y D matriz diagonal formada por los valores

propios en la diagonal principal y ceros en el resto, obteniéndose

B = X . X'

siendo X una matriz n x p, p el número de valores propios distintos

de cero y representando las filas las coordenadas de los n puntos en

. Estas coordenadas reciben el nombre de "coordenadas principales".

27

Teorema 2.2

A = { - '4. r ) y e' = ( 1 1)

se verifica que 6 es euclidea si y sólo si se verifica:

V s s R tal que s'.e = 1

s'.A 5 O B = (I - es').A.(I - se') s es semidefinida positiva (16)

La demostración de este teorema (Gower, 1982 ) nos conduce a interesan

tes propiedades de la configuración. En este sentido si Y es una m a —

triz que nos define una configuración euclidea en S

m

Z k=l

^ ^ik - ^jk i. j 6 {1,.. , n}

y consideramos una traslación de la forma

Z = Y - e .Sr'.Y

verificándose

s'.e = 1

s'.A / O

Dado S conjunto finito de cardinal igual a n y ^ una

disimilaridad definida sobre S , si consideramos

28

La matriz de productos escalares B = Z.Z* i^. = b. . + b . . - 2b. . ) ij 11 JJ iJ

es igual a B , s

B = B = (I - es').A.(I - se') s

Observamos que esta propiedad es independiente de la configuración de

puntos Y que disponemos de entrada. Esto permite estudiar algunas cues—

tienes geométricas, como es el hecho de poder conseguir una traslación

de modo que el origen de coordenadas verificara ser algún punto especial.

En este sentido se pueden demostrar los siguientes resultados:

a) Si s' = (O,..,0,1,0,..,0) tenemos que el origen de coordenadas

es (coordenadas del i-ésimo punto).

b) Si s' = (l/n,..,l/n) el origen de coordenadas es el baricentro de

la configuración. Así, en el caso de representación geométrica utilizan

do coordenadas principales tenemos como una característica; geométrica de

la representación que el origen de coordenadas es justamente el baricen

tro.

c) Si existe A ^ para s =• — — - — .A " .e el origen de coordena-e'D" e

das es ei circuncentro de xa configuración, con lo cual el radio de la -1 y

hiperesfera en que estarían situados los puntos sería r = (1/ e'.A .e) ^

Teorema 2.3 6 se puede representar en si cualesquiera p+3 puntos

de S se pueden representar-en R^ (De Leeuw,1982).

29

2.3.2.- Caso no euclideo

Método de las coordenadas principales (Torgersson, 1952, 1958)

Es el método más clásico del MDS. Si ( 5^^) no es euclidea

y la matriz В asociada tiene por valores propios

X, 5- X_ > .. . 5 > O ^ X^ 5- x„ 1 2 s s+2 n

tomamos la matriz X de orden n x s de modo que las columnas están

formadas por los vectores propios de valores propios X ...., X X s

normalizados y consideramos

• I В = X.X

* 2 que será semidefinida positiva de rango s , minimizando D=traz(B-B )

•jipara la matriz B fijada y B semidefinida positiva, según resultado

general de Eckart y Young(1936). Se verifica que para B = X .X , 2 2 , , D = +...+ ^ y para una representación en dimension m < s s+2 n

el mínimo es

s 2 n 2

i=m+l k=s+2

valor que se puede considerar como una medida de distorsión.

Método_de Shepard U962)

Shepard (1962) desarrolló la idea de la construcción de solu

ciones de modo que la representación euclidea de los objetos respeten

30

las relaciones de orden en el vector de distancias observado. Es decir, si

consideramos la preordenación en S x S

(i,j)< (i'.j-) ^ <

la solución MDS ( j) ss aconsejable que respete dicha preordenación de

una forma exacta o aproximada.

El método de Shepard constituye el primer algoritmo MDS no mé

trico y de este modo fue el primero en mostrar como soluciones métricas se

podían obtener a partir de datos ordinales. El método empieza suponiendo

los n objetos como vértices de un simplex n-1 dimensional , y en una

primera fase deforma el mismo en base a hacer crecer las distancias gran

des y decrecer las pequeñas. En una segunda fase se proyecta el poliedro

resultante en un espacio con el número de dimensiones deseado y mediante

un proceso iterativo se pretenden ajustar los datos iniciales con las dis

tancias espaciales resultantes. El proceso consiste en construir para cada

punto n-1 vectores con dirección los demás puntos , sentido distinto

según la distancia sea mayor o menor que la observada y magnitud propor

cional al desajuste, moviendo el punto en la dirección de la resultante

de los n-1 puntos una distancia proporcional a la magnitud; se reitera el

proceso hasta llegar al equilibrio. Podemos ver en Kruskal (1977) la com

probación de la convergencia del método.

Transformaciones monótonas

Existen algunos métodos basados en la transformación de la ma

triz de disimilaridad por una función monótona de modo que nos resulte una

distancia euclidea.

Como resultados interesantes en este sentido cabría citar los

siguientes:

31

Teorema 2.4

Si 5 no es euclidea, existe una constante « tal que.

Íj = V^ij ^ ^^^^

siendo los déltas' der-Ktonecker, es una distancia euclidea pu-

diendo inducirse en un espacio eucídeo de dimensión n-2.

Una demostración del teorema sirvió'a Lingoes(1971)para obtener

una solución MDS que realizaba exactamente la preordenación sobre el

conjunto de disimilaridades inicial, considerando como constante a él

doble del valor absoluto del menor valor propio de la matriz B.

Sin embargo,existe el problema del aumento de la distorsión D

al disminuir la dimensión. En el caso de la solución de Lingoes la d i s —

torsión es

D = ( n - 1 ).x^

y en dimensión reducida tomando las m primeras coordenadas

i>-2 D = X! + (m+1). X n i=m+l

(Cuadras, 1981)

Mardia (1978) utilizando la misma idea propone una solución a

fin de disminuir la distorsión. Puede adaptarse a una dimensión inferior

esta solución, aunque a costa de que la solución no respete exactamente

la preordenación inicial.

32

Otros métodos parecidos pueden verse en Cooper (1972) y Cailli_

ez (1983).

No está resuelto el problema del cálculo de una función f tal

que f( 5 ^j) sea euclidea en dimensión mínima.

Método de KruskajL

Según De Lee uw{ 1982) uno de los principales efectos que pro

dujeron los trabajos de Shepard fue el interés que Joseph Krúskal dedi

có al MDS en un afán de mejorar los primeros. Realizó una mejora de

los procedimientos de Shepard siguiendo sus mismas ideas. En este senti_

do se introduce":

a) La noción de optimización de una medida de ajuste explícitamente de

finida.

b) Utilización de un procedimiento numérico.

La idea general del método consiste en ajustar una distancia

euclidea d. . a la transformación f( 6 ..) = d. . donde f es una

función monótona tal que la medida de ajuste que la llama STRESS

2

A = (18)

sea mínima.

33

Al no conocerse una soluciónexacta al problema, este ha sido

tratado por métodos numéricos. Así, Kruskal propone como algoritmo ge

neral el siguiente: partir de una configuración euclidea inicial obte

nida de alguna forma (por ejemplo, coordenadas principales) en una di

mensión determinada, obteniendo una transformación monótona de la m a —

triz de distancias inicial que minimice el STRESS (Regresión monótona).

De este modo volvemos a obtener una configuración euclidea asociada a

la minimización anterior, siguiendo el proceso iterativo hasta que la

función converge a un mínimo (que puede ser local).

El algoritmo de Kruskal fue originalmente implementado en un

programa llamado MDSCAL. Recientemente algunas características de

otros programas llamados TORSCA se combinaron con MDSCAL para produ

cir un programa llamado KYST (el nombre está constituido por las ini

cíales de los 4 principales contribuidores a la teoría del MDS, Krus

kal, Young, Shepard, Torgersen).

Otros procedimientos MDS basados en ideas parecidas con el

nombre general de Smallest Space Analysis (SSA) fueron independiente^—

mente desarrollados por Guttman and Lingoes. Una comparación de SSA

con ADDTREE puede verse en Tversky (1977).

Un problema abierto muy importante es decidir el número de

dimensiones apropiado. Algunos criterios en este sentido son desarro—

liados en Wagenaar & Padmos (1971), Tuckey (1977), Kruskal y Wish (1978).

34

Tal y corno hemos comentado anteriormente las principales técni

cas de representación mediante modelos de redes son: árboles aditivos,

árboles ultramétricos y grafos piramidales. Puesto que esta memoria tra

ta en profundidad la representación mediante árboles aditivos, tratare—

mos en los siguientes apartados sobre las principales propiedades relati

vas a árboles ultramétricos y grafos piramidales.

2_^4.j-_REPRESENTACI0N_MEDIANTE_

La idea general es la deformación de la disimilaridad dada so

bre el conjunto de objetos hasta conseguir una distancia ultramétrica

que se ajuste a la primera desde algún punto de vista. Estas técnicas se

conocen con el nombre de taxonomía numérica.

Definición 2.9

Dado S conjunto finito, un par (J,i) siendo J C P(S) e

i : J »R^

diremos que es una jerarquía indexada si cumple las siguientes condicio

nes :

a) Si A,B e J entonces A O H €{A,B,0 }

b) Si A e J entonces U { C | C e j , C G A y e { A , 0 } (ig)

c) i( { s } ) = O si { s } e J

d) Si A C B entonces i(A) <: i(B)

35

La obtención de una distancia ultramétrica d^ sobre el con—

junto de objetos equivale" a la obtención de una jerarqáa indexada de

partes (J,i) sobre los mismos (Cuadras, 1981) que queda definida como

el conjunto de partes de S verificando la siguiente condición: Un sub

conjunto A de S pertenece a la jerarquía si y sólo si

1 г e R I V x,y e A , d^ (x,y) ^ r (20)

siendo el valor del índice de la jerarquía para el conjunto A el ínfi

mo de los valores reales r que verifican la condición anterior.

Para todo r podemos considerar la relación

X R y «» dy(x,y) < r

que es una relación de equivalencia por ser d^ una distancia ultramé—

trica,obteniéndose pues una partición del conjunto S para cada nivel r.

Así pues, la representación natural asociada a una jerarquía

indexada es un dendograma que puede interpretarse como un grafo simple -

.mente conexo sin ciclos con un nudo interno equidistante de los extre

mos (fig.l)

El concepto de jerarquía indexada es equivalente al de clasifi

cación jerárquica en el sentido de considerarla como una función

i|, : R -» P

siendo P el conjunto de particiones de S , verificando las siguientes

36

condiciones:

1) 'i'CO) 3 { ís } ,....{ s } } Vs.e S

2) Si r < r' entonces (r) c f (r') (más fina) (21)

3) 3r S R"* tal que i> (r) = S

Puede formalizarse la taxonomía numérica a través de la

utilización de clasificaciones jerárquicas (Arcas,1983). Podemos obser

var como la taxonomía numérica tendría por objetivo la construcción de

una colección de clases naturales que podría interpretarse en un sentido

evolutivo y utilizarse para la formación de clasificaciones razonables

de los objetos.

Ejemplos de la utilización práctica de este método pueden ver

se en Sokal (1963), Cuadras (1981), Salicrú (1983) etc.. El proceso de

deformación de la disimilaridad inicial puede venir dado de muy diversas

maneras. Un procedimiento general viene dado a través de lo que se cono

ce como algoritmo fundamental de clasificaciones jerárquicas que puede

describirse mediante la siguiente recurrencia (Arcas y Salicrú, 1984):

Si 1^ = min { 6 (s^, s .) I s^ ?¿ , s^, Sj € S} = 6 ( S ^ Q , S J Q )

es la mínima distancia entre los elementos de S , definimos

= { í^l} {^ÍQ} U { S J Q } '•••» { % }

3 y consideramos una función f^; R — • - R de forma que

37

f^( « ( S Ì Q . S . Q ) , 6(S.Q.SJ^). 6 ( S . Q . S ^ ) ) ^ 1^

A Ф(1^^} le asociamos la disimilaridad definida some sigue:

\( {s.} , {Sj} ) = 6(s^,Sj) si { Si.Sj} n {Sio'SjQ} = 0,

\ ^ iîO> ^^jO> ' V ^ ^^îO'^jO^' ^(îO'^k^'^ ^^jO'\^^^ Ч

de forma que la distancia entre los elementos que no se han juntado se

mantiene invariante y la que separa la clase formada por los dos elemen

tos que se han juntado con un tercer elemento viene determinada por la

función f^. Podemos pasar entonces del par (S , 6 ) al par ( 1р(1^), 6^)

y de forma análoga a f(l_),..., ф(1 ) considerando sucesivamente fun-

cienes f ,...,f . Podemos entonces construir la clasificación jerár-

quica Ф en la forma

a) Ф( a) = 4 (1 ,) si a € [ l 1 ) ra-1 ^ m-1 m

b) 1í(,o) = {{Sj_} ,..,{s^}} si , 1^^ O y a6[0,lj_)

c) ф ( а ) = { S } si a ^ l s

Veamos algunos procedimientos que pueden ser construidos a tra

vés de este proceso.

38

Método del mínimo (máximo) (Johnson, 1967)

Se considera

f (a S Y ) = min { B, Y } (max « ,Y 1 ) (22) n

de este modo, si

* ( y = iA^,...,A^}

1 , = 5 (A._,A.-) mínimo valor para 5 m+l m lO' jO ^ m

resulta

= í A ^ . . . . . A . Q U AjQ,....Aj^}

verificándose que

( max { 5„(Aio.Aj^),S jA.Q.Aj^) ) (23)

Ul (^'^j ) = ^m^^i'^j^ si (i,j}n{iO,jO} = 0

La idea geométrica consiste en la deformación de un triángulo

hasta obtener dos lados iguales que coincidan con el menor ( mayor) de

los lados que no son base.

3 9

Método_UPGMA (Sokal y Michener, 1 9 5 8 )

Si ^ ( 1 ) = { A, A. } m 1. K

y 1 , = 6(A.„,A.^) mínimo valor para 6 , resulta que m+1 m lO jO m

*^^m+l ) = Í A ^ . . . . . A . Q U A.Q A^)

verificándose que <S inducirá 6 ^ de la forma: m m+ 1

N. N. 6 , ( A . „ U A . ^ . A , ) = -—. 6 ( A . - , A , ) + ^ — . 6 ( A . ^ . A , ) ( 2 4 ) m+1 10 jO' ^ m' lO' k m jO' k

i j i j

siendo ^i = l^io' y = l^-o'

La idea geométrica es la deformación de un triángulo hasta obte

ner dos lados iguales que coinciden con la media de los lados mayores

ponderada respecto los cardinales de las clases.

Este método tiene importantes propiedades relativas al coefi

cíente de correlación cofenética (medida de ajuste entre la disimilari—

dad inicial y la ultramétrica), tal y como se puede observar en Earris

( 1 9 6 9 ) y Arcas ( 1 9 8 3 ) . También es el método más utilizado en las aplica

ciones prácticas. Ejemplos de estas aplicaciones las tenemos en Dallot

( 1 9 7 2 ) , Ríos ( 1 9 8 5 ) .

Otros resultados referentes a: la obtención de la disimilari

dad 0^ en términos de 6 , la continuidad de los métodos expuestos,

la distancia que separa dos ultramétricas asociadas a la misma disimi

laridad inicial pueden verse en Arcas y Salicrú ( 1 9 8 4 ) .

40

Otros métoáos jerárquicos interesantes son: de la media

(Sokal y Michener, 1958), de la mediana (Gower, 1967), del centroide

(Sokal y Michener,1958). También han sido estudiados métodos de deforma

ción basados en otros puntos de vista. Cabría citar por ejemplo los meto

dos В ,B^ y D (Jardine & Sibson, 1971), (Matula, 1977); métodos de ti-

po iterativo no jerárquico como puede ser ISOBATA (Hall & Hall, 1967),

k-medias.

Un problema abierto muy interesante en taxonomía numérica es

la determinación del número de clases realmente significativas. No se ha

llegado a resultados muy concretos en este sentido, aunque algunas técni

cas se han desarrollado para resolver este problema. Cabría citar los

trabajos de Rohlf (1970), Anderson (1985), Hubert & Arabie (1985).

2j.S_Z_5 I£5 I I I ! Í l : Í^CION_P0R_GRAF0S_PIRAMIDAL

La representación mediante grafos piramidales es una ertei*—

sión de los métodos de taxonomía numérica. Es una técnica desarrollada

recientemente por Bertrand & Diday (1985) que parte de un conjunto S de

objetos, un orden fijado sobre el mismo y una disimilaridad 5 ^ la

cual está basada en la deformación de dicha disimilaridad observada so

bre el conjunto de objetos hasta obtener una distancia d que conserve

el orden en el siguiente sentido:

Si s, ^ s ^ s„ entonces X ¿ o

d(s^,Sg) >, d(s^,S2)

d(s ,s ) > d(s„,s ) - ^ (25)

41

Definición 2.10

1) S e P

2) V Ù5 e S, {ü)} € P

3) V {A,B} C P , A n B = : 0 ó A H B e p

4) Existe un orden compatible con P

(26)

5) 3 f: P > B* tal que

a) f(p) = 0 si p tiene un solo elemento,

b) y p,p'e P, P c P' =» f(p) « f(p')

A la representación la llamaremos grafo piramidal indexado.

Una disimilaridad definida que cumple (25) se la denomina índi_

ce piramidal.Podemos observar que si d es ultramétrica existe una orde

nación de los elementos tal que d conserva este orden.

Definición 2.11

Dado un orden sobre S, diremos que una parte C es conexa si

el conjunto formado por todos los elementos entre cualesquiera dos de C

es de C. Así, un orden es compatible con un conjunto PCP(S) si cada

elemento de P es conexo con respecto al mismo.

Definición 2.12

Dado S conjunto y P c P(S), P será una pirámide si:

42

Definición 2.13

Dados p,p' G P diremos que p' es un predecesor de p si

p C p' y no existe ningún p" tal que p c p" C p' . Los

principales resultados que se obtienen son:

Proposición 2.9

El conjunto de jerarquías indexadas está incluido dentro de

las pirámides.

Proposición 2.10

Cada elemento de P no tiene más de 2 predecesores.

Proposición 2.11

Existe una biyección entre los índices piramidales y los gra

fos piramidales indexados ( i.e. pirámides).

Por ejemplo si d es una disimilaridad con matriz asociada

4 4

O 2

O

43

1 2

Figura 2.- Representación gráfica de una pirámide.

La representación mediante árboles ultraraétricos produce en ge

neral restricciones: muy- importantes .tales como: a), la distancia ultramé—

trica entre elementos de dos clases distintas a cualquier nivel debe ser

la misma, b) Distancias entre elementos de una misma clase no puede supe

rar la distancia entre elementos de esta y cualquier otra.

Estas restricciones no se dan en árboles aditivos, con lo cual

la representación se puede adaptar de una forma sustancialmente mejor a

los datos originales, pudiéndose por otro lado interpretar más fácilmente

el árbol resultante. Por ejemplo, Salicrú (1983) en un estudio sobre la

distribución de Drosophila Subobscura demuestra que las barreras geografi

podemos representarla mediante la ."pirámide" (ver fig.2)

{ {1}, {2}, {3}, {4}, {2,3}, {1,2,3}, {3,4}, {1,2,3,4} }

con

f({2,3}) = 2; f({l,2,3}) = 4; f(í3,4})=3 y f(íl,2,3,4}) = 5

44

cas son barreras genéticas, tomando como distancia genética

(Prevosti, 1974).

s . 1 ^

S(a,b) =

s .

2^ j=i h=i •Pajh - Pbjhl (27)

siendo:

r = número de cromosomas distintos.

s . = número de ordenaciones distintas en el cromosoma j. J

Pajh

Pbjh

proporción de la ordenaciói del cromosoma j en la población a.

idem, en la población b.

En este sentido, si intentamos probar que el estrecho de Drover

es una barrera genética, se consideran las poblaciones de Heriot (H),

Dalkeith (D), Groningen (G), Viena (V), Zurich (Z), Drobak (Dr) que tie

nen por matriz de disimilaridades asociadas

H

D

G

V

Z

Dr

D G V Z Dr

.083 0.290 0.399 0.331 0.307

0 0.276 0.370 0.3 0.307

0 0.187 0.112 0.152

0 0.128 0.260

0 0.235

O (28)

45

utilizando el método UPGMA se obtiene la clasificación jerárquica

0.322

0.216

0.157

0.112 0.083

(29)

Н D G Z V Dr

Figura 3

a partir de la cual se justifica la hipótesis que se formulaba. Sin e m

bargo, observamos que la distancia ultramétrica u de la población Dr a

a las poblaciones de G,Z y V es la misma:

u(Dr, G) = u(Dr,Z) = u(Dr, V) = 0.216

lo cual no está excesivamente de acuerdo con los datos obtenidos a tras

vés de íS , puesto que

5(Dr,G) = 0.152

<s(Dr,Z) = 0.235

5(Dr,V) = 0.26 (30)

siendo la primera sensiblemente distinta a las otras dos. Por otro lado»

46

la distancia observada entre Groningen y Viena es mayor que aquella en

tre Drobak y Groningen, y sin embargo para la ultramétrica resultante

u(G, V) = 0.157

u(G, Dr) = 0.216

observando aquí un aspecto contradictorio entre la disimilaridad inicial

y la distancia ultramétrica obtenida.

Estos problemas surgen por las restricciones propias de las

distancias ultramétricas descritas en a) y b ) .

Por otro lado el coeficiente de correlación entre la disimila

ridad inicial y la estimada es 0.91778.

Utilizando árboles aditivos, mediante el algoritmo introducido

por Tversky (1977) obtenemos la representación:

Figura 4

47

Los problemas descritos anteriormente quedan resueltos pues si

d es la distancia aditiva resultante:

d(Dr, G) = 0.164

d(Dr, Z) = 0.211

d(Dr, V) = 0.270

lo que está muy de acuerdo con los datos .(30).

Además

d(Dr, G) = 0.164

d( G, V) = 0.179

y observamos como en un árbol aditivo la distancia entre elementos de

una clase puede siperar la distancia entre elementos de esta clase y e x —

ternes a la misma.

Además el coeficiente de correlación al cuadrado entre d y 6

es 0.9996, lo que supone una mejora sustancial del mismo.

Así, hemos podido observar las importantes ventajas que pueden

suponer los árboles aditivos frente los árboles ultramétricos.

Cabe por último señalar que los árboles aditivos se podrían

considerar como un paso intermedio entre los clásicos métodos de MDS y

la representación por medio de dendogramas puesto que siendo propiamente

representaciones en árbol, no están sometidos a las restricciones ultra-

métricas .

48

3. REPRESENTACIÓN MEDIANTE ARBOLES ADITIVOS.

Resumen: En el presente capítulo se desarrolla una formalización

de la representación asociada a un conjunto sobre el

que tenemos definida una distancia que verifica el axio

ma del cuarto punto.

Sumario:

3.1 - Introducción.

3.2 - Formalización de P. Buneman.

3.3 - Formalización de la representación de un conjunto asociada a

una distancia aditiva.

3.4 - Relaciones con las distancias ultramétricas.

49

3.1.- INTRODUCCIÓN

El objetivo que nos proponemos en este capítulo es el estudio

específico de la representación de un conjunto de objetos mediante ár

boles. Para ello estudiamos la relación existente entre una distancia

verificando el axioma del 4^ punto (distancia aditiva)

V x,y,z,t G S

d(x,y) + d(z,t)< max {d(x,z) + d(y,t), d(x,t) + d(y,z)} (1)

y su representación asociada (árbol aditivo) que intuitivamente lo enten

deremos como cierto tipo de grafo conexo sin ciclos.

También observamos las relaciones existentes entre las distan

cias aditivas y las distancias ultramétricas a través de sus representa

ciones asociadas (árboles aditivos, dendogramas respectivamente) vistas

desde la perspectiva de la teoría de grafos. Dejamos para otros capítu—

los su estudio desde otros puntos de vista.

Hemos dividido el capítulo en dos partes. En la primera trata

mos la relación entre una distancia aditiva y su representación, mien

tras que la segunda se centra en el estudio de las relaciones entre árbo

les aditivos y dendogramas, obteniendo conclusiones sobre las distancias

asociadas.

Buneman (1971) advierte del problema que surge al querer utili^

zar los árboles aditivos desde un punto de vista eminentemente práctico,

en el sentido de situar el interés en la búsqueda de algoritmos más o

50

menos eficaces para lograr árboles que representen mejor a alguna disimi

laridad que tengamos dada de entrada. Así pues, centra su estudio en una

nueva definición del concepto de árbol que se podría considerar como una

caracterización de las relaciones que imponen los nudos y aristas con

respecto los elementos del conjunto, dando un método a fin de asociar

una distancia sobre el árbol. Describe un algoritmo mediante el cual a —

signa un árbol aditivo, entendido como el par formado por el árbol y una

distancia definida sobre el mismo, a una disimilaridad dada sobre el con

junto a representar de forma que la distancia sobre el árbol coincide

con la disimilaridad inicial si y sólo si es aditiva.

El problema básico de esta formalización estriba en el aleja—

miento de unos planteamientos intuitivos si pensamos únicamente en la re

lación distancia aditiva-árbol aditivo, pues en este estudio dicha rela

ción no se plantea como un objetivo en sí, ya que el mismo es el planteo

del algoritmo con unas propiedades teóricas interesantes (continuidad,

unicidad) en un sentido parecido a como podemos observar el método del

mínimo (Johnson, 1967) para representaciones de distancias ultramétricas

(Jardine & Sibson, 1971). Dado,sin embargo, el interés de esta formaliza

ción, muy citada en trabajos posteriores (Cunningham, 1978; Tversky,1977;

Waterman, 1977, etc) ofrecemos una síntesis de la misma en el presente

capítulo.

En líneas generales estudiamos los árboles aditivos desde el

punto de vista de su representación como grafo, y no atendiendo tanto a

las- relaciones que sus elementos (nudos, aristas) producen sobre los ele

mentes del conjunto. Con este planteamiento se podrán tratar cuestiones

relativas a la forma del grafo de interés:para el estudio y análisis de

la representación . Siguiendo esta misma línea se tratan las relaciones

entre las distancias aditivas y distancias ultramétricas.

51

3_^2_-_F0RMALIZACI0N_DE_P_^_BUNEMAN

Tal у como se ha indicado anteriormente comenzaremos con un pe

queño repaso al interesante estudio de P. Buneman (1971) que en una de

sus partes caracteriza la representación de una distancia aditiva.

Inicialmente se trata de caracterizar un árbol por un procedi

miento conjuntista basado en las relaciones que imponen sus aristas y a

partir de dichas relaciones definir el concepto de nudo y distancia s o —

bre el árbol obtarLendo seguidamente propiedades interesantes sobre la re

presentación del mismo.

Si S es el conjunto a representar, se define:

Definición 3.1

(7 es una división de S si y sólo si a = {^1'^2^

P^ и P^ = S y P^ П = 0 (2)

En este sentido dos elementos de S tales que pertenezcan a conjuntos

distintos de una división se llamarán elementos separados por a .

Definición 3.2

Dadas dos divisiones de S, diremos que son compatibles si algu

na de las cuatro intersecciones entre los conjuntos que las forman es va

cía.

Es fácil observar la relación existente entre el concepto de

división y el de arista. También, y bajo este punto de vista, divisiones

asociadas a dos aristas de un árbol serían compatibles. Define entonces

el concepto de árbol.

52

Definición 3.3

A ={a^,...,a^} (3)

Intuitivamente, un árbol queda dividido en dos partes por una arista, de

forma que un nudo pertenece solo a una de las partes.

En este sentido, y formalizando este concepto, se define un nu

do como

Definición 3.4

1 2

N es un nudo del árbol A = {a,, — ,a } con a, = {P, ,P, }

e ij e {1,2 } si

de modo que

^ ^k

(4)

1, 1 .

Pj^ n P_.J ^ 0 si k 5¿ j

Un árbol asociado a S es un conjunto de divisiones de S dos

a dos compatibles

53

Definición 3.5

Dado el árbol A = í'^i*' •' '^j^^ ^® dice que los nudos N^y

están conectados por si son de la forma

X 1 Ц = {P/,...,PJ" } I I m

h Jm N„ = ÍP/,....P^'" } (5) 2 '• 1 m

con i^ = para s 4 ^ e

Tiene entonces sentido hablar'de camino como un conjunto de nu

dos conectados. Podemos también hablar de nudo terminal como aquel nudo

que sólo admite una conexión.

Se demuestra que dos nudos de un árbol siempre están conecta—

dos por un camino. Asimismo se demuestran otras propiedades de los árbo

les.

Hasta aquí está caracterizado el árbol en cuanto a su "forma".

Es evidente que el estudio formal en sí, planteado de esta manera, se

aleja del verdadero sentido intuitivo si bien el pensar en la identifi

cación entre división y arista puede clarificar en gran medida su inter

pretación.

Ahora se trata de definir una distancia sobre el conjunto S a

través de un árbol asociado al mismo.

54

Definición 3.6

A es una distancia definida sobre S asociada al árbol

A = ''' si y sólo si

aeA

siendo OL ,... A números reales y 6 la pseudométrica definida como T. m a

6 (x,y) = a

1 si x,y E S están separados por a

O si x,y G S no están separados por a

A partir de este momento el problema queda centrado en la bús

queda de un árbol dotado de una distancia definida como 3.6, asociado a

una disimilaridad d dada sobre el conjunto S. Para ello, si

es una división cualesquiera de S, se define

u = Уг .min{d(x,z) + d (y , t ) - d(x,y) - d(z ,t) } (7)

siendo x ,y e P^ y z , t 6 P^

que intuitivamente, dada la configuración del árbol, sería justamente la

longitud de la arista que representa a si la distancia real del árbol

fuera d.

55

De este modo se considera el conjunto de divisiones

= { a|p^> 0 } (8)

el cual resulta ser un árbol.

A partir de dicho árbol se define la distancia

^ d = Z ^o-'a

obteniendo el algoritmo mediante el cual a cualquier disimilaridad d se

le hace corresponder la representación con árbol A^ y distancia asocia

da A,, d Se demuestra que dicha representación es única y además verifi

ca

á , d (10) d

llegándose entonces a

Proposición 3.1

= d si y sólo si d verifica la condición del 42 punto.

Con esta proposición queda demostrado que la representación natural aso

ciada a un conjunto sobre el que tenemos definida una.distancia verifi

cando la condición del 4a punto es un árbol definido según 3.3 con una

distancia asociada en el sentido 3.6.

56

3_^-_F O RM A LIZ A CIO N_D E _ L A_R E P R E S

áM°£ iá£A_A_UNA_DISTANCIA_ADITIVA

En este apartado analizamos la representación de un conjunto

de un modo distinto a la formalización anterior. Las diferencias funda

mentales entre ambos estudios radican en la definición de árbol y en

el objetivo pretendido, puesto que si bien P. Buneman intenta lograr

un algoritmo de interés teórico, en nuestro estudio se analizan las re

laciones entre las distancias y representaciones como finalidad en sí,

cuidando de obtener una formalización que respete las nociones intuiti

vas sin perder el rigor necesario.

Comenzaremos definiendo el concepto de representación asocia

da a un conjunto.

Si S es el conjunto de objetos a representar, d una distan

eia definida sobre S y R otro conjunto finito tal que S n R = 0 ,

consideramos el conjunto U = S U R al que llamamos conjunto de nudos

y la existencia de C u x U verificando las siguientes condicio—

nes:

Rl.- G^ grafo conexo sin ciclos (Bergé, 1973)

R2.- Si (x,y) e G^ entonces (y,x) e G^

R3.- Si (x,y) G G^ y (x,z) í G^ Vz G U I z? y

entonces x G S.

57

Supongamos además dada d* distancia sobre U tal que

verifique:

m-1 R4.- d * (x,y) = mini d * ( x ^ , x ^ ^ ^ ) | x ^ = x , x^=y, Cx ,x _ j ) G }

i=l para 1=1,..,m-l

R5.- d* = d IS

Definición 3.7

Diremos que (G^,d*) es una representación asociada al par {S,d)

Definición 3.8

Dado un grafo G^ verificando las propiedades R1,R2,R3,R4 di

remos que es una representación asociada a S.

Definición 3.9

Un camino que une dos elementos x e y de ü es un conjunto C

de la forma

C = í ( x , U j ^ ) , (u^,U2), (u^,y); de modo que ( x,u^), » (\'y) \ para i=l,..,m-l }

(11)

58

Definición 3.10

Dado X e U que cumple

1) 3 u e U con (x,u) 6

2) Vz e U z ?í u (x,z) í G^ (12)

diremos que es un nudo terminal,

Definición 3.11

Diremos que una representación (G^,d*) asociada a (S,d) es

un árbol aditivo de tipo 1 si se verifican las siguientes condiciones:

2

AD 1.-- 3 ({) : U inyectiva

Para (x,y) e G^, si (}) = {< , < ) y (j) (x) ^ <^^{y) , conside

ramos la existencia de

función continua y monótona (si ^^(y) < ^-^i^^) considera

mos

tal que

<p((t)^(x)) = <^^{x)

5 9

у denominaremos por P al arco de curva así construido xy

entre las imágenes de x a у,

Р^У =i (z, Ф(г)) I z e [ ф^(х), ф^(у) ] }

у suponemos además en у Р^^ la preordenación (x.y)SG^

Deberá entonces cumplirse

AD 2.- SI x es nudo terminal у (x,u)e entonces ф(х)^ ф(и)

AD 3.~ и Р^у es un conjunto simplemente conexo. (x,y)€G^

AD 4,- Para (x,y) e G^ , se debe verificar

d * C x , y ) = l ongCP ) x y

siendo long P la longitud del arco de curva P ® xy ^ xy

Podemos d e f i n i r una d i s t a n c i a d' en UP^^y como l a l o n g i t u d

d e l a r c o que une dos p u n t o s , l a c u a l v e r i f i c a r á por l a c o n d i c i ó n a n t e

r i o r :

d*(x,y) = d•(ф(x),ф(y))

60

A efectos de nd;ación podemos expresar un árbol aditivo de ti

po 1 como

AD (G d) = ( U P,,^.d>) ^ " (x,y)eG^^y

Definición 3.12

Sea un árbol aditivo de tipo 1 asociado a un conjunto S y tres

elementos x,y,z de S. Podemos considerar el nudo que pertenece a la

vez a los caminos xy, yz y xz. Tal nudo es único, pues en caso contra

rio el grafo no sería simplemente conexo. A un nudo verificando la cond¿

ción anterior lo llamamos nudo principal.

Vamos a demostrar que las únicas distancias compatibles con ár

boles aditivos de tipo 1 son las que verifican el axioma del 42 punto.

Lema 3.1

Si S es un conjunto finito y d es una distancia aditiva d£

finida sobre S, se cumple que:

díXQ.y^) + d(z,t) 4 diXQ,z) + díyQ,t) = díx^.t) + díy^.z)

V(z,t)eSxS de modo que {x^.y^jñ (z, ti = 0

61

Demostrsidión:

La demostración la efectuamos por inducción sobre el cardinal

de S(|S| = n) , resultando inmediato para el caso en que el mismo sea

n = 4. Si suponemos cierto el lema para un conjunto de cardinal n-1, pa

ra un conjunto S de cardinal n, consideramos

S- = S - {y}

siendo y un elemento cualquiera de S.

Por hipótesis de inducción podemos encontrar (х^,у^) S S'xS'

tales que

V ( z , t ) E S'xS' verificando Í ^ Q ' ^ O ^ ^ {z,t} = 0

d C x ^ . y ^ ) + d ( z , t ) ^ d ( x Q , z ) + d ( y Q , t ) = d ( x Q , t ) + d ( y Q , z ) (13)

Si

d(xQ,yQ) + d(y,t) d(xQ,y) + d(yQ,t) = d(xQ,t) + d(yQ,y) (14)

Vt e S' tal que t ^íx^.y^} , la proposición queda probada, siendo

(xQ,yQ) la pareja buscada satisfaciendo las condiciones del lema.

62

Si рог el contrario existe e S' tal que

d ( x Q . y ) + d C y ^ . z ^ ) < d C x Q . y ^ ) + d ( y , Z Q ) = d ( x Q , ^ ) + d C y . y ^ ) (15)

varaos a probar primero que

d(xQ,y)+d(yQ,z) <S d(xQ,yQ)+d(y,z) = d(xQ,z)+d(y,yQ) z í {x^.y} (16)

y a partir del mismo el resultado más general

d(xQ,y) + d(z^,Z2) 4d(xQ,z^) + d(y ,Z2) = d(x^,Z2) + d(y,z^) (17)

Víz^.Zg) e SxS tal que { z^.z^} Л íx^.y} = 0

con lo cual quedará probado el lema, siendo (x^.y) la pareja que cumple

las condiciones del mismo.

( Si existe ё; e S' tal que

d ( y Q , y ) + ^ ( X Q . Z Q ) < díXQ.y^) + d(zQ,y) = d(yQ,ZQ) + d(y,XQ )

la demostración es paralela, resultando (у^,у) la pareja en las condicio

nes del lema. )

Demostramos primero (16) por reducción al absurdo.

63

A i partir de la cuaterna {XQ,y,yQ,z} y suponiendo que no se

verifica (16), por el hecho de ser d una distancia aditiva nos quedan

dos posibilidades:

a) d(xQ,yQ) + d(y,z) < d(xQ,y) + d(yQ,z) = d(xQ,z) + d(yQ,y) (18)

b) d(xQ,z) + d{y,y^) < d(xQ,y) + d(z,yQ) = à{x^,y^) + d(z,y) (19)

Analicemos la suposición a)

d(xQ,yQ) + d(y,z) <d(xQ,y) + d(yQ,z) = d(xQ,z) + d(yQ,y)

Obtenemos

y de (15)

d(y,yQ) = d(xQ,y) + d(yQ,z) - d(xQ,z)

d(y,yQ) = d(xQ,yQ) + d(y,ZQ) - d(xQ,ZQ)

por lo que

d(xQ,y) + d(yQ,z) - d(xQ,z) = d{x^,Y^) + d(y,ZQ) - d(xQ,ZQ) (20)

considerando ahora la cuaterna {xQ,yQ,z,z^} , a partir' de (13)

d(yQ,z) = d(xQ,z) + d{y^,z^) - d(xQ,ZQ)

y sustituyendo en (20) resulta

64

d ( x Q , y ) + d C y ^ . z ^ ) = d C x ^ . y ^ ) + d(y,ZQ)

por lo que si consideramos { x ^ . y . y Q . Z Q } , al ser d una distancia

aditiva obtenemos

d C x ^ . z ^ ) + d í y . y ^ ) « d { x Q , y ) + d C y ^ . z ^ ) = d í x ^ . y ^ ) + d C y . z ^ )

que está en contradicción con (15).

Por tanto el caso (18) descrito en a) no se puede dar.

Analicemos la suposición b ) ,

d(xQ,z) + d(y,yQ) < d(xQ,y) + d(yQ,z) = d(xQ.yQ) + d(y.z) (21)

Puesto que a partir de {xQ.y^.z.ZQ} y de (13)

d(xQ,z) + díy^.z^) = díxg.z^) + d(z,yQ)

sustituyendo d(z,yQ) en (21), se tiene

d(xQ,y) + d(xQ,z) + d(yQ,ZQ) - а{х^,г^) = а{х^,у^) + d(y,z)

es decir

d(xQ,y) + áiy^,z^) = áiXQ,y^) + d(y,z) + й(х^,г^) - díx^.z)

65

resuitaado de la igualdad anterior y de (15)

díXQ . y^ ) + d (y,z) + d{x^,z^) - d(xQ,z) < dCx^.z^) + d C y . y ^ )

es decir

dCx^.y^) + d(y,z) < dCy.y^) 4- d(xQ,z)

con lo que encontramos una contradicción con (21).

Queda pues probado (16) , es decir

d(xQ,y)+d(yQ,z)d(xQ,yQ)+d(y,z) = d( XQ,z)+d(y.y^) V z $ (x^.y)

Probaremos ahora (17).

Puesto que por (13), para iz^,.z^) € S' x S*

¿(xQ.y^) + àiz^,z^)^ d(xQ,z^) + d(yQ ,Z2) = àix^^z^) + díy^.z^^) (22)

nos resulta

d(xQ,y) + d(z^,Z2)í: d(xQ,y) + d(xQ,z^) + d(yQ ,Z2) - d(xQ,yQ)

y como por (16)

d(xQ,y) + d(yQ ,Z2) 4 díx^.y^) + diy,z^)

66

obtenemos

d(xQ ,y) + d{z^,z^) 4d{x^,z^) + d C y . z ^ ) (23)

Por otro lado, a partir de (22)

d(xQ,y) + d(z^,Z2) ^ d(xQ,y) + díx^.z^) + d(yQ,z^) - díx^.y^)

y como por (16)

d(xQ,y) + d(yQ,z^)« d(xQ,yQ) + d(y,z^)

obtenemos

d(xQ,y) + d(z^,Z2) ^d(y,z^) + d(xQ ,Z2) (24)

Así de (23) y (24),

d(xQ,y) + d(z^ , Z 2 ) ^ ^ ^^^O'^l^ d(y , Z 2 ) , d(y,z^) + d(xQ ,Z2) >

por lo que al ser d distancia aditiva, resulta

d(xQ,y) + d(z^,Z2) « d(xQ,z^) + d(y ,Z2) = d(xQ ,Z2) + d(y,z^) (25)

quedando probado (17).

67

De este modo la pareja (x^.y) verifica las condiciones del

lema puesto que para cualquier, .(z,t)eSxS tal que , |xQ,y}n|z,tj = 0

d(xQ,y) + dCz,t) « d(xQ,z) + d(y,t) = dCx^.t) + d(y,z)

Teorema 3«!

d es una distancia aditiva sobre S si y sólo si existe -un ár

bol aditivo de tipo 1 asociado a una representación del par CS,d).

Demostración:

Veamos en primer lugar que si existe un árbol aditivo de tipo

1 asociado a una representación del par {S,d), entonces d es una distan

cia aditiva.

Sean x,y,z,t 6 S, y supongamos que se verifica

d{x,y) + d{z,t) 4 dCx.z) + d(y,t) « d(x,t) + d(y,z) (26)

Consideremos

= { u G U 1 (j){ú) pertenece al camino entre <Í)(x) y ( (y) )

= í u e U i í|)(u) pertenece al camino entre <^iz) y (|)(t) 1

siendo ü el conjunto de nudos del árbol aditivo.

68

1) Veamos primero que x e y no pueden pertenecer ambos a ü^.

Si suponemos x,y G U^, como

ees terminales sj)(z) y íj}(t) tenemos

Si suponemos x,y G U^, como Ug es un subgrafo con dos vérti-

d(z,t)=d»(z.t)=d'((})(z),({)(x))+d'((¡)(x),(Í)(y))+d'((})(y),(l){t))

o bien

d(z,t)=d*(z,t)=d'((l)(2),(Í)(y))í-d'(({)(y),(l)(x))+d'((Í)(x),({iet))

resultando en el primer caso

d(2,t) > dCx.z) + d(y,t)

y en el segundo

d(z,t) > d(y,z) + d(x,t)

siendo ambos resultados contradictorios con (26).

2) Si suponemos que x í e y e »

entonces

d(z,t) = d*(z,t) = d(z,y) + d{y,t)

69

у sumando d(x,y) en ambos términos

d(x,y) + d(z,t) = d(x,y) + d(z,y) + d(y,t)

de donde

d(x,y) + d(z,t) d(z,y) + d(x,t) (27)

por lo que se alcanza la igualdad en (26),

d(x,y) + d(z,t) = d(x,z) + d(y,t) = d(x,t) + d(y,z)

verificándose el axioma del cuarto punto.

3) Sólo resta tratar el caso x,y ^ .

Si suponemos que ^2 ^ ^ ^ existe más de un nudo pertene

ciente a ^2 fácilmente a un absurdo puesto que se

nos forma un ciclo en el grafo, contradiciendo de este modo la p r o —

piedad Rl. Así, ^ sólo puede contener un único elemento,

es decir

Л = í u}

En este caso también debe ser notado que si existe algún camino

que conecte dos nudos pertenecientes respectivamente a U^» ^2 sin pasar

por u , obtenemos también un ciclo. Por lo tanto no debemos considerar

esta posibilidad y llegamos a que

70

d(x,t)+d(y,z)=d'((l)(x),(|)(u))+d'((l)(u),(|)(t))+d'((l)(y),(l)(u))+d'((t)(u),(l)(z))

y

d(x,z)+d(y,t)=d'((l)(x),(|)(u))+d'((l)(u),(l)(z))+d'((l)(y),(l)(u))+d'((j)(u),(t)(t))

verificándose

d(x,t) + d(y,z) = d(x,z) + d(y,t)

y con ello el axioma del cuarto punto.

Nos resta finalmente considerar ^ 0

Escogemos u^.u^ tales que "j. ^i' 2 ' 2 manera que.no exista

u e U que pertenezca al camino entre u^ y u^.

Así ,

d(x,t)+d(y,z) = d'((l)(x) ,(Í¡(u^))+d'(0(u^),(í)(u2))+d'(({)(u2),tÍ)(t)) +

d'{(|)(y),(|)(u2))+d'(({)(u2),({)(u )+d'((i)(u ),(l){z))

d(x,z)+d(y,t) = d'{$(x),(^(u^))+d'((l)(Uj^),(!)(u2))+d'({j)(u2),(})(z)) +

d'((l)(y) .(jiíu ) )+d' ((j)(u ),(|)(u2))+d' {({¡(u ) Mt))

http://que.no

71

verificándose también la igualdad

d(x,t) + d{y,z) = d(x,z) + d(y,t)

Queda pues demostrado que d es una distancia aditiva.

Demostremos el recíproco por inducción sobre el cardinal de S.

Caso 1) n = 4 , siendo n el cardinal de S (|S| = n)

Si x,y,z,t e s y suponemos

d(x,y) + d(z,t) -$ d(x,t) + d(y,z) = d(x,z) + d(y,t) (28)

veamos que existe un árbol aditivo de tipo 1 (Fig.l) asociado a (S,d),

Figura 1

Para ello planteamos el sistema:

^ d(x,y)

d(x,z)

d(x,t)

d(y,z)

d(y,t)

y d(z,t)

a + B

a + e +Y

a + e + 5

5 + e +Y

6 + e +5

Y + S

(29)

72

A partir de (28) y de las eciaciones 3^,4^,5^ , obtenemos

d(x,z) = d(x,t) + d(y,z) - d(y,t) = a + y +e

por lo que la segunda ecuación depende linealmente de las demás. Es inme

diato entonces comprobar que el sistema tiene rango máximo obteniendo co

mo soluciones

a = J 2(d(x,y) + d(x,t) - d(y,t))

e = ^(d(x,y) + d(y,t) - d(x,t))

Y = yz(à(Y,z) + d(z,t) - d(y,t))

6 = y2(d(z,t) + d(y,t) - d(y,z))

Já(d(y,z) + d(x,t) - d(x,y) - d(z,t) )

.que a partir de (28) son positivas. La construcción del árbol resulta -

ahora inmediata.

Caso 2) n > 4 .

Veamos que si es cierto para n~l también lo es para n.

Sea una pareja (x,y) que: verifique

d(x,y) + d(z,t)4: d(x,z) + d(y,t) = d(x,t) + d(y,z) (30)

V(z,t) G s X S tal que { x,y} n {z,t> = 0 , cuya existencia se ha

demostrado en el lema.

73

Consideremos

S' = S -{ y }

y la distancia d, = dj_, que evidentemente verifica la propiedad del

cuarto punto.

A partir de la hipótesis de inducción podemos asegurar la exis

tencia de un árbol aditivo de tipo 1 que representa al par (S',d^). Se

trata ahora de efectuar una "ampliación" del árbol (fig.2), introducien

do ahora (¡¡(y) . Elegimos z € S' y vemos si existen

Figura 2

valores a,S , g» dispuestos como en la figura 2, verificando que la

distancia asociada a este árbol es justamente d.

Para ello, planteamos el sistema

d(y,z) =

d(x,y) =

d{x,z) = B + 8 « + 0 "

(31)

Las soluciones a este sistema son:

8' = 3á(d(y,2) + d(x,z) - d{x,y) - 2 B " )

B = 3|(d(x,z) + d(x,y) - d(y,z))

a = Í¿(d(y,z) + d(x,y) - d(x,z))

(32)

74

comprobándose fácilmente a partir del lema que las soluciones son no

negativas.

La distancia a través del árbol entre "y" y otro elemento

z' e S' es:

a + B' + d(x,z' ) - (e + S' )

y de sustituir en (32) se tiene

a+3*+d(x,z')-p-s* = )^(d(y,z)+d(x,y)-d(x,z))+d(x,z')-J^(d(x ,z)+d(x,y)-d(y,z) )

= d(x,z')-i-d(y,z)-d(x,z)

y puesto que

d(x,y) + d{z,z')-í d(x,z) + d(y,z') = d(x,z')+ d(y,z)

por la elección del par (x,y)

d(x,z') + d(y,z) - d(x,z) = d(y,z')

comprobándose que la distancia a través del árbol construido coincide .

con la distancia original d.

De este modo queda demostrado el teorema, y con ello caracte—

rizádasi las representaciones asociadas a una distancia aditiva.

75

Definición 3.13

Dos árboles aditivos definidos sobre S , (G^ , d j ) y (Gy ,d*)

con conjuntos de nudos principales y P^ diremos que son equivalen

tes si la aplicación

que transforma el nudo principal definido por una terna s^.s^.s^ de

en el nudo también definido por s^^jSg.s^ en Ug es biyectiva, y

además

a) d*(u,v) = d*( ¥(u), f(v)) V(u,v) G P^x P^

d^(3c,y) = d ^ C x . y ) V ( x , y ) G S x S

b) Si N^^ es el conjunto de nudos principales en el cami

no entre u y V , ''^(^y-y^ ®^ '^ conjunto de nudos en

el camino entre f (u) y f(v).

Vamos a demostrar la unicidad de la representación asociada a una distan

cia aditiva en el sentido de la definición anterior.

Teorema 3.2

Dos árboles aditivos asociados a (S,d), siendo d distancia

aditiva, son equivalentes.

76

Demostración:

Probemos el teorema por inducción sobre el cardinal del conjun

to S {ISi = n ) .

Para el caso n=4 , el resultado es inmediato.

Si suponemos cierto el teorema para |S| =: n-1, veamos que

también se verifica para 'JS] = n

Sea (x,y) e S X S tal que

d(x,y) + d(z,t) d(x,z) + d(y,t) = d(x,t) + d(y,z) (33)

V(z,t) € S x S con {x,y}n{z,t} = 0 , que existe en virtud del

lema 3.1

Es inmediato comprobar que si x ó y son nudos terminales

(no terminales) para un árbol también lo son para el otro,resultando al

menos uno de ellos ser nudo terminal. Es por ello que analizaremos los

siguientes casos:

a) x nudo terminal e y nudo no terminal.

b) X e y nudos terminales.

Caso a) Si P^ y P^ son los nudos principales asociados a los dos ár * *

boles con representaciones (G ,d,), (G ,d^) entonces У ^ P, e 1 Ug 2 1

y € Pg .

77

Si tomamos S' = S- {y} , podemos considerar (G ,d ) como 1

una representación de S' considerando al elemento y como un elemento

del conjunto que cumple

U^' = S' U R^

Aiálogamente para (G^ .d^).

Puede ocurrir que en la representación de S', y sea o no

sea nudo principal (Fig. 3)

(l)(x)

y no es nudo principal

({)(x)

y es nudo principal

Figura 3

Si y es ¡nudo principal, a partir de la hipótesis de indue

ción sobre S' queda probado directamente la equivalencia entre ambos

árboles. En caso de no ser nudo principal se puede definir

Y ' : P,

de modo que

^' (u) = 'i'(u) para u e P^ = P^ - { y}

78

• •

siendo Ч" la función , ¥ : ^i^^2 ' existe рог la hipótesis

de inducción sobre S' , y W'íy) = У . función que verifica las con

diciones establecidas en la definición 3.7. Así, arabos árboles resultan

equivalentes.

Caso b) Tomando

S' = S - {У}

• • y considerando (G , d ) y (G-, d ) , árboles aditivos

^|Ü3^-{y} lüg-tyí'

asociados a (S', d. ,) con conjuntos de nudos principales respectivamen-í S

te y P^ que son equivalentes por hipótesis de inducción,

existe f : . P ^

cumpliendo las condiciones de la definición 3.13.

Podemos ahora construir

' : P^ и íu^} • Pg и {Ug} de modo que

Y'(u) = f(u) para u e P^

79

deduciéndose a partir del teorema 3.1 y de las soluciones del sistema

(31) que (Gy ,d^) y (Gy .d^) son equivalentes.

Definición 3.14

Una representación (G^ ,d ) asociada a (S,d) es árbol a-

ditivo de tipo 2 si se verifica:

a) Todas las condiciones de AD .

b) V(x.y) € Gy , si

(|)(x) = ((|) (x),(|)2(x))

podemos descomponer P en la forma xy

P = P, U P_ xy 1 2

siendo

P^ = { ((l) (x), a ) i (l'gíx)^ a 4 f^^iy) }

Pg = M a A^iy)) I ílj^(x)^ a < (i) (y)

(lí^(y)^ a ^ {|) (x) }

80

Teorema 3.3

d es una distancia aditiva definida sobre S si y sólo si

existe un árbol aditivo de tipo 2 (AD^) asociado a una representación

del par (S,d).

La demostración es idéntica a la del teorema 3.1.

Figura 4,- Representación de un árbol aditivo de tipo 2.

Definición 3.15

Una representación (Gy,d ) es un árbol aditivo de tipo 3 si:

a) Se verifican las condiciones ADl, AD2, AD3

fa) Se cumple la condición b) de la definición 3.14.

c) V(x,y) € Gy se verifica

d (x,y) = I (¡¡ (y) - (l>2(x) I (34)

induciendo la disimilaridad d' en , U . Pxy definida (x,y)€Gy-'

como valor absoluto de la diferencia entre las coordenadas

segundas , de donde d (x,y) = d'((fíx) ,(t)(y) )

81

Intuitivamente se trata de una representación como la anterior,

solo que para el cálculo de la distancia entre dos nudos se tiene en cuen

ta únicamente la longitud de arista vertical.

Figura 5. Representación de un árbol aditivo de tipo 3. Las longitudes en

trazo continuo son las únicas tenidas en cuenta para el cálcu

lo de la distancia.

Teorema 3.4

d es una distancia aditiva definida sobre S si y sólo si exis

te un árbol aditivo de tipo 3 asociado a una representación del par

(S,d).

La demostración es idéntica a la del teorema 3.1.

Definición 3.16

A un árbol aditivo de tipo 3 lo llamaremos dendograma aditivo.

82

3 J . 4 J : _ R E L A C I 0 N E S _ C 0 N _ L A S _ D I S T A N C I A S _ U

Estudiaremos en esta parte las relaciones entre las representa

clones asociadas a una distancia aditiva que hemos visto en el apartado

anterior y las representaciones asociadas a una distancia ultramétrica.

Proposición 3 . 2

Una distancia ultramétrica se puede representar como un árbol

aditivo de tipo 3 en el cual $2^^^ ~ ^2^^'^ para todo s,s' € S.

Demostración:

A partir del algoritmo fundamental de clasificaciones sabemos

que la representación asociada a una distancia ultramétrica es un dendo

grama (Cuadras, 1981).

(|)(r, )

0 3 )

^{Si) (|)(S2). . .

5 4 3 2

+ 1 O

Figjara 6

83

Si es la distancia ultramétrica, construyamos el dendogra

ma asociado a d^ = J .d , у consideremos como R al conjunto de nudos

que no representan los elementos de S.

1 2

Sea ф(г) = ( S^, S^) la representación en el plano de un nu

do r, según la escala que fija el índice de la jerarquía. De este modo

podemos considerar sin perder generalidad que para todo s € S, ф(з) = { a ,0). Resulta entonces evidente por (34) que s

dMs^.Sg) = |Ф2(Го) - <^^{s^) I + I ф2 ( г^ ) - ФзСз^) I (35)

siendo e R un nudo perteneciente al camino entre s ^ y s^

verificando

Ф(г) ^ ф(Гд)

para cualquier otro r e R del camino; a partir de (35) puesto que la

segunda componente de Í(S]^) Y ^^^^2^ ®^ cero ,

'^u^^l'^2^

d (s^.Sg) = 2<^^r^) = 2 . " ^ ^ = d^(s^,S2)

Las demás condiciones son verificadas por el árbol-de modo evidente.

Proposición 3.3

Todo árbol aditivo de tipo 3 en que { ({¡(s); s €S } tiene la

segunda componente constante, considerando Scemo el conjunto de nudos

terminales ,está asociado a una distancia ultramétrica.

84

Demostración:

Sean Sj^.s^.Sg 6 S y

d C s ^ . s ^ ) < d C s ^ . S g ) < d C s ^ . s ^ ) (36)

siendo d la distancia a la que está asociada el árbol. A partir de las

hipótesis sobre el árbol , existen r^.r^.r^ nudos que verifican

ф(г ) < ф(г2) < ф(Гз) (37)

у tienen por segundas componentes r^.r^.r^ cumpliendo

d*(s^,S2 ) = 2.{r<^ - a)

d ' * ( s2 ,S3 ) = 2.(r^ - a)

d*(s^,S3 ) = 2.(r^ - a)

siendo a la segunda componente de las imágenes por ф de los elemen

tos de S .

Puesto que

d*(s^,S3) < d*(s^,r^) + d*(r^,r2) + d*(r2,S3)

entonces

2.(r^ -ct) < (r; -a) + (r^ - r^) + (r^-a)

es decir

" 3 < ^2

85

Il II

Puesto que en (37) teníamos 4: queda demostrado que

d C s g . S g ) = d C s ^ . S g )

resultando que d es una distancia ultramétrica , tal y como queríamos

demostrar.

Proposición 3.4

Supongamos un árbol aditivo de tipo 3 verificando la siguien

te condición:

a) max {<^2^^^ | s € S } -$ min í Фз^^^ I r e R >

b) El conjunto de nudos terminales coinciden con los elemen

tos de S.

En estas condiciones se verificará que la distancia asociada al mismo se

puede descomponer como suma de una distancia ultramétrica d^ y una dis¿

milaridad singular d es decir s

Demostración:

d = d + d u s

Sea max' { ф^Сз) I s e S } = ф^Сз') =

Construyamos

definida como

Ahora podemos definir

üi : S fr- R

86

({) : U-

En la forma

([) (s) = (0^(3), a^) si s € S

({i (r) = ^ir) si r € R

A partir de los teoremas anteriores tenemos que utilizando íj) en la

representación, el árbol está asociado a una distancia ultramétrica

que viene definida por

d^(x,y} = d(x,y) - üj(x) -u(y)

Si definimos

ü)(x) + ü3(y) si x i¿ y

si X = y

87

obtenemos una disimilaridad singular, por lo que

d = d^ . d^

siendo d ultramétrica y d singular .

U s ^

Así en determinadas condiciones hemos comprobado que una distan

cía aditiva la podemos descomponer en la suma de una distancia ultramétri

ca y una disimilaridad singular.

Con un razonamiento parecido al anterior se puede probar , Proposición 3.5

Si d es distancia aditiva , existe d^ distancia ultramétrica

(no única) y f función de S en R de modo que

d(x^,Xj) = d^(x^,Xj) + f(x.) + f(Xj)

Estos resultados ilustran las relaciones existentes entre distan

cias ultramétricas y aditivas.

Es interesante comentar que los resultados anteriores pueden ser

vir de punto departida para plantear la representación espacial de distan

cias aditivas en la línea de los trabajos de Ohsumi y Nakamura (1981) y

Cuadras (1985) referentes básicamente al mismo problema para distancias

ultramétricas .

88

4. - E ST R и imJRA__DE_ VAR IE£^^__g,N _E _L CO N £ U N T 0 _ D E , DIS T A M СIA S

ADITIVAS.

Resumen: En el presente capítulo se dota de una estructura de varie

dad con frontera al conjunto de distancias aditivas, adecúa

da para el estudio formal de diferentes aspectos relaciona

dos con este método de representación sobre todo dentro del

campo de la inferencia sobre árboles y del tratamiento de

algoritmos.

Sumario:


4.2.- Definiciones previas.

4.3.- Estructura del conjunto de distancias aditivas.

4.4.- Determinación de la frontera de la variedad.

4.5.- Estructura del conjunto de distancias ultramétricas

dentro de la variedad.

4.6,- Ajuste por mínimos cuadrados en una carta de la variedad,

4.7.- Representación espacial de distancias aditivas.

89

4.1.- INTRODUCCIÓN

En este capítulo nos proponemos dotar al conjunto de distan

cias aditivas con configuración de una estructura matemática adecuada. -

Por su interés, en el tratamiento de algoritmos y para el estudio de -

cuestiones relativas a inferencia sobre árboles, estructuraremos el con

junto anterior como una variedad diferenciable con frontera. En una según

da parte, estudiaremos aspectos relacionados con algunos problemas genera

les que surgen en la utilización de la representación por árboles aditivos.

Otros estudios relativos a la búsqueda de estructuras de con

juntos parecidos han sido desarrollados en otros trabajos. Gondran(1976)

introduce una estructura algebraica sobre el conjunto de las clasificacio

nes jerárquicas a fin de poder interpretar resultados sobre las mismas de

una manera análoga al análisis factorial. Rao(1945) dota al conjunto de

poblaciones sobre el que hemos definido k variables aleatorias de una

estructura de variedad diferenciable a partir de una clase paramétrica de

funciones de densidad, para obtener una distancia entre poblaciones inva

ríante frente a las transformaciones admisibles de parámetros.

Hemos dávidádó la primera parte del capítulo en tres aparta

dos. En el primero dotamos propiamente al conjunto de distancias aditivas

con configuración de la estructura citada. En el segundo caracterizamos

la frontera de la variedad. En el último estudiamos la estructura del con

junto de distancias ultramétricas dentro de la variedad. Es de notar el

interés que esta estructura podría tener en el estudio de propiedades teó

ricas relativas a los algoritmos de transformación en tratamientos parecí

90

dDS a los que se dan en Jardine & Sibson (1971) .Salicrú (1983) ,Arcas(1983)

respecto a métodos de taxonomía numérica.

En la segunda parte estudiamos primeramente el ajuste por mí

nimos cuadrados en una carta de la variedad y después observamos algunas

propiedades sobre la representación espacial, utilizando como técnica MDS

el método de las cooordenadas principales, asociada a una distancia aditi^

va.

4_^2_^-_DEFINICI0NES_PREVIAS

Definición 4.1

Un espacio métrico M se dice que es una variedad con fronte

ra si para todo x€ M existe un ü entorno de x tal que ü es homeomor-

fo a ó ( H^= { (x^,...,x^) e R"; O Vi e íl,...,n} } ) . -

Los elementos cuyo entorno puede ser únicamente horaeomorfo a h" los lla

maremos de la frontera.

Definición 4.2

ün par { f , ü)" es una carta local definida en un abierto ü

de M si 4» :U — - • • r^ es un homeomorfismo. Así en U se inducen las coor

denadas de r".

Definicion 4.3

Una carta local (#,U) es respecto a (1?, V) si las aplicacio

nes #ot~^ y to#~^ son en ^(U n v) y *(U n V) res

pectivamente.

91

Gráficamente

I t

n

Figura 2

Un atlas C será una familia de homeomorfismos mutuamente C

cuyos dominios cubran M.

Definición 4 . 4

A un par (M i T) donde T es un atlas maximal C para M se

le llama variedad diferenciable.

Intuitivamente, una variedad diferenciable será un espacio mé

trico con coordenadas locales de forma que cuando en un punto se tengan

dos coordenadas el paso de una a otra sea diferenciable. Lógicamente, una

variedad diferenciable con frontera se definirá de forma análoga aceptan

do en las cartas locales homeomorfismos <t> :U -

Definición 4 . 5

Un subconjunto M^C M es una subvariedad de M si la inclu

sión

i:Mj_ ^ M

es una inmersión.

92

Sea A el conjunto de las distancias aditivas sobre un conjun

to S de cardinal n , С el conjunto de las posibles configuraciones en ár

bol de S con 2n—3 parámetros y | c j=m (Consideramos las configuracio

nes "modelo" como árboles con los elementos de S como nudos terminales y

nudos principales de grado 3. De este modo dependen de 2n-3 parámetros,

resultando las demás configuraciones como casos particulares de las pri

meras a través de la obtención de aristas de longitud cero. En Bergé(1973)

se estudia el valor de m para diferentes tipos de árboles) . Sea —

A_ С {(d,i) ; d € A , iG{l,...,m}} representando el conjunto formado С

por los pares ordenados cuya primera componente es una distancia aditiva

y cuya segunda componente representa la configuración

Podemos definir en A la métrica с

u((d,i),(d',j)) ='^_^{d(Xj^,x^)-d'(Xj^,x^))^ + (1) k,l=i,.. ,n k< 1

donde S"- son los deltas de Kronecker, y la parametrización

( а ^ . . . . . б2^_з ) (2)

siendo 6 la longitud de la arista t una vez ordenadas las aristas

en cada configuración, es decir, el vector B es,la solución del siste

ma de ecuaciones

d = X.B (3)

93

siendo X la matriz ^ 2 (2n-3 ) de la forma

""ik j 1 si la arista j conecta en el camino entre 1 y k

O en caso contrario

con 1= l,..,n ; k=l,..,n ; l < k ; j=l,..2n-3 y d el vector de dis

tancias , d = (^12'" ''^n-1 n^

Sea (dQ,i)eA^ fijado con parametrización ÍI^={8^, > • >, S2n-3^

y sea X la matriz asociada a la configuración i . Tomemos la aplicación

lineal ip: R ^ ^ R ^~ con matriz asociada

Z = (X' .X)~"''.X'

siendo X' matriz traspuesta de X.

Es evidente que 'I'(CIQ) =6*^ » Y además al ser ^ lineal también

es continua.

Si suponemos que 3j tal que g? = O , consideramos

e = Vz . min 6^?^0 } y tomamos

U = ^ ^(V) y {(d,i); deU , i fijo} C A U Ü Q U Q c

(d aditiva con configuración i fijada)

Se trata de comprobar que es un entorno de (d^.i) y que

es homeomorfo a V .

Al ser i> continua , tenemos que para el e tomado 3 5 >o tal

que

i, (B(dQ, 6)) C B(8°, e)

94

у tomando 5' = J^.miní 1,6 } se tendrá :

B((dQ,i),6') С V^^

En efecto, si (d,j) e B((dQ,i),(S' ) , entonces

á((dQ,i),(d,j)) < 5'

y por ser 6' < 1 , obtenemos i=j; además, al ser 5'< б ,nos resul

ta II d-d^ II < 5 por lo. que i|;(d) € В (S* , e ) con todas las compo

nentes de la parametrización no negativas al ser d aditiva con configu

ración i. Así, d e U , y (d,j) e V probando pues (4) .

Si definimos ahora el homeoraorfismo

(d,i) t(d)

queda probado que (d^,!) es un elemento de la frontera de A^, pues

es homeomorfo a H ~ no existiendo ningún entorno de (dQ,i) ho-,

meomorfo a para n G N .

Análogamente, tomando

para 6^=( '•••'^Zn-S ^ ^i para todo i, se tendrá que

existe V, entorno de d- homeomorfo a R ~ . dQ O

95

Queda así probado que A es una variedad con frontera , for-c

mada esta última por las distancias aditivas con configuración en la -

cual alguna arista es cero. Es inmediato comprobar que es una variedad co

c .

4.4,- DETERMINACIÓN DE LA FRONTERA DE LA VARIEDAD

En este apartado buscamos las condiciones que debe verificar

una distancia aditiva para que pertenezca a la frontera de la variedad.

Por notación, indicaremos por a-t...,a las longitudes de 1 n

las aristas terminales (limitadas por algún nudo terminal) y por

3 ,...,0 las longitudes de las aristas • internas . al haber fija

do la configuración modelo asociada a la distancia en el sentido al que

nos hemos referido en el apartado anterior. Consideramos por tan

to de entrada que los nudos terminales coinciden con los elementos de

S, aunque al existir la posibilidad de aristas de longitud cero volve—

mos a estar en el caso general. Notamos por R^^ al conjunto de aristas

internas de longitud positiva en el camino entre los elementos i y j,

y para simplificar, escribiremos d.. en vez de d(s.,s.) siendo

s^.Sj e S. Así pues

R. .

Supongamos que existe j e { l,...,n} tal que a, = 0 . En este caso re

sulta que existen i,k € { l,...,n} - { j} taies que

d. . + d., = d., (6) ij jk ik ^ '

96

En efecto, es suficiente con tomar i,k tales que los conjun

tos de aristas R.. y R.. tengan intersección vacía. Recíprocamente ij Jk

si d. . + d., = d., , los conjuntos R. . y R., deberán tener intersec ij jk ik ' ^ ij ^ jk ción vacía , y de ahí deducimos que a . = o

J

En efecto, a partir de (5) y (6)

q + a. + y B + a. + a + y 8 = a.+ a + y B (?) 1 j Z j r j k i L , r i k Z _ i r ij Jk ik

y puesto que R., c R. . U R., ik ij jk

es inmediato a partir de (7) que

Z = E r ^ Z ^r R., R. . R., ik ij jk

y « o J

Queda así establecido el siguiente resultado:

Proposición 4.1

El conjunto de distancias aditivas para las cuales existen

elementos i,j,k tales que

d. . + d., = d., ij Jk ik

pertenecen a la frontera de la variedad.

97

En el mismo sentido anterior demostramos

Proposición 4.2

Si existen cuatro puntos para los cuales

d. . + d, = d., + d „ = d, + d, ij kl ik jl il kj (8)

entonces d pertenece a la frontera de la variedad

Demostración:

A través del teorema 3.1 (cap.3) demostramos que dados cua

tro puntos i,j,k,l tales que

d . . + d , , < d., + d . - = d . T + d . , XJ kl xk Jl xl jk

la representación an árbol es única y en la forma que observamos en la

figura 2

Figjjra 2

98

Si consideramos en el árbol aditivo asociado a d el subgra

fo determinado por los elementos i,j,k,l en las condiciones (8), ob

tenemos que todas las aristas pertenecientes al camino entre el nudo

principal determinado por i,j,k y el determinado por k,l,j son

iguales a cero. Es decir,

(H,. П R^^) и (R^j^n R.^) и (R.,n R.^ )

se reduce al conjunto vacío.

Por lo tanto queda probado que el par formado por d y la

configuración asociada pertenece a la frontera. También deducimos que la

distancia d restringida a estos cuatro puntos es singular.

Recíprocamente, si la longitud de alguna arista interna es ce

ro siendo las aristas terminales distintas de cero, encontramos un nudo

principal de grado mayor o igual que 4, es decir, con al menos cuatro

aristas adyacentes al mismo. Basta entonces considerar cuatro elementos

de S que sean nudos terminales de los caminos a los que pertenecen es

tas cuatro aristas, verificándose para los mismos la propiedad (8).

Así pues, podemos enunciar

Proposición 4.3

La frontera de la variedad A^ viene dada por

QA = { (d,i) e A I d verifica las propiedades (6) o (8) } С С

99

Así un ejemplo de distancia cumpliendo la hipótesis de la

proposición 4.2 sería

d =

2 4 3.5 5.6 5.8 6

0 4 3.5 5.6 5.8 6

0 1.5 3.6 3.8 4

0 3.1 3.3 3.5

0 1.4 3.6

0 3.8

0

la cual tiene una representación asociada (Figura 3)

5 6

Figura 3

resultando las aristas terminales con longitudes (1,1,1,0.5,2,0.6,0.8)

y las aristas internas (2,0,1,1), obteniendo pues un elemento de la

frontera.

100

Un ejemplo de distancia cumpliendo las hipótesis de la propo

sición 4.1 sería

d =

1

O

con representación asociada (Fig. 4)

3.5 4.6 6

2.5 3.6 5

0 2.1 3.5

0 2.6

0

(Fig. 4)

resultando la parametrización (1,0,0.5,0.6,2,2,1) V j - j

Figura 4

arist. term. arist. int.

En la siguiente proposición trabajamos directamente sobre el

árbol obteniendo conclusiones sobre el mismo, pero partiendo de propie

dades de la distancia.

101

Proposición 4.4

Si d e A y suponemos la existencia de 6 elementos

{ 1, 2, 3, 4, 5, 6) para los que

^12 ^ ^ij < ' li * = ^2i ^ ^' 5- ^ 1

^34 ^ ^ij < S i ^ ^4j = % ' S i ^ l^' 2« 5, 6}

S 4 = ^ (^3 - ^ 4 ^ "35 ^ S e - S s - S e 5

se verifica que el conjunto de aristas que enlazan los elementos 3

y 4 con el nudo principal determinado por 1, 3 y 5 no pertene

cientes al camino entre 3 y 4 son cero.

Demostración:

Es inmediato comprobar que si

S j ^ S i < S k ^ S i = S i ^ j k

102

se verifica que

^ij ^ \ l = ^

у además

\ k - (^ij^ \ l ) = «Jl - \ l ) = - (H. . и R,,) = R.^- (R. .U R^^)

(11)

por la propiedad (5), a partir de (9)

"3 ^ «4 Z = ^ r «1 ^ °3 ^ r " °2 ^ «4 ^ Z ^ «3 ^ «5 ^34 ^ 3 ^24 ^35

Z * «4 ^ "6 "Z - «1 - «5 - Z ^r - «2 - °6 ^46 • h5 «26

de donde

^34 hs \ a «35 «46 «15 «26

(12)

y a partir de (10) y (11) utilizando las hipótesis de la proposición nos

resulta el segundo miembro de la igualdad (12) como

103

^ 1 3 ^ ( \ 2 ^ V «24^(«12 ^ V «35^(^34^^) V ^^34^

Z - Z )

que operando nos queda como

Z e r ^ Z ^ - Z ^ r ^ Z ( 13 )

^13-^^12^ V V ( ^ 3 4 ^ ^ ^ V ^ 1 2 ^ V ^34

y puesto que ^i^~^^i2^ ^56^ podemos descomponerlo en la forma

( 15 ^ (\2 ^ ^ 5 6 ) ^ ^ 3 ) ^ («15 ^ (^2 ^ he^" ^ («35 - «13) )

(«15^ «12 ^ «56^ «13) ^ («15^ «12 ^ «56 ^ («35- «13^)

1 0 4

y al ser

« 1 5 ^ « Í 2 ^ « 5 6 ^ ( « 3 5 - « 1 3 ^ ^ « 3 5 ^ « 3 4 ^ « 5 6

La expresión ( 1 2 ) nos queda como

« 3 4 « 1 « 2 « 3 4

siendo

« 1 = « 1 3 ^ « 1 2 ^ « 3 4 ^ ( « ? 5 ^ « 1 2 ^ « 5 6 ^ « 1 3 ^

« 2 = « 3 5 ^ « 3 4 ' ^ « 5 6 ^ ( « ? 5 ^ « 1 2 ^ « 5 6 ^ ( « 3 5 - « 1 3 ^ ' )

resultando a partir de las hipótesis del teorema

' ' l = ' ' l 3 " ' ' Í 2 " ' ' 3 4 " ' ' Í 5

' ' 2 = « 3 5 " ' ' 3 4 " ' ' 5 6 " « Í 5

105

de donde utilizando la igualdad (14)

z S = 0

es decir, que las aristas que conectan el elemento 3 y 4 con el nudo

principal determinado por 1, 3 y 5 que no pertenecen al camino entre

3 y 4 son todas de longitud cero, tal y como queríamos demostrar.

Estudiaremos en el siguiente apartado la relación entre distan

cias ultramétricas y aditivas desde la perspectiva de la estructura estu

diada. Así demostraremos que el conjunto de distancias ultramétricas con

configuración resulta ser una subvariedad de con frontera.

4_^5_^-_ESTRUtTURA_DEL_C0NJUNT0_DE_DI

DENTRO_DE_LA_VARIEDAD

Puesto que una distancia ultramétrica puede representarse como

un árbol tal que cualquier nudo interno es equidistante a todos los n u —

dos terminales que tienen-al anterior'.en el camino que los une, podría—

mos pensar en una parametrización como (Fig. 3)

u- i ^ ( ^ 1 \ - 2 ' ° l ^ ^^^^

es decir, tomando como parámetros las longitudes de las aristas internas

y la longitud de la arista externa mínima para una configuración i aso

ciada a la distancia ultramétrica u.

106

" 2 = °1

« 4 = "i+ß 1 ^ ^ 2 - ^ 3

" 5 = " l ^ ^ 1 * ^ 2 - ^ 3

" 6 = " 7 = " 1 + 1^ ^ 2 ^ 4 - 5

Figura 5: La distancia de un nudo interno

a los terminales es constante.

Obtenemos pues

a. = a, + >^ ß - > 1 1 Z-r ^ Z-i R. IN iN

(16)

siendo R^j^ el conjunto de aristas que pertenecen al camino que une el

nudo terminal i y el nudo N equidistante a todos los nudos termina

les.

De modo idéntico al desarrollo efectuado para las distancias

aditivas obtenemos una estructura de variedad diferenciable con fronte

ra, asociada a las distancias ultramétricas con configuración. Deraostra

remos que se trata de una subvariedad de A de dimensión n-1 siendo c

|S| = n.

Si (u,i) es un par formado por una distancia ultramétrica

u con su configuración i con parametrización

( &l> ßn-2' "'l^

107

a través de relaciones (16) y de

B n-3 " ^n-3 * ^n-2 ( 1 7 )

para i €{!,.•.,'^-4 }

obtenemos la parametrización de u como distancia aditiva en el senti_

do (2)

eligiendo la configuración derivada de modo natural de la obtenida a

través de la configuración ultramétrica (Fig. 6').

Figura 6: Configuración ultramétrica. Conf. aditiva derivada.

108

A través de las relaciones (16) y (17) es inmediato definir

una inmersión del conjunto de las ultramétricas con configuración (U^) e i

el conjunto de las aditivas con configuración, de donde

Proposición 4.5

U es una subvariedad de A . c c

Vamos a caracterizar la frontera de la subvariedad. Observemos que si

existe i S { 1 ,...,n} tal que a^= O entonces existe

j G { l . . . , n } - { i } tal que d^^ = O , con lo que d no sería una

distcincia, por lo que no puede darse este caso. Si tenemos una arista

interna con longitud igual a cero, es inmediata la existencia de al me

nos tres elementos i,j,k tales que

^ij = ^ik = ^jk

El recíproco es una consecuencia del algoritmo fundamental de

clasificación (Cuadras,1981). De este modo podemos enunciar

Proposición 4.6

La frontera de U está formada por los pares (d,c) siendo c

la configuración asociada a d de modo que existan i,j,k tales que

d. . = d., = d., . ij ik Jk

109

A B C D E F

Figura 7: Representación de una ultramétrica perteneciente a la

frontera.

Sea X matriz { ) x (2n-3) asociada a una determinada configu

ración de árbol aditivo dentro de una carta de la variedad. Existen varios

algoritmos (Cap. 6) que una vez fijada la configuración del árbol precisan

de la estimación de las longitudes de las aristas utilizando el método de

los mínimos cuadrados.

Si llamamos <S a la disimilaridad observada, el problema se tra

duce en calcular ^ de modo que

(Cuadras, 1981)

110

Veamos como queda la matriz de productos escalares X' .X

(supongamos que las primeras n columnas de X corresponden a aristas

terminales a,,...,a y las restantes a aristas internas b ,..,b ).

1 n 1 n-¿

Es inmediato comprobar que el elemento ij de la matriz X'X es el núme

ro de distancias entre dos vértices terminales de modo que las aristas

i y j pertenecen al camino determinado por dichos vértices. Así , si

consideramos un árbol de manera que b^ separe k y n-k elementos

y b. separe s y n-s elementos (Fig.8 ) se verifica:

Figura 8

Proposición 4.7

a. .a. 1 J

1 si j

n-1 si i = j

a .b. r 1

b. .b. 1 J

n - k

k.s si i 4 S

k(n-k) si i = j

(18)

A partir de este resultado es inmediato comprobar que

Ili

Proposición 4.8

La suma de distancias entre dos puntos de modo que los caminos

que los conectan pasan por una determinada arista es igual a la suma de

distancias observadas entre dichos puntos.

Considerando el subespacio formado por las columnas de X, esta

mos hallando la proyección del vector S en tal subespacio. En este sen

tido es interesante comprobar que

Proposición 4.9

El ángulo formado por a y a es mayor que el ángulo forma Г* s

do por a y b. .

Demostración:

A partir de la proposición 4.7

-^n -^ n - к eos (a^.a^) = - • y cos(a^,b^) =

VthÍ .V k(n-k) V k(n-l)

y podemos comprobar como

-Jn - к 1 ^ > (19) -^k(n - 1) n - 1

112

En efecto: probar (19) equivale a probar

V n - 1 . V n - k > V"

o equivalentemente

O < n(n - (k + D )

y esto es cierto puesto que k es menor o igual que n-2 , con lo que

queda demostrado el resultado enunciado.

Queda abierto en este punto el problema de la búsqueda de

condiciones para la existencia de soluciones positivas en una determina

da carta de la variedad.

Veremos en este apartado algunas propiedades de la representa

ción espacial asociada a una distancia aditiva.

Tal y como hemos mencionado en 2.3.2 la representación MDS

del par (S, 6) utilizando el método de las coordenadas principales

se realiza a través de los vectores propios de la matriz

B = H.A.H

donde

1 - 4 - si . i ^ j h. . = .

J _ s i i = j n

113

Dada d . distancia aditiva, definimos en S la relación de equi_

valencia

Esta relación de equivalencia induce la partición en S

S = S- и ...U S 1 r

en la que cada S ^ es una clase maximal respecto la inclusión formada

por elementos equidistantes, es decir

Puesto que las interdistancias entre los elementos de una misma clase

son todos iguales, al valor de esta distancia para [S^j > 2 la llama—

mos a. , i

Podemos entonces demostrar

Proposición 4.10

2 Уг.а^ es un valor propio de la matriz В asociado a la clase

S. . 1

114

Demostración:

2

v^= (O,...,0,1,-1,0,...,0)

= (0 0,l,l,...,-(n^-l),0,...0) i

siendo Is I = n , con la ordenación de los elementos de S en la ma-' 1' i '

triz A compatible con la partición de S obtenida .

Observando entonces que H(v.) = v. Vj e {l,.-,n.} se 3 3 ^

deduce inmediatamente el resultado propuesto.

Cuadras (1985) estudia algunas propiedades de los valores pro

pios de la matriz B en el caso en que d sea ultramétrica. Obtenemos 2

que el menor valor propio distinto de O es a^^ » siendo

a = min { d^j ! i , j e S , i y ^ j } , con lo cual se deduce además que una

distancia ultramétrica es también una distancia euclidea.

Para las distancias aditivas no se verifica necesariamente la

condición de euclidicidad. Así por ejemplo dada la distancia aditiva

O 1

O d =

Es inmediato comprobar que /^.a^ es valor propio asociado

a la matriz A, obteniéndose como subespacio de vectores propios aso

ciado

115

con árbol asociado ( F i g a - ) ,

о . о i а

Figura 9

utilizando el resultado 2.1 obtenemos que la distancia d no resulta

ser euclidea puesto que la matriz В tiene por valores propios

= 0.513 , = 0.5, X3 = O y X^ = -0.053.

Dada u = (u..) distancia ultramétrica consideramos \% \ valores p r o —

pios de B asociados a las clases con |S j > 2 y 1 x ^ 1 valo

res propios restantes. Definamos la distancia aditiva

d., = ü., + e ik ik

siendo £ una constante positiva (Fig. 8 ) .

Veamos la variación de los valores propios de d con respecto

los valores propios de u.

Figura 10

116

Si i e S con |S ¡ = 1 resulta que todos los valores r . r ' r' ^

son también valores propios para d. En caso contrario existe un valor

propio 5 ^ que no lo es para d. Notaremos por [xVj al conjunto de

valores propios distintos de los 5 . . J

Puesto que

E"jk = "( E ^ j ^

(Cuadras, 1981)

(20)

y por otro lado

Z u.j^ + E (u^^ + e )"" = n( Z 5 Z ^'y

es decir

2 2 2

Z"jk + Z "it 2^Z ^ ("- ) = n( Z k+Z 'j) (21)

y restando las expresiones (21) y (20)

" Z 'j-Zs-- r) = 2Z"it-("-) 2

e

117

es decir

expresión que nos indica la variación de los valores propios para d y

u . Obsérvese que si e aumenta , crece también la diferencia entre

los valores propios por lo que aumenta la variabilidad explicada por los

valores X .

Se puede también comprobar que n-1 valores propios de B aso

ciados a d son mayores o iguales que cero.

118

5.- INFERENCIA EN ARBOLES ADITIVOS

Resumen: En este capítulo formulamos un modelo probabilis

tico para el vector de distancias a partir del

cual analizamos algunos aspectos de inferencia en

árboles aditivos.

Sumario :


5.2.- Modelo probabilistico para el vector de distancias,

5.3.- Contrastes en árboles aditivos.

119

5Ì1.- INTRODUCCIÓN

Distancias entre distribuciones de probabilidad han sido uti

lizadas en una gran variedad de trabajos sobre problemas de inferencia

estadística y en aplicaciones prácticas para estudiar cuantitativamente

las analogías y las diferencias entre un determinado conjunto de pobla—

clones en el análisis de datos biológicos, en economía, en sociología y

muchos otros campos. Ver por ejemplo, Matusita (1957), Prevosti et al.

(1975), Rao (1948, 1973, 1982). En todos estos casos la distancia puede

ser interpretada como una medida de la información acerca de las analo

gías y diferencias entre las distribuciones comparadas.

Con frecuencia, en particular en el estudio de la evolución

de poblaciones de seres vivos , resulta conveniente utilizar un modelo

de representación baoado en árboles aditivos, que presupone el haber de

finido previamente una distancia entre los objetos comparados, ya que

este se ajusta bien a los conceptos biológicos de "Línea filogenètica" y

"divergencia evolutiva".

Estos estudios permiten esclarecer el fenómeno de la evolu—

ción ayudando a reconstruir los procesos históricos que dan origen a las

poblaciones biológicas actuales, y en base a estos estudios efectuar ade

más una clasificación de las mismas.

Por ejemplo, en Kimura (1984) puede verse^entre otros resul

tados, la construcción de un árbol filogenetico de algunos vertebrados re

presentativos basado en el cálculo de la distancia entre especies a par

tir de la composición de aminoácidos en las cadenas a de la hemoglobi

na, concordando los resultados con los previstos en la teoría neutralis

ta de la Evolución.

120

Las distancias que observamos entre los objetos que compara

mos, usualmente poblaciones, se calculan generalmente a partir de mués—

tras aleatorias, por lo que aquellas debemos considerarlas como estima

ciones de las "distancias reales" existentes entre los objetos compara—

dos. Por tanto, cualquier modelo de clasificación basado en árboles adi

tivos obtenido por algún procedimiento de ajuste a partir de las esti

maciones de las distancias, debe de ser considerado como una estimación

del árbol aditivo que expresará las diferencias'y analogías reales exis

tentes entre los diferentes objetos estudiados.

Por todas estas consideraciones resulta.;conveniente desarro

llar el tema de estimación y contrastes de hipótesis de árboles aditivos

para poder cuantificar las probabilidades de error al aceptar o rechazar

hipótesis sobre la configuración de los mismos . Por ejemplo, en el

trabajo citado anteriormente de Kimura (1984), podría tener interés esta

blecer una región confidencial sobre las longitudes de las aristas de al

gún árbol aditivo o controlar si los datos encajan bien con una determi

nada configuración que a su vez seria interpretable en términos evoluti

vos.

Para poder desarrollar el tema debemos introducir previamen

te un modelo probabilistico sobre la construcción de la distancia lo

cual realizamos en el siguiente apartado.

121

5.2.- MODELO PROBABILISTICO PARA EL VECTOR DE DISTANCIAS

Empezaremos razonando brevemente el modelo probabilístico al

que ajustamos el vector de distancias. Así, supondremos dadas к pobla

ciones estadísticas sobre las que hemos observado X^,..,X^ variables

aleatorias que admiten función de densidad conjunta cuando nos restringí

mos a cada una de las poblaciones, siendo las mismas caracterizadas por

dicha densidad conjunta que la consideraremos perteneciente a una deter

minada clase de funciones de densidad pararaétricas, f (x^,. • ,x ,-e ,... ,-p^)

De este modo una población vendrá dada por una r - pía (9^,..,9^)

coordenadas de una determinada variedad paramétrica definida por

V = I(e,,..,e )€ R^ I f(x, ,..,x ,0,,..,^ ) es función de densidad I ' 1 r 1 n 1 r '

Así, podemos interpretar la distancia real o teórica entre dos poblacio

nes como una función de los parámetros

d^^ = FCe'-.aJ) = F{9^,...,«J;,«j,..,^¿) (1)

obteniendo el vector de distancias teórico,

aunque por comodidad de notación indicaremos

d = (d.,,...,d ) siendo m = ( ) 1 m 2

122

Una manera de obtener la distancia en la forma (1) podría ser a

través de la definición de un campo tensorial covariante de segundo or

den, simétrico у definido positivo, tomándolo como tensor métrico de la

variedad y utilizando la métrica Rienmaniana definida. Se podría utili

zar por ejemplo la matriz de información de Fisher (Rao, 1948) en donde

tomamos como tensor métrico

p , v = l , . . . , r

La distancia observada la calcularemos utilizando las estima

clones máximo verosímiles de los parámetros 8' a través de las muestras

obtenidas de las variables en las poblaciones. Llamaremos -d^ a las es

timaciones máximo verosímiles de los parámetros G" . Para muestras sufici

entemente grandes, si la densidad cumple ciertas condiciones de regular_i

dad y suponiendo independencia entre las poblaciones se verifica que "1 - l "k " k (-6 ,.. ,-9^,.. ,6^,.. ,e^) converge asintoticamente a una distribución N(9, S)

{Mood-Graybill, 1969) siendo z una matriz de la forma

2 = O (2)

Si suponemos que F admite desarrollo de Taylor de 2^ orden

y es la cota superior de la 2^ derivada en un entorno de

G^^ = (-9 ,.. , e ^ , e ^ ,.. ) que contenga los segmentos [ 0^" ,e^" '] ó

[ -6 - ,-9 " ] nos resulta

123

F (è^.-e-^) - Fí^^.-G-^) - ^ 3 F

s=i,J эх. •e ij

м ij' ^ij_ ^iJ (3)

Si consideramos la matriz A de dimensiones C^) x r.k

siendo k el número de poblaciones,-én".donde en la fila correspondiente

a la pareja (i,j) consideramos los elementos

3 F

эх.

3 F

e Эх

3 F

эх:; 9

3 F

ij r ij

en las columnas correspondientes a •в''" y, -G" , y cero en el resto ,

obtenemos que A(-9 - -Q) es asintoticamente normal por ser transformación

lineal de (0-9) que también lo es.

Si D = F(9"'',§" ) es la distancia observada, a partir de (3) es

inmediato observar la existencia de una constante a tal que

D - d - A(-e - e) jl < a.|| e - 9 |[

al converger 6 - 6 en probabilidad a cero,por la consistencia de la es

timación máximo verosímil

D - d - A(e - e)

y puesto que

A(-e - 0) N(0, Eo

124

por las propiedades de la convergencia de medidas de probabilidad en espa

O Í O S de Banach (Billingsley, 1968 )

D - d — — N ( 0 , 2o )

es decir

D N(d, Zo )

y por lo tanto parece natural considerar como modelo probabilistico el

de la normal muítivariante de media la distancia teórica. Queda por tan

to razonada la adecuación del modelo probabilistico {4 ) para el vector

de distancias observado. Queda implícito a partir de la exposición ante

rior las rígidas condiciones a que sometemos el vector de distancias, pe

ro que tienen bastante sentido si pensamos en una línea de distanciación

de poblaciones basada en la parametrización de las mismas (Rao,1945) ,

(011er y Cuadras, 1985 a) .

Estudiamos en este apartado algunos contrastes que puedan

servir de punto de partida sobre cuestiones relativas a inferencia sobre

árboles. Consideramos que el vector de distancias observado sigue una

normal multivariante de media la distancia teórica y matriz de covarian-

zas conocida Z ,

N(d. S ) (4)

125

En la práctica podríamos considerar una estimación de 2

en el momento de formular el modelo a partir del desarrollo del apartado

anterior.

Supongamos que queremos averiguar si nuestro vector de d i s —

tancias se ajusta a una determinada distancia aditiva d^. Para resolver

este contraste hallamos una región confidencial a un determinado nivel

1- e . Planteamos el contraste

«0= ^ = ^0

Nos basamos en que bajo la hipótesis nula el estadístico

-1 (D - d^)• . 2 .(D - d^)

sigue una distribución ji-cuadrado con m grados de libertad (Andersson,

1958).

De este modo la región crítica viene dada por

W = I (D^....D^) I (D - d ^ ) ' . .(D - d^) > X ^ ( e )f (5)

También podríamos plantear este contraste considerando las

distancias aditivas como puntos de una variedad paramétrica.tal y coro obsœ

vamos en 4.2 # De este modo, si d^ es aditiva no perteneciente a la

frontera, existe alguna matriz X que caracteriza la configuración de

orden mx(2k-3) (k = ns de poblaciones), de modo que:

^0 = ^^0

126

siendo

1 2k-3,

parámetros que caracterizan a d^ en la variedad.

Consideremos la transformación lineal

(x'.xflx'.D = e (6)

Bajo la hipótesis nula se verifica que

S ' ^ N [ (X'X)--'-.X'dQ,(X'X)--''.X', Z . XCX'X)--"- ]

en donde : (X'X)--'-.XldQ = b^

Indicando

se tiene que

( X ' X ) • ' • . X ' . Í : ; . X ' . ( X ' X ) - " ' " - = r

( e _ b Q ) ' . f\i e - b Q ) ^ x (7)

y obtenemos una región confidencial que tendrá un gran interés si queda

totalmente comprendida dentro de la carta que contiene a b^ . Para tama

ños muéstrales suficientemente grandes utilizando una matriz 2 adecúa

da siempre podremos obtener una región confidencial en el sentido ante—

riormente citado.

Es interesante estudiar la función de potencia del contraste.

Observemos que bajo la hipótesis alternativa

e N [ b, r ]

(b f b^)

127

de donde

e - N [ b - b^. Г

Si diagonalizamos ^ ,

Г = Т. Л .Т' = Т. Л^. ( Т. л' ) • = АА'

у efectuamos el cambio

Y = A"^.( В - b^)

obtenemos que

Y ^ N(A~\b- b ^ ) , T )

por lo que Y'.Y sigue una distribución ji-cuadrado no centrada con

parámetro

. . y (b - b ^ U A Ъ'.А'^Ь - b ^ )

(Andersson, 1958)

Puesto que

Y'.Y = ( 6 - bQ)'.(A"^)'. A " ^ B -b^) = ( B -b^)', r-^.(6 - b^)

(8)

p( ( 6-b )'. r~^( B-bQ)>x^(e )| ) = P( Y : Y > X ^ ( e ) )

resultando inmediato el cálculo de la potencia a través de la distribu—

ción de Y ' Y . Recordemos que la función de densidad de Y*,Y es

128

f M - — . a v ' í - ' ^ - ^ ' - ' ' ' ' ' '

2k-3 - 0 ^ ^ )!. ry^(2k-^)+Y )-2^^ Y

Podemos encontrarla tabulada entre otros en Biometrika Tables for Stati-

cians (1976)

De este modo podemos resumir los resultados obtenidos indican

do que

a) (5) determina una región crítica para resolver el contras

te.

b) A través de (7) obtenemos una región confidencial conside

rando la carta local de la variedad paramétrica que con—

tiene d^.

c) Mediante (8) calculamos la función de potencia del con- -

traste.

Dado un vector de distancias, es interesante pensar en la adecuación

del mismo a un modelo de representación como árbol ultramétrico versus

un árbol aditivo. En este sentido vamos a estudiar un contraste que

aborde este problema, aunque nos caitraremos en considerar el contraste

en una determinada carta de la variedad. Así, dado

N [ d, § ]

129

con 2 conocido, el contraste nos queda en la forma

H Q : d es ultramétrica

H^: d es aditiva

Podemos caracterizar las distancias aditivas y ultramétricas

por la parametrización correspondiente en la variedad. Tal y como se ha

observado en el capítulo 4 , si y = i a^, 2 ^ ®^ parame

trización para una distancia ultramétrica y 5 = ( a , • •, , 6 j» ••

*•» ®^ parametrización general considerándola como aditiva, la

relación entre 5 y Y ríos viene dada en la forma

6 = C . Y

siendo

( 9 )

Planteamos el contraste en términos del análisis de la varianza. Así,

considerando D el vector de las observaciones como

D = X . 5 + E

130

Siendo X la matriz que determina la configuración del árbol y E

que sigue una distribución normal multivariante

E N [ O, S ]

si

efectuamos el cambio

Y = A- '^ ' .D

y nos resulta

Y = A ' - ' - .D ^ N [ A ^fx . S , I ]

obteniendo el modelo

Y = A".''"X. 5 + EJ_

siendo

.-1, E ^ N [0,1]. Indicando, A . X = X ^

la estimación por mínimos cuadrados de 8 resulta ser

i = cx;x/^.x¿.Y

R Q = ( Y - X Q 5 ) . ' ( Y - X Q 5 )

Bajo la hipótesis nula podemos considerar la matriz de diseño

X = X Q . C

131

y en este caso

y = (X'X) .-""X' .Y

= (Y - X.Í)'.(Y - X.í)

2 2 tenemos que R^ - sigue una distribución ji-cuadrado con 2k-3-(k-l) = k-2 grados de libertad (10)

Otro contraste que tiene sumo interés es la comparación de

dos modelos probabilísticos del tipo que estudiamos en que las distan

cias teóricas son distancias aditivas.

En este sentido supongamos

^ N[ d .i: ]

Dg ^ N[ d„.S ]

con 2 conocida, y ^ »' 3 pertenecientes al interior de la misma car

ta local de la variedad.

Si X es la matriz asociada a la carta

A A

B

Planteamos el contraste

»0 = ' A = S

"l = A ^ S

y consideramos previamente el cambio

Â = ^"'°A

siendo A matriz tal que Z = AA obtenemos

Â Â' ^ ^

N[ y,. I ]

siendo

Â ^^"'•'Â

quedando el contraste formulado como

132

(11)

133

Vamos a resolverlo utilizando técnicas de análisis de la va

rianza. Bajo la hipótesis alternativa podemos pensar en el diseño

=Z . + E

Z = A-^X y E N [0,1]

De este modo la matriz de diseño nos resulta

Z O

M = O Z

en donde las estimaciones de los parámetros son

= (z'z ) :4'.Y^

= (Z'Z)7^Z'.Yg

y de este modo

RQ = (Y^ - Z(Z'Z)~Í-Z'Y^)'(Y^ -Z(Z'Z)~Í-Z'Y^ ) +

(Yg - Z(Z'Z)"?-Z'Yg)'(Yg - Z(Z'Z) Í"Z'Yg) =

Y^Y^-Y^Z(Z'Z) lz'Y^-Y^Z(Z'Z)~.-'-Z'Y^+Y^.Z(Z'Z) ^.Z'Z(Z'Z) "''•Z'Y +

+YI. Y„-YI.Z(Z'Z)"?'Z'Y_-YIZ(Z'Z)~?-Z'Y„+Yi.Z(Z'Z)"?-Z'Z(Z'Z)~?-Z'Y„ O O D OD O D D

Y^Y^+Y¿Yg-Y^. Z ( Z • Z ) . Z • Y^-Y¿Z ( Z • Z ) "Í Z • Y^

134

Bajo la hipótesis nula podemos tomar como matriz de diseño

/ Z M =

\ z

resultándonos la estimación del parámetro

g =(2Z'Z) ^.Z'(Y^ + Yg) = )¿(Z'Z) ^Z'(Y^ + Yg)

4 = (Y^-Já.Z(Z'Z) ^.Z*(Y^+Yg))' .(Y^-}Í.Z(Z'Z)"^.Z'(Y^+Yg}) +

i^-KZiZ'ZT^ .Z'(Y^+^ ))' .(^-;^Z(Z'Zr^ .Z'(Y^+^ )) =

Y ; Y^-3|(Y^+Yg)'Z(Z'Z)""^.Z'Y^-Já(Y^Z(Z'Z)"^.Z'(Y^+Yg)) +

K(Y^+Yg)'Z(Z'Z) ^.Z'Z(Z'Z)"^.Z'(Y^+Yg)+(Y¿Yg)

-Jí(Y^+Yg)'.Z(Z'Z)"^.Z'^ -Já.^'Z(Z'Z)"^.Z'(Y^+Yg) =

de donde

- = ^(Y^-Yg)'z(Z'Z)".^Z'(Y^-Yg)

2 2 2 y obtenemos inmediatamente que R^^ - RQ sigue una distribución x

con 2k-3 grados de libertad (Searle ,1971) •

135

Queda abierta en este punto la posibilidad de realización de contrastes

más generales. En este sentido sería interesante tener en cuenta la téc

nica propuesta por Oller(1983) y que se basa en el cálculo de la distan

cia estimada al cuadrado entre dos poblaciones normales , la cual rault_i

pilcada por una constante conveniente sigue una distribución ji-cuadra

do. Para el cálculo de la distancia se deberá hallar primero el tensor

métrico de la variedad a la que pertenecen las poblaciones, buscando -

después la distancia geodésica en la subvariedad en que realizamos el

contraste. En Ríos (1984) se puede observar un ejemplo de la utiliza -

ción de esta técnica.

136

6. ALGORITMOS DE CONSTRUCCIÓN DE ARBOLES ADITIVOS

Resumen: En este capítulo se discute la utilización de diversos algo

ritmos de transformación de una disimilaridad dada sobre un

conjunto en una distancia aditiva. Se concluye con un ejem

plo práctico de la utilización de los árboles aditivos estu

diando algunos aspectos de la localización europea de D r o —

shophila Subobscura.

Sumario:

6.1 - Introducción.

6.2 - Principales algoritmos.

6.3 - Ejemplo.

137

Una disimilaridad observada sobre un conjunto de objetos no

verifica, en general, la propiedad del cuarto punto (aditiva). Por lo

tanto, si deseamos representar los objetos en un árbol aditivo debe—

mos realizar una transformación de la misma en una distancia aditiva.

De este modo consideraremos un algoritmo de construcción de árboles

aditivos como un método que nos proporciona una distancia aditiva aso

ciada a una disimilaridad sobre el conjunto, pudiéndose expresar en

la forma

i> : D ^ D (1) s

•d

donde D es el conjunto de disimilaridades sobre S, D conjunto de 5

distancias aditivas sobre S y ( S ) = d la distancia aditiva aso

ciada a 6 por el algoritmo en cuestión.

En este capítulo daremos una visión general de los principa

les algoritmos implementados hasta el momento comentando su eficiencia

y los distintos puntos de vista en que están basados. También estudia—

mos las líneas básicas para la confección de un algoritmo basado en la

transformación de la disimilaridad en una distancia ultramétrica conve

niente obteniendo a partir de la misma una distancia aditiva.

Pensamos que este capítulo puede ser de interés sobre todo pa

ra la utilización en problemas prácticos cuando hemos elegido como mode

lo de representación los árboles aditivos, puesto que la metodología a

seguir en tales problemas se puede dividir en dos partes:

138

1 3 } Cálculo de una disimilaridad adecuada entre los objetos (Sobre el

particular cabe citar estudios como los de Rao (1945), Gower(1971)

y 011er (1983)).

23) Una vez elegido el modelo de representación,se procede a la selec

ción de un algoritmo de transformación adecuado.

É l.2 - r _ £ 5 I i E £ I£ALES_ALG0RITM0S

6.2.1.- Algoritmo de Tversky (1977).

Este algoritmo fue elaborado por Tversky (1977) e irapleraenta-

do por J. Corter (1981 ) en un programa denominado ADDTREE, nombre con

el que también es corriente referirse al algoritmo.

El algoritmo consta de dos partes:

a) Construcción de la configuración del árbol.

b) 'Estimación de la longitud de las aristas.

Describiremos a continuación estas dos partes:

a) Si 5 es la disimilaridad observada entre los objetos, considera pa

ra cada par (x,y) e S x S el valor n que representa el número de

xy pares (z,t) e S X S tales que

six,y) + 5(z,t) < min { 6(z,x) + 5(y,t), 6(x,t) + 6(y,z)}(2)

139

De este modo se toma el par ( g' O ' ^

n = max { n I (x,y) e S x S }

y consideramos unidos en un primer paso este par de objetos de S (Fig 1)

Figura 1

Se considera posteriormente una nueva disimilaridad en el conjunto

= ( s - txQ.y^} ) u Í U Q }

definida en la forma

<S' (x,y) = 6(x,y) si x,y 4 UQ

5'(X,UQ) = Vzi ¿ ( X . XQ ) + S(x,yQ))

(3)

y se. aplica el mismo proceso anterior al par (S', 6').,

De este modo reiterando el proceso se llega a obtener la con

figuración del árbol (Fig.2) ,

140

Figura 2

b) Una vez construida la forma del árbol se debe proceder a la estima—

ción de la longitud de las aristas. Se considera la matriz X de orden

(g) X (2n-3) representando la configuración del árbol, siendo n el nú

mero de objetos del conjunto S y 2n-3 el nùmero de aristas del á r —

bol, por lo que x^^ = 1 si la distancia i-ésima contiene la arista j

y x^j = 0 en caso contrario, planteándose la estimación de las longitu

des de las aristas C S , S ) por el método de los mínimos cuadra—

dos, obteniendo como solución

Ö = (X'X)~-^.X'.5

con lo que queda completado el algoritmo.

6.2.2.- Algoritmo de Cunningham (1978)

Este algoritmo, de corte muy parecido al anterior, tiene por

objetivo la búsqueda de una distancia que verifique la condición del

cuarto punto a partir de consideraciones sobre la forma del árbol según

la disimilaridad inicial.

141

Si 6 es la disimilaridad inicial y para cuatro elementos de

S {i,j,k,l} se verifica:

«ij *^kl < ^ i k ^ «jl<«il-*-\j

se considera interesante que la distancia aditiva d buscada verifique

d., + d., = d., + d, . ik Jl xl kj

De este modo se obtiene una colección de relaciones lineales entre las

distancias, considerando sólo aquellas que resultan ser independientes.

Estas relaciones se pueden expresar matricialmente como

C.d = O

donde C es una matriz de orden r x C^) siendo r el número de rela

ciones lineales impuestas, y de este modo si la i-ésima relación es

d + d = d + d U V r s

una vez numeradas las distancias (entre 1 y (^)) nos resulta

' 1 si i = u,v

C^j = -1 si j = r,S

o resto

142

d* = 5 - C .(ce••)""'•.C5

Queda pues como último paso la reconstrucción del árbol, cuestión que

ya hemos abordado en el capítulo 3.

En un intento de mejorar las posibilidades prácticas de apli

cación del algoritmo anterior. De Soete (1983) propone un algoritmo ba

sado en la minimización secuencial de

F ( D , r ) . j ; (d.. - . . . r (d.^. d.^ - d.^ - <t^)'

, . " ' L(D) P(D)

para una sucesión creciente de r y siendo

= { ( i , j , k , l ) | i , j , k , l d i s t i n t o s y ^^^^ ^ i k " * ' ^ ! ' ^ i l ' ^ S j ^ ^

Este procedimiento , basado en la misma idea inicial del algoritmo de

Cunningham , emplea . sin embargo un algoritmo iterativo para la búsqueda

de la distancia aditiva.

Se procede seguidamente buscando la distancia aditiva d* tal que

Il 6 - d*|| = minili 6 - d.ll I C.d= 0 }

obteniendo corno solución

143

siendo

En concreto el algoritmo que propone comienza considerando

0^°^ = { + e.^ [ i < j }

t . . r s ^ N(0, a^) x j e

Se trata entonces de minimizar FCD.r^^') empezando por D^^""^^

er D^^\ considerando r(^^= 10.r "-""

Se , paran las evaluaciones cuando

es menor que una constante que hemos fijado de entrada.

En comparación con el algoritmo de Cunnií^iat! este método tiene

la ventaja que se puede utilizar para conjuntos de datos con mayor núme~

ro de elementos puesto que no requiere la inversión de matrices tan gran

des como en el algoritmo anterior. En un estudio de simulación para eva

luar la eficacia obtiene resultados parecidos a los obtenidos por

ADDTREE.

144

6.2.3.- Algoritmo de Abdi (1985)

Al igual que los algoritmos anteriores H.Abdi (1985) propone

un algoritmo dividido en dos fases: a) Determinación de la forma del

árbol b) Estimación de la longitud de las aristas.

a) Forma del árbol.

Dada una disimilaridad 6 sobre un conjunto S, se define la función

S X S

de modo que

ít)j (a,b) = n

si existen exactamente n subconjuntos U de S - {a,b} tales que

[U| = k verificando

5(a,b) + max { <S(x,y) } < max { 6(a,x) + 6(b,y) }

x,y s U x,yeu

En caso de que S fuera la distancia asociada a un árbol aditivo, el

valor máximo de se encuentra precisamente entre los pares con un

único nudo principal no terminal en el camino que los une (Figura 3 ) .

145

Figura 3

Así pues para la determinación de la forma del árbol, se unen

en un primer paso los elementos a y b tales que (()j (a,b) sea máximo y

se considera entonces el elemento z representando al nudo constituido

por {a,b} y la nueva función sobre (S - {a,b}) U {z } = S^^^

<^l^hz,n) = Jádj^Ca.u) + (l)j (b,u))

({i^^^x.y) = (Í)j (x,y) si íx.y} n {a,b} = 0

reiterando entonces el proceso para S^'^^,

b) Estimación de las longitudes de las aristas.

Para la estimación de las longitudes de las aristas se propo

ne un procedimiento heurístico basado en una estimación geométrica de

las mismas. Observemos que para el árbol de la figura 3, si d es la

distancia asociada al árbol se verifica que

d(a,u) + d(b,u) - d(a,b) d(z,u> =

para cualquier u nudo terminal.

146

Esta propiedad es la que sugiere el procedimiento de estima—

ción a seguir.

Se considera el conjunto S = S U íg) con la disimilaridad

asociada 6 definida como

S (u,u') = 6(u,u') si u,u' 4 g

^ " T - i 6(u,u' « (g.u) = >

u ^ S "

y se procede a la representación de (S , ^ ) en un espacio euclideo

(V.D)

: (S*. «*) (V,D)

* considerando una nueva distancia sobre S definida en la forma

5(x,y) = D( * (x), * (y))

Siguiendo paralelamente el proceso reiterativo de la construcción del

árbol se procede para la estimación de la longitud de las aristas. Así

si a y b se han unido en un nudo z, construimos el mismo de modo que

la distancia entre z y g sea mínima. Posteriormente considereimos una

nueva distancia sobre S " ^ calculada a través de la geometría euclí

dea obtenida. Se reitera de este modo el proceso hasta la obtención

de las estimaciones de las longitudes de las aristas.

En un estudio de simulación sobre la eficacia del método se

obtienen resultados muy parecidos a los obtenidos para ADDTREE en

Pruzansky el al.(1982).

147

6.2.4.- Algoritmo de Waterman (1978).

Waterman et al.(1978)desarrollan un algoritmo basado en métodos de pro

gramación lineal, efectuándose una construcción secuencial del árbol

aditivo en que se añade un nuevo nudo terminal en cada paso minimizando

se una función objetivo definida sobre las aristas.

Se consideran como restricciones: a) Las longitudes de las

aristas: deben ser no negativas. b) La distancia sobre el árbol entre

dos objetos debe ser mayor o igual que la disimilaridad observada.

Así, si anotamos por e,,...,e las aristas del camino en- -

1 m

tre los puntos i y j y 5 . es la disimilaridad observada entre

los mismos, tendremos que

m

i=l

e. > O 1

V i,j e s (4)

obteniendo pues un poliedro coive oo, por lo que se alcanza la solución

al problema en un punto extremo del mismo (Roberts & Varberg, 1973 ).

Se sugiere tomar como función objetivo alguna de entre las

siguientes

2n-3

a) ^2,^ ®i ~ ^ \ e. (simboliza la evolución total)

i=l

148

b) l.k 6^^

(sugerida por Fitch & Margoliash, 1967)

*T.k~ ^ '' ^ ®" • camino entre 1 у к)

с) Í e, } ) = l,k 6 ^

Ik

El algoritmo consistirá en unir en cada paso un nuevo vértice

minimizando la función según las restricciones (4). A fin de evitar el

problema de la dependencia del orden en la unión de los vértices termi

nales del árbol se sugiere en una extensión del método unir en cada pa

so el vértice terminal que proporcionará un valor menor para la función

objetivo.

No se obtiene sin embargo un mínimo global mediante este pro

cedimiento, tal y como demuestra Waterman con un contraejemp-lo. Por la

complejidad calculística del procedimiento se sugiere hallar árboles

razonablemente válidos y a partir de los mismos estimar las aristas

por el procedimiento descrito anteriormente.

149

6.2.5.-

En esta memoria sugerimos además la utilización de un algorit

mo basado en la búsqueda a priori de una configuración adecuada del ár

bol. En este sentido aparte los métodos de Tversky, Cunningham y Abdi

mencionados existe la posibilidad de buscar una clasificación taxonómi

ca de los objetos mediante algún método de clasificación jerárquicar-jen

particular el método UPGMA (con importantes propiedades con respecto

el coeficiente de correlación cofenética) y realizar posteriormente una

transformación del árbol ultramétrico hallado dentro de la misma carta

de la variedad de modo que se ajuste según algún criterio de optimiza—

ción a la disimilaridad observada.Así el algoritmo se podría entender

como una aplicación definida en la forma:

D ^ Q ^ D s u A

6 •d ^ d u a

siendo D = conjunto de disimilaridades sobre S. s

= " ultramétricas sobre S.

D. = " " aditivas sobre S. A

El paso de la distancia ultramétrica a la distancia aditiva

podría efectuarse de muchas maneras de entre las cuales sugerimos las

siguientes:

150

a) Mediante el método de los mínimos cuadrados .

b) Calculando «:S "-R tal que

E (6(i,j) - d (i.j) - *(i) - *(j))2

sea mínima , considerando entonces la distancia aditiva

d^(i,j) = d (i,j) +* (i) +* (j) (5)

Si indicamos y^^= 6(1,j) - d^(i,j) , *(i) = se trata de minimi

zar

2

De este modo, derivando parcialmente con respecto para todo i ,

obtenemos las ecuaciones

n

(6)

es decir

n

j=l j=l Uj j^i

151

sumando las ecuaciones (6)

n n

i=l j=l

de donde

2^1 j - (2n-2).X!"k = Uj k=l

(8)

De (7) y (8) se deduce que n

(2n-2).2] y^i, - Z y.,-k=l ^'^ m (9) o. = 2.(n-2).(n-l)

Así pues consideraremos que existe una solución mediante este algoritmo

cuando podemos hallar d^ distancia ultramétrica y * definida a tra

vés de (9) de modo que d construida en (5) resulta ser distancia.

La wentaja de este método consiste en la posibilidad de relacionar una

representación ultramétrica y un árbol aditivo asociados a 5 .

6.3.- EJEMPLO

Este ejemplo tiene por objetivo realizar una ilustración de

las representaciones mediante árboles aditivos. Se trata de una aplica

ción de las mismas al estudio de la distribución geográfica de Drosophi

la Subobscura a partir de la distancia genética propuesta por Prevosti

(1974) , la cual cuantifica la diferencia entre dos poblaciones a partir

de las frecuencias de las ordenaciones cromosómicas producidas por inver

siones y que ha sido descrita en 2.6 .

152

Salicrú (1983) utilizando técnicas de taxonomía numérica de-»-

muestra que las barreras geográficas son también barreras genéticas. Es

te estudio pretende ser una continuación del anteriormente citado inten

tando dar una confirmación estadística a la forma en que se ha producici

do la colonización europea atendiendo a la hipótesis histórica no selec

tiva según la cual el origen de la especie podría ser el continente a —

fricano extendiéndose después por Europa. Esta hipótesis se fundamenta

en parte a la pobreza de inversiones en las poblaciones de la parte nor

te y la riqueza en las poblaciones que están más al sur.

Considerando las poblaciones de Huelva (H), Agadir (A), Barce

lona (B), Thessaloniki (T), Fruska Gora (F), Viena (V), Zurich (Z),

Drobak (Dr), Dalkeith (D) y Groningen (G) con matriz de distancias ge

néticas asociadas:

H A T Z V G Dr

В

H

A

T

z

V

G

Dr

D

0.259 0.498 0.392 0.445 0.469 0.529 0.615 0.465 0.460

0.428 0.502 0.623 0.640 0.695 0.782 0.657 0.577

0.661 0.792 0.789 0.844 0.927 0.834 0.666

0.500 0.434 0.592 0.668 0.545 0.315

0.128 0.112 0.235 0.300 0.391

0.187 0.260 0.370 0.342

0.152 0.276 0.470

0.270 0.560

0.505

153

utilizando el algoritmo ADDTREE descrito en 6.2.1 obtenemos el árbol

aditivo

0.134 « 1 0 0.150 0.293 = 0.090 0.073 0.104

a, = 0.185 = 0.050 0.152 0.151

O s = 0.075 B5 0.03 a? 0.056 Be 0.042

0.076 = 0.003 « 9 = 0.1?0

Coeficiente correlación entre la distancia original y la distancia aditiva = 0.9965.

Figura 4

y mediante el método de clasificación jerárquica UPGMA descrito en 2.4

obtenemos el árbol ultramétrico

0.636 0.501 0.463 0.315 0.304 0,259 0.216 0.157 0.112

D D r V G Z F T A H B

Coeficiente de correlación cofenética = 0.83238

Figura 5

154

Podemos comprobar que si bien mediante el dendograma obtenido

utilizando el método UPGMA se pueden distinguir 3 clases significati

vas que se pueden entender como Sureste, Suroeste y Norte, coincidiendo

pues con los resultados obtenidos por Alonso(1975) en que utilizaba

otros métodos de representación , la distancia ultramétrica obtenida pre

senta en algunos casos los problemas comentados en 2.6, por lo que es

preferible la representación utilizando árboles aditivos.

El árbol aditivo obtenido (Fig.4) se podría interpretar como

la evolución de la especie en Europa según las poblaciones estudiadas,

confirmándose a través del mismo la tendencia de expansión de Suroeste

a Noreste y observándose como el Centro-Norte de Europa está más pi óxi

mo al Sureste que al Suroeste, lo que induce a pensar ш la hipótesis de

una colonización Suicoeste.'^ Sureste - Norte. Esta hipótesis halla una

justificación biológica en el hecho de que la coionización o reooloniza

ción del continente europeo tuvo lugar después de la última glaciación

resultando ser la capacidad de dispersión de la especie mayor que la

velocidad de retirada de los hielos. La elevada capacidad de disper-

sión se ha comprobado experimentalmente mediante el<:estúdio de la colo

nización del continente americano por la especie europea D.Subobscura.

En este análisis se ha observado que dicha especie ha ocupado Chile,

desde La Serena (29''55'Lat. Sur ) hasta Coyhaique (45" 35' Lat.Sur)

(3.000 Km. aprox.) en un periodo de tan sólo tres años.

155

CONCLUSIONES

En esta memoria se ha desarrollado una metodología para

abordar problemas derivados de la representación de un conjunto me~ -

diante una clase especial de grafos llamados árboles aditivos y se ha

realizado un estudio formal de algunos de los principales aspectos

que surgen en la utilización de este tipo de representaciones.

Se ha situado en primer lugar este método de representa

ción dentro de los métodos propios del análisis multivariante, resal

tando las ventajas que tiene frente otros modelos de representación

discretos cómo) pueden ser las clasificaciones jerárquicas de la taxo

nomía numérica y las representaciones utilizando modelos continuos,

explicitando los principales resultados y características de todos

ellos. Se ha observado el interés que tiene el estudio de medidas pa

ra poder decidir objetivamente entre un modelo de representación con

tinuo y un modelo de representación discreto, analizando los resulta

dos obtenidos sobre el particular por Pruzansky et al. (1982) en que

sugieren que el momento centrado de tercer orden y la proporción de

triángulos elongados pueden ser efectivos para resolver el problema

mencionado.

Se,ha desarrollado después una nueva formalización sobre

las relaciones entre una distancia verificando el axioma del cuarto

punto y un árbol aditivo, hallando en términos de la misma formaliza

ción las relaciones entre distancias aditivas y ultramétricas. Las lí

neas seguidas en el estudio anterior han sido comparadas con las desa

156

rrolladas en Buneman (1971) donde se relacionan distancias aditivas

y árboles aditivos desde otra perspectiva.

Se ha conseguido después dotar el conjunto de distan

cias aditivas con configuración de una estructura de variedad dife—

renciable con frontera, calculando explícitamente la misma y estu- -

diando las distancias ultramétricas dentro de la variedad. Se advier

te del interés que puede tener esta estructura en el estudio de pro

blemas relativos a algoritmos de construcción, inferencias en árbo—

les y representación de los mismos por modelos continuos.

A partir de la asociación de un modelo probabilístico a

un vector de distancias obtenemos la resolución de diversos contras

tes formulados, en general, en una carta de la variedad constituida

por las distancias aditivas con configuración.

Se ha expuesto por último un análisis de los principa—

les algoritmos de transformación de una disimilaridad definida sobre

un conjunto en una distancia aditiva. Esta exposición se ha ilustra

do con un ejemplo en que se muestra la utilización de los árboles

aditivos como técnicas de representación. En el mismo se estudian al

gunos aspectos de la colonización europea de Drosophila Subobscura

bajo la hipótesis histórica no^selectiva corroborando la teoría que

la misma se ha producido- en dirección Suroeste a,Noroeste, pudiéndo

se observar algunas ventajas que supone esta técnica de representa—

ción frente a un dendograma.

157

Los temas desarrollados en esta memoria se podrían exten

der en las siguientes líneas:

a) Estudio y comparaciones de aspectos teóricos y prácticos de los

algoritmos de construcción de árboles aditivos.

b) Estudiar las relaciones que existen entre los distintos modelos

de representación.

c) Desarrollar nuevas vías sobre la inferencia en árboles aditivos

que puedan solucionar problemas tales como: significación de cla

ses, elección de la configuración, comparación de modelos.

d) Estudios de distancias asociadas a modelos discretos más comple—

jos.

158

ABDI, H. (1985) . Tree representations of associative structures in semantic and episodic memory research. Trends in Mathematical Psychology,3-31 , Elsevier Science Publishers B.V. (North-Holland)

ALONSO,G. (1975) . Estudio de la distribución geográfica del polimorfismo cromosomico en Drosophila Subobscura. Tesina, Fac.Biologia,Univ.Bare.

ANDERSON, J.J. (1985) . Normal mixtures and the number of clusters problem. Computacional Statistics Quarterly,V.2, Issuel,3-14.

ANDERSON,T.W. (1958) . An introduction to multivariate statistical analysis. John Wiley 8e Sons, Ine. , New York .

ARCAS ,A. (1983) . Contribuciones a la construcción de clasificaciones estratificadas. Tesina, Fac.Matemáticas, Univ. Barcelona.

ARCAS, A. (1984) . Sobre la no unicidad de clasificaciones jerárquicas aso ciadas a un método de clasificación taxonómico. Actas del XI? congreso nacional de estadística,inv. oper, e inform.

ARCAS,A. у SALICRÚ,М. (1984). Sobre la no unicidad de la clasificación jerárquica asociada a una disimilaridad por los métodos del máximo у UPGMA .Questió, V.8, №3,113-120.

BALL,G.H. у HALL,D.J. (1967) . A clustering technique for summarizing multivariate data. Behavioral Science, 12(2),153-155.

BARTLETT,M.S. (1948) . A note on the statistical estimation of demand and suply relations from time series. Econometrica, 16, p.323.

BERGE, C. (1959) . Espaces topologiques.Fonctions multivoques.Dunod,Paris. BERGE, C. (1973) . Graphes et Hypergraphes. Dunod, Paris. BERTRAND,P. у Diday,E. (1985) . A Visual representation of the compatibili

ty between an order and a dissimilarity index:the pyramids. Computado nal Statistics Quarterly, V.2,Issue 1,1985,31-41 .

BHATTACHARYYA,A. (1942) . On a measure of divergence between two multino -miai populations. Sanhkya,7,401,406.

BILLINGSLEY, P. (1968) . Convergence of Probability Measures.John Wiley , New York.

BIOMETRIKA 'TABLES FOR STATICIANS VOL.2. Edited by E.Pearson and H.O.Hart ley (1976) .

BUNEMAN, P. (1971) . The recovery of trees from measures of dissimilarity . F.R. Hodson, D.G.Kendal1,P.Tautu (Edit.)Mathematics in the Archeologi-cal and historical sciences. Edinburgh University Press.

159

CAILLIEZ,F. (1983) . The analytical solution of the additive constant problem. Psychometrika, V.48,№2,305-308 .

CARROLL, J.D. (1976). Spatial, non-spatial and hybrid models for scaling. Psychometrika, V.41, 4,439-463.

CHILLINGWORTH ,D.R.H. (1976). Differential topology with a view to applica tions. Pitman Publishing, London.

COOPER, G.H. (1972) . A new solution to the additive constant problem in me trie multidimensional scaling. Psychometrika, 37,311-322.

CUADRAS,CM. (1980) , Metodes de representado de dades i la seva aplicació en Biologia. Col.Soc.Catalana Biologia, 13,95-133.

CUADRAS,CM. (1980) . Curso de Análisis de la Varianza» Publicaciones de -Bioestadxstica y Biomatemática № 1 , Barcelona.

CUADRAS,CM. (1981) . Métodos de análisis multivariante. Eunibar,Barcelona. CUADRAS,CM. (1983) . Análisis algebraico sobre distancias ultramétricas.Ac

tas 44 Per, de Sesiones del Inst.Intern, de Estadística, Madrid,V.2, -

554-557.

CUADRAS,CM. y 011er,J.M. (1984) . Geometría finita aplicada a la estadíst_i

" cfcas congreso nacional de estadística,inv.oper. e inform.

CUADRAS,CM. y Oiler,J.M. (1985) . Eigenanalysis and metric multidimensio

nal scaling on hierarchical structures. Sometido a Psychometrika.

CUADRAS, CM., Oiler,J.M.,Areas,A. y Rios.M. (1986). Métodos geométricos

de la estadística. Questi# •(En prensa)

CUNNINGHAM,J.P. (1978). Free trees and bidirectional trees as representa

tions of psychological distance . Journal of Mathematical Psychology,

17,165-188.

DALLOT ,S. y Ibañez, F. (1972). Etude préliminaire de la morphologie et de

1'evolution chez les chaetognates. Inv.Pesq. 36(1) ,31-41.

DE SOETE, G. (1983) . A least square algorithm for fitting additive trees

to proximity data. Psychometrika, 48(4),, 621-626.

DE LEEUW.J. y HEISER, W, (1982) . Theory of multidimensional scaling .

Handbook of statistics V.2,North Holland Publising Company,285-316.

ECKART, C y Young,G. (1936). The aproximation of one matrix by another

of lower rank. Psychometrika, 1, 211-218.

FARRIS, J.S. (1969) . On the cophenetic correlation coefficient. Syst.Zoo

logy 18(3),279-285 .

160

FITCH, W. y Margoliash,E. (1967). Construction of phylogenetic trees. Science, V.155,279-284 .

GNANADESIKAN.R. (1977). Methods for statistical data analysis of multivariate observations. John Wiley, New York.

GONDRAN, M. (1976). La structure algebraique des classifications hierarchic ques. Annales de l'insee,№ 22-23,181-190.

GOWER, J.C. (1967). A comparison of some methods of cluster analysis.Biometrics, 23,623-637.

GOWER, J.C. (1982). Euclidean distance geometry. Math. Scientist,7-14. HICKS,N.J.(1965). Notes on differential geometry.Van Nostran,Princeton. HOLMAN, E.W.(1972). The relation between hierarchical and euelidean models

for psychological distances.Psychometrika,V.37,№4,417-423. HUBERT,L. y ARABIE,P. (1985) . Comparing Partitions . Com.Presentada en

"Fpurth european meeting of the Psychora. See. and the Class.Soc",Cambridge. HYVER (1973) . Valeurs propes des systèmes de trsinsformation représenta -

bles par des graphes en arbres. J.Theoret.Biol.,42,397-409.

JARDINE,N. y SIBSON,R. (1971). Mathematical Taxonomy. John Wiley,New York.

JOHNSON, B.C. (1967). Hierarchical clustering schemes.Psychometrika V.32,

241,254.

KIMURA ,M. (1984) . Neutral evolution as an innevitable process of change

at the molecular level. Darwin a Barcelona,P.P.U.,231-252.

KOHNE,D.E.,CHISCON,J.A. y HOYER, B.H.(1972). Evolution of primate DNA se

quences. J.Human Evol. 1,627-644.

KRUSKAL,J.B. (1964) . Nonmetric multidimensional scaling:A numerical method.

Psychometrika, 29,115-129 .

KRUSKAL,J.B., YOUNG,F.W.,SEERY,J.B. (1973) . How to use KYST a very flexi

ble program to do multidimensional scaling and unfolding. Bell Labora

tories, Murray Hill.

KRUSKAL, J.B. y WISH ,M. (1978) . Multidimensional scaling. Sage Publica

tion, Beverly Hills.

LANG, S. (1962) . Introduction to differentiable manifolds. Interscience

Publishers, New York.

LERMAN, I . e . (1981) . Classification et analyse ordinale des donnés.Dunod,

Paris.

LINGOES, J.C. (1971). Some boundary conditions for a monotone analysis of

sirametric matrices. Psychometrika, 36,195-203.

MARDIA.K.V. (1978). Some properties of classical multidimensional scaling.

Comm.Stat. A7 (13),1233-1241.

161

MARDIA, K.V., KENT, J.T. y BIBBy,J.M. (1979). Multivariate Analysis.Acade mic Press, London

MARRIOTT,F.H.C. (1982) . Optimization methods of cluster analysis. Biome-trika, V,69,2,417-421.

MATULA , D.W. (1977) . In Classification and Clustering , J.Van Ryzin ed., Academic Press , New York , 95-129 .

MATUSITA.K. (1957) . Decision rule based on the distance for the classifi^ cation problem. Ann. Inst.Statist.Math. 8, 67-77 .

MOOD , A. y GRAYBILL,F. (1969) . Introducción a la teoría estadística. A-guilar, Madrid.

OLLERjJ.M. (1983) . Utilización de métricas riemannianas en análisis de -datos multidimensionales y su aplicación a la biología. Publicaciones de bioestadística y biomatemática № 1 1 , Barcelona.

OLLER.J.M. y CUADRAS,CM. (1985a).Rao's distance for negative multinomial distributions . Sankhya, V.47,A,75-83 .

OLLER,J.M. y CUADRAS,CM. (1985b).Sobre ciertas condiciones que deben veri ficar las distancias entre espacios probabilísticos. Actas XV Reunión nacional de estadística, Invest.Oper. e Inform.

OCAÑA,J.(1975) . Sobre la distancia genética. Tesina,Fac.Biolog.,Univ.Bare.

OHSUMI,N. y NAKAMURA,T.(1981). Some properties of monotone hierarchical -

dendrogram in numerical classification. Proc.Inst.Statist.Mathem.,28(1),

117-133.

PETIT PIERRE,E. y CUADRAS,C.M.(1977).The canonical analysis applied to the

taxonomy and evolution of the genus Timarcha Latr.Mediterránea,1,13-28.

PREVOSTI,A.(1974) . La distancia genética entre poblaciones. Miscellanea

Alcobé, Univ. Barcelona, 109-118 .

PREVOSTI,A.; OCAÑA,J. y ALONSO,G. (1975) . Distances between population of

Drosophila Subobscura based on chromosome arrangement frequencies.Theor•

and Appl. Genetics 45,231-241 .

PRUZANSKY ,S.; TVERSKY.A. y CARROLL,J.D.(1982) . Spatial versus tree repre

sentations of proximity data. Psychometrika,V.47,1,3-24 .

RAO,C.R.(1945). Information and accuracy attainable in the estimation of -

statistical parameters. Bull.Calcuta Math.Soc.,37,81-91.

RAO,C.R.(1948). The utilization of multiple measurements in problems of -

biological classification. J.Roy.Statistical.Soc.,B.10,159-193.

162

RAO, C.R. (1973). Linear Statistical Inference and its Applications.John

Wiley, Nevr York.

RAO, C.R. (1982). Diversity and dissinsiiarity coefficients: a unified

aproach. J. Theoretical Polupation Biology, 21,24-43.

RIOS.M. (1985) . Distancias entre modelos lineales y s u aplicación a la .

clasificación y diagnóstico de enfermedades. 'Tesis doctoral, Fac. de

Medicina, üniv. de Barcelona.

ROHLF, F.J. (1970) . Adaptive hierarchical clustering schemes. Syst.Zool,

19,58-82.

R0HLF,F.J.(1981) . Spatial representation of phylogenetic trees computed

tfom dissimilarity matrices. Inter.Symp. Compt. Meth.Paleo»,Barcelona»

303-311 .

_ROBERTS,W. y ¥ARBERG,D.(1973). Convex Functions.Academic Press,New York.

R0MEDER,J.M.Cl973). Methodes et prograsaes d*analyse discriminante. Dunod,

Paris.

SAITO.T. (1978) . An alternative procedure to the additive constant pro -

ble» in metric multidimensional scaling. Psychometrika,43,193-201,

SAl.ICBÜ,M.Cl9S3). Consideraciones, sobre desemejanzas y clasificaciones a-»

sociadas. Tesina, Fae. Matemáticas, Oniv. Barcelona,

SATTATH,S. y TVERSKY, A. (1977) . Additive similarity trees. Psychometrika,

42(3) 319-345,

SEARLE, S.R.(1971) Linear Models. John Wiley, New York.

SCHEFFS,H.{1959) .. The analysis of variance. John Wiley, Mew York.

SHEPARD, R.N. (1962). The analysis of proximities; multidimensional s c a

ling with an inkndwn distance function. Psychometrika, 27,219-246.

SNEATH, P.H.A. y SOKAL.R.S. {1973). Numerical Taxonomy. W.H.Freeman and Co.,

San Francisco

SNEATH, P.H.A. (1980). Some empirical tests for significance of clusters.

• Data analysis and informatics."E.Diday et al. (eds.).North Holland-Pu

blishing'Company , 491-507 .

SOKAL, R.R. y MICHENER', C.D.(1958) . A statistical method for evaluating

systematic relationships. Univ.Kansas Sci.Bull.,38,1409-1438.

SOKALi R.S. y SNEATH, P.H.A. (1963). Principles of nuBierical- taxonomy->

W.H.Freeman and Co.,San Francisco".

SPIVAK,M.(1979). A comprehensive introduction to. differential geometry

Publish or Perish,Inc. Berkeley.

TOIGERSSON, M.S. (1952). Multidimensional,Scaling:•1. Theory and method.

Psychometrika,17, 401-419 .

163

TORGERSON, M.S. (1958).Theory and methods of scaling. John Wiley,New York* TUCKEY, J.W.(1977). Exploratory data analysis. Addison-Wesley, Reading. WA6ENAAR'^W(Av>y PADMOSv Pv (1971). Quantitative interpretation of stress

in Kruskal's multidimensional scaling technique. British J.of Mathema tical and Statistical Psychology,24, 101-110 .

WATERMAN,M.S.;SMITH,T.F.; SINGH,M. y BEYER, N.A. (1977). Additive evolutio nary trees. J . Theor. Biol., 64,199-213.

WILKS,S.(1962) . Mathematical statistics. John Wiley, New York. WISH,M. (1970) . Comparations among multidimensional structures of nations

based on different measures of subjective similarity. General Systems, 15,55-65.

WISH,M.; DEUTSCH.M.;BIENER,L. (1972). Differences in perceived similarity of nations. P.P. 289-313 in A.K. Romsey,R.N.Shepard and S.Nerlove(eds). Multidimensional Scaling: Theory and Applications in the Behavioral -Sciences,V.2,New York:Seminar Press.

WISH.M. y CARROLL,J.D.(1982). Multidimensional Scaling and its Applications. P.R. Krishnaiah and L.N.Kernel Eds. , Handbook of Statistics, V.2, 317-345.