Contribuciones a la representación de datos multidimensionales mediante árboles aditivos
Antonio Arcas Pons
ADVERTIMENT. La consulta d’aquesta tesi queda condicionada a l’acceptació de les següents condicions d'ús: La difusió d’aquesta tesi per mitjà del servei TDX (www.tesisenxarxa.net) ha estat autoritzada pels titulars dels drets de propietat intel·lectual únicament per a usos privats emmarcats en activitats d’investigació i docència. No s’autoritza la seva reproducció amb finalitats de lucre ni la seva difusió i posada a disposició des d’un lloc aliè al servei TDX. No s’autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant al resum de presentació de la tesi com als seus continguts. En la utilització o cita de parts de la tesi és obligat indicar el nom de la persona autora. ADVERTENCIA. La consulta de esta tesis queda condicionada a la aceptación de las siguientes condiciones de uso: La difusión de esta tesis por medio del servicio TDR (www.tesisenred.net) ha sido autorizada por los titulares de los derechos de propiedad intelectual únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro ni su difusión y puesta a disposición desde un sitio ajeno al servicio TDR. No se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al resumen de presentación de la tesis como a sus contenidos. En la utilización o cita de partes de la tesis es obligado indicar el nombre de la persona autora. WARNING. On having consulted this thesis you’re accepting the following use conditions: Spreading this thesis by the TDX (www.tesisenxarxa.net) service has been authorized by the titular of the intellectual property rights only for private uses placed in investigation and teaching activities. Reproduction with lucrative aims is not authorized neither its spreading and availability from a site foreign to the TDX service. Introducing its content in a window or frame foreign to the TDX service is not authorized (framing). This rights affect to the presentation summary of the thesis as well as to its contents. In the using or citation of parts of the thesis it’s obliged to indicate the name of the author.
QMtKWMUmn.j^Á^l^íí fiEPEg§§NfAGÌQN PS SATOS mLTlJDXTiSì^SIONAI^S
§h BiHief§8
Memoria pi^^htada para
optar al •ЙШХо de
Doctor en 'M^màticas, por
Antoni АГСЙ1 -Pons
Prof; В.- Carlos M. Cuadras AvellS^à,
Catedra-èÌcò dé Sí§«s.tadística.
I5ni^§iead de Barcelona.
BaFèéloftà^ "fè 4e Febrero de l?gS6
A Q M A D'S .C I K I lE N ©
Quisiera agradecer al Dr. C.Cuadras , director de e,§t#
memoria, sus constantes consejos y orientaciones durante ;ia
realización de la misma. También a los profesores del Dpt;^,4e
Bioestadística su apoyo constante , destacando en especia-I la
inestimable e incansable cooperación del Prof. M.Salicrú
como.la colaboración y supervisión del Dr. J . M . 0 1 1 e r en IQJ^ © £ ,
:pecí;.os. de l=a memoria que tienen relación con su línea de t,r*r •
T.baja.
Me siento también complacido de poder expresar mi grert^
tud al Dr.F.Sales por el estímulo que siempre me ha proporcia,
nada. Asimismo quisiera agradecer al Dr.J.Cascante su interés
y colaboración en la línea que hemos desarrollado conjunta^tf^,
te con D. M.Salicrú.
Agradezco finalmente la supervisión del ejemplo al Dn^I..
Serra del Dpt. de Genética.
A Roser y Xénia dedicarles el trabajo al darle verdadiS
ro sentido al mismo y ser la ayuda fundamental en los momentos,
difíciles.
INDICE
PROLOGO ^
1. REPRESENTACIÓN DE UN CONJUNTO A TRAVÉS DEL ANÁLISIS
MULTIVARIANTE
1.1. Introducción 3
1.2. Principales métodos de representación ^
1.3. Relaciones entre los distintos métodos de representación .... 9
1.4. Objetivos de la memoria
2. SOBRE LOS DISTINTOS MÉTODOS DE REPRESENTACIÓN! DE,.
DATOS MULTIDIMENSIONALES
2.1. Introducción
2.2. Disirailaridades y distancias 1*7
2.3. Propiedades generales del MDS 25
2.4. Representación mediante árboles ultraraétricós 34
2.5. Representación mediante grafos piramidales
2.6. Ventajas de los árboles aditivos frente los ultraraétricós ... 43
3. REPRESENTACIÓN MEDIANTE ARBOLES ADITIVOS
3.1. Introducción 49
3.2. Formalización de P. Buneman 51
3.3. Formalización de la representación de un conjunto asociada
- a una distancia aditiva • 56
3.4. Relaciones con las distancias ultramétricas 82
4. ESTRUCTURA DE VARIEDAD EN EL CONJUNTO DE DISTANCIAS ADITIVAS
4.1. Introducción 89
4.2. Definiciones previas 90
4.3. Estructura del conjunto de distancias aditivas 92
4.4. Determinación de la frontera de la variedad 95
4.5. Estructura del conjunto de distancias ultramétricas dentro
de la variedad 105
4.6. Ajuste por mínimos cuadrados en una carta de la variedad 109
4.7. Representación espacial de distancias aditivas 112
5. INFERENCIA EN ARBOLES ADITIVOS
5.1. Introducción 119
5.2. Modelo probabilistico para el vector de distancias 121
5.3. Contrastes en árboles aditivos 124
6. ALGORITMOS DE CONSTRUCCIÓN DE ARBOLES ADITIVOS
6.1. Introducción 137
6.2. Principales algoritmos 138
6.3. Ejemplo 151
CONCLUSIONES 155
BIBLIOGRAFIA 158
PROLOGO
A raiz de la visita del Dr. F. J. Rohlf el año 1980 en la cual
trató diversos aspectos sobre análisis multivariante con el Dr. C. M.
Cuadras, comentando entre otros el tema de las representaciones mediante
árboles aditivos, el Dr. C M . Cuadras pensó entonces en la posibilidad
de una línea de trabajo basada en el desarrollo de aspectos de modelos
de representación en redes centrándonos en particular en los árboles ul-
tramétricos y árboles aditivos desde una perspectiva del análisis multi
variante. En este sentido, como primer paso realicé una tesina en la
que se formalizaban diversos aspectos de la taxonomía numérica lo cual
supuso lina verdadera motivación para seguir en una línea parecida que ha
desembocado en esta memoria, en la que se ha desarrollado un estudio for
mal sobre la representación utilizando árboles aditivos. La realización
paralela del trabajo "Eigenanalysis and metric multidimensional scaling
on hierarchical structures" por el Dr. C M . Cuadras y las conexiones de
este tema con la línea de trabajo llevada por el Dr. J.M. Oller sobre
Geometría Riemmaniana aplicada al análisis de datos, han sido también un
punto de apoyo muy importante en la realización de este estudio.
Podríamos dividir esta memoria en tres partes: En la primera
parte (cap. 1 y 2) se relaciona la representación por árboles aditivos
con otras técnicas de representación del análisis de datos. En la segun
da parte (cap. 3) se obtiene una formalización de las relaciones entre
árboles aditivos y distancias aditivas. En la tercera parte (cap. 4, 5
y 6) se analiza una estructura en el conjunto de árboles aditivos tratan
do posteriormente sobre inferencia y confección de algoritmos en árboles,
conectando esta parte con los trabajos antes citados.
DEL ANÁLISIS MULTIVARIANTE.
Resumen: En este capítulo se expone el concepto de represen
tación de un conjunto a través del análisis multiva
riante presentando los principales métodos de repre
sentación junto con sus inter-relaciones.
Sumario:
1.1.- Introducción.
1.2.- Principales métodos de representación.
1.3.- Relaciones entre los distintos métodos de representación.
1.4.- Objetivos de la memoria.
INTRODUCCIÓN
En análisis de datos es interesante por lo general, considerar
un modelo que refleje las analogías y diferencias existentes entre los -
elementos de un conjunto. Es también habitual que las proximidades y di
vergencias entre los mismos provengan de la observación de varios carac
teres. Así, en análisis multivariante se estudian métodos que tienen por
objetivo la búsqueda, representación e interpretación de los datos obte
nidos a través de varias variables.
En la mayoría de los estudios aplicados a Biología, Mediciria,-
Psicología, Educación, Agricultura, Economía, ... aparecen una serie de
medidas asociadas a distintas variables relacionadas entre sí. En este -
sentido, Romeder (1973) expone un método de diagnóstico automático de -
dos clases de ictericia a partir del conocimiento de 84 variables; -
Bartiett(1951) relaciona varios factores económicos: consumo, precio, eos
te de producción y renta de los consumidores; Petit Pierre у Cuadras -
(1977) realizan una clasificación sistemática de coleópteros del género
Timarcha a partir de 5 medidas biométricas; en Antropología, es común la
determinación del sexo a través de algunas medidas craneales.
Es evidente que una serie de análisis univariantes tratados -
por separado resultarían del todo inadecuados, pues ignoraríamos las co
rrelaciones entre las variables. Utilizaremos pues, en general, técnicas
de análisis multivariante que ayudan a interpretar las relaciones entre
las variables considerando la mutua información entre las mismas.
Cuadras (1981) establece una clasificación de los métodos más
importantes del análisis multivariante atendiendo a las diferencias e n —
tre las distintas técnicas según se trate de un estudio en una o varias
poblaciones у uno о dos grupos de variables. Así, Análisis de Componen -
tes Principales y Análisis Factorial utilizan una misma población y un -
solo grupo de variables; el primero tiene por objetivo la descripción de
la información contenida en las variables mediante un número reducido de
componentes, mientras el segundo pretende relacionar un conjunto de v a —
riables mediante un modelo lineal. Análisis canónico de poblaciones, -
análisis discriminante y análisis multivariante de la varianza utilizan
varias poblaciones y un solo grupo de variables. Regresión múltiple y -
análisis de correlación canónica utilizan una población y dos grupos de
variables.
Por otro lado, considera las técnicas que a partir de una co
lección, en general, heterogénea de objetos y una disimilaridad definida
sobre ellos tienen por objetivo la representación de los mismos en un
espacio geométrico modelo en el sentido siguiente: Si S = {з-^, ...,s^}
es el conjunto de objetos, б una disimilaridad definida sobre S y -
(X,d) el espacio geométrico modelo, se trata de hallar una función
Ф : (S, 6 ) -(X,d)
de modo que d ( 0(s^), ф(з^)) se aproxime a ) utilizando
algún criterio de ajuste.
Al proceso de búsqueda de tal función es denominado en ge —
neral como el problema de hallar una representación de los objetos de -
un conjunto.
1.2.- PRINCIPALES TÉCNICAS DE REPRESENTACIÓN
Podemos dividir las representaciones en dos grupos según el ti_
po de espacio geométrico modelo: modelos espaciales o continuos y mode—
los de redes o discretos. El objetivo en los primeros es la representa—
ción de cada objeto como las coordenadas de un punto en un espacio eucl_í
deo de modo que las distancias entre los mismos reflejen las relaciones
de proximidad observadas entre ellos, mientras que el objetivo en los mo
délos de redes es la representación de cada objeto mediante un nudo en
un grafo conexo, de modo que las relaciones entre los nudos en el grafo
reflejen la disimilaridad observada.
Las principales técnicas relativas a modelos continuos están
incluidas dentro del Multidimensional Scaling (MDS), definido por De
Leeuw(1982) como aquellos métodos de representación en que X = . Cua
dras (1981) matizando más en la naturaleza de los datos considera dentro
del MDS aquellas técnicas de representación de datos que tienen por obje
tivo la construcción de una configuración de puntos a través de una d e —
terminada información sobre las disimilaridades entre los objetos.
De los modelos de redes que se han formulado cabe citar los si
guientes:
a) Arboles ultramétricos: Se caracterizan por ser X un grafo conexo sin
ciclos con un n^do equidistante a los nudos extremos y d una distancia
ultramétrica.
b) Arboles piramidales: Es un tipo especial de grafo conexo en donde d
es una distancia compatible con un cierto orden definido sobre los obje
tos en el sentido que dados tres puntos la distancia entre los puntos ex
tremos excede a aquellas entre puntos intermedios.
c) Arboles aditivos: En este caso X es un grafo conexo sin ciclos y d es
una distancia verificando el axioma del cuarto punto (Buneman, 1971). Es
te modelo de representación será estudiado en esta memoria bajo los as-—
pectos que citaremos posteriormente.
En el siguiente capítulo se realiza una exposición más detalla
da de estos métodos de representación continuos y discretos.
Ejemplos a partir de datos reales de representaciones mediante
modelos citados anteriormente son:
Brasil •
Canm M i a
• . Israel
.Rrancia . USA
Cuba • Japón
Yugpslavia . . Rusia China .
Figura 1: Representación por MDS de un conjunto de 12 naciones según un
estudio de Wish (197o) y Wish, Deutch, Biener (1972).
а)
0.112 0.135 0.170 0.177 0.229 0.259 0.269 0.296 0.313 0.315 0.341 0.354 0.400 0.444 0.488 0.497 0.581 0.688 0.775
га о
С йО с js •н о с -и о и и э
Q о N
3 л (!) 1-1 XI 0) с •н S S -р с с <и о -Н ь. >
х: •н « ф > ^ г-4 газ.. Q X m
л с о <и Ü и го
га •и с и
•и с о со ю ш х:
с 0) о ^ ХЗ -и 03 г-1
га о о га W 3
и о йО 3 ю •о со
m -р 3 CQ гч 0) га со с
^ х: о 4-) U4 о Сх. Ы
со ф •а Ф cu Ü -н и и Ф Ф S т с •а
га со со со ьо га ti < J о о
Ь)
0.083 0.112 0.157 0.216 0.322
•р о •rt и ф з:
с х: Ф 4J CjO с х:
•н о С -rt о и
га ÍU 3 Q о N
ф л: со га с XJ Ф о
а
Figura 2:
a) Clasificación taxonómica de 20 poblaciones de Drosophila Subobscura
realizada por Salicrú (1983) partiendo de una matriz de distancias ob
tenida por Prevosti (1974) basadas en las frecuencias de las ordenado
nes cromosómicas producidas por inversiones y aplicando el método UPGMA.
b) Se observa como el estrecho de Drover es una barrera genética según
resultados del mismo estudio anterior.
8
c u Ü >o XI c £1 CD e co CO 3 o a O co ti X e <u
•H
s: á >
o o c
o c
•H
o 3 a co u
co
co
Figura 3: Representación meciiante un árbol aditivo de especies de prima
tes basada en técnicas de hibridación del DNA según un estudio de Kohne
et al., 1972.
1.З.- RELACIONES ENTRE LOS DISTINTOS MÉTODOS DE REPRESENTACIÓN
Una de las principales dificultades con que nos encontramos al
obtener una disimilaridad (u otra información relativa ala misma ) sobre
un conjunto de objetos es decidir el tipo de representación, modelos con
tinuos o en redes, que es más apropiado a nuestros datos.Este problema
ha sido discutido por diversos autores (Carroll, 1976), (Tversky, 1977),
(Cunningham,1978) coincidiendo en señalar que datos que se ajusten a una
estructura factorial (en términos de un número reducido de factores) son
preferiblemente representables mediante modelos continuos, mientras que
si se puede pensar intuitivamente en alguna estructura jerárquica o filo
genética poáría tener más sentido una representación mediante modelos de
redes.
En un interesante trabajo, Carroll (1976) concluye en la nece
sidad de que en un futuro próximo se desarrollen modelos que contengan
aspectos continuos y discretos, pues la creciente complejidad de los da
tos en los estudios experimentales así lo van a exigir.
Pruzansky, Tversky y Carroll (1982) realizan un estudio en que
tratan sobre las relaciones entre modelos continuos y en redes desde una
perspectiva empírica. Intentan desarrollar una metodología que ayude a de
cidir el tipo de representación a utilizar cuando se tiene un conjunto
de datos obtenidos a través de una disimilaridad dada sobre el conjunto
de objetos. Como técnica MDS se utiliza el ajuste a un plano mientras
que como modelo en red se utiliza árboles aditivos.
10
En una primera fase, mediante técnicas de simulación se compa
ra el grado de ajuste de conjuntos de datos obtenidos artificialmente a
representaciones en el plano y mediante estructuras de árbol. La genera
ción de datos está basada en la obtención de una distancia a través de
un plano o un árbol (reduciéndola a varianza unidad) sumándole a cada
una de las distancias una componente de error a través de una distribu-
2 2 2 2 2 ción N(0, a ) para distintos valores de a ( a = O, a = 0.25, o = 0.50)
y utilizando muestras de tamaños diferentes (n = 12, 24, 36) obteniendo
11 réplicas para cada condición, con un total de 2x9x 11 = 198 condicio
nes experimentales. A fin de realizar el ajuste a un plano o un árbol u-
tiliza los programas KYST (Krustel et al4973 ) y ADDTREE (Tversky, 1977)
basados en sendos algoritmos de transformación de una distancia a un mo
delo espacial y a un árbol aditivo respectivamente (en capítulos sucesi
vos se comentarán aspectos relativos a estos programas). La comparación
entre la distancia original y la distancia estimada se realiza mediante
el coeficiente de correlación lineal r^ . Las principales conclusiones
a las que se llegan en este estudio son:
a) Los datos surgidos del plano se adaptan mejor utilizando MDS mientras
los datos surgidos del árbol se adaptan mejor a través de modelos de re
des, resultando las correlaciones entre las distancias originales y esti
madas prácticamente idénticas para ambos casos.
b) KYST tiende a adaptar mejor datos surgidos de árbol que ADDTREE d a —
tos surgidos del plano.
En todo caso, a. partir del modelo apropiado se obtiene siempre
una correlación superior.
11
En la figura 4 se
de tamaño 24.
1
0.9
0.8
0.7 •*
•N,
0.6
0.5
0.4
0.3
0.2
0.1
KYST
ADDTREE
Plano Árbol
\
N •
0.25 0.50
Figura 4.
En una simulación parecida perturba la tercera parte (superior
o inferior) de las distancias de la distribución,tomando en este caso 5
réplicas por condición. La conclusión que obtiene es que la perturbación
de pequeñas distancias reduce el ajuste de ADDTREE y la perturbación de
distancias grandes tiene un efecto sensiblemente inferior, mientras que
en KYST parece observarse el resultado contrario.
En consecuencia,el estudio y trabajos citados anteriormente
nos inducen a pensar en la posibilidad de que la distribución de la disi
milaridad observada entre los objetos sirva para poder decidir entre un
modelo espacial o un modelo en árbol.
Sobre el mismo particular, Tversky (1977), llamando vi a la
media del conjunto de distancias y X= J .max { d{x,y); x.yeS } obtte
ne los siguientes resultados:
12
1) Si las distancias provienen de un árbol verificando ciertas condicio
nes de regularidad se cumple: p > X (sesgado a la izquierda ) .
2) En un conjunto convexo y acotado del plano euclideo con la distribu—r
ción uniforme se cumple: p < X (sesgado a la derecha ).
Este análisis sugiere que una configuración convexa de puntos
en un plano tiende- a generar muchas distancias pequeñas y pocas grandes,
mientras en un árbol se produce el fenómeno contrario. Por tanto, esto
parece indicar que el sesgo (momento central de terco? orden stand.)puede ser
una medida para diagnosticar si el conjunto de datos obtenidos es más pro
penso a ser representado por un plano o por un árbol.
En la misma línea Pruzansky et al. (1982) proponen considerar
además otra medida, la elongación, que consiste en la proporción de ter
ñas i,j,k para las cuales si d. . d 4 d.. nos resulta
XJ JK IK
2 d.. ^ d.. + d . La proporción de " triángulos elongados" JK XJ XK
tiende a ser mayor en árboles que en una representación espacial. Así,
en una distancia ultramétrica todas las ternas verifican la condición
anterior por lo que la elongación es 1.
La combinación de ambas medidas puede resultar eficaz a fin
de decidir entre ambos tipos de representaciones. La utilización de
árboles tiende a producir sesgo negativo y mayor proporción de triángu
los elongados, mientras que la representación en un plano conlleva me
nor elongación y sesgo positivo.
Realizan entonces un análisis a través de 20 conjuntos de da
tos reales obtenidos por otros autores que soporta la teoría anterior
13
tal y como se observa en el siguiente gráfico (Fig.5) que resume los re
sultados .
Figura 5: Un círculo indica que la solución KYST da mejor ajuste para el
coeficiente de correlación, mientras un cuadrado indica que ADDTREE pro
porciona mejor ajuste.
También los resultados de este estudio concuerdan con las hipó
tesis de Tversky y Cunningham puesto que conjuntos de datos como vehícu
los, animales, profesiones,... que dejan entrever una estructura jerár—
quica son representados mejor a través de un árbol, mientras que conjun
tos de colores , sonidos, con una estructura factorial clara (por ejem—
pío sonidos en términos de intensidad y frecuencias) son representados
mejor a través de un modelo espacial.
14
1.4.~ OBJETIVOS DE LA MEMORIA
En los apartados anteriores así como en el capítulo II presen
tamos y analizamos los principales resultados relativos a los métodos de
representación de datos como una parte del análisis multivariante. Queda
así centrado el estudio de las representaciones mediante árboles aditi—
vos, objetivo final de esta memoria.
Debido al carácter eminentemente práctico de las técnicas de
representación, la mayor parte de los trabajos realizados (por ejemplo,
el trabajo antes comentado de Pruzansky el al.) están dirigidos a estu—
dios empíricos, como por ejemplo la búsqueda y comparación de algorit—
mos por técnicas de simulación o la adecuación a problemas con datos re
ales. Así resulta necesario un desarrollo teórico paralelo del tema
pues , debido quizás a lo reciente del mismo y al desarrollo informáti
co, ha sido dejado un tanto de lado, siendo escasos los estudios que lo
tratan, destacando en este sentido el trabajo de Buneman (1971).
. Así pues, en esta memoria pretendemos contribuir al estudio
de las representaciones mediante árboles aditivos desarrollando aspec
tos teóricos de los mismos. En primer lugar analizamos las principales
propiedades de los árboles aditivos a través de una formalización pro
pia comparándolo con el estudio de P. Buneman (1971). Después dotamos
al conjunto de distancias aditivas (asociadas a árboles aditivos) de
una estructura matemática adecuada a fin de tratar problemas relativos
a contrastes, algoritmos y representación de distancias rociadas a árbo
les por modelos continuos.
15
DE DATOS MULTIDIMENSIONALES
Resumen: En el presente capítulo se realiza una exposición de las
principales propiedades y características de los métodos
de representación más utilizados.
Sumario:
2.1.- Introducción.
2.2.- Disimilaridades y distancias.
2.3.- Propiedades generales del MDS.
2.4.- Representación mediante árboles ultramétricos.
2.5.- Representación mediante grafos piramidales.
2.6.- Ventajas de los árboles aditivos frente los ultramétricos.
16
En este capítulo se exponen algunos resultados generales sobre
los distintos modelos de representación que son de especial interés para
el posterior desarrollo del tema, sirviéndcros además para presentar de
un modo más detallado los diferentes métodos a que hemos hecho referen
cia en el capítulo anterior.
En la primera parte se analizan las principales propiedades
sobre los distintos tipos de disimilaridades y distancias (singular, mé
trica ,ultramétrica, aditiva) que juegan un papel fundamental en las téc
nicas de representación por árboles, obteniendo así una serie de resulta
dos básicos que utilizamos en el trabajo.
En la segunda parte presentamos detalladamente los distintos
modelos de representación que se han citado en el capítulo anterior
(Ap. 1.3), pretendiendo en este caso incidir tanto en propiedades genera
les propias del modelo que estudiamos como en observar los procediraien—
tos más importantes relativos al mismo.
Finalmente argumentamos las ventajas que supone la utilización
de árboles aditivos frente árboles ultraraétricós. De este modo, pensamos
que queda cubierto un primer objetivo como es reflejar el papel de los
árboles aditivos como métodos de representación del análisis multivarian
te en relación con los demás métodos de representación.
17
2..2.- DISIMILARIDADES Y DISTANCIAS
En este apartado analizamos los principales resultados sobre
disimilaridades y distancias que utilizamos en esta memoria. Es impor
tante resaltar las relaciones entre los distintos tipos de distancias
que introducimos.
Definición 2.1
Dado S un conjunto finito, a una función d: S x s — * - R se
la llama disimilaridad sobre S si verifica las siguientes condiciones:
DI) d(x,y) $i O V x,y e s
D2) d(x,y) = d(y,x) V x,y e S
D3) d(x,x) = 0 V X e S (1)
Definimos a continuación los tipos de disimilaridades que nos
interesa relacionar:
Definición 2.2
Una disimilaridad d es métrica si verifica las condiciones (1)
y la desigualdad triangular
D4) d(x,y) s< d(x,z) + d(z,y) Vx,y,zeS (2)
Una d.ísimilaridad d es ultramétrica si verifica las condicio—
nes (1) y la desigualdad ultramétrica
D5) d(x,y) ^ max {d(x,z), d(y,z) } Vx,y,zs S (3)
18
Si verifica las condiciones (1) y además se cumple la condi—
ción del cuarto punto, es decir
D6) d(x,y) + d(z,t) max { d(x,z) + d(y,t), d(x,t) + d(y,z) } (4)
para todo x,y,z,t e S,. decimos que d es aditiva.
Definición 2.3
Si d es una disimilaridad sobre S que cumple
D7) d(x,y) = 0 si y sólo si x = y (5)
decimos que es una disimilaridad definida.
Es inmediato pues que una disimilaridad métrica definida es
una distancia métrica o distancia sobre S.
De las definiciones anteriores se deducen los siguientes resul
tados:
Proposición 2.1
Si d es una disimilaridad ultramétrica y existen x,y,z de S
tales que
d(x,y) ^ d(x,z) ^ d(y,z)
entonces
d(x,z) = d(y,z) (6)
Demostración:
Al ser d ultramétrica, utilizando las hipótesis
d(y,z) 4 max {d(y,x), d(x,z) } = d(x,z)
con lo que queda demostrado (6).
19
Recíprocamente,si dados cualesquiera tres elementos x, y, z de
S podemos escoger un par (x, y) para el cual
d(x,y) << d(x,z) = d(y,z) (7 )
nos resulta que d es ultramétrica.
Proposición 2.2
Si d es una disimilaridad aditiva y existen x, y, z, t de S
tales que
d(x,y) + d(z,t) d(x,z) + d{y,t) ^ d(x,t) + d(y,z)
entonces
d(x,z) + d(y,t) = d(x,t) + d(y,z) (8)
La demostración es idéntica a la anterioi; utilizando (4).
Recíprocamente,si dados cualesquiera cuatro elementos x,y,z,t
de S podemos escoger dos pares para los cuales
d(x,y) + d(z,t) >$ d(x,z) + d(y,t) = d(x,t) + d(y,z) (9)
es inmediato comprobar que d es aditiva.
Intuitivamente, dada una disimilaridad ultramétrica, el "trian
guio" que forman tres puntos es isósceles. Del mismo modo, dada una disi^
milaridad aditiva y considerando el tetraedro que forman cuatro puntos,
existen dos pares de aristas opuestas cuya suma es la misma.
20
Las relaciones entre los distintos tipos de disimilaridad pue
den resumirse en las siguientes propiedades:
Proposición 2.3
Si d es una disimilaridad ultramétrica entonces es disimilari
dad métrica.
Demostración:
Dados x,y, t de S,
d(x,y) < max { d(x,t), d(y,t)}
de donde se sigue inmediatamente
d(x,y) < d(x,t) + d(y,t)
Proposición 2.4
Si d es una disimilaridad aditiva entonces es también disimila
ridad métrica.
Demostración:
Dados x,y,z e S, a través de la definición 2.2
d(x,y) + d(z,z) max { d(x,z) + d(y,z), d(x,z) + d(y,z) }
y puesto que d(z,z) = O, obtenemos
d(x,y) ^ d(x,z) + d(y,z) para x.y.zes
Proposición 2.5
Si d es disimilaridad ultramétrica entonces es disimilaridad
aditiva.
21
Demostración:
Sean x,y,z,t elementos de S y supongamos que
d(x,y) min {d(x,z), d(x,t), d(y,z), d(y,t), d(z,t) }
Por ser d una disimilaridad ultramétrica se verifica que
d(x,y) « d(x,z) = d{y,z) (10)
y
d(x,y) « d(x,t) = d(y,t) (11)
con lo que
d(x,z) + d(y,t) = d(y,z) + d(x,t) (12)
Por otro lado
d(z,t) max { d(y,z), d(y,t)}
por lo que puede ocurrir que
d(z,t) d(y,z) (13)
ó
d(z,t)< d(y,t) (14)
Si estamos en lá situación (.13), a partir de (11)
d(x,y) + d(z,t) < d(x,t) + d(y,z) = d(x,z) + d(y,t)
Del mismo modo si estamos en (14), a partir de (10)
d(x,y) + d(z,t) « d(x,z) + d(y,t)= d(x,t) + d(y,z)
con lo cual dados cuatro elementos siempre podemos elegir dos pares ta
les que cumplan la condición (4). Así pues, utilizando (9) obtenemos que
d es una disimilaridad aditiva.
A partir de la proposición 2.3 se deduce que una disimilaridad
ultramétrica definida y una disimilaridad aditiva definida son distancias,
y en lo sucesivo para referirnos a ellas las llamaremos distancias ultra-
métricas y distancias aditivas.
22
Cabe resaltar que las proposiciones 2.1, 2.2, 2.4, y 2.5 se cumplen tam
bién para distancias.
Podríamos resumir las proposiciones 2.3, 2.4, y 2.5 en el s i —
guíente cuadro de implicaciones:
^ D4) D5) tr
D6)
Definición 2.4
A una función d: S x S —»-R tal que existe f: S — R de ma
nera que
d(x,x) = • f(x) + f(y) si X 4 y, x,y e S
O si X = y
la llamamos una función singular definida sobre S. Si además d(x,y) > O,
V X , y e S, diremos que d es una disimilaridad-singular.
Proposición 2.6'
Si d es distancia aditiva y d disimilaridad singular entonces s
d + d es una distancia aditiva, s
Demostración:
(a+d|(x,y) + (d;+d|(z,t) != d(x,y) + d(z^(t) f(x)+f(y)+f(z)+f(t)
23
y por ser d aditiva
d(x,y) + d(2,t) max { d(x,z) + d(y,t), d(x,t) + d(y,z) }
de donde
(d+d„)(x,y)+(d+d„)(z,t) ^ max { d(x,z)+d(y,t)+f(x)+f(y)+f(z)+f(t), s s
d(x,t}+d(y,z)+f(x)+f{y)+f(z)+f(t) }
es decir
(d+d )(x,y) + (d+d )(z,t)^ max { (d+d^)(x,t) + (d+d )(y,z) , S o S S
(d+d^)(x,z)+(d+d^)(y,t) } s s
Corolario:
Si d es ultramétrica y d disimilaridad slr®ilar entonces d+d s s
es aditiva.
Proposición 2. 7
Si d es distancia ultramétrica tiene a lo sumo n-1 valores
distintos siendo n el cardinal de S { |S | = n ).
Demostraciones distintas pueden encontrarse en Lerman (1981) y
Arcas (1983).
En Arcas (1983) y Salicrú (1983) se explica como se puede do--
tar al conjunto de disimilaridades y distancias de una estructura de es
pacio métrico; asimismo se explica la conveniencia de utilizar en m u —
24
chos casos una distancia como un vector (gj-dimensional siendo |S| = n
en vez de la notación en forma matricial.
Otro resultado particularmente interesante es:
Proposición 2.8
Si d es distancia ultramétrica y S = {s^^, s } podemos
obtener una ordenación de la matriz (d. .) con d. .= d(s.,s.) asociada
a d en la forma
a) d. . d. . , ij ij+1 d. - . d:\ 1+1 J ij (15)
se deduce
b) V k , de é^^^^ = ... =d^i , , 3 , ^ < d^k.s.2
dj^^^j = * k j P^^^ J k+s+1 siendo s O
que nos permite observar una forma general para las matrices asociadas a
una distancia ultramétrica (Lerman, 1981), (Salicrú, 1983).
Tal como se ha expuesto anteriormente, el objetivo de esta me
moria es el estudio de la representación en modelos de redes. Sin embar
go, es interesante hacer alguna referencia a los modelos espaciales para
no perder la visión de conjunto en el estudio de las técnicas de repre—
sentación. Así en el apartado siguiente damos una relación de los resul
tados fundamentales de MDS.
25
2.3.-PROPIEDADES GENERALES DEL MDS
Como hemos expuesto en el capítulo I, MultldimensiSnal Scaling
(MDS) es un término general para un conjunto de métodos que tienen por
objetivo la búsqueda de una configuración de puntos para representar un
conjunto en un espacio R^ a partir de una disimilaridad definida s o —
bre el mismo. Nos propondremos en este apartado analizar algunas de las
principales técnicas MDS.
2.З.1.- Modelo MDS para una distancia euclidea
Dado ( S, 5 ) siendo S un conjunto de objetos y 5 una disi
milaridad definida sobre S, si existe
Ф : ( S , 6 ) ^ . ( R P , II I I )
siendo II II la norma euclidea, de modo que
I I Ф (x) - Ф (y ) I I = « (x .y)
decimos que б es una distancia euclidea y obtenemos en este caso una
solución MDS en R^ que reproduce exactamente la disimilaridad i n i —
cial.
Así pues, el problema principal radica en conocer las condi—
clones que debe verificar una distancia (Por notación <5(s^,Sj))
para ser euclidea, pudiendo citarse en este sentido los siguientes r e —
sultados.
26
Teorema 2.1
Sea ( 5^^) una distancia sobre el conjunto de objetos S con
n elementos. Si consideramos las matrices H y A definidas como
h. . = 1 - 1/n
- 1/n
si 1 = J
si i ^ j
^ j = 2
B = H.A.H
se verifica que 5 es euclidea si y sólo si B es semidefinida positi
va.
Así pues, si diagonali2amos B tenemos
B = T.D .T'
con T matriz ortogonal y D matriz diagonal formada por los valores
propios en la diagonal principal y ceros en el resto, obteniéndose
B = X . X'
siendo X una matriz n x p, p el número de valores propios distintos
de cero y representando las filas las coordenadas de los n puntos en
. Estas coordenadas reciben el nombre de "coordenadas principales".
27
Teorema 2.2
A = { - '4. r ) y e' = ( 1 1)
se verifica que 6 es euclidea si y sólo si se verifica:
V s s R tal que s'.e = 1
s'.A 5 O B = (I - es').A.(I - se') s es semidefinida positiva (16)
La demostración de este teorema (Gower, 1982 ) nos conduce a interesan
tes propiedades de la configuración. En este sentido si Y es una m a —
triz que nos define una configuración euclidea en S
m
Z k=l
^ ^ik - ^jk i. j 6 {1,.. , n}
y consideramos una traslación de la forma
Z = Y - e .Sr'.Y
verificándose
s'.e = 1
s'.A / O
Dado S conjunto finito de cardinal igual a n y ^ una
disimilaridad definida sobre S , si consideramos
28
La matriz de productos escalares B = Z.Z* i^. = b. . + b . . - 2b. . ) ij 11 JJ iJ
es igual a B , s
B = B = (I - es').A.(I - se') s
Observamos que esta propiedad es independiente de la configuración de
puntos Y que disponemos de entrada. Esto permite estudiar algunas cues—
tienes geométricas, como es el hecho de poder conseguir una traslación
de modo que el origen de coordenadas verificara ser algún punto especial.
En este sentido se pueden demostrar los siguientes resultados:
a) Si s' = (O,..,0,1,0,..,0) tenemos que el origen de coordenadas
es (coordenadas del i-ésimo punto).
b) Si s' = (l/n,..,l/n) el origen de coordenadas es el baricentro de
la configuración. Así, en el caso de representación geométrica utilizan
do coordenadas principales tenemos como una característica; geométrica de
la representación que el origen de coordenadas es justamente el baricen
tro.
c) Si existe A ^ para s =• — — - — .A " .e el origen de coordena-e'D" e
das es ei circuncentro de xa configuración, con lo cual el radio de la -1 y
hiperesfera en que estarían situados los puntos sería r = (1/ e'.A .e) ^
Teorema 2.3 6 se puede representar en si cualesquiera p+3 puntos
de S se pueden representar-en R^ (De Leeuw,1982).
29
2.3.2.- Caso no euclideo
Método de las coordenadas principales (Torgersson, 1952, 1958)
Es el método más clásico del MDS. Si ( 5^^) no es euclidea
y la matriz В asociada tiene por valores propios
X, 5- X_ > .. . 5 > O ^ X^ 5- x„ 1 2 s s+2 n
tomamos la matriz X de orden n x s de modo que las columnas están
formadas por los vectores propios de valores propios X ...., X X s
normalizados y consideramos
• I В = X.X
* 2 que será semidefinida positiva de rango s , minimizando D=traz(B-B )
•jipara la matriz B fijada y B semidefinida positiva, según resultado
general de Eckart y Young(1936). Se verifica que para B = X .X , 2 2 , , D = +...+ ^ y para una representación en dimension m < s s+2 n
el mínimo es
s 2 n 2
i=m+l k=s+2
valor que se puede considerar como una medida de distorsión.
Método_de Shepard U962)
Shepard (1962) desarrolló la idea de la construcción de solu
ciones de modo que la representación euclidea de los objetos respeten
30
las relaciones de orden en el vector de distancias observado. Es decir, si
consideramos la preordenación en S x S
(i,j)< (i'.j-) ^ <
la solución MDS ( j) ss aconsejable que respete dicha preordenación de
una forma exacta o aproximada.
El método de Shepard constituye el primer algoritmo MDS no mé
trico y de este modo fue el primero en mostrar como soluciones métricas se
podían obtener a partir de datos ordinales. El método empieza suponiendo
los n objetos como vértices de un simplex n-1 dimensional , y en una
primera fase deforma el mismo en base a hacer crecer las distancias gran
des y decrecer las pequeñas. En una segunda fase se proyecta el poliedro
resultante en un espacio con el número de dimensiones deseado y mediante
un proceso iterativo se pretenden ajustar los datos iniciales con las dis
tancias espaciales resultantes. El proceso consiste en construir para cada
punto n-1 vectores con dirección los demás puntos , sentido distinto
según la distancia sea mayor o menor que la observada y magnitud propor
cional al desajuste, moviendo el punto en la dirección de la resultante
de los n-1 puntos una distancia proporcional a la magnitud; se reitera el
proceso hasta llegar al equilibrio. Podemos ver en Kruskal (1977) la com
probación de la convergencia del método.
Transformaciones monótonas
Existen algunos métodos basados en la transformación de la ma
triz de disimilaridad por una función monótona de modo que nos resulte una
distancia euclidea.
Como resultados interesantes en este sentido cabría citar los
siguientes:
31
Teorema 2.4
Si 5 no es euclidea, existe una constante « tal que.
Íj = V^ij ^ ^^^^
siendo los déltas' der-Ktonecker, es una distancia euclidea pu-
diendo inducirse en un espacio eucídeo de dimensión n-2.
Una demostración del teorema sirvió'a Lingoes(1971)para obtener
una solución MDS que realizaba exactamente la preordenación sobre el
conjunto de disimilaridades inicial, considerando como constante a él
doble del valor absoluto del menor valor propio de la matriz B.
Sin embargo,existe el problema del aumento de la distorsión D
al disminuir la dimensión. En el caso de la solución de Lingoes la d i s —
torsión es
D = ( n - 1 ).x^
y en dimensión reducida tomando las m primeras coordenadas
i>-2 D = X! + (m+1). X n i=m+l
(Cuadras, 1981)
Mardia (1978) utilizando la misma idea propone una solución a
fin de disminuir la distorsión. Puede adaptarse a una dimensión inferior
esta solución, aunque a costa de que la solución no respete exactamente
la preordenación inicial.
32
Otros métodos parecidos pueden verse en Cooper (1972) y Cailli_
ez (1983).
No está resuelto el problema del cálculo de una función f tal
que f( 5 ^j) sea euclidea en dimensión mínima.
Método de KruskajL
Según De Lee uw{ 1982) uno de los principales efectos que pro
dujeron los trabajos de Shepard fue el interés que Joseph Krúskal dedi
có al MDS en un afán de mejorar los primeros. Realizó una mejora de
los procedimientos de Shepard siguiendo sus mismas ideas. En este senti_
do se introduce":
a) La noción de optimización de una medida de ajuste explícitamente de
finida.
b) Utilización de un procedimiento numérico.
La idea general del método consiste en ajustar una distancia
euclidea d. . a la transformación f( 6 ..) = d. . donde f es una
función monótona tal que la medida de ajuste que la llama STRESS
2
A = (18)
sea mínima.
33
Al no conocerse una soluciónexacta al problema, este ha sido
tratado por métodos numéricos. Así, Kruskal propone como algoritmo ge
neral el siguiente: partir de una configuración euclidea inicial obte
nida de alguna forma (por ejemplo, coordenadas principales) en una di
mensión determinada, obteniendo una transformación monótona de la m a —
triz de distancias inicial que minimice el STRESS (Regresión monótona).
De este modo volvemos a obtener una configuración euclidea asociada a
la minimización anterior, siguiendo el proceso iterativo hasta que la
función converge a un mínimo (que puede ser local).
El algoritmo de Kruskal fue originalmente implementado en un
programa llamado MDSCAL. Recientemente algunas características de
otros programas llamados TORSCA se combinaron con MDSCAL para produ
cir un programa llamado KYST (el nombre está constituido por las ini
cíales de los 4 principales contribuidores a la teoría del MDS, Krus
kal, Young, Shepard, Torgersen).
Otros procedimientos MDS basados en ideas parecidas con el
nombre general de Smallest Space Analysis (SSA) fueron independiente^—
mente desarrollados por Guttman and Lingoes. Una comparación de SSA
con ADDTREE puede verse en Tversky (1977).
Un problema abierto muy importante es decidir el número de
dimensiones apropiado. Algunos criterios en este sentido son desarro—
liados en Wagenaar & Padmos (1971), Tuckey (1977), Kruskal y Wish (1978).
34
Tal y corno hemos comentado anteriormente las principales técni
cas de representación mediante modelos de redes son: árboles aditivos,
árboles ultramétricos y grafos piramidales. Puesto que esta memoria tra
ta en profundidad la representación mediante árboles aditivos, tratare—
mos en los siguientes apartados sobre las principales propiedades relati
vas a árboles ultramétricos y grafos piramidales.
2_^4.j-_REPRESENTACI0N_MEDIANTE_
La idea general es la deformación de la disimilaridad dada so
bre el conjunto de objetos hasta conseguir una distancia ultramétrica
que se ajuste a la primera desde algún punto de vista. Estas técnicas se
conocen con el nombre de taxonomía numérica.
Definición 2.9
Dado S conjunto finito, un par (J,i) siendo J C P(S) e
i : J »R^
diremos que es una jerarquía indexada si cumple las siguientes condicio
nes :
a) Si A,B e J entonces A O H €{A,B,0 }
b) Si A e J entonces U { C | C e j , C G A y e { A , 0 } (ig)
c) i( { s } ) = O si { s } e J
d) Si A C B entonces i(A) <: i(B)
35
La obtención de una distancia ultramétrica d^ sobre el con—
junto de objetos equivale" a la obtención de una jerarqáa indexada de
partes (J,i) sobre los mismos (Cuadras, 1981) que queda definida como
el conjunto de partes de S verificando la siguiente condición: Un sub
conjunto A de S pertenece a la jerarquía si y sólo si
1 г e R I V x,y e A , d^ (x,y) ^ r (20)
siendo el valor del índice de la jerarquía para el conjunto A el ínfi
mo de los valores reales r que verifican la condición anterior.
Para todo r podemos considerar la relación
X R y «» dy(x,y) < r
que es una relación de equivalencia por ser d^ una distancia ultramé—
trica,obteniéndose pues una partición del conjunto S para cada nivel r.
Así pues, la representación natural asociada a una jerarquía
indexada es un dendograma que puede interpretarse como un grafo simple -
.mente conexo sin ciclos con un nudo interno equidistante de los extre
mos (fig.l)
El concepto de jerarquía indexada es equivalente al de clasifi
cación jerárquica en el sentido de considerarla como una función
i|, : R -» P
siendo P el conjunto de particiones de S , verificando las siguientes
36
condiciones:
1) 'i'CO) 3 { ís } ,....{ s } } Vs.e S
2) Si r < r' entonces (r) c f (r') (más fina) (21)
3) 3r S R"* tal que i> (r) = S
Puede formalizarse la taxonomía numérica a través de la
utilización de clasificaciones jerárquicas (Arcas,1983). Podemos obser
var como la taxonomía numérica tendría por objetivo la construcción de
una colección de clases naturales que podría interpretarse en un sentido
evolutivo y utilizarse para la formación de clasificaciones razonables
de los objetos.
Ejemplos de la utilización práctica de este método pueden ver
se en Sokal (1963), Cuadras (1981), Salicrú (1983) etc.. El proceso de
deformación de la disimilaridad inicial puede venir dado de muy diversas
maneras. Un procedimiento general viene dado a través de lo que se cono
ce como algoritmo fundamental de clasificaciones jerárquicas que puede
describirse mediante la siguiente recurrencia (Arcas y Salicrú, 1984):
Si 1^ = min { 6 (s^, s .) I s^ ?¿ , s^, Sj € S} = 6 ( S ^ Q , S J Q )
es la mínima distancia entre los elementos de S , definimos
= { í^l} {^ÍQ} U { S J Q } '•••» { % }
3 y consideramos una función f^; R — • - R de forma que
37
f^( « ( S Ì Q . S . Q ) , 6(S.Q.SJ^). 6 ( S . Q . S ^ ) ) ^ 1^
A Ф(1^^} le asociamos la disimilaridad definida some sigue:
\( {s.} , {Sj} ) = 6(s^,Sj) si { Si.Sj} n {Sio'SjQ} = 0,
\ ^ i^iO> ^^jO> ' V ^ ^^^iO'^jO^' ^(^iO'^k^'^ ^^jO'\^^^ Ч
de forma que la distancia entre los elementos que no se han juntado se
mantiene invariante y la que separa la clase formada por los dos elemen
tos que se han juntado con un tercer elemento viene determinada por la
función f^. Podemos pasar entonces del par (S , 6 ) al par ( 1р(1^), 6^)
y de forma análoga a f(l_),..., ф(1 ) considerando sucesivamente fun-
cienes f ,...,f . Podemos entonces construir la clasificación jerár-
quica Ф en la forma
a) Ф( a) = 4 (1 ,) si a € [ l 1 ) ra-1 ^ m-1 m
b) 1í(,o) = {{Sj_} ,..,{s^}} si , 1^^ O y a6[0,lj_)
c) ф ( а ) = { S } si a ^ l s
Veamos algunos procedimientos que pueden ser construidos a tra
vés de este proceso.
38
Método del mínimo (máximo) (Johnson, 1967)
Se considera
f (a S Y ) = min { B, Y } (max « ,Y 1 ) (22) n
de este modo, si
* ( y = iA^,...,A^}
1 , = 5 (A._,A.-) mínimo valor para 5 m+l m lO' jO ^ m
resulta
= í A ^ . . . . . A . Q U AjQ,....Aj^}
verificándose que
( max { 5„(Aio.Aj^),S jA.Q.Aj^) ) (23)
Ul (^'^j ) = ^m^^i'^j^ si (i,j}n{iO,jO} = 0
La idea geométrica consiste en la deformación de un triángulo
hasta obtener dos lados iguales que coincidan con el menor ( mayor) de
los lados que no son base.
3 9
Método_UPGMA (Sokal y Michener, 1 9 5 8 )
Si ^ ( 1 ) = { A, A. } m 1. K
y 1 , = 6(A.„,A.^) mínimo valor para 6 , resulta que m+1 m lO jO m
*^^m+l ) = Í A ^ . . . . . A . Q U A.Q A^)
verificándose que <S inducirá 6 ^ de la forma: m m+ 1
N. N. 6 , ( A . „ U A . ^ . A , ) = -—. 6 ( A . - , A , ) + ^ — . 6 ( A . ^ . A , ) ( 2 4 ) m+1 10 jO' ^ m' lO' k m jO' k
i j i j
siendo ^i = l^io' y = l^-o'
La idea geométrica es la deformación de un triángulo hasta obte
ner dos lados iguales que coinciden con la media de los lados mayores
ponderada respecto los cardinales de las clases.
Este método tiene importantes propiedades relativas al coefi
cíente de correlación cofenética (medida de ajuste entre la disimilari—
dad inicial y la ultramétrica), tal y como se puede observar en Earris
( 1 9 6 9 ) y Arcas ( 1 9 8 3 ) . También es el método más utilizado en las aplica
ciones prácticas. Ejemplos de estas aplicaciones las tenemos en Dallot
( 1 9 7 2 ) , Ríos ( 1 9 8 5 ) .
Otros resultados referentes a: la obtención de la disimilari
dad 0^ en términos de 6 , la continuidad de los métodos expuestos,
la distancia que separa dos ultramétricas asociadas a la misma disimi
laridad inicial pueden verse en Arcas y Salicrú ( 1 9 8 4 ) .
40
Otros métoáos jerárquicos interesantes son: de la media
(Sokal y Michener, 1958), de la mediana (Gower, 1967), del centroide
(Sokal y Michener,1958). También han sido estudiados métodos de deforma
ción basados en otros puntos de vista. Cabría citar por ejemplo los meto
dos В ,B^ y D (Jardine & Sibson, 1971), (Matula, 1977); métodos de ti-
po iterativo no jerárquico como puede ser ISOBATA (Hall & Hall, 1967),
k-medias.
Un problema abierto muy interesante en taxonomía numérica es
la determinación del número de clases realmente significativas. No se ha
llegado a resultados muy concretos en este sentido, aunque algunas técni
cas se han desarrollado para resolver este problema. Cabría citar los
trabajos de Rohlf (1970), Anderson (1985), Hubert & Arabie (1985).
2j.S_Z_5 I£5 I I I ! Í l : Í^CION_P0R_GRAF0S_PIRAMIDAL
La representación mediante grafos piramidales es una ertei*—
sión de los métodos de taxonomía numérica. Es una técnica desarrollada
recientemente por Bertrand & Diday (1985) que parte de un conjunto S de
objetos, un orden fijado sobre el mismo y una disimilaridad 5 ^ la
cual está basada en la deformación de dicha disimilaridad observada so
bre el conjunto de objetos hasta obtener una distancia d que conserve
el orden en el siguiente sentido:
Si s, ^ s ^ s„ entonces X ¿ o
d(s^,Sg) >, d(s^,S2)
d(s ,s ) > d(s„,s ) - ^ (25)
41
Definición 2.10
1) S e P
2) V Ù5 e S, {ü)} € P
3) V {A,B} C P , A n B = : 0 ó A H B e p
4) Existe un orden compatible con P
(26)
5) 3 f: P > B* tal que
a) f(p) = 0 si p tiene un solo elemento,
b) y p,p'e P, P c P' =» f(p) « f(p')
A la representación la llamaremos grafo piramidal indexado.
Una disimilaridad definida que cumple (25) se la denomina índi_
ce piramidal.Podemos observar que si d es ultramétrica existe una orde
nación de los elementos tal que d conserva este orden.
Definición 2.11
Dado un orden sobre S, diremos que una parte C es conexa si
el conjunto formado por todos los elementos entre cualesquiera dos de C
es de C. Así, un orden es compatible con un conjunto PCP(S) si cada
elemento de P es conexo con respecto al mismo.
Definición 2.12
Dado S conjunto y P c P(S), P será una pirámide si:
42
Definición 2.13
Dados p,p' G P diremos que p' es un predecesor de p si
p C p' y no existe ningún p" tal que p c p" C p' . Los
principales resultados que se obtienen son:
Proposición 2.9
El conjunto de jerarquías indexadas está incluido dentro de
las pirámides.
Proposición 2.10
Cada elemento de P no tiene más de 2 predecesores.
Proposición 2.11
Existe una biyección entre los índices piramidales y los gra
fos piramidales indexados ( i.e. pirámides).
Por ejemplo si d es una disimilaridad con matriz asociada
4 4
O 2
O
43
1 2
Figura 2.- Representación gráfica de una pirámide.
La representación mediante árboles ultraraétricos produce en ge
neral restricciones: muy- importantes .tales como: a), la distancia ultramé—
trica entre elementos de dos clases distintas a cualquier nivel debe ser
la misma, b) Distancias entre elementos de una misma clase no puede supe
rar la distancia entre elementos de esta y cualquier otra.
Estas restricciones no se dan en árboles aditivos, con lo cual
la representación se puede adaptar de una forma sustancialmente mejor a
los datos originales, pudiéndose por otro lado interpretar más fácilmente
el árbol resultante. Por ejemplo, Salicrú (1983) en un estudio sobre la
distribución de Drosophila Subobscura demuestra que las barreras geografi
podemos representarla mediante la ."pirámide" (ver fig.2)
{ {1}, {2}, {3}, {4}, {2,3}, {1,2,3}, {3,4}, {1,2,3,4} }
con
f({2,3}) = 2; f({l,2,3}) = 4; f(í3,4})=3 y f(íl,2,3,4}) = 5
44
cas son barreras genéticas, tomando como distancia genética
(Prevosti, 1974).
s . 1 ^
S(a,b) =
s .
2^ j=i h=i •Pajh - Pbjhl (27)
siendo:
r = número de cromosomas distintos.
s . = número de ordenaciones distintas en el cromosoma j. J
Pajh
Pbjh
proporción de la ordenaciói del cromosoma j en la población a.
idem, en la población b.
En este sentido, si intentamos probar que el estrecho de Drover
es una barrera genética, se consideran las poblaciones de Heriot (H),
Dalkeith (D), Groningen (G), Viena (V), Zurich (Z), Drobak (Dr) que tie
nen por matriz de disimilaridades asociadas
H
D
G
V
Z
Dr
D G V Z Dr
.083 0.290 0.399 0.331 0.307
0 0.276 0.370 0.3 0.307
0 0.187 0.112 0.152
0 0.128 0.260
0 0.235
O (28)
45
utilizando el método UPGMA se obtiene la clasificación jerárquica
0.322
0.216
0.157
0.112 0.083
(29)
Н D G Z V Dr
Figura 3
a partir de la cual se justifica la hipótesis que se formulaba. Sin e m
bargo, observamos que la distancia ultramétrica u de la población Dr a
a las poblaciones de G,Z y V es la misma:
u(Dr, G) = u(Dr,Z) = u(Dr, V) = 0.216
lo cual no está excesivamente de acuerdo con los datos obtenidos a tras
vés de íS , puesto que
5(Dr,G) = 0.152
<s(Dr,Z) = 0.235
5(Dr,V) = 0.26 (30)
siendo la primera sensiblemente distinta a las otras dos. Por otro lado»
46
la distancia observada entre Groningen y Viena es mayor que aquella en
tre Drobak y Groningen, y sin embargo para la ultramétrica resultante
u(G, V) = 0.157
u(G, Dr) = 0.216
observando aquí un aspecto contradictorio entre la disimilaridad inicial
y la distancia ultramétrica obtenida.
Estos problemas surgen por las restricciones propias de las
distancias ultramétricas descritas en a) y b ) .
Por otro lado el coeficiente de correlación entre la disimila
ridad inicial y la estimada es 0.91778.
Utilizando árboles aditivos, mediante el algoritmo introducido
por Tversky (1977) obtenemos la representación:
Figura 4
47
Los problemas descritos anteriormente quedan resueltos pues si
d es la distancia aditiva resultante:
d(Dr, G) = 0.164
d(Dr, Z) = 0.211
d(Dr, V) = 0.270
lo que está muy de acuerdo con los datos .(30).
Además
d(Dr, G) = 0.164
d( G, V) = 0.179
y observamos como en un árbol aditivo la distancia entre elementos de
una clase puede siperar la distancia entre elementos de esta clase y e x —
ternes a la misma.
Además el coeficiente de correlación al cuadrado entre d y 6
es 0.9996, lo que supone una mejora sustancial del mismo.
Así, hemos podido observar las importantes ventajas que pueden
suponer los árboles aditivos frente los árboles ultramétricos.
Cabe por último señalar que los árboles aditivos se podrían
considerar como un paso intermedio entre los clásicos métodos de MDS y
la representación por medio de dendogramas puesto que siendo propiamente
representaciones en árbol, no están sometidos a las restricciones ultra-
métricas .
48
3. REPRESENTACIÓN MEDIANTE ARBOLES ADITIVOS.
Resumen: En el presente capítulo se desarrolla una formalización
de la representación asociada a un conjunto sobre el
que tenemos definida una distancia que verifica el axio
ma del cuarto punto.
Sumario:
3.1 - Introducción.
3.2 - Formalización de P. Buneman.
3.3 - Formalización de la representación de un conjunto asociada a
una distancia aditiva.
3.4 - Relaciones con las distancias ultramétricas.
49
3.1.- INTRODUCCIÓN
El objetivo que nos proponemos en este capítulo es el estudio
específico de la representación de un conjunto de objetos mediante ár
boles. Para ello estudiamos la relación existente entre una distancia
verificando el axioma del 4^ punto (distancia aditiva)
V x,y,z,t G S
d(x,y) + d(z,t)< max {d(x,z) + d(y,t), d(x,t) + d(y,z)} (1)
y su representación asociada (árbol aditivo) que intuitivamente lo enten
deremos como cierto tipo de grafo conexo sin ciclos.
También observamos las relaciones existentes entre las distan
cias aditivas y las distancias ultramétricas a través de sus representa
ciones asociadas (árboles aditivos, dendogramas respectivamente) vistas
desde la perspectiva de la teoría de grafos. Dejamos para otros capítu—
los su estudio desde otros puntos de vista.
Hemos dividido el capítulo en dos partes. En la primera trata
mos la relación entre una distancia aditiva y su representación, mien
tras que la segunda se centra en el estudio de las relaciones entre árbo
les aditivos y dendogramas, obteniendo conclusiones sobre las distancias
asociadas.
Buneman (1971) advierte del problema que surge al querer utili^
zar los árboles aditivos desde un punto de vista eminentemente práctico,
en el sentido de situar el interés en la búsqueda de algoritmos más o
50
menos eficaces para lograr árboles que representen mejor a alguna disimi
laridad que tengamos dada de entrada. Así pues, centra su estudio en una
nueva definición del concepto de árbol que se podría considerar como una
caracterización de las relaciones que imponen los nudos y aristas con
respecto los elementos del conjunto, dando un método a fin de asociar
una distancia sobre el árbol. Describe un algoritmo mediante el cual a —
signa un árbol aditivo, entendido como el par formado por el árbol y una
distancia definida sobre el mismo, a una disimilaridad dada sobre el con
junto a representar de forma que la distancia sobre el árbol coincide
con la disimilaridad inicial si y sólo si es aditiva.
El problema básico de esta formalización estriba en el aleja—
miento de unos planteamientos intuitivos si pensamos únicamente en la re
lación distancia aditiva-árbol aditivo, pues en este estudio dicha rela
ción no se plantea como un objetivo en sí, ya que el mismo es el planteo
del algoritmo con unas propiedades teóricas interesantes (continuidad,
unicidad) en un sentido parecido a como podemos observar el método del
mínimo (Johnson, 1967) para representaciones de distancias ultramétricas
(Jardine & Sibson, 1971). Dado,sin embargo, el interés de esta formaliza
ción, muy citada en trabajos posteriores (Cunningham, 1978; Tversky,1977;
Waterman, 1977, etc) ofrecemos una síntesis de la misma en el presente
capítulo.
En líneas generales estudiamos los árboles aditivos desde el
punto de vista de su representación como grafo, y no atendiendo tanto a
las- relaciones que sus elementos (nudos, aristas) producen sobre los ele
mentes del conjunto. Con este planteamiento se podrán tratar cuestiones
relativas a la forma del grafo de interés:para el estudio y análisis de
la representación . Siguiendo esta misma línea se tratan las relaciones
entre las distancias aditivas y distancias ultramétricas.
51
3_^2_-_F0RMALIZACI0N_DE_P_^_BUNEMAN
Tal у como se ha indicado anteriormente comenzaremos con un pe
queño repaso al interesante estudio de P. Buneman (1971) que en una de
sus partes caracteriza la representación de una distancia aditiva.
Inicialmente se trata de caracterizar un árbol por un procedi
miento conjuntista basado en las relaciones que imponen sus aristas y a
partir de dichas relaciones definir el concepto de nudo y distancia s o —
bre el árbol obtarLendo seguidamente propiedades interesantes sobre la re
presentación del mismo.
Si S es el conjunto a representar, se define:
Definición 3.1
(7 es una división de S si y sólo si a = {^1'^2^
P^ и P^ = S y P^ П = 0 (2)
En este sentido dos elementos de S tales que pertenezcan a conjuntos
distintos de una división se llamarán elementos separados por a .
Definición 3.2
Dadas dos divisiones de S, diremos que son compatibles si algu
na de las cuatro intersecciones entre los conjuntos que las forman es va
cía.
Es fácil observar la relación existente entre el concepto de
división y el de arista. También, y bajo este punto de vista, divisiones
asociadas a dos aristas de un árbol serían compatibles. Define entonces
el concepto de árbol.
52
Definición 3.3
A ={a^,...,a^} (3)
Intuitivamente, un árbol queda dividido en dos partes por una arista, de
forma que un nudo pertenece solo a una de las partes.
En este sentido, y formalizando este concepto, se define un nu
do como
Definición 3.4
1 2
N es un nudo del árbol A = {a,, — ,a } con a, = {P, ,P, }
e ij e {1,2 } si
de modo que
^ ^k
(4)
1, 1 .
Pj^ n P_.J ^ 0 si k 5¿ j
Un árbol asociado a S es un conjunto de divisiones de S dos
a dos compatibles
53
Definición 3.5
Dado el árbol A = í'^i*' •' '^j^^ ^® dice que los nudos N^y
están conectados por si son de la forma
X 1 Ц = {P/,...,PJ" } I I m
h Jm N„ = ÍP/,....P^'" } (5) 2 '• 1 m
con i^ = para s 4 ^ e
Tiene entonces sentido hablar'de camino como un conjunto de nu
dos conectados. Podemos también hablar de nudo terminal como aquel nudo
que sólo admite una conexión.
Se demuestra que dos nudos de un árbol siempre están conecta—
dos por un camino. Asimismo se demuestran otras propiedades de los árbo
les.
Hasta aquí está caracterizado el árbol en cuanto a su "forma".
Es evidente que el estudio formal en sí, planteado de esta manera, se
aleja del verdadero sentido intuitivo si bien el pensar en la identifi
cación entre división y arista puede clarificar en gran medida su inter
pretación.
Ahora se trata de definir una distancia sobre el conjunto S a
través de un árbol asociado al mismo.
54
Definición 3.6
A es una distancia definida sobre S asociada al árbol
A = ''' si y sólo si
aeA
siendo OL ,... A números reales y 6 la pseudométrica definida como T. m a
6 (x,y) = a
1 si x,y E S están separados por a
O si x,y G S no están separados por a
A partir de este momento el problema queda centrado en la bús
queda de un árbol dotado de una distancia definida como 3.6, asociado a
una disimilaridad d dada sobre el conjunto S. Para ello, si
es una división cualesquiera de S, se define
u = Уг .min{d(x,z) + d (y , t ) - d(x,y) - d(z ,t) } (7)
siendo x ,y e P^ y z , t 6 P^
que intuitivamente, dada la configuración del árbol, sería justamente la
longitud de la arista que representa a si la distancia real del árbol
fuera d.
55
De este modo se considera el conjunto de divisiones
= { a|p^> 0 } (8)
el cual resulta ser un árbol.
A partir de dicho árbol se define la distancia
^ d = Z ^o-'a
obteniendo el algoritmo mediante el cual a cualquier disimilaridad d se
le hace corresponder la representación con árbol A^ y distancia asocia
da A,, d Se demuestra que dicha representación es única y además verifi
ca
á , d (10) d
llegándose entonces a
Proposición 3.1
= d si y sólo si d verifica la condición del 42 punto.
Con esta proposición queda demostrado que la representación natural aso
ciada a un conjunto sobre el que tenemos definida una.distancia verifi
cando la condición del 4a punto es un árbol definido según 3.3 con una
distancia asociada en el sentido 3.6.
56
3_^-_F O RM A LIZ A CIO N_D E _ L A_R E P R E S
áM°£ iá£A_A_UNA_DISTANCIA_ADITIVA
En este apartado analizamos la representación de un conjunto
de un modo distinto a la formalización anterior. Las diferencias funda
mentales entre ambos estudios radican en la definición de árbol y en
el objetivo pretendido, puesto que si bien P. Buneman intenta lograr
un algoritmo de interés teórico, en nuestro estudio se analizan las re
laciones entre las distancias y representaciones como finalidad en sí,
cuidando de obtener una formalización que respete las nociones intuiti
vas sin perder el rigor necesario.
Comenzaremos definiendo el concepto de representación asocia
da a un conjunto.
Si S es el conjunto de objetos a representar, d una distan
eia definida sobre S y R otro conjunto finito tal que S n R = 0 ,
consideramos el conjunto U = S U R al que llamamos conjunto de nudos
y la existencia de C u x U verificando las siguientes condicio—
nes:
Rl.- G^ grafo conexo sin ciclos (Bergé, 1973)
R2.- Si (x,y) e G^ entonces (y,x) e G^
R3.- Si (x,y) G G^ y (x,z) í G^ Vz G U I z? y
entonces x G S.
57
Supongamos además dada d* distancia sobre U tal que
verifique:
m-1 R4.- d * (x,y) = mini d * ( x ^ , x ^ ^ ^ ) | x ^ = x , x^=y, Cx ,x _ j ) G }
i=l para 1=1,..,m-l
R5.- d* = d IS
Definición 3.7
Diremos que (G^,d*) es una representación asociada al par {S,d)
Definición 3.8
Dado un grafo G^ verificando las propiedades R1,R2,R3,R4 di
remos que es una representación asociada a S.
Definición 3.9
Un camino que une dos elementos x e y de ü es un conjunto C
de la forma
C = í ( x , U j ^ ) , (u^,U2), (u^,y); de modo que ( x,u^), » (\'y) \ para i=l,..,m-l }
(11)
58
Definición 3.10
Dado X e U que cumple
1) 3 u e U con (x,u) 6
2) Vz e U z ?í u (x,z) í G^ (12)
diremos que es un nudo terminal,
Definición 3.11
Diremos que una representación (G^,d*) asociada a (S,d) es
un árbol aditivo de tipo 1 si se verifican las siguientes condiciones:
2
AD 1.-- 3 ({) : U inyectiva
Para (x,y) e G^, si (}) = {< , < ) y (j) (x) ^ <^^{y) , conside
ramos la existencia de
función continua y monótona (si ^^(y) < ^-^i^^) considera
mos
tal que
<p((t)^(x)) = <^^{x)
5 9
у denominaremos por P al arco de curva así construido xy
entre las imágenes de x a у,
Р^У =i (z, Ф(г)) I z e [ ф^(х), ф^(у) ] }
у suponemos además en у Р^^ la preordenación (x.y)SG^
Deberá entonces cumplirse
AD 2.- SI x es nudo terminal у (x,u)e entonces ф(х)^ ф(и)
AD 3.~ и Р^у es un conjunto simplemente conexo. (x,y)€G^
AD 4,- Para (x,y) e G^ , se debe verificar
d * C x , y ) = l ongCP ) x y
siendo long P la longitud del arco de curva P ® xy ^ xy
Podemos d e f i n i r una d i s t a n c i a d' en UP^^y como l a l o n g i t u d
d e l a r c o que une dos p u n t o s , l a c u a l v e r i f i c a r á por l a c o n d i c i ó n a n t e
r i o r :
d*(x,y) = d•(ф(x),ф(y))
60
A efectos de nd;ación podemos expresar un árbol aditivo de ti
po 1 como
AD (G d) = ( U P,,^.d>) ^ " (x,y)eG^^y
Definición 3.12
Sea un árbol aditivo de tipo 1 asociado a un conjunto S y tres
elementos x,y,z de S. Podemos considerar el nudo que pertenece a la
vez a los caminos xy, yz y xz. Tal nudo es único, pues en caso contra
rio el grafo no sería simplemente conexo. A un nudo verificando la cond¿
ción anterior lo llamamos nudo principal.
Vamos a demostrar que las únicas distancias compatibles con ár
boles aditivos de tipo 1 son las que verifican el axioma del 42 punto.
Lema 3.1
Si S es un conjunto finito y d es una distancia aditiva d£
finida sobre S, se cumple que:
díXQ.y^) + d(z,t) 4 diXQ,z) + díyQ,t) = díx^.t) + díy^.z)
V(z,t)eSxS de modo que {x^.y^jñ (z, ti = 0
61
Demostrsidión:
La demostración la efectuamos por inducción sobre el cardinal
de S(|S| = n) , resultando inmediato para el caso en que el mismo sea
n = 4. Si suponemos cierto el lema para un conjunto de cardinal n-1, pa
ra un conjunto S de cardinal n, consideramos
S- = S - {y}
siendo y un elemento cualquiera de S.
Por hipótesis de inducción podemos encontrar (х^,у^) S S'xS'
tales que
V ( z , t ) E S'xS' verificando Í ^ Q ' ^ O ^ ^ {z,t} = 0
d C x ^ . y ^ ) + d ( z , t ) ^ d ( x Q , z ) + d ( y Q , t ) = d ( x Q , t ) + d ( y Q , z ) (13)
Si
d(xQ,yQ) + d(y,t) d(xQ,y) + d(yQ,t) = d(xQ,t) + d(yQ,y) (14)
Vt e S' tal que t ^íx^.y^} , la proposición queda probada, siendo
(xQ,yQ) la pareja buscada satisfaciendo las condiciones del lema.
62
Si рог el contrario existe e S' tal que
d ( x Q . y ) + d C y ^ . z ^ ) < d C x Q . y ^ ) + d ( y , Z Q ) = d ( x Q , ^ ) + d C y . y ^ ) (15)
varaos a probar primero que
d(xQ,y)+d(yQ,z) <S d(xQ,yQ)+d(y,z) = d(xQ,z)+d(y,yQ) z í {x^.y} (16)
y a partir del mismo el resultado más general
d(xQ,y) + d(z^,Z2) 4d(xQ,z^) + d(y ,Z2) = d(x^,Z2) + d(y,z^) (17)
Víz^.Zg) e SxS tal que { z^.z^} Л íx^.y} = 0
con lo cual quedará probado el lema, siendo (x^.y) la pareja que cumple
las condiciones del mismo.
( Si existe ё; e S' tal que
d ( y Q , y ) + ^ ( X Q . Z Q ) < díXQ.y^) + d(zQ,y) = d(yQ,ZQ) + d(y,XQ )
la demostración es paralela, resultando (у^,у) la pareja en las condicio
nes del lema. )
Demostramos primero (16) por reducción al absurdo.
63
A i partir de la cuaterna {XQ,y,yQ,z} y suponiendo que no se
verifica (16), por el hecho de ser d una distancia aditiva nos quedan
dos posibilidades:
a) d(xQ,yQ) + d(y,z) < d(xQ,y) + d(yQ,z) = d(xQ,z) + d(yQ,y) (18)
b) d(xQ,z) + d{y,y^) < d(xQ,y) + d(z,yQ) = à{x^,y^) + d(z,y) (19)
Analicemos la suposición a)
d(xQ,yQ) + d(y,z) <d(xQ,y) + d(yQ,z) = d(xQ,z) + d(yQ,y)
Obtenemos
y de (15)
d(y,yQ) = d(xQ,y) + d(yQ,z) - d(xQ,z)
d(y,yQ) = d(xQ,yQ) + d(y,ZQ) - d(xQ,ZQ)
por lo que
d(xQ,y) + d(yQ,z) - d(xQ,z) = d{x^,Y^) + d(y,ZQ) - d(xQ,ZQ) (20)
considerando ahora la cuaterna {xQ,yQ,z,z^} , a partir' de (13)
d(yQ,z) = d(xQ,z) + d{y^,z^) - d(xQ,ZQ)
y sustituyendo en (20) resulta
64
d ( x Q , y ) + d C y ^ . z ^ ) = d C x ^ . y ^ ) + d(y,ZQ)
por lo que si consideramos { x ^ . y . y Q . Z Q } , al ser d una distancia
aditiva obtenemos
d C x ^ . z ^ ) + d í y . y ^ ) « d { x Q , y ) + d C y ^ . z ^ ) = d í x ^ . y ^ ) + d C y . z ^ )
que está en contradicción con (15).
Por tanto el caso (18) descrito en a) no se puede dar.
Analicemos la suposición b ) ,
d(xQ,z) + d(y,yQ) < d(xQ,y) + d(yQ,z) = d(xQ.yQ) + d(y.z) (21)
Puesto que a partir de {xQ.y^.z.ZQ} y de (13)
d(xQ,z) + díy^.z^) = díxg.z^) + d(z,yQ)
sustituyendo d(z,yQ) en (21), se tiene
d(xQ,y) + d(xQ,z) + d(yQ,ZQ) - а{х^,г^) = а{х^,у^) + d(y,z)
es decir
d(xQ,y) + áiy^,z^) = áiXQ,y^) + d(y,z) + й(х^,г^) - díx^.z)
65
resuitaado de la igualdad anterior y de (15)
díXQ . y^ ) + d (y,z) + d{x^,z^) - d(xQ,z) < dCx^.z^) + d C y . y ^ )
es decir
dCx^.y^) + d(y,z) < dCy.y^) 4- d(xQ,z)
con lo que encontramos una contradicción con (21).
Queda pues probado (16) , es decir
d(xQ,y)+d(yQ,z)d(xQ,yQ)+d(y,z) = d( XQ,z)+d(y.y^) V z $ (x^.y)
Probaremos ahora (17).
Puesto que por (13), para iz^,.z^) € S' x S*
¿(xQ.y^) + àiz^,z^)^ d(xQ,z^) + d(yQ ,Z2) = àix^^z^) + díy^.z^^) (22)
nos resulta
d(xQ,y) + d(z^,Z2)í: d(xQ,y) + d(xQ,z^) + d(yQ ,Z2) - d(xQ,yQ)
y como por (16)
d(xQ,y) + d(yQ ,Z2) 4 díx^.y^) + diy,z^)
66
obtenemos
d(xQ ,y) + d{z^,z^) 4d{x^,z^) + d C y . z ^ ) (23)
Por otro lado, a partir de (22)
d(xQ,y) + d(z^,Z2) ^ d(xQ,y) + díx^.z^) + d(yQ,z^) - díx^.y^)
y como por (16)
d(xQ,y) + d(yQ,z^)« d(xQ,yQ) + d(y,z^)
obtenemos
d(xQ,y) + d(z^,Z2) ^d(y,z^) + d(xQ ,Z2) (24)
Así de (23) y (24),
d(xQ,y) + d(z^ , Z 2 ) ^ ^ ^^^O'^l^ d(y , Z 2 ) , d(y,z^) + d(xQ ,Z2) >
por lo que al ser d distancia aditiva, resulta
d(xQ,y) + d(z^,Z2) « d(xQ,z^) + d(y ,Z2) = d(xQ ,Z2) + d(y,z^) (25)
quedando probado (17).
67
De este modo la pareja (x^.y) verifica las condiciones del
lema puesto que para cualquier, .(z,t)eSxS tal que , |xQ,y}n|z,tj = 0
d(xQ,y) + dCz,t) « d(xQ,z) + d(y,t) = dCx^.t) + d(y,z)
Teorema 3«!
d es una distancia aditiva sobre S si y sólo si existe -un ár
bol aditivo de tipo 1 asociado a una representación del par CS,d).
Demostración:
Veamos en primer lugar que si existe un árbol aditivo de tipo
1 asociado a una representación del par {S,d), entonces d es una distan
cia aditiva.
Sean x,y,z,t 6 S, y supongamos que se verifica
d{x,y) + d{z,t) 4 dCx.z) + d(y,t) « d(x,t) + d(y,z) (26)
Consideremos
= { u G U 1 (j){ú) pertenece al camino entre <Í)(x) y ( (y) )
= í u e U i í|)(u) pertenece al camino entre <^iz) y (|)(t) 1
siendo ü el conjunto de nudos del árbol aditivo.
68
1) Veamos primero que x e y no pueden pertenecer ambos a ü^.
Si suponemos x,y G U^, como
ees terminales sj)(z) y íj}(t) tenemos
Si suponemos x,y G U^, como Ug es un subgrafo con dos vérti-
d(z,t)=d»(z.t)=d'((})(z),({)(x))+d'((¡)(x),(Í)(y))+d'((})(y),(l){t))
o bien
d(z,t)=d*(z,t)=d'((l)(2),(Í)(y))í-d'(({)(y),(l)(x))+d'((Í)(x),({iet))
resultando en el primer caso
d(2,t) > dCx.z) + d(y,t)
y en el segundo
d(z,t) > d(y,z) + d(x,t)
siendo ambos resultados contradictorios con (26).
2) Si suponemos que x í e y e »
entonces
d(z,t) = d*(z,t) = d(z,y) + d{y,t)
69
у sumando d(x,y) en ambos términos
d(x,y) + d(z,t) = d(x,y) + d(z,y) + d(y,t)
de donde
d(x,y) + d(z,t) d(z,y) + d(x,t) (27)
por lo que se alcanza la igualdad en (26),
d(x,y) + d(z,t) = d(x,z) + d(y,t) = d(x,t) + d(y,z)
verificándose el axioma del cuarto punto.
3) Sólo resta tratar el caso x,y ^ .
Si suponemos que ^2 ^ ^ ^ existe más de un nudo pertene
ciente a ^2 fácilmente a un absurdo puesto que se
nos forma un ciclo en el grafo, contradiciendo de este modo la p r o —
piedad Rl. Así, ^ sólo puede contener un único elemento,
es decir
Л = í u}
En este caso también debe ser notado que si existe algún camino
que conecte dos nudos pertenecientes respectivamente a U^» ^2 sin pasar
por u , obtenemos también un ciclo. Por lo tanto no debemos considerar
esta posibilidad y llegamos a que
70
d(x,t)+d(y,z)=d'((l)(x),(|)(u))+d'((l)(u),(|)(t))+d'((l)(y),(l)(u))+d'((t)(u),(l)(z))
y
d(x,z)+d(y,t)=d'((l)(x),(|)(u))+d'((l)(u),(l)(z))+d'((l)(y),(l)(u))+d'((j)(u),(t)(t))
verificándose
d(x,t) + d(y,z) = d(x,z) + d(y,t)
y con ello el axioma del cuarto punto.
Nos resta finalmente considerar ^ 0
Escogemos u^.u^ tales que "j. ^i' 2 ' 2 manera que.no exista
u e U que pertenezca al camino entre u^ y u^.
Así ,
d(x,t)+d(y,z) = d'((l)(x) ,(Í¡(u^))+d'(0(u^),(í)(u2))+d'(({)(u2),tÍ)(t)) +
d'{(|)(y),(|)(u2))+d'(({)(u2),({)(u )+d'((i)(u ),(l){z))
d(x,z)+d(y,t) = d'{$(x),(^(u^))+d'((l)(Uj^),(!)(u2))+d'({j)(u2),(})(z)) +
d'((l)(y) .(jiíu ) )+d' ((j)(u ),(|)(u2))+d' {({¡(u ) Mt))
71
verificándose también la igualdad
d(x,t) + d{y,z) = d(x,z) + d(y,t)
Queda pues demostrado que d es una distancia aditiva.
Demostremos el recíproco por inducción sobre el cardinal de S.
Caso 1) n = 4 , siendo n el cardinal de S (|S| = n)
Si x,y,z,t e s y suponemos
d(x,y) + d(z,t) -$ d(x,t) + d(y,z) = d(x,z) + d(y,t) (28)
veamos que existe un árbol aditivo de tipo 1 (Fig.l) asociado a (S,d),
Figura 1
Para ello planteamos el sistema:
^ d(x,y)
d(x,z)
d(x,t)
d(y,z)
d(y,t)
y d(z,t)
a + B
a + e +Y
a + e + 5
5 + e +Y
6 + e +5
Y + S
(29)
72
A partir de (28) y de las eciaciones 3^,4^,5^ , obtenemos
d(x,z) = d(x,t) + d(y,z) - d(y,t) = a + y +e
por lo que la segunda ecuación depende linealmente de las demás. Es inme
diato entonces comprobar que el sistema tiene rango máximo obteniendo co
mo soluciones
a = J 2(d(x,y) + d(x,t) - d(y,t))
e = ^(d(x,y) + d(y,t) - d(x,t))
Y = yz(à(Y,z) + d(z,t) - d(y,t))
6 = y2(d(z,t) + d(y,t) - d(y,z))
Já(d(y,z) + d(x,t) - d(x,y) - d(z,t) )
.que a partir de (28) son positivas. La construcción del árbol resulta -
ahora inmediata.
Caso 2) n > 4 .
Veamos que si es cierto para n~l también lo es para n.
Sea una pareja (x,y) que: verifique
d(x,y) + d(z,t)4: d(x,z) + d(y,t) = d(x,t) + d(y,z) (30)
V(z,t) G s X S tal que { x,y} n {z,t> = 0 , cuya existencia se ha
demostrado en el lema.
73
Consideremos
S' = S -{ y }
y la distancia d, = dj_, que evidentemente verifica la propiedad del
cuarto punto.
A partir de la hipótesis de inducción podemos asegurar la exis
tencia de un árbol aditivo de tipo 1 que representa al par (S',d^). Se
trata ahora de efectuar una "ampliación" del árbol (fig.2), introducien
do ahora (¡¡(y) . Elegimos z € S' y vemos si existen
Figura 2
valores a,S , g» dispuestos como en la figura 2, verificando que la
distancia asociada a este árbol es justamente d.
Para ello, planteamos el sistema
d(y,z) =
d(x,y) =
d{x,z) = B + 8 « + 0 "
(31)
Las soluciones a este sistema son:
8' = 3á(d(y,2) + d(x,z) - d{x,y) - 2 B " )
B = 3|(d(x,z) + d(x,y) - d(y,z))
a = Í¿(d(y,z) + d(x,y) - d(x,z))
(32)
74
comprobándose fácilmente a partir del lema que las soluciones son no
negativas.
La distancia a través del árbol entre "y" y otro elemento
z' e S' es:
a + B' + d(x,z' ) - (e + S' )
y de sustituir en (32) se tiene
a+3*+d(x,z')-p-s* = )^(d(y,z)+d(x,y)-d(x,z))+d(x,z')-J^(d(x ,z)+d(x,y)-d(y,z) )
= d(x,z')-i-d(y,z)-d(x,z)
y puesto que
d(x,y) + d{z,z')-í d(x,z) + d(y,z') = d(x,z')+ d(y,z)
por la elección del par (x,y)
d(x,z') + d(y,z) - d(x,z) = d(y,z')
comprobándose que la distancia a través del árbol construido coincide .
con la distancia original d.
De este modo queda demostrado el teorema, y con ello caracte—
rizádasi las representaciones asociadas a una distancia aditiva.
75
Definición 3.13
Dos árboles aditivos definidos sobre S , (G^ , d j ) y (Gy ,d*)
con conjuntos de nudos principales y P^ diremos que son equivalen
tes si la aplicación
que transforma el nudo principal definido por una terna s^.s^.s^ de
en el nudo también definido por s^^jSg.s^ en Ug es biyectiva, y
además
a) d*(u,v) = d*( ¥(u), f(v)) V(u,v) G P^x P^
d^(3c,y) = d ^ C x . y ) V ( x , y ) G S x S
b) Si N^^ es el conjunto de nudos principales en el cami
no entre u y V , ''^(^y-y^ ®^ '^ conjunto de nudos en
el camino entre f (u) y f(v).
Vamos a demostrar la unicidad de la representación asociada a una distan
cia aditiva en el sentido de la definición anterior.
Teorema 3.2
Dos árboles aditivos asociados a (S,d), siendo d distancia
aditiva, son equivalentes.
76
Demostración:
Probemos el teorema por inducción sobre el cardinal del conjun
to S {ISi = n ) .
Para el caso n=4 , el resultado es inmediato.
Si suponemos cierto el teorema para |S| =: n-1, veamos que
también se verifica para 'JS] = n
Sea (x,y) e S X S tal que
d(x,y) + d(z,t) d(x,z) + d(y,t) = d(x,t) + d(y,z) (33)
V(z,t) € S x S con {x,y}n{z,t} = 0 , que existe en virtud del
lema 3.1
Es inmediato comprobar que si x ó y son nudos terminales
(no terminales) para un árbol también lo son para el otro,resultando al
menos uno de ellos ser nudo terminal. Es por ello que analizaremos los
siguientes casos:
a) x nudo terminal e y nudo no terminal.
b) X e y nudos terminales.
Caso a) Si P^ y P^ son los nudos principales asociados a los dos ár * *
boles con representaciones (G ,d,), (G ,d^) entonces У ^ P, e 1 Ug 2 1
y € Pg .
77
Si tomamos S' = S- {y} , podemos considerar (G ,d ) como 1
una representación de S' considerando al elemento y como un elemento
del conjunto que cumple
U^' = S' U R^
Aiálogamente para (G^ .d^).
Puede ocurrir que en la representación de S', y sea o no
sea nudo principal (Fig. 3)
(l)(x)
y no es nudo principal
({)(x)
y es nudo principal
Figura 3
Si y es ¡nudo principal, a partir de la hipótesis de indue
ción sobre S' queda probado directamente la equivalencia entre ambos
árboles. En caso de no ser nudo principal se puede definir
Y ' : P,
de modo que
^' (u) = 'i'(u) para u e P^ = P^ - { y}
78
• •
siendo Ч" la función , ¥ : ^i^^2 ' existe рог la hipótesis
de inducción sobre S' , y W'íy) = У . función que verifica las con
diciones establecidas en la definición 3.7. Así, arabos árboles resultan
equivalentes.
Caso b) Tomando
S' = S - {У}
• • y considerando (G , d ) y (G-, d ) , árboles aditivos
^|Ü3^-{y} lüg-tyí'
asociados a (S', d. ,) con conjuntos de nudos principales respectivamen-í S
te y P^ que son equivalentes por hipótesis de inducción,
existe f : . P ^
cumpliendo las condiciones de la definición 3.13.
Podemos ahora construir
' : P^ и íu^} • Pg и {Ug} de modo que
Y'(u) = f(u) para u e P^
79
deduciéndose a partir del teorema 3.1 y de las soluciones del sistema
(31) que (Gy ,d^) y (Gy .d^) son equivalentes.
Definición 3.14
Una representación (G^ ,d ) asociada a (S,d) es árbol a-
ditivo de tipo 2 si se verifica:
a) Todas las condiciones de AD .
b) V(x.y) € Gy , si
(|)(x) = ((|) (x),(|)2(x))
podemos descomponer P en la forma xy
P = P, U P_ xy 1 2
siendo
P^ = { ((l) (x), a ) i (l'gíx)^ a 4 f^^iy) }
Pg = M a A^iy)) I ílj^(x)^ a < (i) (y)
(lí^(y)^ a ^ {|) (x) }
80
Teorema 3.3
d es una distancia aditiva definida sobre S si y sólo si
existe un árbol aditivo de tipo 2 (AD^) asociado a una representación
del par (S,d).
La demostración es idéntica a la del teorema 3.1.
Figura 4,- Representación de un árbol aditivo de tipo 2.
Definición 3.15
Una representación (Gy,d ) es un árbol aditivo de tipo 3 si:
a) Se verifican las condiciones ADl, AD2, AD3
fa) Se cumple la condición b) de la definición 3.14.
c) V(x,y) € Gy se verifica
d (x,y) = I (¡¡ (y) - (l>2(x) I (34)
induciendo la disimilaridad d' en , U . Pxy definida (x,y)€Gy-'
como valor absoluto de la diferencia entre las coordenadas
segundas , de donde d (x,y) = d'((fíx) ,(t)(y) )
81
Intuitivamente se trata de una representación como la anterior,
solo que para el cálculo de la distancia entre dos nudos se tiene en cuen
ta únicamente la longitud de arista vertical.
Figura 5. Representación de un árbol aditivo de tipo 3. Las longitudes en
trazo continuo son las únicas tenidas en cuenta para el cálcu
lo de la distancia.
Teorema 3.4
d es una distancia aditiva definida sobre S si y sólo si exis
te un árbol aditivo de tipo 3 asociado a una representación del par
(S,d).
La demostración es idéntica a la del teorema 3.1.
Definición 3.16
A un árbol aditivo de tipo 3 lo llamaremos dendograma aditivo.
82
3 J . 4 J : _ R E L A C I 0 N E S _ C 0 N _ L A S _ D I S T A N C I A S _ U
Estudiaremos en esta parte las relaciones entre las representa
clones asociadas a una distancia aditiva que hemos visto en el apartado
anterior y las representaciones asociadas a una distancia ultramétrica.
Proposición 3 . 2
Una distancia ultramétrica se puede representar como un árbol
aditivo de tipo 3 en el cual $2^^^ ~ ^2^^'^ para todo s,s' € S.
Demostración:
A partir del algoritmo fundamental de clasificaciones sabemos
que la representación asociada a una distancia ultramétrica es un dendo
grama (Cuadras, 1981).
(|)(r, )
0 3 )
^{Si) (|)(S2). . .
5 4 3 2
+ 1 O
Figjara 6
83
Si es la distancia ultramétrica, construyamos el dendogra
ma asociado a d^ = J .d , у consideremos como R al conjunto de nudos
que no representan los elementos de S.
1 2
Sea ф(г) = ( S^, S^) la representación en el plano de un nu
do r, según la escala que fija el índice de la jerarquía. De este modo
podemos considerar sin perder generalidad que para todo s € S, ф(з) = { a ,0). Resulta entonces evidente por (34) que s
dMs^.Sg) = |Ф2(Го) - <^^{s^) I + I ф2 ( г^ ) - ФзСз^) I (35)
siendo e R un nudo perteneciente al camino entre s ^ y s^
verificando
Ф(г) ^ ф(Гд)
para cualquier otro r e R del camino; a partir de (35) puesto que la
segunda componente de Í(S]^) Y ^^^^2^ ®^ cero ,
'^u^^l'^2^
d (s^.Sg) = 2<^^r^) = 2 . " ^ ^ = d^(s^,S2)
Las demás condiciones son verificadas por el árbol-de modo evidente.
Proposición 3.3
Todo árbol aditivo de tipo 3 en que { ({¡(s); s €S } tiene la
segunda componente constante, considerando Scemo el conjunto de nudos
terminales ,está asociado a una distancia ultramétrica.
84
Demostración:
Sean Sj^.s^.Sg 6 S y
d C s ^ . s ^ ) < d C s ^ . S g ) < d C s ^ . s ^ ) (36)
siendo d la distancia a la que está asociada el árbol. A partir de las
hipótesis sobre el árbol , existen r^.r^.r^ nudos que verifican
ф(г ) < ф(г2) < ф(Гз) (37)
у tienen por segundas componentes r^.r^.r^ cumpliendo
d*(s^,S2 ) = 2.{r<^ - a)
d ' * ( s2 ,S3 ) = 2.(r^ - a)
d*(s^,S3 ) = 2.(r^ - a)
siendo a la segunda componente de las imágenes por ф de los elemen
tos de S .
Puesto que
d*(s^,S3) < d*(s^,r^) + d*(r^,r2) + d*(r2,S3)
entonces
2.(r^ -ct) < (r; -a) + (r^ - r^) + (r^-a)
es decir
" 3 < ^2
85
Il II
Puesto que en (37) teníamos 4: queda demostrado que
d C s g . S g ) = d C s ^ . S g )
resultando que d es una distancia ultramétrica , tal y como queríamos
demostrar.
Proposición 3.4
Supongamos un árbol aditivo de tipo 3 verificando la siguien
te condición:
a) max {<^2^^^ | s € S } -$ min í Фз^^^ I r e R >
b) El conjunto de nudos terminales coinciden con los elemen
tos de S.
En estas condiciones se verificará que la distancia asociada al mismo se
puede descomponer como suma de una distancia ultramétrica d^ y una dis¿
milaridad singular d es decir s
Demostración:
d = d + d u s
Sea max' { ф^Сз) I s e S } = ф^Сз') =
Construyamos
definida como
Ahora podemos definir
üi : S fr- R
86
({) : U-
En la forma
([) (s) = (0^(3), a^) si s € S
({i (r) = ^ir) si r € R
A partir de los teoremas anteriores tenemos que utilizando íj) en la
representación, el árbol está asociado a una distancia ultramétrica
que viene definida por
d^(x,y} = d(x,y) - üj(x) -u(y)
Si definimos
ü)(x) + ü3(y) si x i¿ y
si X = y
87
obtenemos una disimilaridad singular, por lo que
d = d^ . d^
siendo d ultramétrica y d singular .
U s ^
Así en determinadas condiciones hemos comprobado que una distan
cía aditiva la podemos descomponer en la suma de una distancia ultramétri
ca y una disimilaridad singular.
Con un razonamiento parecido al anterior se puede probar , Proposición 3.5
Si d es distancia aditiva , existe d^ distancia ultramétrica
(no única) y f función de S en R de modo que
d(x^,Xj) = d^(x^,Xj) + f(x.) + f(Xj)
Estos resultados ilustran las relaciones existentes entre distan
cias ultramétricas y aditivas.
Es interesante comentar que los resultados anteriores pueden ser
vir de punto departida para plantear la representación espacial de distan
cias aditivas en la línea de los trabajos de Ohsumi y Nakamura (1981) y
Cuadras (1985) referentes básicamente al mismo problema para distancias
ultramétricas .
88
4. - E ST R и imJRA__DE_ VAR IE£^^__g,N _E _L CO N £ U N T 0 _ D E , DIS T A M СIA S
ADITIVAS.
Resumen: En el presente capítulo se dota de una estructura de varie
dad con frontera al conjunto de distancias aditivas, adecúa
da para el estudio formal de diferentes aspectos relaciona
dos con este método de representación sobre todo dentro del
campo de la inferencia sobre árboles y del tratamiento de
algoritmos.
Sumario:
4.1.- Introducción.
4.2.- Definiciones previas.
4.3.- Estructura del conjunto de distancias aditivas.
4.4.- Determinación de la frontera de la variedad.
4.5.- Estructura del conjunto de distancias ultramétricas
dentro de la variedad.
4.6,- Ajuste por mínimos cuadrados en una carta de la variedad,
4.7.- Representación espacial de distancias aditivas.
89
4.1.- INTRODUCCIÓN
En este capítulo nos proponemos dotar al conjunto de distan
cias aditivas con configuración de una estructura matemática adecuada. -
Por su interés, en el tratamiento de algoritmos y para el estudio de -
cuestiones relativas a inferencia sobre árboles, estructuraremos el con
junto anterior como una variedad diferenciable con frontera. En una según
da parte, estudiaremos aspectos relacionados con algunos problemas genera
les que surgen en la utilización de la representación por árboles aditivos.
Otros estudios relativos a la búsqueda de estructuras de con
juntos parecidos han sido desarrollados en otros trabajos. Gondran(1976)
introduce una estructura algebraica sobre el conjunto de las clasificacio
nes jerárquicas a fin de poder interpretar resultados sobre las mismas de
una manera análoga al análisis factorial. Rao(1945) dota al conjunto de
poblaciones sobre el que hemos definido k variables aleatorias de una
estructura de variedad diferenciable a partir de una clase paramétrica de
funciones de densidad, para obtener una distancia entre poblaciones inva
ríante frente a las transformaciones admisibles de parámetros.
Hemos dávidádó la primera parte del capítulo en tres aparta
dos. En el primero dotamos propiamente al conjunto de distancias aditivas
con configuración de la estructura citada. En el segundo caracterizamos
la frontera de la variedad. En el último estudiamos la estructura del con
junto de distancias ultramétricas dentro de la variedad. Es de notar el
interés que esta estructura podría tener en el estudio de propiedades teó
ricas relativas a los algoritmos de transformación en tratamientos parecí
90
dDS a los que se dan en Jardine & Sibson (1971) .Salicrú (1983) ,Arcas(1983)
respecto a métodos de taxonomía numérica.
En la segunda parte estudiamos primeramente el ajuste por mí
nimos cuadrados en una carta de la variedad y después observamos algunas
propiedades sobre la representación espacial, utilizando como técnica MDS
el método de las cooordenadas principales, asociada a una distancia aditi^
va.
4_^2_^-_DEFINICI0NES_PREVIAS
Definición 4.1
Un espacio métrico M se dice que es una variedad con fronte
ra si para todo x€ M existe un ü entorno de x tal que ü es homeomor-
fo a ó ( H^= { (x^,...,x^) e R"; O Vi e íl,...,n} } ) . -
Los elementos cuyo entorno puede ser únicamente horaeomorfo a h" los lla
maremos de la frontera.
Definición 4.2
ün par { f , ü)" es una carta local definida en un abierto ü
de M si 4» :U — - • • r^ es un homeomorfismo. Así en U se inducen las coor
denadas de r".
Definicion 4.3
Una carta local (#,U) es respecto a (1?, V) si las aplicacio
nes #ot~^ y to#~^ son en ^(U n v) y *(U n V) res
pectivamente.
91
Gráficamente
I t
n
Figura 2
Un atlas C será una familia de homeomorfismos mutuamente C
cuyos dominios cubran M.
Definición 4 . 4
A un par (M i T) donde T es un atlas maximal C para M se
le llama variedad diferenciable.
Intuitivamente, una variedad diferenciable será un espacio mé
trico con coordenadas locales de forma que cuando en un punto se tengan
dos coordenadas el paso de una a otra sea diferenciable. Lógicamente, una
variedad diferenciable con frontera se definirá de forma análoga aceptan
do en las cartas locales homeomorfismos <t> :U -
Definición 4 . 5
Un subconjunto M^C M es una subvariedad de M si la inclu
sión
i:Mj_ ^ M
es una inmersión.
92
Sea A el conjunto de las distancias aditivas sobre un conjun
to S de cardinal n , С el conjunto de las posibles configuraciones en ár
bol de S con 2n—3 parámetros y | c j=m (Consideramos las configuracio
nes "modelo" como árboles con los elementos de S como nudos terminales y
nudos principales de grado 3. De este modo dependen de 2n-3 parámetros,
resultando las demás configuraciones como casos particulares de las pri
meras a través de la obtención de aristas de longitud cero. En Bergé(1973)
se estudia el valor de m para diferentes tipos de árboles) . Sea —
A_ С {(d,i) ; d € A , iG{l,...,m}} representando el conjunto formado С
por los pares ordenados cuya primera componente es una distancia aditiva
y cuya segunda componente representa la configuración
Podemos definir en A la métrica с
u((d,i),(d',j)) ='^_^{d(Xj^,x^)-d'(Xj^,x^))^ + (1) k,l=i,.. ,n k< 1
donde S"- son los deltas de Kronecker, y la parametrización
( а ^ . . . . . б2^_з ) (2)
siendo 6 la longitud de la arista t una vez ordenadas las aristas
en cada configuración, es decir, el vector B es,la solución del siste
ma de ecuaciones
d = X.B (3)
93
siendo X la matriz ^ 2 (2n-3 ) de la forma
""ik j 1 si la arista j conecta en el camino entre 1 y k
O en caso contrario
con 1= l,..,n ; k=l,..,n ; l < k ; j=l,..2n-3 y d el vector de dis
tancias , d = (^12'" ''^n-1 n^
Sea (dQ,i)eA^ fijado con parametrización ÍI^={8^, > • >, S2n-3^
y sea X la matriz asociada a la configuración i . Tomemos la aplicación
lineal ip: R ^ ^ R ^~ con matriz asociada
Z = (X' .X)~"''.X'
siendo X' matriz traspuesta de X.
Es evidente que 'I'(CIQ) =6*^ » Y además al ser ^ lineal también
es continua.
Si suponemos que 3j tal que g? = O , consideramos
e = Vz . min 6^?^0 } y tomamos
U = ^ ^(V) y {(d,i); deU , i fijo} C A U Ü Q U Q c
(d aditiva con configuración i fijada)
Se trata de comprobar que es un entorno de (d^.i) y que
es homeomorfo a V .
Al ser i> continua , tenemos que para el e tomado 3 5 >o tal
que
i, (B(dQ, 6)) C B(8°, e)
94
у tomando 5' = J^.miní 1,6 } se tendrá :
B((dQ,i),6') С V^^
En efecto, si (d,j) e B((dQ,i),(S' ) , entonces
á((dQ,i),(d,j)) < 5'
y por ser 6' < 1 , obtenemos i=j; además, al ser 5'< б ,nos resul
ta II d-d^ II < 5 por lo. que i|;(d) € В (S* , e ) con todas las compo
nentes de la parametrización no negativas al ser d aditiva con configu
ración i. Así, d e U , y (d,j) e V probando pues (4) .
Si definimos ahora el homeoraorfismo
(d,i) t(d)
queda probado que (d^,!) es un elemento de la frontera de A^, pues
es homeomorfo a H ~ no existiendo ningún entorno de (dQ,i) ho-,
meomorfo a para n G N .
Análogamente, tomando
para 6^=( '•••'^Zn-S ^ ^i para todo i, se tendrá que
existe V, entorno de d- homeomorfo a R ~ . dQ O
95
Queda así probado que A es una variedad con frontera , for-c
mada esta última por las distancias aditivas con configuración en la -
cual alguna arista es cero. Es inmediato comprobar que es una variedad co
c .
4.4,- DETERMINACIÓN DE LA FRONTERA DE LA VARIEDAD
En este apartado buscamos las condiciones que debe verificar
una distancia aditiva para que pertenezca a la frontera de la variedad.
Por notación, indicaremos por a-t...,a las longitudes de 1 n
las aristas terminales (limitadas por algún nudo terminal) y por
3 ,...,0 las longitudes de las aristas • internas . al haber fija
do la configuración modelo asociada a la distancia en el sentido al que
nos hemos referido en el apartado anterior. Consideramos por tan
to de entrada que los nudos terminales coinciden con los elementos de
S, aunque al existir la posibilidad de aristas de longitud cero volve—
mos a estar en el caso general. Notamos por R^^ al conjunto de aristas
internas de longitud positiva en el camino entre los elementos i y j,
y para simplificar, escribiremos d.. en vez de d(s.,s.) siendo
s^.Sj e S. Así pues
R. .
Supongamos que existe j e { l,...,n} tal que a, = 0 . En este caso re
sulta que existen i,k € { l,...,n} - { j} taies que
d. . + d., = d., (6) ij jk ik ^ '
96
En efecto, es suficiente con tomar i,k tales que los conjun
tos de aristas R.. y R.. tengan intersección vacía. Recíprocamente ij Jk
si d. . + d., = d., , los conjuntos R. . y R., deberán tener intersec ij jk ik ' ^ ij ^ jk ción vacía , y de ahí deducimos que a . = o
J
En efecto, a partir de (5) y (6)
q + a. + y B + a. + a + y 8 = a.+ a + y B (?) 1 j Z j r j k i L , r i k Z _ i r ij Jk ik
y puesto que R., c R. . U R., ik ij jk
es inmediato a partir de (7) que
Z = E r ^ Z ^r R., R. . R., ik ij jk
y « o J
Queda así establecido el siguiente resultado:
Proposición 4.1
El conjunto de distancias aditivas para las cuales existen
elementos i,j,k tales que
d. . + d., = d., ij Jk ik
pertenecen a la frontera de la variedad.
97
En el mismo sentido anterior demostramos
Proposición 4.2
Si existen cuatro puntos para los cuales
d. . + d, = d., + d „ = d, + d, ij kl ik jl il kj (8)
entonces d pertenece a la frontera de la variedad
Demostración:
A través del teorema 3.1 (cap.3) demostramos que dados cua
tro puntos i,j,k,l tales que
d . . + d , , < d., + d . - = d . T + d . , XJ kl xk Jl xl jk
la representación an árbol es única y en la forma que observamos en la
figura 2
Figjjra 2
98
Si consideramos en el árbol aditivo asociado a d el subgra
fo determinado por los elementos i,j,k,l en las condiciones (8), ob
tenemos que todas las aristas pertenecientes al camino entre el nudo
principal determinado por i,j,k y el determinado por k,l,j son
iguales a cero. Es decir,
(H,. П R^^) и (R^j^n R.^) и (R.,n R.^ )
se reduce al conjunto vacío.
Por lo tanto queda probado que el par formado por d y la
configuración asociada pertenece a la frontera. También deducimos que la
distancia d restringida a estos cuatro puntos es singular.
Recíprocamente, si la longitud de alguna arista interna es ce
ro siendo las aristas terminales distintas de cero, encontramos un nudo
principal de grado mayor o igual que 4, es decir, con al menos cuatro
aristas adyacentes al mismo. Basta entonces considerar cuatro elementos
de S que sean nudos terminales de los caminos a los que pertenecen es
tas cuatro aristas, verificándose para los mismos la propiedad (8).
Así pues, podemos enunciar
Proposición 4.3
La frontera de la variedad A^ viene dada por
QA = { (d,i) e A I d verifica las propiedades (6) o (8) } С С
99
Así un ejemplo de distancia cumpliendo la hipótesis de la
proposición 4.2 sería
d =
2 4 3.5 5.6 5.8 6
0 4 3.5 5.6 5.8 6
0 1.5 3.6 3.8 4
0 3.1 3.3 3.5
0 1.4 3.6
0 3.8
0
la cual tiene una representación asociada (Figura 3)
5 6
Figura 3
resultando las aristas terminales con longitudes (1,1,1,0.5,2,0.6,0.8)
y las aristas internas (2,0,1,1), obteniendo pues un elemento de la
frontera.
100
Un ejemplo de distancia cumpliendo las hipótesis de la propo
sición 4.1 sería
d =
1
O
con representación asociada (Fig. 4)
3.5 4.6 6
2.5 3.6 5
0 2.1 3.5
0 2.6
0
(Fig. 4)
resultando la parametrización (1,0,0.5,0.6,2,2,1) V j - j
Figura 4
arist. term. arist. int.
En la siguiente proposición trabajamos directamente sobre el
árbol obteniendo conclusiones sobre el mismo, pero partiendo de propie
dades de la distancia.
101
Proposición 4.4
Si d e A y suponemos la existencia de 6 elementos
{ 1, 2, 3, 4, 5, 6) para los que
^12 ^ ^ij < ' li * = ^2i ^ ^' 5- ^ 1
^34 ^ ^ij < S i ^ ^4j = % ' S i ^ l^' 2« 5, 6}
S 4 = ^ (^3 - ^ 4 ^ "35 ^ S e - S s - S e 5
se verifica que el conjunto de aristas que enlazan los elementos 3
y 4 con el nudo principal determinado por 1, 3 y 5 no pertene
cientes al camino entre 3 y 4 son cero.
Demostración:
Es inmediato comprobar que si
S j ^ S i < S k ^ S i = S i ^ j k
102
se verifica que
^ij ^ \ l = ^
у además
\ k - (^ij^ \ l ) = «Jl - \ l ) = - (H. . и R,,) = R.^- (R. .U R^^)
(11)
por la propiedad (5), a partir de (9)
"3 ^ «4 Z = ^ r «1 ^ °3 ^ r " °2 ^ «4 ^ Z ^ «3 ^ «5 ^34 ^ 3 ^24 ^35
Z * «4 ^ "6 "Z - «1 - «5 - Z ^r - «2 - °6 ^46 • h5 «26
de donde
^34 hs \ a «35 «46 «15 «26
(12)
y a partir de (10) y (11) utilizando las hipótesis de la proposición nos
resulta el segundo miembro de la igualdad (12) como
103
^ 1 3 ^ ( \ 2 ^ V «24^(«12 ^ V «35^(^34^^) V ^^34^
Z - Z )
que operando nos queda como
Z e r ^ Z ^ - Z ^ r ^ Z ( 13 )
^13-^^12^ V V ( ^ 3 4 ^ ^ ^ V ^ 1 2 ^ V ^34
y puesto que ^i^~^^i2^ ^56^ podemos descomponerlo en la forma
( 15 ^ (\2 ^ ^ 5 6 ) ^ ^ 3 ) ^ («15 ^ (^2 ^ he^" ^ («35 - «13) )
(«15^ «12 ^ «56^ «13) ^ («15^ «12 ^ «56 ^ («35- «13^)
1 0 4
y al ser
« 1 5 ^ « Í 2 ^ « 5 6 ^ ( « 3 5 - « 1 3 ^ ^ « 3 5 ^ « 3 4 ^ « 5 6
La expresión ( 1 2 ) nos queda como
« 3 4 « 1 « 2 « 3 4
siendo
« 1 = « 1 3 ^ « 1 2 ^ « 3 4 ^ ( « ? 5 ^ « 1 2 ^ « 5 6 ^ « 1 3 ^
« 2 = « 3 5 ^ « 3 4 ' ^ « 5 6 ^ ( « ? 5 ^ « 1 2 ^ « 5 6 ^ ( « 3 5 - « 1 3 ^ ' )
resultando a partir de las hipótesis del teorema
' ' l = ' ' l 3 " ' ' Í 2 " ' ' 3 4 " ' ' Í 5
' ' 2 = « 3 5 " ' ' 3 4 " ' ' 5 6 " « Í 5
105
de donde utilizando la igualdad (14)
z S = 0
es decir, que las aristas que conectan el elemento 3 y 4 con el nudo
principal determinado por 1, 3 y 5 que no pertenecen al camino entre
3 y 4 son todas de longitud cero, tal y como queríamos demostrar.
Estudiaremos en el siguiente apartado la relación entre distan
cias ultramétricas y aditivas desde la perspectiva de la estructura estu
diada. Así demostraremos que el conjunto de distancias ultramétricas con
configuración resulta ser una subvariedad de con frontera.
4_^5_^-_ESTRUtTURA_DEL_C0NJUNT0_DE_DI
DENTRO_DE_LA_VARIEDAD
Puesto que una distancia ultramétrica puede representarse como
un árbol tal que cualquier nudo interno es equidistante a todos los n u —
dos terminales que tienen-al anterior'.en el camino que los une, podría—
mos pensar en una parametrización como (Fig. 3)
u- i ^ ( ^ 1 \ - 2 ' ° l ^ ^^^^
es decir, tomando como parámetros las longitudes de las aristas internas
y la longitud de la arista externa mínima para una configuración i aso
ciada a la distancia ultramétrica u.
106
" 2 = °1
« 4 = "i+ß 1 ^ ^ 2 - ^ 3
" 5 = " l ^ ^ 1 * ^ 2 - ^ 3
" 6 = " 7 = " 1 + 1^ ^ 2 ^ 4 - 5
Figura 5: La distancia de un nudo interno
a los terminales es constante.
Obtenemos pues
a. = a, + >^ ß - > 1 1 Z-r ^ Z-i R. IN iN
(16)
siendo R^j^ el conjunto de aristas que pertenecen al camino que une el
nudo terminal i y el nudo N equidistante a todos los nudos termina
les.
De modo idéntico al desarrollo efectuado para las distancias
aditivas obtenemos una estructura de variedad diferenciable con fronte
ra, asociada a las distancias ultramétricas con configuración. Deraostra
remos que se trata de una subvariedad de A de dimensión n-1 siendo c
|S| = n.
Si (u,i) es un par formado por una distancia ultramétrica
u con su configuración i con parametrización
( &l> ßn-2' "'l^
107
a través de relaciones (16) y de
B n-3 " ^n-3 * ^n-2 ( 1 7 )
para i €{!,.•.,'^-4 }
obtenemos la parametrización de u como distancia aditiva en el senti_
do (2)
eligiendo la configuración derivada de modo natural de la obtenida a
través de la configuración ultramétrica (Fig. 6').
Figura 6: Configuración ultramétrica. Conf. aditiva derivada.
108
A través de las relaciones (16) y (17) es inmediato definir
una inmersión del conjunto de las ultramétricas con configuración (U^) e i
el conjunto de las aditivas con configuración, de donde
Proposición 4.5
U es una subvariedad de A . c c
Vamos a caracterizar la frontera de la subvariedad. Observemos que si
existe i S { 1 ,...,n} tal que a^= O entonces existe
j G { l . . . , n } - { i } tal que d^^ = O , con lo que d no sería una
distcincia, por lo que no puede darse este caso. Si tenemos una arista
interna con longitud igual a cero, es inmediata la existencia de al me
nos tres elementos i,j,k tales que
^ij = ^ik = ^jk
El recíproco es una consecuencia del algoritmo fundamental de
clasificación (Cuadras,1981). De este modo podemos enunciar
Proposición 4.6
La frontera de U está formada por los pares (d,c) siendo c
la configuración asociada a d de modo que existan i,j,k tales que
d. . = d., = d., . ij ik Jk
109
A B C D E F
Figura 7: Representación de una ultramétrica perteneciente a la
frontera.
Sea X matriz { ) x (2n-3) asociada a una determinada configu
ración de árbol aditivo dentro de una carta de la variedad. Existen varios
algoritmos (Cap. 6) que una vez fijada la configuración del árbol precisan
de la estimación de las longitudes de las aristas utilizando el método de
los mínimos cuadrados.
Si llamamos <S a la disimilaridad observada, el problema se tra
duce en calcular ^ de modo que
(Cuadras, 1981)
110
Veamos como queda la matriz de productos escalares X' .X
(supongamos que las primeras n columnas de X corresponden a aristas
terminales a,,...,a y las restantes a aristas internas b ,..,b ).
1 n 1 n-¿
Es inmediato comprobar que el elemento ij de la matriz X'X es el núme
ro de distancias entre dos vértices terminales de modo que las aristas
i y j pertenecen al camino determinado por dichos vértices. Así , si
consideramos un árbol de manera que b^ separe k y n-k elementos
y b. separe s y n-s elementos (Fig.8 ) se verifica:
Figura 8
Proposición 4.7
a. .a. 1 J
1 si j
n-1 si i = j
a .b. r 1
b. .b. 1 J
n - k
k.s si i 4 S
k(n-k) si i = j
(18)
A partir de este resultado es inmediato comprobar que
Ili
Proposición 4.8
La suma de distancias entre dos puntos de modo que los caminos
que los conectan pasan por una determinada arista es igual a la suma de
distancias observadas entre dichos puntos.
Considerando el subespacio formado por las columnas de X, esta
mos hallando la proyección del vector S en tal subespacio. En este sen
tido es interesante comprobar que
Proposición 4.9
El ángulo formado por a y a es mayor que el ángulo forma Г* s
do por a y b. .
Demostración:
A partir de la proposición 4.7
-^n -^ n - к eos (a^.a^) = - • y cos(a^,b^) =
VthÍ .V k(n-k) V k(n-l)
y podemos comprobar como
-Jn - к 1 ^ > (19) -^k(n - 1) n - 1
112
En efecto: probar (19) equivale a probar
V n - 1 . V n - k > V"
o equivalentemente
O < n(n - (k + D )
y esto es cierto puesto que k es menor o igual que n-2 , con lo que
queda demostrado el resultado enunciado.
Queda abierto en este punto el problema de la búsqueda de
condiciones para la existencia de soluciones positivas en una determina
da carta de la variedad.
Veremos en este apartado algunas propiedades de la representa
ción espacial asociada a una distancia aditiva.
Tal y como hemos mencionado en 2.3.2 la representación MDS
del par (S, 6) utilizando el método de las coordenadas principales
se realiza a través de los vectores propios de la matriz
B = H.A.H
donde
1 - 4 - si . i ^ j h. . = .
J _ s i i = j n
113
Dada d . distancia aditiva, definimos en S la relación de equi_
valencia
Esta relación de equivalencia induce la partición en S
S = S- и ...U S 1 r
en la que cada S ^ es una clase maximal respecto la inclusión formada
por elementos equidistantes, es decir
Puesto que las interdistancias entre los elementos de una misma clase
son todos iguales, al valor de esta distancia para [S^j > 2 la llama—
mos a. , i
Podemos entonces demostrar
Proposición 4.10
2 Уг.а^ es un valor propio de la matriz В asociado a la clase
S. . 1
114
Demostración:
2
v^= (O,...,0,1,-1,0,...,0)
= (0 0,l,l,...,-(n^-l),0,...0) i
siendo Is I = n , con la ordenación de los elementos de S en la ma-' 1' i '
triz A compatible con la partición de S obtenida .
Observando entonces que H(v.) = v. Vj e {l,.-,n.} se 3 3 ^
deduce inmediatamente el resultado propuesto.
Cuadras (1985) estudia algunas propiedades de los valores pro
pios de la matriz B en el caso en que d sea ultramétrica. Obtenemos 2
que el menor valor propio distinto de O es a^^ » siendo
a = min { d^j ! i , j e S , i y ^ j } , con lo cual se deduce además que una
distancia ultramétrica es también una distancia euclidea.
Para las distancias aditivas no se verifica necesariamente la
condición de euclidicidad. Así por ejemplo dada la distancia aditiva
O 1
O d =
Es inmediato comprobar que /^.a^ es valor propio asociado
a la matriz A, obteniéndose como subespacio de vectores propios aso
ciado
115
con árbol asociado ( F i g a - ) ,
о . о i а
Figura 9
utilizando el resultado 2.1 obtenemos que la distancia d no resulta
ser euclidea puesto que la matriz В tiene por valores propios
= 0.513 , = 0.5, X3 = O y X^ = -0.053.
Dada u = (u..) distancia ultramétrica consideramos \% \ valores p r o —
pios de B asociados a las clases con |S j > 2 y 1 x ^ 1 valo
res propios restantes. Definamos la distancia aditiva
d., = ü., + e ik ik
siendo £ una constante positiva (Fig. 8 ) .
Veamos la variación de los valores propios de d con respecto
los valores propios de u.
Figura 10
116
Si i e S con |S ¡ = 1 resulta que todos los valores r . r ' r' ^
son también valores propios para d. En caso contrario existe un valor
propio 5 ^ que no lo es para d. Notaremos por [xVj al conjunto de
valores propios distintos de los 5 . . J
Puesto que
E"jk = "( E ^ j ^
(Cuadras, 1981)
(20)
y por otro lado
Z u.j^ + E (u^^ + e )"" = n( Z 5 Z ^'y
es decir
2 2 2
Z"jk + Z "it 2^Z ^ ("- ) = n( Z k+Z 'j) (21)
y restando las expresiones (21) y (20)
" Z 'j-Zs-- r) = 2Z"it-("-) 2
e
117
es decir
expresión que nos indica la variación de los valores propios para d y
u . Obsérvese que si e aumenta , crece también la diferencia entre
los valores propios por lo que aumenta la variabilidad explicada por los
valores X .
Se puede también comprobar que n-1 valores propios de B aso
ciados a d son mayores o iguales que cero.
118
5.- INFERENCIA EN ARBOLES ADITIVOS
Resumen: En este capítulo formulamos un modelo probabilis
tico para el vector de distancias a partir del
cual analizamos algunos aspectos de inferencia en
árboles aditivos.
Sumario :
5.1.- Introducción.
5.2.- Modelo probabilistico para el vector de distancias,
5.3.- Contrastes en árboles aditivos.
119
5Ì1.- INTRODUCCIÓN
Distancias entre distribuciones de probabilidad han sido uti
lizadas en una gran variedad de trabajos sobre problemas de inferencia
estadística y en aplicaciones prácticas para estudiar cuantitativamente
las analogías y las diferencias entre un determinado conjunto de pobla—
clones en el análisis de datos biológicos, en economía, en sociología y
muchos otros campos. Ver por ejemplo, Matusita (1957), Prevosti et al.
(1975), Rao (1948, 1973, 1982). En todos estos casos la distancia puede
ser interpretada como una medida de la información acerca de las analo
gías y diferencias entre las distribuciones comparadas.
Con frecuencia, en particular en el estudio de la evolución
de poblaciones de seres vivos , resulta conveniente utilizar un modelo
de representación baoado en árboles aditivos, que presupone el haber de
finido previamente una distancia entre los objetos comparados, ya que
este se ajusta bien a los conceptos biológicos de "Línea filogenètica" y
"divergencia evolutiva".
Estos estudios permiten esclarecer el fenómeno de la evolu—
ción ayudando a reconstruir los procesos históricos que dan origen a las
poblaciones biológicas actuales, y en base a estos estudios efectuar ade
más una clasificación de las mismas.
Por ejemplo, en Kimura (1984) puede verse^entre otros resul
tados, la construcción de un árbol filogenetico de algunos vertebrados re
presentativos basado en el cálculo de la distancia entre especies a par
tir de la composición de aminoácidos en las cadenas a de la hemoglobi
na, concordando los resultados con los previstos en la teoría neutralis
ta de la Evolución.
120
Las distancias que observamos entre los objetos que compara
mos, usualmente poblaciones, se calculan generalmente a partir de mués—
tras aleatorias, por lo que aquellas debemos considerarlas como estima
ciones de las "distancias reales" existentes entre los objetos compara—
dos. Por tanto, cualquier modelo de clasificación basado en árboles adi
tivos obtenido por algún procedimiento de ajuste a partir de las esti
maciones de las distancias, debe de ser considerado como una estimación
del árbol aditivo que expresará las diferencias'y analogías reales exis
tentes entre los diferentes objetos estudiados.
Por todas estas consideraciones resulta.;conveniente desarro
llar el tema de estimación y contrastes de hipótesis de árboles aditivos
para poder cuantificar las probabilidades de error al aceptar o rechazar
hipótesis sobre la configuración de los mismos . Por ejemplo, en el
trabajo citado anteriormente de Kimura (1984), podría tener interés esta
blecer una región confidencial sobre las longitudes de las aristas de al
gún árbol aditivo o controlar si los datos encajan bien con una determi
nada configuración que a su vez seria interpretable en términos evoluti
vos.
Para poder desarrollar el tema debemos introducir previamen
te un modelo probabilistico sobre la construcción de la distancia lo
cual realizamos en el siguiente apartado.
121
5.2.- MODELO PROBABILISTICO PARA EL VECTOR DE DISTANCIAS
Empezaremos razonando brevemente el modelo probabilístico al
que ajustamos el vector de distancias. Así, supondremos dadas к pobla
ciones estadísticas sobre las que hemos observado X^,..,X^ variables
aleatorias que admiten función de densidad conjunta cuando nos restringí
mos a cada una de las poblaciones, siendo las mismas caracterizadas por
dicha densidad conjunta que la consideraremos perteneciente a una deter
minada clase de funciones de densidad pararaétricas, f (x^,. • ,x ,-e ,... ,-p^)
De este modo una población vendrá dada por una r - pía (9^,..,9^)
coordenadas de una determinada variedad paramétrica definida por
V = I(e,,..,e )€ R^ I f(x, ,..,x ,0,,..,^ ) es función de densidad I ' 1 r 1 n 1 r '
Así, podemos interpretar la distancia real o teórica entre dos poblacio
nes como una función de los parámetros
d^^ = FCe'-.aJ) = F{9^,...,«J;,«j,..,^¿) (1)
obteniendo el vector de distancias teórico,
aunque por comodidad de notación indicaremos
d = (d.,,...,d ) siendo m = ( ) 1 m 2
122
Una manera de obtener la distancia en la forma (1) podría ser a
través de la definición de un campo tensorial covariante de segundo or
den, simétrico у definido positivo, tomándolo como tensor métrico de la
variedad y utilizando la métrica Rienmaniana definida. Se podría utili
zar por ejemplo la matriz de información de Fisher (Rao, 1948) en donde
tomamos como tensor métrico
p , v = l , . . . , r
La distancia observada la calcularemos utilizando las estima
clones máximo verosímiles de los parámetros 8' a través de las muestras
obtenidas de las variables en las poblaciones. Llamaremos -d^ a las es
timaciones máximo verosímiles de los parámetros G" . Para muestras sufici
entemente grandes, si la densidad cumple ciertas condiciones de regular_i
dad y suponiendo independencia entre las poblaciones se verifica que "1 - l "k " k (-6 ,.. ,-9^,.. ,6^,.. ,e^) converge asintoticamente a una distribución N(9, S)
{Mood-Graybill, 1969) siendo z una matriz de la forma
2 = O (2)
Si suponemos que F admite desarrollo de Taylor de 2^ orden
y es la cota superior de la 2^ derivada en un entorno de
G^^ = (-9 ,.. , e ^ , e ^ ,.. ) que contenga los segmentos [ 0^" ,e^" '] ó
[ -6 - ,-9 " ] nos resulta
123
F (è^.-e-^) - Fí^^.-G-^) - ^ 3 F
s=i,J эх. •e ij
м ij' ^ij_ ^iJ (3)
Si consideramos la matriz A de dimensiones C^) x r.k
siendo k el número de poblaciones,-én".donde en la fila correspondiente
a la pareja (i,j) consideramos los elementos
3 F
эх.
3 F
e Эх
3 F
эх:; 9
3 F
ij r ij
en las columnas correspondientes a •в''" y, -G" , y cero en el resto ,
obtenemos que A(-9 - -Q) es asintoticamente normal por ser transformación
lineal de (0-9) que también lo es.
Si D = F(9"'',§" ) es la distancia observada, a partir de (3) es
inmediato observar la existencia de una constante a tal que
D - d - A(-e - e) jl < a.|| e - 9 |[
al converger 6 - 6 en probabilidad a cero,por la consistencia de la es
timación máximo verosímil
D - d - A(e - e)
y puesto que
A(-e - 0) N(0, Eo
124
por las propiedades de la convergencia de medidas de probabilidad en espa
O Í O S de Banach (Billingsley, 1968 )
D - d — — N ( 0 , 2o )
es decir
D N(d, Zo )
y por lo tanto parece natural considerar como modelo probabilistico el
de la normal muítivariante de media la distancia teórica. Queda por tan
to razonada la adecuación del modelo probabilistico {4 ) para el vector
de distancias observado. Queda implícito a partir de la exposición ante
rior las rígidas condiciones a que sometemos el vector de distancias, pe
ro que tienen bastante sentido si pensamos en una línea de distanciación
de poblaciones basada en la parametrización de las mismas (Rao,1945) ,
(011er y Cuadras, 1985 a) .
Estudiamos en este apartado algunos contrastes que puedan
servir de punto de partida sobre cuestiones relativas a inferencia sobre
árboles. Consideramos que el vector de distancias observado sigue una
normal multivariante de media la distancia teórica y matriz de covarian-
zas conocida Z ,
N(d. S ) (4)
125
En la práctica podríamos considerar una estimación de 2
en el momento de formular el modelo a partir del desarrollo del apartado
anterior.
Supongamos que queremos averiguar si nuestro vector de d i s —
tancias se ajusta a una determinada distancia aditiva d^. Para resolver
este contraste hallamos una región confidencial a un determinado nivel
1- e . Planteamos el contraste
«0= ^ = ^0
Nos basamos en que bajo la hipótesis nula el estadístico
-1 (D - d^)• . 2 .(D - d^)
sigue una distribución ji-cuadrado con m grados de libertad (Andersson,
1958).
De este modo la región crítica viene dada por
W = I (D^....D^) I (D - d ^ ) ' . .(D - d^) > X ^ ( e )f (5)
También podríamos plantear este contraste considerando las
distancias aditivas como puntos de una variedad paramétrica.tal y coro obsœ
vamos en 4.2 # De este modo, si d^ es aditiva no perteneciente a la
frontera, existe alguna matriz X que caracteriza la configuración de
orden mx(2k-3) (k = ns de poblaciones), de modo que:
^0 = ^^0
126
siendo
1 2k-3,
parámetros que caracterizan a d^ en la variedad.
Consideremos la transformación lineal
(x'.xflx'.D = e (6)
Bajo la hipótesis nula se verifica que
S ' ^ N [ (X'X)--'-.X'dQ,(X'X)--''.X', Z . XCX'X)--"- ]
en donde : (X'X)--'-.XldQ = b^
Indicando
se tiene que
( X ' X ) • ' • . X ' . Í : ; . X ' . ( X ' X ) - " ' " - = r
( e _ b Q ) ' . f\i e - b Q ) ^ x (7)
y obtenemos una región confidencial que tendrá un gran interés si queda
totalmente comprendida dentro de la carta que contiene a b^ . Para tama
ños muéstrales suficientemente grandes utilizando una matriz 2 adecúa
da siempre podremos obtener una región confidencial en el sentido ante—
riormente citado.
Es interesante estudiar la función de potencia del contraste.
Observemos que bajo la hipótesis alternativa
e N [ b, r ]
(b f b^)
127
de donde
e - N [ b - b^. Г
Si diagonalizamos ^ ,
Г = Т. Л .Т' = Т. Л^. ( Т. л' ) • = АА'
у efectuamos el cambio
Y = A"^.( В - b^)
obtenemos que
Y ^ N(A~\b- b ^ ) , T )
por lo que Y'.Y sigue una distribución ji-cuadrado no centrada con
parámetro
. . y (b - b ^ U A Ъ'.А'^Ь - b ^ )
(Andersson, 1958)
Puesto que
Y'.Y = ( 6 - bQ)'.(A"^)'. A " ^ B -b^) = ( B -b^)', r-^.(6 - b^)
(8)
p( ( 6-b )'. r~^( B-bQ)>x^(e )| ) = P( Y : Y > X ^ ( e ) )
resultando inmediato el cálculo de la potencia a través de la distribu—
ción de Y ' Y . Recordemos que la función de densidad de Y*,Y es
128
f M - — . a v ' í - ' ^ - ^ ' - ' ' ' ' ' '
2k-3 - 0 ^ ^ )!. ry^(2k-^)+Y )-2^^ Y
Podemos encontrarla tabulada entre otros en Biometrika Tables for Stati-
cians (1976)
De este modo podemos resumir los resultados obtenidos indican
do que
a) (5) determina una región crítica para resolver el contras
te.
b) A través de (7) obtenemos una región confidencial conside
rando la carta local de la variedad paramétrica que con—
tiene d^.
c) Mediante (8) calculamos la función de potencia del con- -
traste.
Dado un vector de distancias, es interesante pensar en la adecuación
del mismo a un modelo de representación como árbol ultramétrico versus
un árbol aditivo. En este sentido vamos a estudiar un contraste que
aborde este problema, aunque nos caitraremos en considerar el contraste
en una determinada carta de la variedad. Así, dado
N [ d, § ]
129
con 2 conocido, el contraste nos queda en la forma
H Q : d es ultramétrica
H^: d es aditiva
Podemos caracterizar las distancias aditivas y ultramétricas
por la parametrización correspondiente en la variedad. Tal y como se ha
observado en el capítulo 4 , si y = i a^, 2 ^ ®^ parame
trización para una distancia ultramétrica y 5 = ( a , • •, , 6 j» ••
*•» ®^ parametrización general considerándola como aditiva, la
relación entre 5 y Y ríos viene dada en la forma
6 = C . Y
siendo
( 9 )
Planteamos el contraste en términos del análisis de la varianza. Así,
considerando D el vector de las observaciones como
D = X . 5 + E
130
Siendo X la matriz que determina la configuración del árbol y E
que sigue una distribución normal multivariante
E N [ O, S ]
si
efectuamos el cambio
Y = A- '^ ' .D
y nos resulta
Y = A ' - ' - .D ^ N [ A ^fx . S , I ]
obteniendo el modelo
Y = A".''"X. 5 + EJ_
siendo
.-1, E ^ N [0,1]. Indicando, A . X = X ^
la estimación por mínimos cuadrados de 8 resulta ser
i = cx;x/^.x¿.Y
R Q = ( Y - X Q 5 ) . ' ( Y - X Q 5 )
Bajo la hipótesis nula podemos considerar la matriz de diseño
X = X Q . C
131
y en este caso
y = (X'X) .-""X' .Y
= (Y - X.Í)'.(Y - X.í)
2 2 tenemos que R^ - sigue una distribución ji-cuadrado con 2k-3-(k-l) = k-2 grados de libertad (10)
Otro contraste que tiene sumo interés es la comparación de
dos modelos probabilísticos del tipo que estudiamos en que las distan
cias teóricas son distancias aditivas.
En este sentido supongamos
^ N[ d .i: ]
Dg ^ N[ d„.S ]
con 2 conocida, y ^ »' 3 pertenecientes al interior de la misma car
ta local de la variedad.
Si X es la matriz asociada a la carta
A A
B
Planteamos el contraste
»0 = ' A = S
"l = A ^ S
y consideramos previamente el cambio
^A = ^"'°A
siendo A matriz tal que Z = AA obtenemos
^A ^A' ^ ^
N[ y,. I ]
siendo
^A ^^"'•'^A
quedando el contraste formulado como
132
(11)
133
Vamos a resolverlo utilizando técnicas de análisis de la va
rianza. Bajo la hipótesis alternativa podemos pensar en el diseño
=Z . + E
Z = A-^X y E N [0,1]
De este modo la matriz de diseño nos resulta
Z O
M = O Z
en donde las estimaciones de los parámetros son
= (z'z ) :4'.Y^
= (Z'Z)7^Z'.Yg
y de este modo
RQ = (Y^ - Z(Z'Z)~Í-Z'Y^)'(Y^ -Z(Z'Z)~Í-Z'Y^ ) +
(Yg - Z(Z'Z)"?-Z'Yg)'(Yg - Z(Z'Z) Í"Z'Yg) =
Y^Y^-Y^Z(Z'Z) lz'Y^-Y^Z(Z'Z)~.-'-Z'Y^+Y^.Z(Z'Z) ^.Z'Z(Z'Z) "''•Z'Y +
+YI. Y„-YI.Z(Z'Z)"?'Z'Y_-YIZ(Z'Z)~?-Z'Y„+Yi.Z(Z'Z)"?-Z'Z(Z'Z)~?-Z'Y„ O O D OD O D D
Y^Y^+Y¿Yg-Y^. Z ( Z • Z ) . Z • Y^-Y¿Z ( Z • Z ) "Í Z • Y^
134
Bajo la hipótesis nula podemos tomar como matriz de diseño
/ Z M =
\ z
resultándonos la estimación del parámetro
g =(2Z'Z) ^.Z'(Y^ + Yg) = )¿(Z'Z) ^Z'(Y^ + Yg)
4 = (Y^-Já.Z(Z'Z) ^.Z*(Y^+Yg))' .(Y^-}Í.Z(Z'Z)"^.Z'(Y^+Yg}) +
i^-KZiZ'ZT^ .Z'(Y^+^ ))' .(^-;^Z(Z'Zr^ .Z'(Y^+^ )) =
Y ; Y^-3|(Y^+Yg)'Z(Z'Z)""^.Z'Y^-Já(Y^Z(Z'Z)"^.Z'(Y^+Yg)) +
K(Y^+Yg)'Z(Z'Z) ^.Z'Z(Z'Z)"^.Z'(Y^+Yg)+(Y¿Yg)
-Jí(Y^+Yg)'.Z(Z'Z)"^.Z'^ -Já.^'Z(Z'Z)"^.Z'(Y^+Yg) =
de donde
- = ^(Y^-Yg)'z(Z'Z)".^Z'(Y^-Yg)
2 2 2 y obtenemos inmediatamente que R^^ - RQ sigue una distribución x
con 2k-3 grados de libertad (Searle ,1971) •
135
Queda abierta en este punto la posibilidad de realización de contrastes
más generales. En este sentido sería interesante tener en cuenta la téc
nica propuesta por Oller(1983) y que se basa en el cálculo de la distan
cia estimada al cuadrado entre dos poblaciones normales , la cual rault_i
pilcada por una constante conveniente sigue una distribución ji-cuadra
do. Para el cálculo de la distancia se deberá hallar primero el tensor
métrico de la variedad a la que pertenecen las poblaciones, buscando -
después la distancia geodésica en la subvariedad en que realizamos el
contraste. En Ríos (1984) se puede observar un ejemplo de la utiliza -
ción de esta técnica.
136
6. ALGORITMOS DE CONSTRUCCIÓN DE ARBOLES ADITIVOS
Resumen: En este capítulo se discute la utilización de diversos algo
ritmos de transformación de una disimilaridad dada sobre un
conjunto en una distancia aditiva. Se concluye con un ejem
plo práctico de la utilización de los árboles aditivos estu
diando algunos aspectos de la localización europea de D r o —
shophila Subobscura.
Sumario:
6.1 - Introducción.
6.2 - Principales algoritmos.
6.3 - Ejemplo.
137
Una disimilaridad observada sobre un conjunto de objetos no
verifica, en general, la propiedad del cuarto punto (aditiva). Por lo
tanto, si deseamos representar los objetos en un árbol aditivo debe—
mos realizar una transformación de la misma en una distancia aditiva.
De este modo consideraremos un algoritmo de construcción de árboles
aditivos como un método que nos proporciona una distancia aditiva aso
ciada a una disimilaridad sobre el conjunto, pudiéndose expresar en
la forma
i> : D ^ D (1) s
•d
donde D es el conjunto de disimilaridades sobre S, D conjunto de 5
distancias aditivas sobre S y ( S ) = d la distancia aditiva aso
ciada a 6 por el algoritmo en cuestión.
En este capítulo daremos una visión general de los principa
les algoritmos implementados hasta el momento comentando su eficiencia
y los distintos puntos de vista en que están basados. También estudia—
mos las líneas básicas para la confección de un algoritmo basado en la
transformación de la disimilaridad en una distancia ultramétrica conve
niente obteniendo a partir de la misma una distancia aditiva.
Pensamos que este capítulo puede ser de interés sobre todo pa
ra la utilización en problemas prácticos cuando hemos elegido como mode
lo de representación los árboles aditivos, puesto que la metodología a
seguir en tales problemas se puede dividir en dos partes:
138
1 3 } Cálculo de una disimilaridad adecuada entre los objetos (Sobre el
particular cabe citar estudios como los de Rao (1945), Gower(1971)
y 011er (1983)).
23) Una vez elegido el modelo de representación,se procede a la selec
ción de un algoritmo de transformación adecuado.
É l.2 - r _ £ 5 I i E £ I£ALES_ALG0RITM0S
6.2.1.- Algoritmo de Tversky (1977).
Este algoritmo fue elaborado por Tversky (1977) e irapleraenta-
do por J. Corter (1981 ) en un programa denominado ADDTREE, nombre con
el que también es corriente referirse al algoritmo.
El algoritmo consta de dos partes:
a) Construcción de la configuración del árbol.
b) 'Estimación de la longitud de las aristas.
Describiremos a continuación estas dos partes:
a) Si 5 es la disimilaridad observada entre los objetos, considera pa
ra cada par (x,y) e S x S el valor n que representa el número de
xy pares (z,t) e S X S tales que
six,y) + 5(z,t) < min { 6(z,x) + 5(y,t), 6(x,t) + 6(y,z)}(2)
139
De este modo se toma el par ( g' O ' ^
n = max { n I (x,y) e S x S }
y consideramos unidos en un primer paso este par de objetos de S (Fig 1)
Figura 1
Se considera posteriormente una nueva disimilaridad en el conjunto
= ( s - txQ.y^} ) u Í U Q }
definida en la forma
<S' (x,y) = 6(x,y) si x,y 4 UQ
5'(X,UQ) = Vzi ¿ ( X . XQ ) + S(x,yQ))
(3)
y se. aplica el mismo proceso anterior al par (S', 6').,
De este modo reiterando el proceso se llega a obtener la con
figuración del árbol (Fig.2) ,
140
Figura 2
b) Una vez construida la forma del árbol se debe proceder a la estima—
ción de la longitud de las aristas. Se considera la matriz X de orden
(g) X (2n-3) representando la configuración del árbol, siendo n el nú
mero de objetos del conjunto S y 2n-3 el nùmero de aristas del á r —
bol, por lo que x^^ = 1 si la distancia i-ésima contiene la arista j
y x^j = 0 en caso contrario, planteándose la estimación de las longitu
des de las aristas C S , S ) por el método de los mínimos cuadra—
dos, obteniendo como solución
Ö = (X'X)~-^.X'.5
con lo que queda completado el algoritmo.
6.2.2.- Algoritmo de Cunningham (1978)
Este algoritmo, de corte muy parecido al anterior, tiene por
objetivo la búsqueda de una distancia que verifique la condición del
cuarto punto a partir de consideraciones sobre la forma del árbol según
la disimilaridad inicial.
141
Si 6 es la disimilaridad inicial y para cuatro elementos de
S {i,j,k,l} se verifica:
«ij *^kl < ^ i k ^ «jl<«il-*-\j
se considera interesante que la distancia aditiva d buscada verifique
d., + d., = d., + d, . ik Jl xl kj
De este modo se obtiene una colección de relaciones lineales entre las
distancias, considerando sólo aquellas que resultan ser independientes.
Estas relaciones se pueden expresar matricialmente como
C.d = O
donde C es una matriz de orden r x C^) siendo r el número de rela
ciones lineales impuestas, y de este modo si la i-ésima relación es
d + d = d + d U V r s
una vez numeradas las distancias (entre 1 y (^)) nos resulta
' 1 si i = u,v
C^j = -1 si j = r,S
o resto
142
d* = 5 - C .(ce••)""'•.C5
Queda pues como último paso la reconstrucción del árbol, cuestión que
ya hemos abordado en el capítulo 3.
En un intento de mejorar las posibilidades prácticas de apli
cación del algoritmo anterior. De Soete (1983) propone un algoritmo ba
sado en la minimización secuencial de
F ( D , r ) . j ; (d.. - . . . r (d.^. d.^ - d.^ - <t^)'
, . " ' L(D) P(D)
para una sucesión creciente de r y siendo
= { ( i , j , k , l ) | i , j , k , l d i s t i n t o s y ^^^^ ^ i k " * ' ^ ! ' ^ i l ' ^ S j ^ ^
Este procedimiento , basado en la misma idea inicial del algoritmo de
Cunningham , emplea . sin embargo un algoritmo iterativo para la búsqueda
de la distancia aditiva.
Se procede seguidamente buscando la distancia aditiva d* tal que
Il 6 - d*|| = minili 6 - d.ll I C.d= 0 }
obteniendo corno solución
143
siendo
En concreto el algoritmo que propone comienza considerando
0^°^ = { + e.^ [ i < j }
t . . r s ^ N(0, a^) x j e
Se trata entonces de minimizar FCD.r^^') empezando por D^^""^^
er D^^\ considerando r(^^= 10.r "-""
Se , paran las evaluaciones cuando
es menor que una constante que hemos fijado de entrada.
En comparación con el algoritmo de Cunnií^iat! este método tiene
la ventaja que se puede utilizar para conjuntos de datos con mayor núme~
ro de elementos puesto que no requiere la inversión de matrices tan gran
des como en el algoritmo anterior. En un estudio de simulación para eva
luar la eficacia obtiene resultados parecidos a los obtenidos por
ADDTREE.
144
6.2.3.- Algoritmo de Abdi (1985)
Al igual que los algoritmos anteriores H.Abdi (1985) propone
un algoritmo dividido en dos fases: a) Determinación de la forma del
árbol b) Estimación de la longitud de las aristas.
a) Forma del árbol.
Dada una disimilaridad 6 sobre un conjunto S, se define la función
S X S
de modo que
ít)j (a,b) = n
si existen exactamente n subconjuntos U de S - {a,b} tales que
[U| = k verificando
5(a,b) + max { <S(x,y) } < max { 6(a,x) + 6(b,y) }
x,y s U x,yeu
En caso de que S fuera la distancia asociada a un árbol aditivo, el
valor máximo de se encuentra precisamente entre los pares con un
único nudo principal no terminal en el camino que los une (Figura 3 ) .
145
Figura 3
Así pues para la determinación de la forma del árbol, se unen
en un primer paso los elementos a y b tales que (()j (a,b) sea máximo y
se considera entonces el elemento z representando al nudo constituido
por {a,b} y la nueva función sobre (S - {a,b}) U {z } = S^^^
<^l^hz,n) = Jádj^Ca.u) + (l)j (b,u))
({i^^^x.y) = (Í)j (x,y) si íx.y} n {a,b} = 0
reiterando entonces el proceso para S^'^^,
b) Estimación de las longitudes de las aristas.
Para la estimación de las longitudes de las aristas se propo
ne un procedimiento heurístico basado en una estimación geométrica de
las mismas. Observemos que para el árbol de la figura 3, si d es la
distancia asociada al árbol se verifica que
d(a,u) + d(b,u) - d(a,b) d(z,u> =
para cualquier u nudo terminal.
146
Esta propiedad es la que sugiere el procedimiento de estima—
ción a seguir.
Se considera el conjunto S = S U íg) con la disimilaridad
asociada 6 definida como
S (u,u') = 6(u,u') si u,u' 4 g
^ " T - i 6(u,u' « (g.u) = >
u ^ S "
y se procede a la representación de (S , ^ ) en un espacio euclideo
(V.D)
: (S*. «*) (V,D)
* considerando una nueva distancia sobre S definida en la forma
5(x,y) = D( * (x), * (y))
Siguiendo paralelamente el proceso reiterativo de la construcción del
árbol se procede para la estimación de la longitud de las aristas. Así
si a y b se han unido en un nudo z, construimos el mismo de modo que
la distancia entre z y g sea mínima. Posteriormente considereimos una
nueva distancia sobre S " ^ calculada a través de la geometría euclí
dea obtenida. Se reitera de este modo el proceso hasta la obtención
de las estimaciones de las longitudes de las aristas.
En un estudio de simulación sobre la eficacia del método se
obtienen resultados muy parecidos a los obtenidos para ADDTREE en
Pruzansky el al.(1982).
147
6.2.4.- Algoritmo de Waterman (1978).
Waterman et al.(1978)desarrollan un algoritmo basado en métodos de pro
gramación lineal, efectuándose una construcción secuencial del árbol
aditivo en que se añade un nuevo nudo terminal en cada paso minimizando
se una función objetivo definida sobre las aristas.
Se consideran como restricciones: a) Las longitudes de las
aristas: deben ser no negativas. b) La distancia sobre el árbol entre
dos objetos debe ser mayor o igual que la disimilaridad observada.
Así, si anotamos por e,,...,e las aristas del camino en- -
1 m
tre los puntos i y j y 5 . es la disimilaridad observada entre
los mismos, tendremos que
m
i=l
e. > O 1
V i,j e s (4)
obteniendo pues un poliedro coive oo, por lo que se alcanza la solución
al problema en un punto extremo del mismo (Roberts & Varberg, 1973 ).
Se sugiere tomar como función objetivo alguna de entre las
siguientes
2n-3
a) ^2,^ ®i ~ ^ \ e. (simboliza la evolución total)
i=l
148
b) l.k 6^^
(sugerida por Fitch & Margoliash, 1967)
*T.k~ ^ '' ^ ®" • camino entre 1 у к)
с) Í e, } ) = l,k 6 ^
Ik
El algoritmo consistirá en unir en cada paso un nuevo vértice
minimizando la función según las restricciones (4). A fin de evitar el
problema de la dependencia del orden en la unión de los vértices termi
nales del árbol se sugiere en una extensión del método unir en cada pa
so el vértice terminal que proporcionará un valor menor para la función
objetivo.
No se obtiene sin embargo un mínimo global mediante este pro
cedimiento, tal y como demuestra Waterman con un contraejemp-lo. Por la
complejidad calculística del procedimiento se sugiere hallar árboles
razonablemente válidos y a partir de los mismos estimar las aristas
por el procedimiento descrito anteriormente.
149
6.2.5.-
En esta memoria sugerimos además la utilización de un algorit
mo basado en la búsqueda a priori de una configuración adecuada del ár
bol. En este sentido aparte los métodos de Tversky, Cunningham y Abdi
mencionados existe la posibilidad de buscar una clasificación taxonómi
ca de los objetos mediante algún método de clasificación jerárquicar-jen
particular el método UPGMA (con importantes propiedades con respecto
el coeficiente de correlación cofenética) y realizar posteriormente una
transformación del árbol ultramétrico hallado dentro de la misma carta
de la variedad de modo que se ajuste según algún criterio de optimiza—
ción a la disimilaridad observada.Así el algoritmo se podría entender
como una aplicación definida en la forma:
D ^ Q ^ D s u A
6 •d ^ d u a
siendo D = conjunto de disimilaridades sobre S. s
= " ultramétricas sobre S.
D. = " " aditivas sobre S. A
El paso de la distancia ultramétrica a la distancia aditiva
podría efectuarse de muchas maneras de entre las cuales sugerimos las
siguientes:
150
a) Mediante el método de los mínimos cuadrados .
b) Calculando «:S "-R tal que
E (6(i,j) - d (i.j) - *(i) - *(j))2
sea mínima , considerando entonces la distancia aditiva
d^(i,j) = d (i,j) +* (i) +* (j) (5)
Si indicamos y^^= 6(1,j) - d^(i,j) , *(i) = se trata de minimi
zar
2
De este modo, derivando parcialmente con respecto para todo i ,
obtenemos las ecuaciones
n
(6)
es decir
n
j=l j=l Uj j^i
151
sumando las ecuaciones (6)
n n
i=l j=l
de donde
2^1 j - (2n-2).X!"k = Uj k=l
(8)
De (7) y (8) se deduce que n
(2n-2).2] y^i, - Z y.,-k=l ^'^ m (9) o. = 2.(n-2).(n-l)
Así pues consideraremos que existe una solución mediante este algoritmo
cuando podemos hallar d^ distancia ultramétrica y * definida a tra
vés de (9) de modo que d construida en (5) resulta ser distancia.
La wentaja de este método consiste en la posibilidad de relacionar una
representación ultramétrica y un árbol aditivo asociados a 5 .
6.3.- EJEMPLO
Este ejemplo tiene por objetivo realizar una ilustración de
las representaciones mediante árboles aditivos. Se trata de una aplica
ción de las mismas al estudio de la distribución geográfica de Drosophi
la Subobscura a partir de la distancia genética propuesta por Prevosti
(1974) , la cual cuantifica la diferencia entre dos poblaciones a partir
de las frecuencias de las ordenaciones cromosómicas producidas por inver
siones y que ha sido descrita en 2.6 .
152
Salicrú (1983) utilizando técnicas de taxonomía numérica de-»-
muestra que las barreras geográficas son también barreras genéticas. Es
te estudio pretende ser una continuación del anteriormente citado inten
tando dar una confirmación estadística a la forma en que se ha producici
do la colonización europea atendiendo a la hipótesis histórica no selec
tiva según la cual el origen de la especie podría ser el continente a —
fricano extendiéndose después por Europa. Esta hipótesis se fundamenta
en parte a la pobreza de inversiones en las poblaciones de la parte nor
te y la riqueza en las poblaciones que están más al sur.
Considerando las poblaciones de Huelva (H), Agadir (A), Barce
lona (B), Thessaloniki (T), Fruska Gora (F), Viena (V), Zurich (Z),
Drobak (Dr), Dalkeith (D) y Groningen (G) con matriz de distancias ge
néticas asociadas:
H A T Z V G Dr
В
H
A
T
z
V
G
Dr
D
0.259 0.498 0.392 0.445 0.469 0.529 0.615 0.465 0.460
0.428 0.502 0.623 0.640 0.695 0.782 0.657 0.577
0.661 0.792 0.789 0.844 0.927 0.834 0.666
0.500 0.434 0.592 0.668 0.545 0.315
0.128 0.112 0.235 0.300 0.391
0.187 0.260 0.370 0.342
0.152 0.276 0.470
0.270 0.560
0.505
153
utilizando el algoritmo ADDTREE descrito en 6.2.1 obtenemos el árbol
aditivo
0.134 « 1 0 0.150 0.293 = 0.090 0.073 0.104
a, = 0.185 = 0.050 0.152 0.151
O s = 0.075 B5 0.03 a? 0.056 Be 0.042
0.076 = 0.003 « 9 = 0.1?0
Coeficiente correlación entre la distancia original y la distancia aditiva = 0.9965.
Figura 4
y mediante el método de clasificación jerárquica UPGMA descrito en 2.4
obtenemos el árbol ultramétrico
0.636 0.501 0.463 0.315 0.304 0,259 0.216 0.157 0.112
D D r V G Z F T A H B
Coeficiente de correlación cofenética = 0.83238
Figura 5
154
Podemos comprobar que si bien mediante el dendograma obtenido
utilizando el método UPGMA se pueden distinguir 3 clases significati
vas que se pueden entender como Sureste, Suroeste y Norte, coincidiendo
pues con los resultados obtenidos por Alonso(1975) en que utilizaba
otros métodos de representación , la distancia ultramétrica obtenida pre
senta en algunos casos los problemas comentados en 2.6, por lo que es
preferible la representación utilizando árboles aditivos.
El árbol aditivo obtenido (Fig.4) se podría interpretar como
la evolución de la especie en Europa según las poblaciones estudiadas,
confirmándose a través del mismo la tendencia de expansión de Suroeste
a Noreste y observándose como el Centro-Norte de Europa está más pi óxi
mo al Sureste que al Suroeste, lo que induce a pensar ш la hipótesis de
una colonización Suicoeste.'^ Sureste - Norte. Esta hipótesis halla una
justificación biológica en el hecho de que la coionización o reooloniza
ción del continente europeo tuvo lugar después de la última glaciación
resultando ser la capacidad de dispersión de la especie mayor que la
velocidad de retirada de los hielos. La elevada capacidad de disper-
sión se ha comprobado experimentalmente mediante el<:estúdio de la colo
nización del continente americano por la especie europea D.Subobscura.
En este análisis se ha observado que dicha especie ha ocupado Chile,
desde La Serena (29''55'Lat. Sur ) hasta Coyhaique (45" 35' Lat.Sur)
(3.000 Km. aprox.) en un periodo de tan sólo tres años.
155
CONCLUSIONES
En esta memoria se ha desarrollado una metodología para
abordar problemas derivados de la representación de un conjunto me~ -
diante una clase especial de grafos llamados árboles aditivos y se ha
realizado un estudio formal de algunos de los principales aspectos
que surgen en la utilización de este tipo de representaciones.
Se ha situado en primer lugar este método de representa
ción dentro de los métodos propios del análisis multivariante, resal
tando las ventajas que tiene frente otros modelos de representación
discretos cómo) pueden ser las clasificaciones jerárquicas de la taxo
nomía numérica y las representaciones utilizando modelos continuos,
explicitando los principales resultados y características de todos
ellos. Se ha observado el interés que tiene el estudio de medidas pa
ra poder decidir objetivamente entre un modelo de representación con
tinuo y un modelo de representación discreto, analizando los resulta
dos obtenidos sobre el particular por Pruzansky et al. (1982) en que
sugieren que el momento centrado de tercer orden y la proporción de
triángulos elongados pueden ser efectivos para resolver el problema
mencionado.
Se,ha desarrollado después una nueva formalización sobre
las relaciones entre una distancia verificando el axioma del cuarto
punto y un árbol aditivo, hallando en términos de la misma formaliza
ción las relaciones entre distancias aditivas y ultramétricas. Las lí
neas seguidas en el estudio anterior han sido comparadas con las desa
156
rrolladas en Buneman (1971) donde se relacionan distancias aditivas
y árboles aditivos desde otra perspectiva.
Se ha conseguido después dotar el conjunto de distan
cias aditivas con configuración de una estructura de variedad dife—
renciable con frontera, calculando explícitamente la misma y estu- -
diando las distancias ultramétricas dentro de la variedad. Se advier
te del interés que puede tener esta estructura en el estudio de pro
blemas relativos a algoritmos de construcción, inferencias en árbo—
les y representación de los mismos por modelos continuos.
A partir de la asociación de un modelo probabilístico a
un vector de distancias obtenemos la resolución de diversos contras
tes formulados, en general, en una carta de la variedad constituida
por las distancias aditivas con configuración.
Se ha expuesto por último un análisis de los principa—
les algoritmos de transformación de una disimilaridad definida sobre
un conjunto en una distancia aditiva. Esta exposición se ha ilustra
do con un ejemplo en que se muestra la utilización de los árboles
aditivos como técnicas de representación. En el mismo se estudian al
gunos aspectos de la colonización europea de Drosophila Subobscura
bajo la hipótesis histórica no^selectiva corroborando la teoría que
la misma se ha producido- en dirección Suroeste a,Noroeste, pudiéndo
se observar algunas ventajas que supone esta técnica de representa—
ción frente a un dendograma.
157
Los temas desarrollados en esta memoria se podrían exten
der en las siguientes líneas:
a) Estudio y comparaciones de aspectos teóricos y prácticos de los
algoritmos de construcción de árboles aditivos.
b) Estudiar las relaciones que existen entre los distintos modelos
de representación.
c) Desarrollar nuevas vías sobre la inferencia en árboles aditivos
que puedan solucionar problemas tales como: significación de cla
ses, elección de la configuración, comparación de modelos.
d) Estudios de distancias asociadas a modelos discretos más comple—
jos.
158
ABDI, H. (1985) . Tree representations of associative structures in semantic and episodic memory research. Trends in Mathematical Psychology,3-31 , Elsevier Science Publishers B.V. (North-Holland)
ALONSO,G. (1975) . Estudio de la distribución geográfica del polimorfismo cromosomico en Drosophila Subobscura. Tesina, Fac.Biologia,Univ.Bare.
ANDERSON, J.J. (1985) . Normal mixtures and the number of clusters problem. Computacional Statistics Quarterly,V.2, Issuel,3-14.
ANDERSON,T.W. (1958) . An introduction to multivariate statistical analysis. John Wiley 8e Sons, Ine. , New York .
ARCAS ,A. (1983) . Contribuciones a la construcción de clasificaciones estratificadas. Tesina, Fac.Matemáticas, Univ. Barcelona.
ARCAS, A. (1984) . Sobre la no unicidad de clasificaciones jerárquicas aso ciadas a un método de clasificación taxonómico. Actas del XI? congreso nacional de estadística,inv. oper, e inform.
ARCAS,A. у SALICRÚ,М. (1984). Sobre la no unicidad de la clasificación jerárquica asociada a una disimilaridad por los métodos del máximo у UPGMA .Questió, V.8, №3,113-120.
BALL,G.H. у HALL,D.J. (1967) . A clustering technique for summarizing multivariate data. Behavioral Science, 12(2),153-155.
BARTLETT,M.S. (1948) . A note on the statistical estimation of demand and suply relations from time series. Econometrica, 16, p.323.
BERGE, C. (1959) . Espaces topologiques.Fonctions multivoques.Dunod,Paris. BERGE, C. (1973) . Graphes et Hypergraphes. Dunod, Paris. BERTRAND,P. у Diday,E. (1985) . A Visual representation of the compatibili
ty between an order and a dissimilarity index:the pyramids. Computado nal Statistics Quarterly, V.2,Issue 1,1985,31-41 .
BHATTACHARYYA,A. (1942) . On a measure of divergence between two multino -miai populations. Sanhkya,7,401,406.
BILLINGSLEY, P. (1968) . Convergence of Probability Measures.John Wiley , New York.
BIOMETRIKA 'TABLES FOR STATICIANS VOL.2. Edited by E.Pearson and H.O.Hart ley (1976) .
BUNEMAN, P. (1971) . The recovery of trees from measures of dissimilarity . F.R. Hodson, D.G.Kendal1,P.Tautu (Edit.)Mathematics in the Archeologi-cal and historical sciences. Edinburgh University Press.
159
CAILLIEZ,F. (1983) . The analytical solution of the additive constant problem. Psychometrika, V.48,№2,305-308 .
CARROLL, J.D. (1976). Spatial, non-spatial and hybrid models for scaling. Psychometrika, V.41, 4,439-463.
CHILLINGWORTH ,D.R.H. (1976). Differential topology with a view to applica tions. Pitman Publishing, London.
COOPER, G.H. (1972) . A new solution to the additive constant problem in me trie multidimensional scaling. Psychometrika, 37,311-322.
CUADRAS,CM. (1980) , Metodes de representado de dades i la seva aplicació en Biologia. Col.Soc.Catalana Biologia, 13,95-133.
CUADRAS,CM. (1980) . Curso de Análisis de la Varianza» Publicaciones de -Bioestadxstica y Biomatemática № 1 , Barcelona.
CUADRAS,CM. (1981) . Métodos de análisis multivariante. Eunibar,Barcelona. CUADRAS,CM. (1983) . Análisis algebraico sobre distancias ultramétricas.Ac
tas 44 Per, de Sesiones del Inst.Intern, de Estadística, Madrid,V.2, -
554-557.
CUADRAS,CM. y 011er,J.M. (1984) . Geometría finita aplicada a la estadíst_i
" cfcas congreso nacional de estadística,inv.oper. e inform.
CUADRAS,CM. y Oiler,J.M. (1985) . Eigenanalysis and metric multidimensio
nal scaling on hierarchical structures. Sometido a Psychometrika.
CUADRAS, CM., Oiler,J.M.,Areas,A. y Rios.M. (1986). Métodos geométricos
de la estadística. Questi# •(En prensa)
CUNNINGHAM,J.P. (1978). Free trees and bidirectional trees as representa
tions of psychological distance . Journal of Mathematical Psychology,
17,165-188.
DALLOT ,S. y Ibañez, F. (1972). Etude préliminaire de la morphologie et de
1'evolution chez les chaetognates. Inv.Pesq. 36(1) ,31-41.
DE SOETE, G. (1983) . A least square algorithm for fitting additive trees
to proximity data. Psychometrika, 48(4),, 621-626.
DE LEEUW.J. y HEISER, W, (1982) . Theory of multidimensional scaling .
Handbook of statistics V.2,North Holland Publising Company,285-316.
ECKART, C y Young,G. (1936). The aproximation of one matrix by another
of lower rank. Psychometrika, 1, 211-218.
FARRIS, J.S. (1969) . On the cophenetic correlation coefficient. Syst.Zoo
logy 18(3),279-285 .
160
FITCH, W. y Margoliash,E. (1967). Construction of phylogenetic trees. Science, V.155,279-284 .
GNANADESIKAN.R. (1977). Methods for statistical data analysis of multivariate observations. John Wiley, New York.
GONDRAN, M. (1976). La structure algebraique des classifications hierarchic ques. Annales de l'insee,№ 22-23,181-190.
GOWER, J.C. (1967). A comparison of some methods of cluster analysis.Biometrics, 23,623-637.
GOWER, J.C. (1982). Euclidean distance geometry. Math. Scientist,7-14. HICKS,N.J.(1965). Notes on differential geometry.Van Nostran,Princeton. HOLMAN, E.W.(1972). The relation between hierarchical and euelidean models
for psychological distances.Psychometrika,V.37,№4,417-423. HUBERT,L. y ARABIE,P. (1985) . Comparing Partitions . Com.Presentada en
"Fpurth european meeting of the Psychora. See. and the Class.Soc",Cambridge. HYVER (1973) . Valeurs propes des systèmes de trsinsformation représenta -
bles par des graphes en arbres. J.Theoret.Biol.,42,397-409.
JARDINE,N. y SIBSON,R. (1971). Mathematical Taxonomy. John Wiley,New York.
JOHNSON, B.C. (1967). Hierarchical clustering schemes.Psychometrika V.32,
241,254.
KIMURA ,M. (1984) . Neutral evolution as an innevitable process of change
at the molecular level. Darwin a Barcelona,P.P.U.,231-252.
KOHNE,D.E.,CHISCON,J.A. y HOYER, B.H.(1972). Evolution of primate DNA se
quences. J.Human Evol. 1,627-644.
KRUSKAL,J.B. (1964) . Nonmetric multidimensional scaling:A numerical method.
Psychometrika, 29,115-129 .
KRUSKAL,J.B., YOUNG,F.W.,SEERY,J.B. (1973) . How to use KYST a very flexi
ble program to do multidimensional scaling and unfolding. Bell Labora
tories, Murray Hill.
KRUSKAL, J.B. y WISH ,M. (1978) . Multidimensional scaling. Sage Publica
tion, Beverly Hills.
LANG, S. (1962) . Introduction to differentiable manifolds. Interscience
Publishers, New York.
LERMAN, I . e . (1981) . Classification et analyse ordinale des donnés.Dunod,
Paris.
LINGOES, J.C. (1971). Some boundary conditions for a monotone analysis of
sirametric matrices. Psychometrika, 36,195-203.
MARDIA.K.V. (1978). Some properties of classical multidimensional scaling.
Comm.Stat. A7 (13),1233-1241.
161
MARDIA, K.V., KENT, J.T. y BIBBy,J.M. (1979). Multivariate Analysis.Acade mic Press, London
MARRIOTT,F.H.C. (1982) . Optimization methods of cluster analysis. Biome-trika, V,69,2,417-421.
MATULA , D.W. (1977) . In Classification and Clustering , J.Van Ryzin ed., Academic Press , New York , 95-129 .
MATUSITA.K. (1957) . Decision rule based on the distance for the classifi^ cation problem. Ann. Inst.Statist.Math. 8, 67-77 .
MOOD , A. y GRAYBILL,F. (1969) . Introducción a la teoría estadística. A-guilar, Madrid.
OLLERjJ.M. (1983) . Utilización de métricas riemannianas en análisis de -datos multidimensionales y su aplicación a la biología. Publicaciones de bioestadística y biomatemática № 1 1 , Barcelona.
OLLER.J.M. y CUADRAS,CM. (1985a).Rao's distance for negative multinomial distributions . Sankhya, V.47,A,75-83 .
OLLER,J.M. y CUADRAS,CM. (1985b).Sobre ciertas condiciones que deben veri ficar las distancias entre espacios probabilísticos. Actas XV Reunión nacional de estadística, Invest.Oper. e Inform.
OCAÑA,J.(1975) . Sobre la distancia genética. Tesina,Fac.Biolog.,Univ.Bare.
OHSUMI,N. y NAKAMURA,T.(1981). Some properties of monotone hierarchical -
dendrogram in numerical classification. Proc.Inst.Statist.Mathem.,28(1),
117-133.
PETIT PIERRE,E. y CUADRAS,C.M.(1977).The canonical analysis applied to the
taxonomy and evolution of the genus Timarcha Latr.Mediterránea,1,13-28.
PREVOSTI,A.(1974) . La distancia genética entre poblaciones. Miscellanea
Alcobé, Univ. Barcelona, 109-118 .
PREVOSTI,A.; OCAÑA,J. y ALONSO,G. (1975) . Distances between population of
Drosophila Subobscura based on chromosome arrangement frequencies.Theor•
and Appl. Genetics 45,231-241 .
PRUZANSKY ,S.; TVERSKY.A. y CARROLL,J.D.(1982) . Spatial versus tree repre
sentations of proximity data. Psychometrika,V.47,1,3-24 .
RAO,C.R.(1945). Information and accuracy attainable in the estimation of -
statistical parameters. Bull.Calcuta Math.Soc.,37,81-91.
RAO,C.R.(1948). The utilization of multiple measurements in problems of -
biological classification. J.Roy.Statistical.Soc.,B.10,159-193.
162
RAO, C.R. (1973). Linear Statistical Inference and its Applications.John
Wiley, Nevr York.
RAO, C.R. (1982). Diversity and dissinsiiarity coefficients: a unified
aproach. J. Theoretical Polupation Biology, 21,24-43.
RIOS.M. (1985) . Distancias entre modelos lineales y s u aplicación a la .
clasificación y diagnóstico de enfermedades. 'Tesis doctoral, Fac. de
Medicina, üniv. de Barcelona.
ROHLF, F.J. (1970) . Adaptive hierarchical clustering schemes. Syst.Zool,
19,58-82.
R0HLF,F.J.(1981) . Spatial representation of phylogenetic trees computed
tfom dissimilarity matrices. Inter.Symp. Compt. Meth.Paleo»,Barcelona»
303-311 .
_ROBERTS,W. y ¥ARBERG,D.(1973). Convex Functions.Academic Press,New York.
R0MEDER,J.M.Cl973). Methodes et prograsaes d*analyse discriminante. Dunod,
Paris.
SAITO.T. (1978) . An alternative procedure to the additive constant pro -
ble» in metric multidimensional scaling. Psychometrika,43,193-201,
SAl.ICBÜ,M.Cl9S3). Consideraciones, sobre desemejanzas y clasificaciones a-»
sociadas. Tesina, Fae. Matemáticas, Oniv. Barcelona,
SATTATH,S. y TVERSKY, A. (1977) . Additive similarity trees. Psychometrika,
42(3) 319-345,
SEARLE, S.R.(1971) Linear Models. John Wiley, New York.
SCHEFFS,H.{1959) .. The analysis of variance. John Wiley, Mew York.
SHEPARD, R.N. (1962). The analysis of proximities; multidimensional s c a
ling with an inkndwn distance function. Psychometrika, 27,219-246.
SNEATH, P.H.A. y SOKAL.R.S. {1973). Numerical Taxonomy. W.H.Freeman and Co.,
San Francisco
SNEATH, P.H.A. (1980). Some empirical tests for significance of clusters.
• Data analysis and informatics."E.Diday et al. (eds.).North Holland-Pu
blishing'Company , 491-507 .
SOKAL, R.R. y MICHENER', C.D.(1958) . A statistical method for evaluating
systematic relationships. Univ.Kansas Sci.Bull.,38,1409-1438.
SOKALi R.S. y SNEATH, P.H.A. (1963). Principles of nuBierical- taxonomy->
W.H.Freeman and Co.,San Francisco".
SPIVAK,M.(1979). A comprehensive introduction to. differential geometry
Publish or Perish,Inc. Berkeley.
TOIGERSSON, M.S. (1952). Multidimensional,Scaling:•1. Theory and method.
Psychometrika,17, 401-419 .
163
TORGERSON, M.S. (1958).Theory and methods of scaling. John Wiley,New York* TUCKEY, J.W.(1977). Exploratory data analysis. Addison-Wesley, Reading. WA6ENAAR'^W(Av>y PADMOSv Pv (1971). Quantitative interpretation of stress
in Kruskal's multidimensional scaling technique. British J.of Mathema tical and Statistical Psychology,24, 101-110 .
WATERMAN,M.S.;SMITH,T.F.; SINGH,M. y BEYER, N.A. (1977). Additive evolutio nary trees. J . Theor. Biol., 64,199-213.
WILKS,S.(1962) . Mathematical statistics. John Wiley, New York. WISH,M. (1970) . Comparations among multidimensional structures of nations
based on different measures of subjective similarity. General Systems, 15,55-65.
WISH,M.; DEUTSCH.M.;BIENER,L. (1972). Differences in perceived similarity of nations. P.P. 289-313 in A.K. Romsey,R.N.Shepard and S.Nerlove(eds). Multidimensional Scaling: Theory and Applications in the Behavioral -Sciences,V.2,New York:Seminar Press.
WISH.M. y CARROLL,J.D.(1982). Multidimensional Scaling and its Applications. P.R. Krishnaiah and L.N.Kernel Eds. , Handbook of Statistics, V.2, 317-345.
Top Related