Unidad 5. Introducción al análisis multivariado

23
Análisis de Conglomerados. Amparo Vallejo Arboleda 1 ANALISIS DE CONGLOMERADOS (Clusters) Los procedimientos exploratorios en el Análisis multivariado a menudo son útiles para entender las relaciones existentes en un conjunto de datos, por ejemplo buscar la estructura natural de grupos de datos puede proporcionar un medio indirecto para entender la dimensionalidad de los datos, identificar valores extraños y sugerir hipótesis concernientes a las relaciones. En este capítulo establecemos diferencia entre los términos clasificación y agrupación. La clasificación parte del conocimiento de un número de grupos y el objetivo es crear un mecanismo para asignar nuevos individuos a uno de esos grupos. La agrupación busca identificar grupos y se realiza basándose en similaridades (disimilaridades) o distancias entre los individuos a este método se le llama análisis de conglomerados (clusters). El objetivo en el análisis de conglomerados es descubrir la agrupación natural de los individuos (objetos). Un conglomerado (o cluster) es un conjunto de individuos similares, es por tanto necesario desarrollar escalas cuantitativas en las cuales se pueda medir la similaridad entre los objetos y crear algoritmos para ordenarlos en grupos. Dada la dualidad de la matriz de datos, también es posible tener una visión semejante a la descrita anteriormente pero desde el punto de vista de las variables, esto es, descubrir grupos de variables cuya información es similar para el conjunto de los individuos. En este capítulo nos ocuparemos fundamentalmente de la técnica de conglomerados para los individuos. Esta técnica tiene su origen en la biología en la que el problema de clasificación de las especies tiene gran importancia. Son Robert R. Sokal y P.H. Sneath con sus libros The principles of numerical taxonomy (1963) y Numerical Taxonomy (1972) los que inician el desarrollo de esta técnica. Actualmente es aplicada a muchos campos como la medicina, la psiquiatría, arqueología, antropología entre otros. En la figura 1 se reflejan los pasos fundamentales del análisis de conglomerados. Como en otras de las técnicas partimos de una matriz de datos X de tamaño ) ( p n × , de individuos por variables. Las variables en general pueden ser de cualquier tipo: nominales ordinales de intervalo o de razón. Los aspectos importantes en este análisis tienen que ver con la selección de: - Las variables a incluir en el análisis. - Las distancias o similaridades. - El algoritmo de clasificación.

description

ANALISIS DE CONGLOMERADOS Amparo Vallejo Arboleda

Transcript of Unidad 5. Introducción al análisis multivariado

Page 1: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

1

ANALISIS DE CONGLOMERADOS (Clusters) Los procedimientos exploratorios en el Análisis multivariado a menudo son

útiles para entender las relaciones existentes en un conjunto de datos, por ejemplo buscar la estructura natural de grupos de datos puede proporcionar un medio indirecto para entender la dimensionalidad de los datos, identificar valores extraños y sugerir hipótesis concernientes a las relaciones.

En este capítulo establecemos diferencia entre los términos clasificación y

agrupación. La clasificación parte del conocimiento de un número de grupos y el objetivo es crear un mecanismo para asignar nuevos individuos a uno de esos grupos. La agrupación busca identificar grupos y se realiza basándose en similaridades (disimilaridades) o distancias entre los individuos a este método se le llama análisis de conglomerados (clusters).

El objetivo en el análisis de conglomerados es descubrir la agrupación natural

de los individuos (objetos). Un conglomerado (o cluster) es un conjunto de individuos similares, es por tanto necesario desarrollar escalas cuantitativas en las cuales se pueda medir la similaridad entre los objetos y crear algoritmos para ordenarlos en grupos. Dada la dualidad de la matriz de datos, también es posible tener una visión semejante a la descrita anteriormente pero desde el punto de vista de las variables, esto es, descubrir grupos de variables cuya información es similar para el conjunto de los individuos. En este capítulo nos ocuparemos fundamentalmente de la técnica de conglomerados para los individuos.

Esta técnica tiene su origen en la biología en la que el problema de

clasificación de las especies tiene gran importancia. Son Robert R. Sokal y P.H. Sneath con sus libros The principles of numerical taxonomy (1963) y Numerical Taxonomy (1972) los que inician el desarrollo de esta técnica. Actualmente es aplicada a muchos campos como la medicina, la psiquiatría, arqueología, antropología entre otros.

En la figura 1 se reflejan los pasos fundamentales del análisis de conglomerados. Como en otras de las técnicas partimos de una matriz de datos X de tamaño

)( pn× , de individuos por variables. Las variables en general pueden ser de cualquier tipo: nominales ordinales de intervalo o de razón. Los aspectos importantes en este análisis tienen que ver con la selección de: - Las variables a incluir en el análisis. - Las distancias o similaridades. - El algoritmo de clasificación.

Page 2: Unidad 5. Introducción al análisis multivariado

2

Representación gráfica

Estructuraarborescente

Dis

tanc

ia

0102030405060

A B C D E

Matriz desimilaridades

Matriz dedatosIndiv

Variables

Criterio de Similaridad

Indiv

Dis

tanc

ia

0102030405060

A B C D E

Indivi

Algoritmo deClasificación

Indiv

Representación gráfica

Estructuraarborescente

Dis

tanc

ia

0102030405060

A B C D E

Matriz desimilaridades

Matriz dedatosIndiv

Variables

Criterio de Similaridad

Indiv

Dis

tanc

ia

0102030405060

A B C D E

Indivi

Algoritmo deClasificación

Indiv

Representación gráfica

Estructuraarborescente

Dis

tanc

ia

0102030405060

A B C D E

Matriz desimilaridades

Matriz dedatosIndiv

Variables

Criterio de Similaridad

Indiv

Dis

tanc

ia

0102030405060

A B C D E

Indivi

Algoritmo deClasificación

Indiv

Representación gráfica

Estructuraarborescente

Dis

tanc

ia

0102030405060

A B C D E

Matriz desimilaridades

Matriz dedatosIndiv

Variables

Criterio de Similaridad

Indiv

Dis

tanc

ia

0102030405060

A B C D E

Indivi

Algoritmo deClasificación

Indiv

Figura 1: Pasos del Análisis de Conglomerados.

Selección de las variables Hay tres problemas a considerar:

- Que las variables estén en diferentes unidades. En este caso se suelen estandarizar para colocarlas en la misma unidad de medida.

- Que estén altamente correlacionadas. - Que el número de variables sea muy grande. Para resolver el segundo y tercer

problemas deberemos usar el método de los componentes principales que, como sabemos, reduce el número de variables a aquellas más significativas, las que explican una mayor cantidad de varianza y que no están correlacionadas entre sí. Distancias y similaridades. Las medidas descriptivas que se analizaron en un capítulo anterior reflejan las

condiciones de las variables en el conjunto de datos; la otra forma de mirar la estructura de los datos es analizarlos considerando las distancias o similaridades entre los individuos. Las distancias y similaridades (disimilaridades) son medidas que reflejan su proximidad o su lejanía entre los objetos. A continuación se presentan las definiciones de estos conceptos.

En la matriz de datos X de tamaño ( )n p× cada fila i , con 1,2,...i n= , tiene la

información del individuo correspondiente en las p variables es decir está en pR . Las n filas las representamos por: ' ' '

1 2, ,.... nx x x , esto es:

Page 3: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

3

'11 1 1 1

'1

'1

j p

i ij ip i

n nj np n

x x x

x x x

x x x

⎡ ⎤ ←⎢ ⎥⎢ ⎥⎢ ⎥= ←⎢ ⎥⎢ ⎥⎢ ⎥ ←⎣ ⎦

x

X x

x

Diremos que se ha definido una función de similaridad entre dos individuos

(objetos) i e 'i , si existe una función ' :p p

iis R R R× → , con las propiedades siguientes, para , ' 1, 2,...i i n= :

1. ' 0iis ≥ (no negativa) 2. 'iis cs= si y solo si 'i i= , donde cs es una cota superior, ejemplo 1 ó 10. 3. ' 'ii i is s= (simétrica).

La similaridad es pues una función no negativa y simétrica. Se ha definido el concepto de similaridad, pero podría definirse también el de

disimilaridad como una función : p pij R R Rδ × → con las propiedades siguientes,

para , ' 1, 2,...i i n= : 1. ' 0iiδ ≥ , (no negativa) 2. ' 0iiδ = si y solo si 'i i= (identidad) 3. ' 'ii i iδ δ= (simétrica).

Diremos que se ha definido una función de distancia entre individuos u objetos

si existe una función, ' :p p

iid R R R× → , con las propiedades siguientes: 1. ' 0iid ≥ (no negativa) 2. ' 0iid = si y solo si 'i i= (identidad) 3. ' 'ii i id d= (simétrica). 4. ' 'ii ik i kd d d≤ + (propiedad triangular).

La distancia es pues una función no negativa, simétrica y que cumple la

propiedad triangular. Algunas distancias Supongamos que se tienen las observaciones de dos individuos en un espacio

p - dimensional y que los denotamos por 1 2[ , ,..., ]i i i ipx x x=x y ' '1 '2 '[ , ,..., ]i i i i px x x=x .

Page 4: Unidad 5. Introducción al análisis multivariado

4

La definición de la distancia entre un par de individuos depende en general del tipo de variables. Si estas observaciones corresponden a variables cuantitativas medidas en escala de intervalo o de razón, se pueden definir entre ot0ras las siguientes distancias:

Distancia Euclídea:

( )2

' ' ' ' '1

( , ) ( ) '( )p

ii i i ij i j i i i ij

d d x x=

= = − = − −∑x x x x x x

Distancia de Mahalanobis:

2

' 1' ' ' '

1( , ) ( ) ' ( )

pij i j

ii i i i i i ij j

x xd d

s−

=

⎛ ⎞−= = = − −⎜ ⎟⎜ ⎟

⎝ ⎠∑x x x x S x x

donde 1−S es la inversa de la matriz de varianzas-covarianzas muestrales, que

se supone definida positiva. A esta distancia se le suele llamar también distancia estadística o distancia generalizada.

Distancia de Minkowsky:

1/

' ' '1

( , )rp r

ii i i ij i jj

d d x x=

⎛ ⎞= = −⎜ ⎟

⎝ ⎠∑x x con r Z +∈

Distancia de Manhatan:

' ' '1

( , )p

ii i i ij i jj

d d x x=

= = −∑x x

También es posible definir una distancia personal, solo debe tenerse en cuenta

que tiene que ser una función que se ajuste a las 4 condiciones que se establecieron en la definición.

Coeficientes de similaridad Las similaridades (disimilaridades) son medidas que si las comparamos con las

distancias no cumplen la propiedad triangular y por tanto, puede decirse, que son entonces menos exigentes y permiten definirse para espacios cuyas variables se han medido en escala nominal. Un tipo especial de datos de esta escala son los de presencia ausencia, por ejemplo los que se obtienen al clasificar personas en enfermas y aliviadas, o en encuestas de opinión cuando la respuesta es estar de acuerdo o en desacuerdo con una política. Una forma matemática de representar

Page 5: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

5

esos resultados es a través de variables binarias, donde se asume que el valor 1 es la presencia y el valor 0 es la ausencia.

La metodología siguiente nos permite definir algunas similaridades entre individuos si las variables son de tipo binario. Supongamos que se tienen las mediciones de dos individuos i e 'i medidos en 5 variables y que los resultados los tabulamos en la tabla 2 :

Variables

Individuos 1X 2X 3X 4X 5X

Ind i 1 0 0 1 1 Ind i’ 1 1 0 1 0

Tabla 2: valores de los individuos i e 'i en 5 variables binarios

Podemos construir la tabla para los individuos i e 'i contando el número de

presencias y ausencias y los codificamos como en la tabla 3.

Ind i’ 1 0 Totales

1 a b a+b Ind i 0 c d c+d Totales a+c b+d p= a+b+ c+d

Tabla 3 : codificación de la información de los individuos i e 'i en p variables binarias

donde, a: frecuencia de 1-1, b: frecuencia de 1-0, c: frecuencia de 0-1 y d: frecuencia de 0-0

En la tabla 4 se enumeran algunos coeficientes de similaridad que se

construyen para los datos binarios:

Page 6: Unidad 5. Introducción al análisis multivariado

6

Coeficientes de similaridad

Coeficientes Nombre y racionalidad

1. p

da +

C. de asociación simple Igual peso para los frecuencias 1-1 y 0-0.

2. cbda

da+++

+)(2

)(2 C. de Sokal y Sneath. Doble peso para los frecuencias de coincidencias.

3. )(2 cbda

da+++

+ C. de Roger y Tanimoto Doble peso en el denominador para las frecuencias de no coincidencias.

4. pa

En el numerador solo se ponderan las las coincidencias 1-1.

5. cba

a++

C. de Jaccard En el numerador solo se ponderan las coincidencias 1-1. Ningún peso en el denominador a las frecuencias 0-0

6. cba

a++2

2

C. de Sorensen o Dice Doble peso a las frecuencias 1-1 y ningún peso a las 0-0.

7. )(2 cba

a++

Ningún peso a las 0-0 doble peso a las frecuencias 1-0 y 0-1.

8. cb

a+

Razón de las coincidencias de las presencias con las no coincidencias.

9. p

cbda )()( +−+

C. de Hamann. Diferencia entre coincidencias y no coincidencias.

2b c

a b c++ +

Lance y Williams

Tabla 4: coeficientes de similaridad para variables binarias

Ejemplo 1: Suponga que 5 personas son medidas en las siguientes características:

1

1: 1.5 mTalla:

0 : 1.5X

m≥⎧

= ⎨ <⎩ 2

1: 75 .Peso:

0 : 75 kg

Xkg

≥⎧= ⎨ <⎩

3

1: caféColor de ojos:

0 : otrosX ⎧

= ⎨⎩

4

1: rubio Color de cabello:

0 : otrosX ⎧

= ⎨⎩

Page 7: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

7

5

1: diestroDiestro:

0 : zurdoX ⎧

= ⎨⎩

6

1: hombreGénero:

0 : mujerX ⎧

= ⎨⎩

Los resultados de la medición se describen en la tabla 5.

Individuo (X1) (X2) (X3) (X4) (X5) (X6)

A 0 0 0 1 1 1 B 1 1 1 0 1 0 C 0 1 0 1 1 0 D 0 0 1 0 1 1 E 1 1 1 0 0 0

Tabla 5: Valores de las mediciones de 5 individuos

Para los individuos A y B podemos construir una tabla con el número de

frecuencias de cada casilla

Ind B 1 0 Totales

1 1 2 3 Ind A 0 3 0 3 Totales 4 2 6

Tabla 6: codificación de la información de los individuos 1 y 2 en 6 variables binarias

Empleando el coeficiente de similaridad 1 se puede construir.

61

601=

+=

+p

da

En la tabla 7 se tienen las similaridades entre los 5 individuos es:

B C D E1

1/ 6 14 / 6 3 / 6 14 / 6 3 / 6 2 / 6 1

0 5 / 6 2 / 6 2 / 6 1

AABCDE

é ùê úê úê úê úê úê úë û

Tabla 7: Similaridades entre los 5 individuos del ejemplo1.

De acuerdo a esta tabla los individuos más similares son el B y el E y los

individuos menos similares son el A y el E.

Page 8: Unidad 5. Introducción al análisis multivariado

8

Ejemplo 2: Medidas de similaridades de 11 idiomas: (Jonson, 1999). En algunas ocasiones es posible construir una medida de similaridad acorde

con un problema donde lo único que se exige es que dicha medida cumpla con las condiciones impuestas en la definición de similaridad. A continuación se presenta un ejemplo para analizar la semejanza entre 11 idiomas. Una forma de estudiar las similaridades es la coincidencia en la primera letra de la escritura de cada uno de los números del uno al diez. En la tabla 8 se describe la escritura de los números 1 a 10 en 11 idiomas y en la tabla 9 se construye la matriz de similaridades. English (E)

Norwegian (N)

Danish (Da)

Dutch (Du)

German (G)

French (Fr)

Spanish (Sp)

Italian (I)

Polish (P)

Hungarian (H)

Finnish (Fi)

one en en een eins un uno uno jeden egy yksi two to to twee zwei deux dos due dwa ketto kaksi three tre tre drie drei trois tres tre trzy harom kolme four fire fire vier vier quatre cuatro quattro cztery negy neua five fem fem vijf funf cinq cinco cinque piec ot viisi six seks seks zes sechs six seis sei szesc hat kuusi seven sju syv zeven sieben sept siete sette siedem het seitseman eight atte otte acht acht huit ocho otto osiem nyolc kahdeksan nine ni ni negen neun neuf nueve nove dziewiec kilenc yhdeksan ten ti ti tien zehn dix diez dieci dziesiec tiz kymmenen

Tabla 8: escritura de números del 1 al 10 en 11 idiomas.

Ing Nor Dan. Hol Ale Fra Esp Ita Pol Hun Fin Ing 10 Nor 8 10 Dan. 8 9 10 Hol 3 5 4 10 Ale 4 6 5 5 10 Fra 4 4 4 1 3 10 Esp 4 4 5 1 3 8 10 Ita 4 4 5 1 3 9 9 10 Pol 3 3 4 0 2 5 7 6 10 Hun 1 2 2 2 1 0 0 0 0 10 Fin 1 1 1 1 1 1 1 1 1 2 10

Tabla 9: Matriz de similaridades de 11 idiomas

Finalmente, dada una distancia, es posible construir similaridades a través de

las distancias. Por ejemplo podemos hacer:

Page 9: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

9

''

1(1 )ii

iis d= +

donde 'iis es la similaridad entre los individuos i e 'i y 'iid es la correspondiente distancia. Sin embargo no siempre es posible construir las distancias a través de las similaridades. Gower (1966, 1967) demostró que esta transformación solo es posible hacerla si la matriz de las similaridades es definida no negativa. Con la condición de definición no negativa y escalando la similaridad de tal forma que

1=iis , se puede transformar en la forma siguiente:

' '2(1 )ii iid s= −

Medidas de asociación entre las variables. Cuando se tiene una matriz de datos X de tamaño ( )n p× interesa además

precisar un conjunto de medidas que permitan realizar el análisis desde el punto de vista de las variables. Algunas de estas medidas son:

1. Si se trata de variables cuantitativas ya hemos establecido dos medidas de

asociación que son la covarianza y el coeficiente de correlación de Pearson este último está dado por:

' '1

'2 2

' '1 1

( )( )

( ) ( )

n

ij j ij ji

jj n n

ij j ij ji i

x x x xr

x x x x

=

= =

− −=

− −

∑ ∑ con , ' 1, 2,....,j j p=

El coeficiente asume valores entre -1 y +1 y mide la asociación lineal

entre las variables jX y 'jX . Se usa para variables en escala por lo menos de intervalo.

2. El coeficiente de correlación de rangos de Spearman. Este coeficiente

se usa cuando se tienen variables ordinales, por ejemplo una serie de n individuos que son ordenados por dos jueces. A una clasificación la llamamos jx y a la otra clasificación la llamamos 'jx .

2'

12

6 ( )1

( 1)

n

ij iji

s

x xr

n n=

−= −

Page 10: Unidad 5. Introducción al análisis multivariado

10

'( )ij ijx x− se interpreta como una medida de la diferencia en la posición del individuo i , según jx y según 'jx .

3. El coeficiente de correlación de rangos de Kendall. Se usa cuando en

los datos de entrada los individuos ordenan una serie de características.

Kendall propone un coeficiente para comparar los órdenes. Consideramos una serie de individuos que son ordenados por dos jueces. Se calculan inicialmente todas las parejas posibles de individuos, esto es:

( 1)n n − , para dos individuos i e 'i se establece el número de concordancias y el número de discordancias, hay concordancia si el orden de i e 'i es igual en los dos jueces, es decir si i está delante de 'i en el primer juez, también lo está en el segundo juez. En caso contrario hay discordancia. La fórmula es:

2)1( −

−= nn

baτ

donde, a : es el número de concordancias. b : es el número de discordancias.

( 1)n n − : es el número total de parejas.

Si la concordancia es total 1=τ y si lo es la discordancia, 1−=τ

4. Cuando las variables son binarias (dicotómicas) los datos pueden organizarse en forma de tablas de contingencia pero en este caso los ítems indican las categorías de las variables. Para cada par de variables se tienen n individuos categorizados en la tabla y la tabla se puede escribir como:

Variables j’ 1 0 Totales

1 a b a+b Variables j 0 c d c+d Totales a+c b+d n= a+b+ c+d

Tabla 10: codificación de la información de las variables binarias j y 'j .

En general es posible usar diferentes medidas de similaridad entre pares de individuos o entre pares de variables.

Page 11: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

11

Una medida de asociación es el usual coeficiente de asociación producto momento utilizado para contrastar la independencia de dos variables categóricas.

2/1)))()()((( dbcadcbabcadr

++++−

=

Este coeficiente está relacionado con el estadístico chi- cuadrado ( nr /22 χ= ), un valor alto de este coeficiente se identifica con la ausencia de independencia.

Algoritmos de agrupación de los individuos Métodos jerárquicos. Estos métodos se caracterizan por una serie sucesiva

de agrupamientos o de divisiones de los ítems. Los podemos entonces clasificar como: aglomerativos y divisivos. Los primeros empiezan suponiendo que cada individuo es un conglomerado y en etapas sucesivas se agrupan los más similares y eventualmente este proceso va hasta obtener un solo conglomerado con todos los individuos. Los segundos funcionan en sentido contrario esto es, se parte de que los individuos constituyen un solo conglomerado el cual se va dividiendo de tal forma que los individuos en un subgrupo estén lo más alejados posibles de los demás; este proceso continúa hasta que se tengan tantos subgrupos como individuos.

Las siguientes son las etapas en los algoritmos aglomerativos para agrupar n

individuos (ó variables):

1. Empezar por n conglomerados cada uno con un individuo, la matriz de distancias (ó similaridades) es de tamaño )( nn× .

2. Buscar en la matriz de distancias los pares de conglomerados más cercanos, a estos conglomerados los denotamos por U y V y la distancia entre ellos por UVd .

3. Reunir los conglomerados U y V y construir el conglomerado )(UV . Actualizar la matriz de distancias borrando las filas y columnas correspondientes a U y V y adicionando una fila y una columna correspondiente a la distancia de )(UV con los otros conglomerados. Si W es un conglomerado diferente a U y V , la distancia entre )(UV y W la denotamos por ( )UV Wd .

4. Repetir los pasos 2 y 3 hasta que todos los individuos estén en un solo conglomerado.

Page 12: Unidad 5. Introducción al análisis multivariado

12

Las ideas de cómo calcular las distancias entre conglomerados las podemos describir para cada método. Entre los métodos tenemos:

1. El vecino más cercano (Nearests neighbor). Los grupos se forman

reuniendo las entradas individuales con la menor distancia (o la mayor similaridad).

Inicialmente, debemos encontrar la distancia más pequeña en }{ ikd=D y juntar los correspondientes objetos, digamos U y V y crear el correspondiente conglomerado )(UV , en el paso 3 del algoritmo general la distancia entre )(UV y cualquier otro conglomerado W se calculan como:

},min{)( VWUWWUV ddd =

Los resultados se pueden graficar en un dendrograma o diagrama de árbol. Las ramas de los árboles representan conglomerados. Las ramas se juntan en nodos cuyas posiciones a lo largo del eje de las distancias (ó similaridades) representan el nivel en el cuál ocurre la fusión.

2. Enlace completo (Complete linkage ó Furthest neighbor). El algoritmo

comienza encontrando la distancia más pequeña en la matriz }{ ikd=D y juntar los correspondientes objetos digamos U y V y crear el correspondiente conglomerado )(UV , pero el paso 3 para calcular l la distancia entre )(UV y cualquier otro conglomerado W se calculan como:

},max{)( VWUWWUV ddd =

3. Enlace promedio (Average linkage ó centroide)

WUV

i kik

WUV NN

dd

)()(

∑∑=

donde ikd es la distancia entre el objeto i en el conglomerado )(UV y el objeto k en el conglomerado W . )(UVN y WN son el número de individuos

en el conglomerado )(UV y en el conglomerado W .

4. Método de la mediana. Usa la distancia mediana de las observaciones en un conglomerado a las observaciones en otro conglomerado como la

Page 13: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

13

medida entre conglomerados. Este método tiende a combinar conglomerados que tienen poca varianza y puede producir conglomerados que tienen la misma varianza.

5. Grupo promedio (Group Average). Calcula la distancia entre dos

conglomerados usando la distancia de las observaciones en un conglomerado a las observaciones en otro conglomerado.

6. Método de Ward. Con este método se busca la mínima variabilidad dentro

de los conglomerados, es entonces un problema de optimización. Ward (1963) basa su método en la pérdida de información resultante al agrupar los ítems en grupos, la cual está medida por la suma total al cuadrado de las desviaciones de cada objeto al centroide del grupo al que pertenece. La suma de cuadrados se calcula mediante la expresión:

2

)/1/1(1

lhlh

XXnn

SCW −+

=

Donde hX y lX son los centroides y hn y ln son los tamaños de los conglomerados h y l respectivamente.

Para un único atributo ó variable la suma de cuadrados se obtiene como:

2 2

1 1 1

1 ( )j jn nk

ij ijj i ij

SCW X Xn= = =

⎛ ⎞= −⎜ ⎟⎜ ⎟

⎝ ⎠∑ ∑ ∑

donde ijX es el valor del atributo para el i-ésimo individuo en el j-ésimo conglomerado, k es el numero del conglomerado en cada etapa y nj es el numero de individuos para el j-ésimo conglomerado. Se empieza con n grupos, un caso por grupo, aquí la suma de cuadrados de Ward (SCW) es cero. En el segundo paso se buscan los dos casos que produzcan el menor incremento en la suma de cuadrados, dentro de todas las posibles combinaciones de a dos objetos. En la tercera etapa se toman los (n – 1) grupos conformados, se calcula la SCW y se juntan aquellos que produzcan el menor incremento en la variabilidad. El proceso continua hasta obtener un grupo de n objetos casos.

Ejemplo 3: Para facilitar la comprensión del algoritmo se desarrolla el caso con

cinco individuos a los cuales se mide un atributo.

Page 14: Unidad 5. Introducción al análisis multivariado

14

individuo AtributoA 2 B 10 C 5 D 12 E 4

El procedimiento en cada una de sus etapas es el siguiente: Primera etapa En esta etapa se conforman conglomerados cada uno con un individuo, los

grupos iniciales son: { } { } { } { } { }A , B , C , D , E . SCW para cada uno de los individuos es cero.

Segunda etapa

Las sumas de cuadrados de los 1025

=⎟⎟⎠

⎞⎜⎜⎝

⎛ posibles conglomerados de a dos

individuos cada uno son las siguientes:

{ }( ) 32

2102102SCW

222

BA, =+

−+= { }( ) 5.4

25252SCW

222

CA, =+

−+=

{ }( ) 50

2122122SCW

222

DA, =+

−+= { }( ) 2

24242SCW

222

EA, =+

−+=

{ }( ) 5.12

2510510SCW

222

CB, =+

−+= { }( ) 2

212101210SCW

222

DB, =+

−+=

{ }( ) 18

2410410SCW

222

EB, =+

−+= { }( ) 5.24

2125125SCW

222

DC, =+

−+=

{ }( ) *5.0

24545SCW

222

EC, =+

−+= { }( ) 32

2412412SCW

222

ED, =+

−+=

El grupo que presenta la mayor homogeneidad es el conformado por C y E , ya que la fusión de estos dos objetos produce la menor variabilidad. Los grupos que se han formado hasta aquí son: { } { } { } { }A , B , D , C,E

Tercera etapa Se calcula la SCW para cada uno de los posibles agrupamientos 6

24

=⎟⎟⎠

⎞⎜⎜⎝

⎛ , entre

Page 15: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

15

los cuatro grupos encontrados en el paso anterior; resulta

{ } 32SCW BA, = { } 50SCW DA, =

{ }{ }( ) 67.4

3452452SCW

2222

EC,A, =++

−++= { } *2SCW DB, =

{ }{ }( ) 38

345214512SCW

2222

EC,D, =++

−++=

El grupo que presenta la mayor homogeneidad es el conformado por B y D ,

ya que la fusión de estos dos objetos produce la menor variabilidad. Los grupos que se han formado hasta aquí son: { } { } { }A , C,E , D,B

Cuarta etapa.

Con los tres grupos anteriores se hacen los posibles reagrupamientos de a dos

conglomerados, y luego se determina la SCW para cada una de las 323

=⎟⎟⎠

⎞⎜⎜⎝

"nuevos" grupos. Los resultados se resumen como:

{ }{ }( ) 56

32101212102SCW

2222

DB,A, =++

−++=

{ }{ }( ) *67.4

3452452SCW

2222

EC,A, =++

−++=

{ } { }{ }( ) 75.44

4124510124510SCW

22222

EC,,DB, =+++

−+++=

El grupo que muestra la mayor homogeneidad, en términos de la menor suma de cuadrados de Ward, lo constituyen; { }A y{ }C,E de donde resultan los siguientes

conglomerados: { }{ } { }A, C, E , D,B . Quinta etapa. El ultimo conglomerado esta constituido por {A, B, C, D y E}; con:

{ }( ) 2.71

541251024125102SCW

222222

ED,C,B,A, =++++

−++++=

El método de Ward tiende a formar conglomerados con pocas observaciones y tiende a conformar grupos con el mismo número de observaciones. Por basarse en promedios es muy sensible a la presencia de valores atípicos (outliers).

Page 16: Unidad 5. Introducción al análisis multivariado

16

Para el caso de variables cualitativas, Pardo (1992) propone un procedimiento basándose en el método de Ward, para variables binarias y de tres categorías.

Finalmente, Gordon (1987) hace una revisión de los métodos jerárquicos para

la obtención de dendrogramas y la validación de la agrupación obtenida.

Métodos de partición o no jerárquicos A diferencia de los métodos de agrupación jerárquica, los métodos de partición

ó no jerárquicos no han sido muy empleados; razón por la que se interpretan, a veces, de una manera poco correcta. Se resumen estas técnicas con las siguientes características: 1. Empiezan con una partición del conjunto de objetos en algún numero es-

pecifico de grupos; a cada uno de estos grupos se le calcula el centroide. 2. Ubican cada caso u objeto en el conglomerado cuyo centroide este mas

cercano a este. 3. Calculan el nuevo centroide de los conglomerados; estos no son actualizados

hasta tanto no se comparen sus centroides con todos los casos. 4. Continúan con los pasos (2) y (3) hasta que los casos resulten no removibles.

Otra diferencia de las técnicas de partición con las jerárquicas, es que la

ubicación de un objeto en un grupo no es definitiva. Método de las K-medias Se asume que entre los individuos se puede establecer una distancia

euclidiana. La idea central de estos métodos es la selección de alguna partición inicial de los objetos para luego modificar su configuración hasta obtener la "mejor" partición en términos de una función objetivo. Varios algoritmos propuestos para estos procedimientos difieren respecto al criterio de optimización (la "mejor" partición). Estos algoritmos son semejantes al de optimización, conocido coma el mayor descenso, los cuales empiezan con un punto inicial y generan una serie de movimientos desde un punto a otro, calculando en cada paso el valor de una función objetivo, hasta que se encuentra un optima local.

El procedimiento de agrupamiento de K-medias consiste en dividir un conjunto

de n individuos en k grupos, y esta partición se denota la por: P(n, k). Los pasos a seguir son: - Se calculan los centroides (media) de los grupos. - Se calcula la distancia de cada individuo a los centroides definidos en el paso

anterior. - Se asigna cada individuo a un nuevo grupo cuyo centroide es el más cercano.

Page 17: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

17

- El proceso se repite a partir del primer paso hasta que se cumpla un criterio de convergencia. Mas formalmente, denotemos por ijX el valor del i-ésimo individuo sobre la j-

ésima variable; con ni ,...,2 ,1= y pj ,...,2,1= . La media de la j-ésima variable en el l-ésimo grupo se denota por jlX )( , kl ,...,2,1= y )(ln el número de individuos en el l-ésimo conglomerado. La distancia de un individuo a un conglomerado es:

2/1

1

2)(),( )( ⎟

⎟⎠

⎞⎜⎜⎝

⎛−= ∑

=

p

jjlijli XXD

Se define el componente de error de la partición por:

∑=

=n

iiliDKnP

1

2)))(,(()},({ξ

donde )(il es el grupo que contiene al i-ésimo individuo, y ))(,( iliD es la distancia euclidiana entre el individuo i y el centroide del grupo que contiene al individuo. El procedimiento consiste en encontrar la partición con el error ξ más pequeño, moviendo individuos de un conglomerado a otro hasta que se estabilice la reducción de ξ . En resumen, se trata de reubicar los individuos, de manera que se consigan grupos con la menor variabilidad posible.

Parte del problema está en la conformación de los K grupos iniciales. En la

literatura sobre esta técnica se sugieren, entre otras, las siguientes estrategias:

1. Escoger los primeros K objetos de la muestra como los K grupos iniciales de vectores de medias.

2. Escoger los K objetos más distantes. 3. Empezar con un valor de K tan grande coma sea necesario, y proceder a

formar centroides de los grupos espaciados a un múltiplo de desviación estándar sobre cada variable.

4. Rotular los objetos de 1 a n y escoger los que resulten marcados con los números knkknkn /)1(,...,/2 ,/ − y n .

5. Escoger K y la configuración inicial de los grupos por el conocimiento previo del problema. Existen reportados en la literatura otros métodos tales como: Métodos basados

Page 18: Unidad 5. Introducción al análisis multivariado

18

en la traza, Nubes dinámicas, basado en el algoritmo de nubes dinámicas de Diday (1972, 1974) y métodos gráficos entre los que están: las estrellas, los rostros de Chernoff y los gráficos de Fourier. Algunos de estos métodos se incluyen como un apéndice.

Determinación del número de conglomerados. Una de las inquietudes al emplear el análisis de conglomerados, es la decisión

acerca del número apropiado de ellos. Los dendrogramas sugieren el número de conglomerados en cada paso, la pregunta sigue siendo: ¿donde cortar el árbol para obtener un número óptimo de grupos? Esta pregunta no ha sido enteramente resuelta hasta hoy, aunque cada uno de los campos de aplicación le da una impor-tancia diferente. Para las ciencias biológicas, por ejemplo, el problema de definir el número de grupos no es muy importante, simplemente porque el objetivo del análisis es la exploración de un patrón general de las relaciones entre los objetos, lo cual se logra a través de un árbol.

Los procedimientos heurísticos son los más comúnmente usados, en el caso

más simple, un árbol jerárquico es cortado por inspección subjetiva en diferentes niveles. Este procedimiento es bastante satisfactorio porque generalmente son guiados por las necesidades y opiniones del investigador acerca de la adecuada estructura de los datos.

Una herramienta útil es graficar el número de conglomerados de un árbol

jerárquico en función de la distancia en la que un conglomerado se forma. Los valores de la distancia en el diagrama de árbol se ubican sobre el eje ""Y . Se traza la línea que une los puntos de coordenadas de las distancias y el número de conglomerados; el punto desde donde la línea trazada deja de tener una tendencia horizontal sugiere el número de conglomerados adecuado. Otro método consiste en graficar el número de conglomerados de un árbol jerárquico en función del coeficiente de fusión, que corresponde al valor numérico bajo el cual varios casos se mezclan para formar un grupo. Los valores del coeficiente de fusión se ubican sobre el eje ""Y en el diagrama de árbol. Se traza la línea que une los puntos de coordenadas del coeficiente de fusión y el número de conglomerados; el punto desde donde la línea trazada se hace horizontal sugiere el número de con-glomerados adecuado.

Aunque no se han desarrollado formalmente pruebas estadísticas, algunas

tienen una aceptación relativamente amplia. Lee (1979) considera algunas pruebas para la hipótesis de que los datos proceden de una población normal p-variada, en oposición a la alternativa de que provienen de dos poblaciones multinormales de diferentes medias. La prueba se basa en la razón de verosimilitud y en la siguiente ecuación:

Page 19: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

19

}/max{ ET=pC

La maximización se hace sobre todas las posibles particiones de los datos en

dos grupos. La distribución teórica de pC es bastante complicada, sin embargo, es un punto de partida para determinar la posible diferencia entre grupos. El uso de esta prueba es limitada, puesto que es aplicable únicamente en el caso univariado.

Milligan y Cooper (1985) describen y proponen pruebas para identificar el

número apropiado de grupos en un proceso de aglomeración jerárquica. Peck, Fisher y Van (1989) encuentran un intervalo de confianza para el número de conglomerados, a través de un procedimiento "bootstrap". El procedimiento consiste en definir una función criterio que dependa de dos tipos de costos, un costo asociado con el numero de conglomerados, y un costo asociado con la descripción de un individuo por su respectivo conglomerado (homogeneidad del conglomerada); se busca entonces un intervalo de confianza para k, el numero de conglomerados, que minimice la función criterio.

En resumen, la técnica del análisis de conglomerados es otra técnica de

reducción de datos. Se puede considerar la metodología de las componentes principales como un análisis de conglomerados, donde los objetos corresponden a las variables.

El análisis de conglomerados no tiene pretensiones inferenciales hacia una

población a partir de una muestra, se emplea fundamentalmente coma una técnica exploratoria. Las soluciones no son únicas; y además, siempre es posible conformar otros conglomerados cuando los datos tienen una estructura. Las tipologías encontradas en un análisis de conglomerados son fuertemente dependi-entes tanto de las variables relevantes coma de las observaciones que intervienen en la construcción; así, una nueva variable ó un nuevo individuo pueden alterar cualquier estructura conseguida anteriormente. En consecuencia, se advierte sobre el cuidado que se debe tener con el uso de esta técnica en la toma de decisiones. Ejemplos Para obtener los resultados se utilizó el paquete STATGRAPHICS, el cual permite hacer el análisis partiendo de la información de las medidas de los individuos en las variables o también a partir de la matriz de distancias similaridades.

Page 20: Unidad 5. Introducción al análisis multivariado

20

Ejemplo 1: Con los datos de las similaridades entre 5 individuos que se tienen en la tabla 7 aplicaremos un análisis de conglomerados aplicando el método del vecino más cercano. Los primeros resultados se tienen en la tabla 11 y hacen referencia al esquema de agrupación de los individuos donde se presentan cuales individuos se agruparon en cada etapa. Por ejemplo en la primera etapa se agruparon los individuos B (2) y E (5) y la distancia entre los grupos cuando se combinaron fue 1,31335, también muestra la etapa en la que este grupo combinado se combina con otro grupo, esto es la etapa 4. En la figura 2 se tiene una representación de este proceso como un diagrama de la distancia versus la etapa de aglomeración.

Clusters Combined Stage First Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage --------------------------------------------------------------------------

1 2 5 1,31335 0 0 4 2 1 3 5,24883 0 0 3 3 1 4 5,24883 2 0 4 4 1 2 8,93687 3 1 0

--------------------------------------------------------------------------

Tabla 11: Esquema de agrupación, método vecino más cercano

Agglomeration Distance PlotNearest Neighbor Method,Squared Euclidean

0 1 2 3 4

Stage

0

2

4

6

8

10

Dis

tanc

e

Figura 2: distancias versus etapas

La siguiente información es dendrograma que se tiene en la figura 3. Dada la simplicidad del ejemplo es bastante obvio que se tienen dos conglomerados el primero con los individuos B y C, siendo este el más homogéneo, y el segundo con A, C y D.

Page 21: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

21

DendrogramNearest Neighbor Method,Squared Euclidean

0

2

4

6

8

10

Dis

tanc

e

A BC D E

Figura 3: Dendrograma construido por el método del vecino más cercano. Datos del ejemplo 1 Ejemplo 2: En este utilizaremos las medidas de similaridad de los 11 idiomas

que se tiene en la tabla 9. Aplicamos el método de Ward. Para facilitar la interpretación nos referimos a la tabla de la enumeración de los idiomas en la tabla 12.

Idioma Número Ing 1 Nor 2 Dan. 3 Hol 4 Ale 5 Fra 6 Esp 7 Ita 8 Pol 9 Hun 10 Fin 11

\ Tabla 12: los idiomas y su número

Clusters Combined Stage First Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------- 1 7 8 0,18178 0 0 3 2 2 3 0,577367 0 0 4 3 6 7 1,09764 0 1 5 4 1 2 2,31646 0 2 8 5 6 9 6,02275 3 0 10 6 4 5 10,3511 0 0 8 7 10 11 19,026 0 0 9 8 1 4 32,8035 4 6 9 9 1 10 70,2022 8 7 10 10 1 6 110,0 9 5 0

Tabla 13: Esquema de agrupación por el método de Ward.

Page 22: Unidad 5. Introducción al análisis multivariado

22

En la 13 se muestran las etapas de aglomeración, por ejemplo en la etapa 1 se agrupan los idiomas más cercanos que son Español e Italiano, a una distancia de o,182 y este conglomerado, que ahora tiene número 7, vuelve a agruparse en la etapa 3 con Francés y ahora es el grupo 6. Este último grupo 6 se agrupa en la etapa 5 con el Polaco y siguen siendo el grupo 6, que solo vuelve a agruparse en la etapa 10. En forma similar se pueden analizar los otros pasos de agrupación. Para definir el número de conglomerados podemos utilizar la figura 3 y la tabla 13. Hasta la etapa 8 la línea que conecta los puntos mantiene una tendencia aproximadamente horizontal (en esta se produce un codo) y es en la que se da un salto en la distancia de aglomeración, de 109,026 a 32,803. Esta etapa corresponde a la formación de 3 grupos conformados por: {Inglés, Noruego, Danés, Holandés, Alemán}, {Húngaro, Finlandés} y {Francés, Español, Italiano, Polaco} que pueden verse en el dendrogr4ama de la figura 4.

Agglomeration Distance PlotWard's Method,Squared Euclidean

Stage

Dis

tanc

e

0 2 4 6 8 100

20

40

60

80

100

120

Figura 3: Distancias versus etapa

DendrogramWard's Method,Squared Euclidean

Dis

tanc

e

0

20

40

60

80

100

120

Ing

Nor

Dan Hol

Ale Fra

Esp Ita Pol

Hun Fin

Figura 4: Dendrograma construido por el método de Ward para los datos del ejemplo 2

Page 23: Unidad 5. Introducción al análisis multivariado

Análisis de Conglomerados. Amparo Vallejo Arboleda

23

REFERENCIAS

Diaz M. L. G. Estadistica Multivariada: inferencia y métodos. Editorial Universidad Nacional de Colombia. Bogotá. 2002. Diday, E. (1972). “optimisation en classification automatique et reconnaissance des formes” Revue Française de Recherche Opérationnelle vol 3 1-29. Diday (1974). “Classification automatique séquentielle pour grands tableaux”. Revue Française de Recherche Opérationnelle vol 9 1-29. Escoffier B, y Pagès J. Análisis Factoriales Simples y Múltiples. Servicio Editorial Universidad del País Vasco. Bilbao, 1992. Gordon A. D. (1987)”A review of hierarchical classification” . Series A journal of the Royal Statistical society: 119-150. Gower J.C. (1966). “Some distance properties of latent root and vector methods used in multivariate analysis”. Biometrika: 53 (3) 325-338- Jobson, J.D. Applied multivariate data analysis, Categorical and multivariante methods: v2: Springer, 1992 Johnson R, Wichern D. Applied Multivariate Statistical Analysis. Ed. Prentice Hall International Inc. Second edition, 1998. Milligan G.W. and Cooper. M.C. (1985). “An examination of procedures for determining the number of clusters “. Psychometrika: vol 50, 159-179. Peck R., Fisher, LL. And Van, J. (1989). “ Approximate confidence intervals for the number of clusters”. Journal of the American Statistical Association: vol 84, 184-191. Sokal, R. R and Sneath, P.H. (1963). Principles of numerical taxonomy. Freeman. San Francisco. Sneath, P.H. and Sokal, R. R: (1973). Numerical taxonomy. Freeman: p. 573. San Francisco. Sneath, P.H. (1957 ). Computer in Taxonomy. Journal Gen. Microbiol. Vol 17 p.p. 201-226. Stevens, S. S. (1946) “On the theory of Measurement” Science, 103, 676-680.