RECONOCIMIENTO DE PAUTAS - fcn.unp.edu.ar · (Cluster Analysis) los análisis exploratorios de...

27
RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)

Transcript of RECONOCIMIENTO DE PAUTAS - fcn.unp.edu.ar · (Cluster Analysis) los análisis exploratorios de...

RECONOCIMIENTO DE PAUTAS

ANÁLISIS DE CONGLOMERADOS

(Cluster Analysis)

los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos

en ocasiones no es eficiente

análisis de agrupamientos (cluster analysis): es un técnica de reconocimiento de pautas no supervisada que busca similitudes

resultado: se forman conglomerados jerárquicosno jerárquicos

empleada originalmente en biología para determinar relaciones entre organismos (género, familia, …)

Análisis de conglomerados

para determinar similitudes entre objetos se utilizan:

coeficientes de correlación

mediciones de distancias

Análisis de agrupamiento

primer etapa: mediciones de distancias

a menor distancia, mayor similitud entre los objetos

centroide u objeto individual que sirve de semilla para un conglomerado

mediciones de distancias

Minkowski (métrica Lp):

dij: distancia entre los objetos (muestras) i y j K= número de variables

dij = [∑k=1

K

∣xik − x jk∣p]

1 / p

Euclídea: más usada p= 2

Manhattan (city-block, distancia de ciudad): p=1es mayor que la distancia euclídea

Análisis de agrupamiento

Pearson: basada en la desviación estándar (sj) de la variable j

dij =√∑

k=1

K

(xik − x jk )2

s j2

Análisis de agrupamiento

Mahalanobis: permite trabajar sin escalar los datos evita distorsiones por correlaciones

C: matriz de covarianza (simétrica con respecto a la diagonal)

xi, xj: columna de vectores de objetos i y j, respectivamente

Dij2 = (xi−x j)

T C−1 (xi−x j)

Análisis de agrupamiento

Desventaja distancia Minkowski:

depende de las unidadeshay que escalar los datos

desventaja distancia Mahalanobis:

cuando el número de variables (mediciones) excede al número de objetos (muestras) no se puede aplicar porque C puede no tener inversa

segunda etapa: vincular objetos

métodos para buscar conglomerados:

de vinculación simple(vecino más próximo, nearest neighbour)

d ki =d Ai + d Bi

2−

∣d Ai − d Bi∣

2= min (d Ai , d Bi)

segunda etapa: vincular objetos

métodos para buscar conglomerados:

vecino más lejano(complete linkage)

d ki =d Ai + dBi

2+

∣d Ai − dBi∣

2= max (d Ai ,dBi)

Análisis de agrupamiento

métodos para buscar conglomerados:

vínculo promedio no ponderado (unweighted average linkage)

n = nA + nB

d ki =nA

nd Ai +

nB

ndBi

Análisis de agrupamiento

métodos para buscar conglomerados:

vínculo promedio (median linkage)

d ki =d Ai

2+

dBi

2−

d AB

4

Análisis de agrupamiento

métodos para buscar conglomerados:

centroide

d ki =nA

nd Ai +

nB

ndBi −

nA nB

n2 dAB

métodos para buscar conglomerados:

de Ward

distancia de Lance y Williams

...

generalmente conviene usar distintos métodos y comparar los resultados

d ki =nA+ni

n+ni

d Ai +nB+ni

n+n i

dBi −ni

n+ni

d AB

método del vecino más próximo

Análisis de agrupamiento

Representación gráfica:

dendograma

Análisis de agrupamiento

Ejemplo:

Datos: intensidades de emisión de fluorescencia

de 12 compuestos (A-L)

a 4 longitudes de onda (300, 350, 400, 450 nm)

Ejemplo

2 grupos

Euclidean Distance, Single LinkageAmalgamation Steps

Step Nº Similarity Distance Clusters New Nº obs. clusters level level joined cluster new cluster 1 11 80,1970 1,41421 5 6 5 2 2 10 80,1970 1,41421 3 5 3 3 3 9 75,7464 1,73205 7 12 7 2 4 8 75,7464 1,73205 7 11 7 3 5 7 75,7464 1,73205 8 10 8 2 6 6 75,7464 1,73205 4 9 4 2 7 5 75,7464 1,73205 2 3 2 4 8 4 71,9944 2,00000 7 8 7 5 9 3 71,9944 2,00000 2 4 2 6 10 2 68,6888 2,23607 1 7 1 6 11 1 49,5122 3,60555 1 2 1 12

Dendograma

dos grupos como los obtenidos con PCA

Análisis de agrupamiento

métodos no jerárquicos

método de k-medias: inicialmente divide los puntos en k conglomerados(o se pueden elegir k puntos semilla)cada individuo se asigna al conglomerado cuyo centroide esté más próximo

Análisis de agrupamiento

métodos no jerárquicos

método de k-medias: desventajas: el agrupamiento final refleja la elección de conglomerados (o puntos semilla)dificultades para elegir k (se debe elegir de antemano)

Análisis de agrupamiento

métodos no jerárquicos

representaciones gráficas:

gráficos de estrellas y rayos

caras de Chernoff