Clasificación No Supervisada - INAOEariel/Agrupamiento2016.pdf · Clasificación No Supervisada...

Clasificación No Supervisada

Jesús Ariel Carrasco Ochoa Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica ariel@inaoep.mx

Contenido

Introducción

Agrupamiento jerárquico

Métodos de reagrupamiento

Agrupamiento basado en grafos

Evaluación de agrupamientos

Dada una muestra de objetos no clasificados, obtener la estructuración en clases de dicha muestra.

¿Cuál es la forma natural de agrupar los personajes? Hombres vs. Mujeres

¿Cuál es la forma natural de agrupar los personajes?

¡¡¡ El clustering es subjetivo !!!

¿Cuál es la forma natural de agrupar los personajes? Simpsons vs. Empleados de la escuela de Springfield

0 0.2 0.4 0.6 0.8 10

Idea General Objetos muy similares deben estar en

el mismo agrupamiento

Objetos poco similares deben estar en diferente agrupamiento

Tipos de Clasificación No Supervisada

Restringida.- El número de clases en la que se

estructurará la muestra está previamente definido.

Libre.- El número de clases en la que se estructurará la muestra depende exclusivamente de los datos.

Tipos de agrupamientos

Disjuntos, los grupos no comparten elementos; forman una partición del conjunto de objetos

Traslapados, los grupos pueden compartir objetos; forman un cubrimiento del conjunto de objetos

Difusos, los grupos son conjuntos difusos; pueden formar una partición difusa o un cubrimiento difuso del conjunto de objetos

Estrategias para Clasificación No Supervisada

Jerárquica.- Se crea una jerarquía de agrupamientos, puede se aglomerativa o divisiva.

Reagrupamiento.- Se hace un primer agrupamiento y se va refinando iterativamente.

Basada en grafos.- Se representan los objetos y sus relaciones de semejanza mediante grafos y se define ciertas condiciones que deben cumplir los agrupamientos.

Agrupamiento Jerárquico Aglomerativo

Partiendo de los objetos individuales (grupos unitarios) agrupar los dos clusters más similares para formar uno nuevo

Repetir hasta que se obtenga un solo grupo con todos los objetos

Cada vez que se unen dos grupos se crea un nuevo nivel en la jerarquía

Ejemplos

Single linkage

Complete linkage

Average linkage

Mean linkage

Ward linkage

Agrupamiento Jerárquico Aglomerativo

Nivel 0

Nivel 2

Nivel 1

Nivel 3

Nivel 4

Nivel 5

x2 x4 x1 x6 x5 x3

Single Linkage

La distancia entre dos grupos está definida por la distancia entre los dos objetos más cercanos entre los grupos.

{ }),(min),( srCxCxji xxdCCd

∈∈

Complete Linkage

La distancia entre dos grupos está definida por la distancia entre los dos objetos más lejanos entre los grupos.

{ }),(max),( srCxCxji xxdCCd

∈∈

Average Linkage

La distancia entre dos grupos está definida por el promedio de las distancias entre los objetos de un grupo y los del otro.

∑ ∑∈ ∈

=ir jsCx Cx

ji xxdCC

CCd ),(1),(

Mean Linkage

La distancia entre dos grupos está definida por la distancia entre las medias de los grupos.

),(),(

Ward Linkage

En cada iteración se unen los grupos que al ser unidos incrementen menos la suma de las varianzas de los grupos

Sea la varianza del grupo Ci

Sea la varianza de Ci∪Cj

La distancia entre cluster puede definirse como:

2iσ2ijσ

ijji CCd

σσσ+

Agrupamiento Jerárquico Divisivo

Nivel 5

Nivel 3

Nivel 4

Nivel 2

Nivel 1

Nivel 0

x2 x4 x1 x6 x5 x3

Agrupamiento Jerárquico Divisivo

Partiendo de un grupo que contenga a todos los objetos y separando clusters para formar dos nuevos

Repetir hasta que todos los objetos estén separados (grupos unitarios)

Cada vez que se separa un grupos se crea un nuevo nivel en la jerarquía

En general son poco usados pues decidir cuál grupo

dividir y cómo dividirlo puede ser muy costoso

Usualmente se divide el grupo con mayor varianza y se aplica algún agrupador que produzca 2 grupos

Métodos de reagrupamiento

Generan un agrupamiento inicial

Ajustan parámetros

Reagrupan los objetos

Repiten hasta optimizar algún funcional de calidad

Ejemplos

k-means Expectation-Maximization (EM) K-means difuso

Algoritmo K-means

Objetivo

Encontrar una partición C1,…,Ck de un conjunto de objetos {O1,…,On} tal que se minimice:

∑ ∑= ∈

i COij

Algoritmo K-means

Entrada O1,…,On (objetos a agrupar) k (número de agrupamientos a formar)

Seleccionar aleatoriamente k objetos de la muestra (c1,…,ck)

Repetir hasta alcanzar un criterio de paro Asignar cada objeto Oi al cluster con el

centroide cj mas cercano Recalcular los centroides como la media de los

objetos asignados

Algoritmo K-means

Criterios de paro

Número máximo de iteraciones

No cambia ninguno de los centroides (c1,…,ck)

Se alcanza una cota de error

ε≤−∑ ∑= ∈

i COij

Algoritmo K-means

Algoritmo EM Objetivo

Encontrar cómo se distribuyen los objetos en O1,…,On una partición C1,…,Ck dado un conjunto de parámetros y optimizar los parámetros de esta distribución

Pasos Inicializar k agrupamientos C1,…,Ck no vacíos y los

parámetros de la distribución Expectation

Ubicar cada Oi en la clase en la que p(Oi∈Cj) sea máxima Maximization

Recalcular los parámetros de la distribución con los agrupamientos formados

Repetir Expectation y Maximization hasta alcanzar un criterio de paro

Algoritmo EM (con distribución Normal) Suponer

Inicializar k agrupamientos C1,…,Ck no vacíos y para cada uno calcular µj , Σj y P(Cj) usando sus objetos

Expectation

Para cada Oi, i=1,…,n

Maximization Para cada Cj, j=1,…,k

Recalcular µj , Σj y P(Cj) usando los objetos de Cj

{ })|(max)( ijCi OCpOcj

),(~)|( jjij NCOp Σµ

Algoritmo EM (con distribución Normal)

Suponer

Inicializar k agrupamientos C1,…,Ck y para cada uno calcular µj , Σj y P(Cj) usando sus objetos

Expectation

Para cada Oi, i=1,…,n y cada Cj, j=1,…,k

),(~)|( jjji NCOp Σµ

⋅= k

CpCOpOp

CpCOpOCp

1)()|(

)()|()(

)()|()|(

Maximization Para cada Cj, j=1,…,k

Recalcular µj , Σj y P(Cj) usando los objetos de Cj

∑∑ −⋅−⋅

)()()|( µµ

∑∑ ⋅

OCpCp i

Al final

{ })|(max)( ijCi OCpOgrupoj

Criterios de paro

No cambia ninguno de los parámetros

Se maximiza/minimiza algún funcional de calidad/error, por ejemplo

∑ ∑= ∈

i COij

Algoritmo EM

Algoritmo K-means difuso Objetivo

Encontrar una partición difusa C1,…,Ck de un conjunto de objetos {O1,…,On} tal que se minimice:

Donde µij es la pertenencia del objeto j al agrupamiento i y m es un parámetro de fuzzificación, usualmente m=2

∑∑∑== =

==∀−k

mij njcOd

11 11),...,1( ;)()( µµ

Algoritmo K-means difuso

Entrada O1,…,On (objetos a agrupar) k (número de agrupamientos a formar)

Crear aleatoriamente k agrupamientos no vacíos (C1,…,Ck) y para cada uno calcular las centroides ci i=1,…,k como

∑∈

=ij CO

Repetir hasta alcanzar un criterio de paro Para cada objeto Oj recalcular las pertenencias µij en

cada agrupamiento Ci como

1 ),(),(

cOdcOd

Recalcular los centroides ci para cada agrupamiento

Ci, i=1,…,k como

Criterios de paro

No cambian mucho los centroides (c1,…,ck)

Se alcanza una cota de error

εµ ≤−∑∑= =

mij cOd

1 1)()(

εµµ ≤−∑=

Agrupamiento basado en grafos

Generan un grafo de similitudes G=(V,E) No dirigido V es el conjunto de objetos (O1,…,On) (Oi,Oj)∈E si y solo si s(Oi,Oj)≥ε (d(Oi,Oj)≤ε)

Definen un criterio de agrupamiento

Buscan los subgrafos que cumplan el criterio

Ejemplos

Star Componentes conexas Max-clique

Ejemplo de grafo de similitudes

Aij O1 O2 O3 O4 O5 O6

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 -

dij O1 O2 O3 O4 O5 O6

O1 1 0.5 0.9 0.4 0.3 0.2

O2 0.5 1 0.8 0.4 0.5 0.1

O3 0.9 0.8 1 0.7 0.6 0.5

O4 0.4 0.4 0.7 1 0.9 0.8

O5 0.3 0.5 0.6 0.9 1 0.6

O6 0.2 0.1 0.5 0.8 0.6 1

Algoritmo Star Basado en subgrafos tipo estrella (star)

Un grafo tipo estrella está formado por un vértice (centro) y sus vértices adyacentes (satélites)

No necesita el número de agrupamientos

Seleccionar el vértice con mayor grado que no esté ya agrupado

Construir un grupo con el vértice seleccionado y sus vértices adyacentes

Repetir hasta que todos los vértices estén agrupados

Algoritmo Star

Componentes conexas

Los grupos son las componentes conexas del grafo de similitudes

Una componente conexa es subgrafo para el cual hay un camino entre cualquiera de sus vértices

Algoritmo para obtener las Componentes conexas Se selecciona el objeto Oi de mayor

grado que no haya sido agrupado y se crea un agrupamiento con él

Se agregan al agrupamiento los Oj tales que Aij=1

Se agregan al agrupamiento todos los objetos Ok tales que Ajk=1, donde Oj ya fue agregado

Cuando no se puedan añadir más objetos el agrupamiento forma una componente conexa

Repetir hasta que todos los objetos hayan sido agrupados.

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

O1 - 0 0 0 0 0

O2 0 - 0 0 1 0

O3 0 0 - 1 0 0

O4 0 0 1 - 0 0

O5 0 1 0 0 - 1

O6 0 0 0 0 1 -

Componentes conexas

Cliques maximales Los grupos son los cliques maximales del grafo de

similitudes

Una clique es un subrafo en el cual cada nodo está conectado con todos los demás

Es maximal si no está contenido en otro clique

Algoritmo Bron–Kerbosch para obtener los Cliques Maximales Inicia llamando BronKerbosch(Ø, V, Ø)

BronKerbosch(R, P, X)

Si P y X son ambos vacíos R es un clique maximal

Para cada objeto v en P N(v) = nodos adyacentes a v BronKerbosch( R⋃{v}, P⋂N(v), X⋂N(v)

) P = P \ {v} X = X ⋃ {v}

Cliques maximales Aij O1 O2 O3 O4 O5 O6

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }∅=

XOOOOOOP

654321 ,,,,,

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

654321

OvNOvX

OOOOOOPR

==∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }

{ },,,,)( 54213

OOOOvNOvX

==∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

∅=∅=

OOR 31,

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }

OvNOvOX

OOOOOPR

====∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }

{ },,,,)( 54213

OOOOvNOvX

==∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

∅=∅=

OOR 32 ,

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }

{ }54213

,,,)( ,

OOOOvNOvOOX

OOOOPR

====∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }{ }21

,,OOXOOP

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }{ }

{ }6534

,,)( ,,

OOOvNOvOOXOOP

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }

{ }6435

OOOvNOvX

==∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

∅=∅=

OOOR 543 ,,

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }

{ }6534

,,)( ,,,,

OOOvNOvOOOXOOOP

====∅=

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }{ }3

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }{ }

{ }6435

OOOvNOvOX

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }{ }3

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

{ }{ }{ }

{ }546

OOvNOvOXOP

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

∅=∅=

OOOR 654 ,,

O1 - 0 1 0 0 0

O2 0 - 1 0 0 0

O3 1 1 - 1 1 0

O4 0 0 1 - 1 1

O5 0 0 1 1 - 1

O6 0 0 0 1 1 - O1

Agrupamiento Online (data streams)

Los objetos se procesan como van llegando

Cada objeto se procesa una sola vez

No almacenan los datos en memoria pues se parte de la suposición de que son potencialmente infinitos

Los resultados se muestran a petición del usuario

Ejemplos OnLine k-means DenStream

Online K-means (algoritmo de Loyd) Supone que cada objeto contribuye igual para

determinar los centros de los agrupamientos

Inicializar los centros de los agrupamientos zi; i=1,…,k

Inicializar ni=0; i=1,…,k

Cada vez que se obtiene un nuevo objeto x Determinar el centro zi más cercano a x Actualizar el número de objetos en el agrupamiento i ni=ni+1 Actualizar el centro del agrupamiento i zi=zi+(x−zi)/ni

DenStream Algoritmo de Agrupamiento basado en

densidad

Versión online de DBSCAN

Los agrupamientos son regiones densas en el espacio de los objetos, separadas por regiones de baja densidad

Agrupamiento basado en densidad

Alternativa a los tipo k-means

ε-Vecindad ε-vecinad de p.– Objetos dentro de la

vecindad de radio ε de p

“Alta densidad” – Si la ε-vecindad de un objeto contiene al menos MinPts objetos

Si MinPts=4

La densidad de p es “alta”

La densidad de q es “baja”

}),(|{:)( εε ≤qpdqpN

ε ε p

Objetos Core, Border u Outlier

Si MinPts = 5

Border

Outlier

p es un objeto “core” si su ε-vecindad tiene al menos MinPts objetos p es un objeto “border” si su ε-vecindad tiene menos de MinPts objetos pero está en la ε-vecindad de un objeto “core” p es “outlier” si no es “core” ni “border”

Alcanzable por densidad Un objeto q es directamente alcanzable por

densidad desde un objeto p si p es un objeto “core” y q está en la ε-vecindad de p

Si MinPts=4 q es directamente

alcanzable desde p p no es directamente

alcanzable desde q q

ε ε p

Alcanzable por densidad Un objeto q es alcanzable por densidad

desde un objeto p si existe una sucesión de puntos p1,p2,…,pn tal que p1=p, pn=q y para todo pi (i=1,…,n-1) pi+1 es directamente alcanzable desde pi

Si MinPts=7 p es alcanzable por

densidad desde q q no es alcanzable por

densidad desde p

DBSCAN

Etiquetar cada objeto como “core”, “border” o “outlier”

Eliminar los objetos “outlier”

Para cada objeto “core” p que no haya sido ya procesado Crear un nuevo agrupamiento con p y todos los

objetos alcanzables desde p Marcar todos los objetos alcanzables desde p

como ya procesados

DBSCAN

DenStream Está basado en micro clusters

Usa una función de decaimiento f(t)=2-t

Un mcp (micro cluster potencial) es una terna (CF1,CF2,w) donde

DenStream El centro y radio de un mcp se

calculan como:

DenStream

Un mco (micro cluster outlier) es una cuarteta (CF1,CF2,w,T0) donde T0 es el tiempo de creación del mco

DenStream Tiene dos fases

Fase online, en la cual se crean y

mantienen los micro-clusters

Fase offline en la cual se crean los agrupamientos

Fase online Cada vez que se obtiene un nuevo objeto x Se calcula la distancia entre x y los centros de los mcp para

determinar el más cercano Se calcula el radio r del mcp más cercano a x al incluir x Si r≤ε

se agrega x a este mcp En otro caso

Se calcula la distancia entre x y los centros de los mca para determinar el más cercano

Se calcula el peso w del mco más cercano a x al incluir a x

Si w≥βμ se agrega x a este mco y se convierte en mcp

En otro caso Se crea un nuevo mco con x

Todos los micro-clusters (mcp o mco) en los que no se incluyo a x, se les dividen todos sus parámetros por 2

Los mco con (Tactual-T0)>Tmax se eliminan

Fase online Para agregar x a un mcp/mca se toma:

CF1=CF1+x CF2=CF2+SS(x) w=w+1

Para crear un nuevo mca a partir de x se

toma CF1=x CF2=SS(x) w=1 T0=Tactual

Fase offline

Se toman los centros de los mcp como objetos a agrupar

Se aplica una variante de DBSCAN en la cual

}),(|{:)( jijiji rrccdccN +≤ε

Validación de Agrupamientos

¿Qué tan bueno es el resultado de un algoritmo de agrupamiento?

¿Para qué evaluar agrupamientos?

Para verificar si los agrupamientos obtenidos son buenos

Para comparar algoritmos de agrupamiento

Para comparar dos agrupamientos

¿Cuál es la forma natural de agrupar los personajes? Hombres vs. Mujeres

¿Cuál es la forma natural de agrupar los personajes?

¡¡¡ El clustering es subjetivo !!!

¿Cuál es la forma natural de agrupar los personajes? Simpsons vs. Empleados de la escuela de Springfield

¿Cómo evaluar el resultado de un agrupador? Matriz de similitud

Índices de Validación

Matriz de similitud o Ordenamos los datos en la matriz de

similitud con respecto a los clusters en los que quedan los datos e inspeccionamos visualmente

0 0.2 0.4 0.6 0.8 10

Points

20 40 60 80 100

100Similarity

0 0.2 0.4 0.6 0.8 10

Points

20 40 60 80 100

100Similarity

1Clusters en datos aleatorios (DBSCAN y k-Means)

Points

20 40 60 80 100

100Similarity

Matriz de similitud

Se puede detectar si el número de clusters es adecuado

500 1000 1500 2000 2500 3000

Matriz de similitud

Índices de validación

Tipos de índices de validación

Externos: Basados en medir qué tan bien se reconstruye una estructuración conocida.

Internos: Basados en la estructura de los agrupamientos, comúnmente usan una función de comparación de objetos.

Índices de validación internos

Cohesión

Separación

Coeficiente de Silhouette

Índice de Dunn

Cohesion: Mide qué tan cercanos son los objetos dentro de los clusters Separación: Mide qué tan separados están los clusters de la media global

∑∑∈

−=i Cx

mxCohesión 2)(

∑ −=i

ii mmCSeparación 2)(

Índices de validación internos

Combina ideas de cohesión y Separación

Para cada objeto Oi

ai = promedio de distancias entre Oi y los objetos en su mismo agrupamiento

bi = promedio de distancias entre Oi y los objetos del agrupamiento más cercano

sili = (bi - ai)/ max(ai, bi)

Coeficiente Silhouette

Índice de Dunn

),(min),(,

yxdCCdji CyCxji ∈∈

),(max)(,

yxdCdiamiCyxi ∈

=≤≤≠

≤≤≤≤ )(max),(

minmin1

jikjkik Cdiam

Rand Index

Índice de Jaccard

Pureza

Cluster Accuracy

Normalized Mutual Information

Índices de validación externos

Rand Index

DCBADARandIndex+++

#Pares de

objetos

Mismo cluster

Diferente Cluster

Misma Clase A C

Diferente Clase B D

Índice de Jaccard

CBAAexJaccardInd++

#Pares de

objetos

Mismo cluster

Diferente Cluster

Misma Clase A C

Diferente Clase B D

Para cada cluster i=1,…,k (número de clusters)

aij = Número de objetos de la clase j en el cluster i

ni = Número de objetos en el cluster i

purezai = max(aij)/ ni j

purezaPureza i

Pureza

Cluster Accuracy

= ∑=

caso otroen 0 de clase la a asociado está )(1

OOclusterOAcc

Cluster

Normalized Mutual Information

∑∑

loglog

Donde: k es el número de agrupamientos nc es el número de clases ni es el número de objetos en el agrupamiento i nj es el número de objetos en la clase j nij es el número de objetos que están en el

agrupamiento i y en la clase j

Clasificación No Supervisada - INAOEariel/Agrupamiento2016.pdf · Clasificación No Supervisada...

Documents

Transcript of Clasificación No Supervisada - INAOEariel/Agrupamiento2016.pdf · Clasificación No Supervisada...

Clasificación Supervisada

PRÁCTICA PROFESIONAL SUPERVISADA - UTN

Minería de Datos - academic.uprm.eduacademic.uprm.edu/eacuna/clasifacu.pdf · PERU 2009 Minería de Datos Edgar Acuña 1 Clasificación Supervisada Dr. Edgar Acuña Departamento

CLASIFICACIÓN NO SUPERVISADA DE COBERTURAS CLASIFICACIÓN …bdigital.unal.edu.co/24155/1/21276-72316-1-PB.pdf · humano y técnico para la verificación en campo de la clasificación

PRÁCTICA SUPERVISADA

Experiencia Ministerial Supervisada

EJERCICIO Clasificación Supervisada · 2013-10-15 · representa a través de una clasificación supervisada, para desarrollar este ejercicio utilizaremos el software Arc Gis 9.x

Practica Supervisada . Ingeniería Civil

PRACTICA SUPERVISADA - RDU

Caso Clinico 1. Supervisada.

ECUACIONES DIFERENCIALES - uaim.edu.mxuaim.edu.mx/carreras/sistemas computacionales/Sexto Trimestre... · Unidad I Clasificación de las ecuaciones diferenciales. Unidad II Soluciones

Clasificación no supervisada de imágenes médicas y minería ...

Informe de Práctica Profesional Supervisada · UNIVERSIDAD NACIONAL DE LA PAMPA FACULTAD DE INGENIERÍA PRÁCTICA PROFESIONAL SUPERVISADA Informe de Práctica Profesional Supervisada:

Ejercicio 2: Cómo mejorar su clasificación supervisada ... · Serie de capacitaciones avanzadas de clasificación de manto terrestre ARSET Invierno 2017 9 La próxima macroclase

Clasificacion supervisada - ARCGIS 9.3

Ejercicio 2: Cómo mejorar su clasificación supervisada Introducción · Las técnicas de clasificación de imágenes digitales se usan para agrupar pixeles con valores similares

CI-0156 Práctica Supervisada · CI-0156 Práctica Supervisada ... correo >

Clasificación Supervisada Del Uso Del Suelo en Una Zona Del Caton Cuenca Autoguardado

Análisis Discriminante. Dos problemas principales de clasificación Discriminación (clasificación supervisada) Agrupamiento (Cluster Analysis) (clasificación.

PRÁCTICA PROFESIONAL SUPERVISADA - UNCUYO