Sistemas basados en casos
-
Upload
luis-alamo -
Category
Education
-
view
344 -
download
5
Transcript of Sistemas basados en casos
Módulo de Recuperación
Módulo de Adaptación
5
Aprendizaje supervisado
Aprendizaje semisupervisado
Aprendizaje no supervisado
6
Clasificación
Categorización
Agrupamiento
7
Es una tarea de aprendizaje supervisado que el objetivo es asignar objetos a clases predefinidas◦ (no necesariamente basándose en el contenido)
8
Reconocimiento de rostros
9
mujerhombre
?
Tarea de la minería de datos
Selección de rasgos/atributos
Modelo
Los parámetros del modelo son determinados usando un conjunto de entrenamiento (conjunto de ejemplos)
Aprendizaje supervisado (aprendiendo con un maestro)
10
Para cada objeto en el conjunto de datos, una o varias etiquetas de clases están disponibles◦ Clasificación simple◦ Multiclasificación
Construir un modelo desde los ejemplos de aprendizaje.
Ese modelo puede ser usado después para clasificar (predecir) nuevos objetos.
11
Clasificadores Bayesianos
Árboles de decisión
Support Vector Machine
Redes Neuronales Artificiales
12
Desde el conjunto de datos, determina los parámetros p(xi|cj) para cada clase j y cada rasgo i=1..N
Para un nuevo ejemplo S=(s1 s2 … sN), todas las p(cj|S) son calculadas como
◦ p(ci|S)= p(S|cj) p(cj) / p(S) con p(S|cj)=p(s1|cj) p(s2|cj) … p(sN|cj)
◦ Escoger la más probable p(cj|S)
13
14
1. Escoger el “mejor” atributo por una medida de selección dada.
2. Extender el árbol adicionando nuevas ramas para cada valor del atributo.
3. Ordenar los ejemplos de entrenamiento hacia los nodos hoja.
4. Si los ejemplos están no ambiguamente clasificados, parar, si no repetir los pasos 1-4 para los nodos hoja.
5. Podar los nodos hoja inestables.
15
Headache Temperature Flu
e1 yes normal no
e2 yes high yes
e3 yes very high yese4 no normal noe5 no high no
e6 no very high no
Temperature
yes
yes{e2}
no
no {e5}
yes
yes{e3}
no
no {e6}
normal
no
{e1, e4}
Headache
high {e2, e5}
very high
Headache
{e3,e6}
16
<0,0>
<x15,x16>
<x3,x4>
<x5,x6>
<x9,x10>
<x11,x12>
<x1,x2>
<x7,x8>
<x21,x22>
<x17,x18>
<x13,x14>
<x19,x20>
<x23,x24>
f(x)=wx+b
17
<0,0>
<x15,x16>
<x3,x4>
<x5,x6>
<x9,x10>
<x11,x12>
<x1,x2>
<x7,x8>
<x21,x22>
<x17,x18>
<x13,x14>
<x19,x20>
<x23,x24>
Muchas posibilidades !
18
<0,0>
<x15,x16>
<x3,x4>
<x5,x6>
<x9,x10>
<x11,x12>
<x1,x2>
<x7,x8>
<x21,x22>
<x17,x18>
<x13,x14>
<x19,x20>
<x23,x24>
Margen
)1
min(2m
19
<0,0>
e1
)1
min(2
eCm
Margen
20
<0,0>
f(z)=wz+b
zmodelo
21
)(x
Uso de las funciones núcleo (kernel functions)
Modelo computacional que pretende simular el funcionamiento del cerebro a partir del desarrollo de una arquitectura que toma rasgos del funcionamiento de este órgano sin llegar a desarrollar una réplica del mismo.
23
Modelo basado en la arquitectura del cerebro humano◦ Neuronas conectadas por axones y
dendritas◦ 100 billones de neuronas◦ 1,000 dendritas por neurona◦ 100,000 billones sinapsis◦ 10 millones de billones de interconexiones
por segundo
Organización o arquitectura del conjunto de neuronas que la forman; comprende - la distribución espacial de las mismas y
- los enlaces entre ellas.
Un conjunto de elementos computacionales simples unidos por arcos dirigidos.
Cada arco tiene asociado un peso numérico Wij que indica la significación de la información que llega por este arco.
Cada celda Ui calcula una activación.
26
27
Toda unidad uj (excepto las de entradas) calcula una nueva activación u'
j
Sj representa el nivel de voltaje que excita la neurona
u'j denota la intensidad de la salida
resultante de la neurona.
i
iijj uwS jj SFu '
j
1
2
n
.
.
.
w1j
w2j
wnj
Modelo lineal
Modelo lineal con umbral
Modelo estocástico
Modelo continuo
28
Conocimiento en W=[w1, w2,…,wn] Aprendizaje: encontrar el W adecuado. Alternativas: Programación prescriptiva Cálculo de W: - Método adaptativo. - Método no adaptivo.
29
Dividir el conjunto de datos en conjunto de entrenamiento (training set) y conjunto de prueba (test set)
Usar los ejemplos del conjunto de entrenamiento para construir el modelo, y los ejemplos del conjunto de prueba para evaluar el modelo
Generalizaciones: Validación cruzada (cross-validation)
30
Para un problema de dos clases, todas las medidas pueden ser definidas en 4 números
◦ TP: verdaderos positivos (true positives)◦ TN: verdaderos negativos (true negatives)◦ FP: falsos positivos (false positives)◦ FN: falsos negativos (false negatives)
31
Accuracy
Error rate = 1- accuracy
TP rate/recall/sensitivity
FP rate
Precision/specificity
F-measure
FNFPTNTP
TNTP
FNTP
TP
32
TNFP
FP
FPTP
TP
FPTP
TP
Curvas ROC
OBJETIVO: encontrar grupos “naturales” de objetos en el conjunto de datos.
Los objetos que pertenezcan al mismo cluster sean tan similares como sea posible.
Los objetos que pertenecen a clusters diferentes sean tan diferentes (no similares) como sea posible.
33
Particionar un conjunto en subconjuntos de datos “similares”
34
DESCUBRIR◦ La potencialidad de revelar relaciones basadas en
datos complejos no detectadas previamente.
Encontrar una estructura de grupos que se ajuste al conjunto de datos.
35
Corpus of TextsColección de objetos
Algoritmo de agrupamiento
Grupo 1 Grupo 2 Grupo k. . .
Tan disimilares como sea posible
(Heterogeneidad)
Tan similares como sea posible
(Homogeneidad)
Posiblemente se conozca el número de grupos a obtener
Los grupos pueden ser disjuntos o solapados
Algunos outliers pueden ser presentados
Posiblemente se tenga alguna forma de estimar los centros de los grupos
36
37
Corpus of TextsCorpus de textos
Algoritmo de agrupamiento
Tópico 1 Tópico 2Tópico k
. . .
38
Algoritmo de agrupamiento de documentos
Cluster 1Document 1: <TOPICS><D>cocoa</D></TOPICS>Document 3: <TOPICS><D>cocoa</D></TOPICS>Document 4: <TOPICS><D>cocoa</D></TOPICS>Document 5: <TOPICS><D>cocoa</D></TOPICS>Document 6: <TOPICS><D>cocoa</D></TOPICS>Document 7: <TOPICS><D>cocoa</D></TOPICS>Document 8: <TOPICS><D>cocoa</D></TOPICS>Document 9: <TOPICS><D>cocoa</D></TOPICS>Document 10: <TOPICS><D>cocoa</D></TOPICS>
Cluster 2Document 60: <TOPICS><D>silver</D></TOPICS>Document 61: <TOPICS><D>silver</D></TOPICS>Document 62: <TOPICS><D>silver</D></TOPICS>Document 63: <TOPICS><D>silver</D></TOPICS>Document 64: <TOPICS><D>silver</D></TOPICS>Document 65: <TOPICS><D>silver</D></TOPICS>Document 66: <TOPICS><D>silver</D></TOPICS>Document 67: <TOPICS><D>silver</D></TOPICS>Document 68: <TOPICS><D>silver</D></TOPICS>Document 69: <TOPICS><D>silver</D></TOPICS>Document 70: <TOPICS><D>silver</D></TOPICS>
Cluster 17Document 71: <TOPICS><D>reserves</D></TOPICS>Document 72: <TOPICS><D>reserves</D></TOPICS>Document 74: <TOPICS><D>reserves</D></TOPICS>Document 77: <TOPICS><D>reserves</D></TOPICS>Document 80: <TOPICS><D>reserves</D></TOPICS>…
Reuters-21578 Text Categorization Collection, 135 topics
http://www.daviddlewis.com/resources/testcollections/reuters21578
39
BioMed Central's open access full-text corpus for data mining research
Algoritmo de agrupamiento de documentos
40
Solapado
Determinista
Aglomerativo
Divisivo
Probabilístico
(Fuzzy)
=1
Posibilístico
DURO JERÁRQUICOBORROSO
Density-based clustering Grid-based clustering Model-based clustering Incremental clustering Joint clustering
41
42
• Métodos aglomerativo (agglomerative methods)- single linkage- complete linkage- average linkage (UPGMA)- centroid linkage- Ward’s method
• Métodos divisivos (divisive methods)- Leclerc’s splitting algorithm-Agrupamiento basado en la intermediación (betweenness)
43
• Métodos aditivos (additive methods)-Neighbour joining-Split decomposition
• Otros métodos (other methods)- Floyd-Warshall algorithm
44
• Partitioning methods- k-means, fuzzy c-means- entropy minimisation- minimisation of stochastic complexity
• Dimensioning techniques- principal component analysis (PCA)- multidimensional scaling (MDS)- unsupervised neural networks
45
46
A
D
C
E
B
A
D
C
E
B
El número de clusters depende de
“donde dibujemos la línea”
1. Inicialmente asignar a cada entrada i su propio cluster Ci en el nivel 1.
2. Paso básico: Encontrar las entradas i y j tal que
Unir los clusters Ci and Cj en el nivel λ3. Paso general:
Encontrar clusters Ci y Cj tal que
Unir los clusters Ci and Cj en el nivel λ4. Repetir el paso 3 hasta que todos los clusters queden
unidos en un único cluster.
47
1. Inicialmente todas las entradas están en un único cluster C.
2. Encontrar i y j tal que
3. Dividir C en 2 subclusters disjuntos C1 y C2, tal que iC1 y jC2
4. Repetir las pasos 2 y 3 para C1 y C2 hasta que cada cluster sea un cluster de un único elemento.
48
C1 C2
i j
aij
Single linkage clustering◦ Vecino más cercano, min-transitive closure
Complete linkage clustering◦ Vecino más lejano, min-transitive opening
49
C1 C2
C1 C2
Average linkage clustering UPGMA, min-transitive approximation
50
C1 C2avg
Ventajas◦ Rápido◦ Bueno cuando el número de clusters es conocido.
Desventaja◦ K debe ser conocido, o diferentes valores tiene
que ser puestos a prueba.
51
Red no supervisada con dos capas:◦ Capa de entrada◦ Capa de salida
52
1. Inicializar los pesos wij
2. Repetir1. Presentar una entidad aleatoria2. Encontrar el nodo más similar3. Ajustar los pesos del nodo
ganador4. Ajustar los pesos de la vecindad
3. Hasta que converja o se cumpla un número fijado de iteraciones
53
Se requieren algunas medidas para cuantificar el grado de asociación entre objetos.
Distancias, similitud o disimilitud.
Algunos algoritmos de agrupamiento tienen un requerimiento teórico para el uso de una medida específica.
Lo más común es que el investigador seleccione qué medida utilizará con determinado método.
54
Notación
Objetos Oi y Oj, descritos por k rasgos
Oi = (Oi1 Oi2 … Oik)
Oj = (Oj1 Oj2 … Ojk)
55
pequeña
grande
grande!
Euclidean distance
56
k
hjhihji OOOOD
1
2,
Métrica Minkowski
57
1
1
,
k
hjhihji OOOOD
Cuando =1, la forma de calcular la distancia entre los objetos se llama la métrica Manhattan.
Si =2, nos referimos a la distancia Euclidiana.
Para los valores 2, estamos en presencia de la métrica Supermum
58
k
h jhih
jhih
jiOO
OOOOD
1
,
Métrica Camberra
59
Correlación de Pearson
k
hhjh
k
hhih
k
hhjhhih
ji
atributoOatributoO
atributoOatributoOOOD
1
2
1
2
1,
es el valor promedio que toma el atributoh en el conjunto de datos
hatributo
Coeficiente Dice Coeficiente Jaccard Coeficiente Coseno
◦ S – similitud◦ Di y Dj documentos con pesos asociados a los k
términos que los describen.
60
61
k
hjh
k
hih
k
hjhih
ji
pesopeso
pesopeso
DDS
1
2
1
2
1
2
,
BA
CDDS ji
2
,Para pesos binarios
C es el número de términos que Di y Dj tienen en común,
y A y B son el número de términos de Di y Dj respectivamente
62
k
hjhih
k
hjh
k
hih
k
hjhih
ji
pesopesopesopeso
pesopeso
DDS
11
2
1
2
1,
BA
CDDS ji
),(
A es el número de palabras que describen a Di, B es el número de palabras que describen a Dj y C es el número de palabras que aparecen tanto en Di como en Dj.
Para pesos binarios
63
k
hjh
k
hih
k
hjhih
ji
pesopeso
pesopeso
DDS
1
2
1
2
1,
Di
Dj
ji
ji
DD
DD
cos
Más usado
Unsupervised networks (e.g., Kohonen (SOM)) Autoclass k-means, Batch k-means e Incremental k-means Tolerance Rough Set Principal Direction Divisive Partitioning (PDDP) y Spherical
PDDP Simultaneous Clustering and Attribute Discrimination Fuzzy c-means Relational Alternating Cluster Estimation Entropy minimisation Minimisation of stochastic complexity Principal component analysis (PCA) Multidimensional scaling (MDS)
64
No es necesario especificar el número de grupos que se desea obtener.
Se obtienen las palabras claves que describen cada grupo.
Hay que definir el tamaño de la red manualmente.
65
Nürnberger, A. Klose, A. Kruse, R.
Clustering of Document Collection to Support Interactive Text Exploration.
Studies in Classification, Data Analysis and Knowledge Organization. Exploratory Data Analysis in Empirical Research. Proceedings of the 25th Annuals Conference of the
Gesellschaft für Klassification. pp 291-299. 2001.
No requiere especificar el número de grupos a obtener.
Obtiene las palabras claves de cada grupo.
Ha aportado mejores resultados que la red Kohonen en el agrupamiento de documentos.
66
Requiere que el número de clusters a obtener sea especificado a priori.
Requiere un cierto conocimiento del dominio, ya que es sensible a cómo se hizo inicialmente la partición.
67
Batch k-meansla calidad de la partición final depende de una
buena selección de la partición inicialpuede quedar atrapado en mínimos locales.
Incremental k-meansresuelve las dos desventajas del Batch k-meanspero es más lento
MeansMejora a estos dos últimos algoritmos
68
Utiliza una extensión de la teoría clásica de los conjuntos aproximados (Rough Set Theory).
Tolerance Rough Set permite formar clases de tolerancia de las palabras y utilizarlas para realizar el agrupamiento de documentos.
69
No requiere que el número de clusters sea fijado inicialmente.
Hace una subdivisión sucesiva de la colección inicial hasta detenerse cuando se cumpla cierto criterio de calidad.
Este algoritmo no es basado en ninguna medida de distancia ni de similitud.
Toma como ventaja lo dispersa que es la matriz de términos por documentos.
70
◦ Principal Direction Divisive Partitioning (PDDP) + Means
◦ Spherical Principal Directions Divisive Partitioning (sPDDP) + Means
◦ OBJETIVO:Mejorar la eficienciaNo tener que fijar manualmente el número inicial de
clusters ni la partición inicialCuidado con el tiempo de ejecución!!
71
Realiza el agrupamiento con objetivos específicos.
Identifica clusters pequeños en contextos limitados.
Es poco escalableFunciona utilizando Latent Semantic Indexing y los
vectores bases no son siempre ortogonales, aspecto esencial al buscar los valores y vectores propios.
72
Simultáneamente obtiene los grupos de documentos similares y pesa los rasgos.
Provee una representación de la relevancia de los rasgos más rica que la selección de los rasgos binaria.
Aprende una representación de la relevancia de los rasgos diferente para cada cluster.
Este algoritmo utiliza la distancia Euclidiana para calcular la similitud entre documentos.
73
Permite simultáneamente agrupar documentos textuales y dinámicamente pesar el conjunto de palabras claves.
Es computacional y conceptualmente simple.
Este algoritmo requiere que sea especificado el número inicial de clusters.
Es una extensión del k-means y funciona mejor que éste cuando no todos los rasgos son igualmente relevantes.
Utiliza una medida de disimilitud basada en el coeficiente coseno para comparar los documentos, pero puede ser adaptado a otras medidas de disimilitud.
La forma de pesar los términos puede ser modificada.
74
No requieren que el número de clusters sea especificado inicialmente.
Star depende del orden de los datos y esto puede provocar la construcción de clusters ilógicos.
Extended Star no depende del orden de los datos, i.e., no influye el orden de los datos en la formación de los clusters.
75
Algoritmos Estrella Condensado y Estrella Generalizado
76
Ejemplo de agrupamiento con el algoritmo Star donde
influye el orden de los datos
Ejemplo de la obtención de clusters ilógicos según agrupamiento Star debido a que dos estrellas nunca pueden ser vecinas.
Reconoce nubes esféricas de puntos en un espacio p-dimensional.
Asigna un grado de pertenencia de los documentos a los clusters.
77
Relational Alternating Cluster Estimation
Simultaneous Soft Clustering and Term Weighting of Text Document (Fuzzy SKWIC)
Requieren que el número de clusters sea especificado inicialmente.
Devolver la colección de clusters y calculan simultáneamente la relevancia de las palabras en los grupos.
78
Representación gráfica de los corpus textuales
Agrupamiento de documentos y palabras usando modelos gráficos
79
… …
Algoritmos que sólo utilizan distancias, similitudes, o disimilitudes para cuantificar el grado de asociación entre los objetos.
Algoritmos que adicionalmente explotan la topología de las interrelaciones y enlaces de los objetos a agrupar.
80
81
Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp. 321-330. 2004.
),(
),()(
jicpath
jicpathebtw e
Potencial que tiene una arista para controlar el flujo de información en el grafo.
Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo.
Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.
El cálculo tiene una alta complejidad computacional◦ O(m2n) para densos y O(n3) para dispersos.
La forma de cálculo no garantiza que todas las aristas que conectan grupos tengan intermediación alta.
◦ Los algoritmos de agrupamiento que utilizan la intermediación según los geodésicos necesitan el recálculo.
Aumenta un orden de complejidad con respecto a m.82
83
1
2
34
5
6
7
8
9
10
1112
13
14
15
16
17
18
21
22
20
19
84
Si no se puede medir lo que se quiere, no se debe esperar que las inferencias con estas mediciones sean correctas.
Se quiere que la habilidad para medir la intermediación de una arista dependa menos de las otras aristas.
85
86
bajibabaji ss ,,
bajiebajiB ,,,,
jicjic Vba
baji
Vbac ebajiBDB
,, ,
,,
,, ,,
Intermediación diferencial
-intermediación
Diferencial geodésico
c-vecindad cjvcivVvV ssjic ,
jicjic VjiEjiE ,, ,,
Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.
Cálculo de DB a partir del cálculo de los caminos en el grafo original.
◦ Sin fijar vecindad O(mn2).
◦ Fijando vecindad O(mn) o O(n2) para grafos dispersos.
Cálculo de los caminos en la vecindad.◦ O(m) o O(n) para grafos dispersos.
87
Mientras que el algoritmo GN tiene la complejidad O(m2n).
1. Obtención del grafo de similitud.
2. Cálculo de la matriz de intermediación diferencial pesada.
3. Determinación de las aristas a eliminar.
4. Determinación de los núcleos del agrupamiento mediante la extracción de componentes conexas.
5. Clasificación de los nodos que no pertenecen a los núcleos.
88
Corpus Cantidad de documentos
Cantidad de grupos
Distribución de documentos por grupos
BioMed1 31 2 Grupo1=[1..11] Grupo2=[12..31]
Reuters2 29 2 Grupo1=[1..12] Grupo2=[13..29]
CEC20063 29 2 Grupo1=[1..18] Grupo2=[19..29]
89
1 BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/2 Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis3 IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse
90
0.97
0.93
0.80
0.5
0.6
0.7
0.8
0.9
1
BioMed Reuters CEC2006
SKWIC
VariantesEstrella
Enlace
GN
Algoritmo 1
La mayoría de los métodos de agrupamiento son dependientes del análisis de frecuencias de términos y medidas de distancias o similitudes entre los vectores de objetos, sin considerar conocimiento humano.
91
• "A Clustering Algorithm Based on User Queries“. C. T. Yu. Journal of the American Society for Information Science. 1974.
• "Adaptive Document Clustering“. C. T. Yu, Y. T. Wang y C. H. Chen. Conference on Research and Development in Information Retrieval. 1985.
• “Optimal determination of user-oriented clusters”. J. Deogun y V. Raghavan. International Conference on Research and Development in Information Retrieval. 1987.
Distancia adaptable a los intereses y preferencias de los usuarios.
Distancia entre dos documentos relativa al peso W
◦ W: matriz de pesos simétrica nxn◦ wij: interrelación entre los términos i y j de los vectores.
92
Fuente: “An effective document clustering method using user-adaptable distance metrics”. Han-joon Kim y Sang-goo Lee. Proceedings of the Symposium on Applied computing. Madrid. ACM. 2002.
jijijiW ddWdddddist
,
Estrategia de aprendizaje activo para encontrar las restricciones más adecuadas.
Usan las restricciones para calcular un peso para la importancia de los términos en la medida de distancia.
Las restricciones se aprenden por la retroalimentación de los usuarios.
93
Fuente: “Semi-supervised clustering with user feedback”. D. Cohn y otros. Technical Report TR2003-1892, Cornell University, 2003.
Introducen el peso de los términos en el cálculo de la similitud coseno entre los documentos.
La importancia de los términos para distinguir los documentos varía entre los usuarios.
Crean medidas de similitud específicas para los usuarios haciendo uso de esquemas de ponderación diferentes para cada usuario.
Aprendizaje y adaptación de los pesos
94
Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.
La importancia de los términos describe los tópicos de interés de los usuarios◦ Todo del perfil del usuario o manualmente especificada
Se utiliza directamente en el agrupamiento o en la inicialización de adaptación de pesos.
Se conoce cuáles son los términos importantes desde el punto de vista del usuario en el proceso de agrupamiento.
95
i i
iiiiii ddwwddsimnwww ,2,121 ),,(0:
Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.
Una medida de evaluación hace corresponder un número real a un agrupamiento.
El número indica el grado en que ciertas propiedades estructurales son descubiertas en el agrupamiento.
96
◦ La matriz de similitud entre objetos conduce a un grafo de similitud.
◦ Las interrelaciones entre los objetos pueden intrínsicamente formar un grafo.
97
El conocimiento del dominio contribuye a determinar qué tipo de agrupamiento se va a utilizar con el objetivo de obtener los mejores resultados.
Explotar el conocimiento que existe en el enlace entre objetos.
Descubrir grupos que se ocultan en las comunicaciones entre objetos
98
Fuente: X. Xu, N. Yuruk, Z. Feng, T. Schweiger. SCAN: A structural clustering algorithm for networks. ACM. KDD. 2007.
Transitividad o agrupamiento
◦ Número elevado de triángulos en el grafo.
◦ Coeficiente de agrupamiento: densidad de triángulos en el grafo.
99
conectados vérticesde tríosde número
grafo elen s triángulode número3C
i
iCi vérticeelen centradosestán que vérticesde tríosde número
vérticeal conectados s triángulode número
Efecto small-world
◦ La mayoría de los pares de vértices se conectan por un camino corto en el grafo (longitud promedio de los caminos).
◦ Relacionada con la propiedad de navegación.
100
ji
ijdnn
l)1(
2
11
Grafos scale-free
◦ Grafos que presentan la ley de distribución del grado (distribución y correlación de los grados).
◦ Un grafo puede tener una forma de distribución del grado y en sus subgrafos la distribución puede tener otra forma.
101
Patrones mixtos
◦ Se utiliza en grafos donde los vértices representan distintos tipos y es interesante estudiar cómo se conectan dichos vértices mixtos.
◦ Se cuantifica mediante el coeficiente mixto.
Estructura de comunidad
◦ Se observan grupos de vértices que tienen una alta densidad de las aristas entre ellos, con una baja densidad de las aristas entre grupos.
102
Fuente: Newman, M. E. J. The structure and function of networks. Computer Physics Communications, 147: 40-45. 2002.
103
Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.
104
Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.
105
Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.
106
Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004.
El ancho de las aristas indica su peso.
Los colores de los vértices indican los grupos.
Varias investigaciones muestran que el lenguaje existe en una red small-world.
Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.
107
Nodos: documentos
Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado.
Grupos: [0..27] talk.politics.guns[28..58] talk.politics.mideast
Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups
¿Cuántos clusters hay en el conjunto de datos?
¿El esquema del agrupamiento resultante se adapta al conjunto de datos?
¿Existe una mejor partición para nuestros datos?
¿La estructura de los clusters es bastante clara realmente?
¿Son correctas la densidad, compactación, separación de los clusters?
108
Cada medida de evaluación no puede capturar todas las buenas propiedades de un agrupamiento.
El funcionamiento de un algoritmo de agrupamiento puede ser juzgado diferente dependiendo de qué medidas se han usado.
Para hacer más confiables los resultados se deben usar varias medidas.
Cualquier nueva medida puede contribuir a comprender mejor el agrupamiento.
109
Las medidas externas usan una clasificación humana de referencia para evaluar el agrupamiento. ◦ No son aplicables en situaciones del mundo real
donde usualmente no están disponibles las clasificaciones de referencia.
Las medidas internas basan sus cálculos solamente en el agrupamiento que tiene que ser evaluado.
110
Overall Similarity
No considera la relación entre los clusters.
111
SdSd
ddS
ilarityOverallSim
'
2 ),'(distance1
Dunn IndicesEstas medidas tienen una forma geométrica (típicamente
centroide) para analizar el agrupamiento.
112
)}({max
)},({min)(
1 lkl
jiji
C
CCCI
),(min),(,
yxdCCji CyCx
ji
),(max)(,
yxdCiCyx
i
ji CyCxji
ji yxdCC
CC,
),(1
),(
i
Cx i
i C
cxdC i
),(2)(
Dunn
Bezdek
113
Medida Davies-BouldinEstas medidas tienen una forma geométrica (típicamente
centroide) para analizar el agrupamiento.
114
k
iiR
kDB
1
1 ij
jinj
i RR
,,...,1
max
),(
))()((
ji
jiij CC
CsCsR
iCx i
ii cx
CCs
1)(
-measure (Weighted Partial Connectivity)
measure (Expected density)
El cálculo de estas medidas es muy costoso, alta complejidad computacional.
115
Entropía
116
i
ijijj ppE logj
ij
ij n
np donde
ijn el número de documentos de la clase i que están asignados al
cluster j pij la probabilidad que un miembro del clusters j pertenezca a la
clase i
La entropía de cada cluster j
q
iijijj pp
qE
1
loglog
1
m
j
jjCS n
EnE
1
*
Precision
Recall
117
j
ijn
njiprecision ),(
i
ijn
njirecall ),(
nij es el número de miembros de la clase i en el cluster j, nj es el número de miembros del cluster j y ni es el número de miembros de la clase i
F-Measure y Overall F-Measure
118
),(
11
),(
11
),(
jirecalljiprecision
jiF
i
i jiMeasureFn
nF ),(max
Purity
Relative F-Measure
F-Score Metric for Soft Clustering Micro-averaging break-even point (BEP) and Micro-
averaging F1-measure
Folks and Mallows measure
Jaccard measure
Rand statistics
Kappa statistics
119
No necesita ninguna información preliminar o adicional sobre los datos.
Es una herramienta para ser usada en aplicaciones computacionales en circunstancias caracterizadas por vaguedad e incertidumbre.
120
Relación de similitudR’(x)={yU : yR’x, i.e. y está relacionado con x si y sólo si s(x,y)>}
Aproximación inferior
Aproximación superior
121
XxRXxXR )(':)('*
Xx
xRXR
)(')('*
Precisión de la aproximación
Calidad de la aproximación
Pertenencia aproximada
Precisión del agrupamiento
Calidad del
agrupamiento
122
)('
)(')(
*
*
XR
XRX
X
XRX
)(')( *
)('
)(')(
xR
xRXxX
U
XRDS
l
ii
1* )('
)(
l
ii
l
ii
XR
XRDS
1
*
1*
)('
)(')(
Precisión generalizada del agrupamiento
Calidad generalizada del
agrupamiento
Pertenencia aproximada
123
U
wXRDS
l
iii
G
1
* )(')(
l
iii
l
iii
G
wXR
wXRDS
1
*
1*
)('
)(')(
)('
)(')(
xR
xRXxX
X
xRXxX
)(')(
)('
)(')(
xRX
xRXxX
Fuente: L. Arco y otros. On clustering validity measures and the Rough Set Theory. MICAI 2006. IEEE Computer Society.
Entrada: Colección de objetos (sistema de información), resultado del agrupamiento (conceptos), medida y umbral de similitud, y formas de ponderación de los grupos.
Salida: Valores de las medidas de precisión y calidad aplicadas a los grupos y al agrupamiento en general.
1. Obtener las clases de similitud para cada objeto en el sistema de información.
2. Calcular las aproximaciones inferiores y superiores por grupo.
3. Calcular la calidad y precisión por grupo.
4. Calcular la calidad y precisión del agrupamiento.
5. Para cada variante de cálculo de peso especificada
a. Calcular los pesos por grupos.
b. Calcular la calidad y precisión generalizadas del agrupamiento.
124
125
Evaluación del instrumento de
medición
Confiabilidad Validez
Contenido Criterio Constructo
Pruebas de Wilcoxon aResultados con y sin
ruido
Correlación con medidas internas
Correlación con medidas externas
Propiedades que se
chequean
SI existe la clasificación de referencia para el conjunto de datos que se agrupaYel usuario quiere evaluar considerando la correspondencia de los resultados obtenidos por el algoritmo de agrupamiento con la clasificación de referencia
ENTONCESse sugiere analizar las medidas externas
126
L/G C/G/A Peso Umbral Max/Min P/C Costo
Entropía L&G Grupos Si No Min P Bajo
Precisión Local - No No Max P Bajo
Cubrimiento Local - No No Max P Bajo
Medida-F Local - No Si Max P Bajo
Información Mutua Local - No No Max P Bajo
Estadístico Kappa Global Grupos No No Max P Alto
Medida-F Global Global Clases Si Si Max P Bajo
MAP&R Global Clases No No Max P&C Bajo
Error del agrupamiento Global Pares No No Min P&C Alto
Cluster Recall Global Pares No No Max P&C Alto
Cluster Precision Global Pares No No Max P&C Alto
Estadístico Rand Global Pares No No Max P&C Alto
Coeficiente Jaccard Global Pares No No Max P&C Alto
Índice de F&M Global Pares No No Max P&C Alto127
SI desea realizar la validación de cada grupo ENTONCES aplicar Entropía, Precisión, Cubrimiento y Medida-F
SI no tiene criterios para especificar umbrales ENTONCES no aplicar Medida-F ni Medida-F Global
SI desea obtener medidas globales Y calculadas por clases ENTONCES aplicar Medida-F Global, MAP y MAR SINO SI desea obtener medidas globales Y calculadas por grupos ENTONCES aplicar Entropía y Estadístico Kappa
128
SI desea validar agrupamientos de grandes colecciones de datos ENTONCES aplicar Entropía, Precisión, Cubrimiento, Medida-F y
Medida-F Global
SI se requiere validar cubrimientos Y los conjuntos de datos son pequeños ENTONCES preferiblemente aplicar Error del agrupamiento, Cluster Recall y Cluster Precision, Estadístico Rand, Coeficiente Jaccard e Índice de
Folkes y Mallows
SI desea validar ponderando los grupos por su cardinalidad ENTONCES aplicar Entropía y Medida-F Global 12
9
EM (?) EM (3)
E 0.1825 0.2241
Pr 1 0.9271
Re 0.6 0.9067
OFM 0.7239 0.9048
EM (3) 9.33% incorrectos
grupos 0 1 2
Iris-setosa 0 50 0
Iris-versicolor 50 0 27
Iris-virginica 14 0 36
EM (?) 40% incorrectos
grupos 0 1 2 3 4
Iris-setosa 28 0 0 22 0
Iris-versicolor 0 0 27 0 23
Iris-virginica 0 35 15 0 0
130
Mide en qué grado la clase está incluida en el grupo.
Busca correspondencia de cada grupo con las clases.
Mide en qué grado el grupo cubre la clase.
Media armónica de Precisión y Cubrimiento
SI no existe la clasificación de referencia para el conjunto de datos que se agrupaO
el usuario no quiere evaluar considerando la correspondencia
de los resultados con la clasificación de referencia
ENTONCESse sugiere analizar las medidas internas
131
Objetivo Valora Integral
Indep.Forma Centro Ruido Diversos
tamañosUmbral
Índice C Densidad de los grupos
No Si No No No No
Similitud Global
Cohesión de los grupos
(Local)
No No No No Si No
Dunn original
Grupos compactos y bien separados (razón) Si No No Si Si No
Dunn-Bezdek
Grupos compactos y bien separados (razón) Si No Si Si Si No
Bezdek general
Grupos compactos y bien separados (razón) Si Si No No Si No
Davies-Bouldin
Dispersión de los grupos y su separación Si No Si No Si No
Índice SD Suma pesada de la distancia intra-grupo y
entre gruposSi No Si No No No
Índice S_Dbw
Suma pesada de la distancia intra-grupo y
entre gruposSi No No No Si No
Índice Silueta
Grupos compactos y bien separados Si No No Si Si No
132
Objetivo Valora Integral
Indep.Forma Centro Ruido Diversos
tamañosUmbral
FOM Estimar número de grupos
Si Si No No No Si
Expansión Árbol de expansión mínimo No Si No Si No Si
Conductancia Árbol de expansión mínimo (permite
ponderar vértices)No Si No Si No Si
Conectividad parcial pesada
Conectividad de las aristas pesadas por
gruposNo Si No No Si Si
Densidad esperada
Densidad de los grupos por peso de
las aristasNo Si No No Si Si
Modularidad Interconexiones antes y después del agrupamiento
Si Si No Si Si Si
Índice de tendencia del agrupamiento
Forma grafo k-partito con las
relaciones entre los k grupos
No Si No No Si Si
133
Objetivo Valora Integral
Indep.Forma Centro Ruido Diversos
tamañosUmbral
Medida de la fortaleza de las conexiones
Identifica grupos débiles y fuertes
(solo conexiones)No Si No No Si Si
Medida de la interacción
Promedio de la interacción intra-
grupo entre el promedio de la interacción con nodos externos
No Si No Si Si Si
Precisión del grupo
Razón de los objetos típicos del
grupo y los relacionados con él
Si
(local)Si No No Si Si
Calidad del grupo
Porciento de objetos bien
asignados al grupo
Si
(local)Si No No Si Si
Precisión generalizada del agrupamiento
Precisión global ponderada por
gruposSi Si No No Si Si
Calidad generalizada del agrupamiento
Calidad global ponderada por
gruposSi Si No No Si Si
134
SI desea validar que los grupos son compactos y están bien separados ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices
Davies-Bouldin, SD, S_Dbw y Silueta, y las medidas precisión y
calidad del agrupamiento
SI los resultados a evaluar son de un agrupamiento basado en prototipos ENTONCES aplicar índices Dunn-Bezdek, Silueta, Davies-Bouldin, SD y
las medidas precisión y calidad generalizadas
SI desconoce la forma de los grupos obtenidos ENTONCES no aplicar Similitud Global, índices Dunn original, Dunn-
Bezdek, Davies-Bouldin, SD, S_Dbw y Silueta
135
SI desea al validar que se considere la integración entre los grupos ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices Davies-
Bouldin, SD, S_Dbw y Silueta, FOM, Modularidad y las medidas RST SINO aplicar Índice C, Similitud Global, Expansión y Conductancia, Conectividad parcial pesada, Densidad esperada, tendencia del agrupamiento y medida de la fortaleza de las conexiones
SI desea validar ponderando los grupos por su cardinalidad ENTONCES aplicar Conectividad parcial pesada, Densidad esperada, y las medidas precisión y calidad generalizadas
SI desea validar considerando diversas formas de ponderación ENTONCES aplicar medidas precisión y calidad generalizadas
136
SI los grupos obtenidos tienen diversos tamaños ENTONCES no aplicar índices C y SD, FOM, Expansión y Conductancia
SI el método de agrupamiento utilizó representación en grafos ENTONCES aplicar Expansión, conductancia, Conectividad parcial pesada, densidad esperada, modularidad, índices de tendencia, fortaleza e interacciones, y medidas RST
SI se desean combinar en una misma medida varios criterios O dado un cálculo inicial común aplicar medir varias propiedades ENTONCES aplicar medidas basadas en RST 13
7