Post on 10-Oct-2020
Modelo de Integración de Conocimiento Huérfano descubierto mediante Minería de Datos
Ingrid Wilford Rivera
TESIS DOCTORAL
MODELO DE INTEGRACIÓN DE
CONOCIMIENTO HUÉRFANO
DESCUBIERTO MEDIANTE
MINERÍA DE DATOS
UNIVERSIDAD DE ALICANTE
TESIS DOCTORAL
MODELO DE INTEGRACIÓN DE
CONOCIMIENTO HUÉRFANO DESCUBIERTO
MEDIANTE MINERÍA DE DATOS
Presentada por
INGRID WILFORD RIVERA
Dirigida por
DR. DANIEL RUIZ FERNÁNDEZ
DR. ALEJANDRO ROSETE SUÁREZ
DEPARTAMENTO DE TECNOLOGÍA INFORMÁTICA Y COMPUTACIÓN NOVIEMBRE DE 2010
«El todo es más que la suma de sus partes»
Aristóteles (384 AC-322 AC)
i
RESUMEN
El trabajo de investigación presentado en esta memoria de tesis se centra en el
descubrimiento de conocimiento en bases de datos, en concreto, en la extracción de
conocimiento global, oculto en bases de datos distribuidas, mediante la aplicación de
técnicas de minería de datos. De forma más específica el objetivo de esta
investigación consiste en el desarrollo de un modelo que permita la integración de
conocimiento expresado como conjuntos de patrones procedentes de múltiples bases
de datos a las que, por cualquier motivo, no es posible acceder.
Esta propuesta resulta especialmente útil en aquellas situaciones en las que se
requiere obtener conocimiento global representativo de un conjunto de
organizaciones o entidades, cuyas bases de datos han sido exploradas localmente y
que comparten sus modelos locales de minería de datos pero no sus datos originales.
Un ámbito de aplicación de este modelo son las bases de datos que incorporan
información sensible protegida por la ley y que, por tanto, presentan un acceso
directo limitado a los datos.
El trabajo aborda los siguientes aspectos fundamentales:
Una revisión del estado del arte sobre los aspectos relacionados con el
descubrimiento de conocimiento global procedente de múltiples bases de
datos, mediante técnicas de minería de datos.
Formalización de un modelo general de integración de conocimiento
distribuido y huérfano, es decir, procedente de bases de datos desconocidas o
a las que no es posible acceder. Junto a la formalización del modelo
conceptual se presenta también una propuesta de implementación funcional
basada en el paradigma de agentes.
ii Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Para validar el modelo de integración propuesto, se han diseñado e
implementado un conjunto de experimentos con dos bases de datos. Para
cada base de datos se han generado conjuntos de patrones de conocimiento y
se ha validado su integración siguiendo el modelo conceptual propuesto.
Este trabajo ha permitido identificar un conjunto de problemas abiertos y líneas de
investigación que perfilan el camino hacia el desarrollo de posibles trabajos
científicos, de interés en el ámbito del descubrimiento de conocimiento en bases de
datos y la minería de datos. Entre estos problemas podemos destacar la adaptación
dinámica del modelo, el desarrollo de nuevas estrategias paralelas y distribuidas de
minería de datos o el estudio de nuevos métodos de estimación de medidas de
calidad de los patrones integrados.
iii
RESUM
El treball d'investigació presentat en aquesta memòria de tesi se centra en el
descobriment de coneixement en bases de dades, en concret, en l'extracció de
coneixement global, ocult en bases de dades distribuïdes, mitjançant l'aplicació de
tècniques de mineria de dades. De forma més específica l'objectiu d'aquesta
investigació consisteix en el desenvolupament d'un model que permeta la integració
de coneixement expressat com conjunts de patrons procedents de múltiples bases de
dades a les quals, per qualsevol motiu, no és possible accedir.
Aquesta proposta resulta especialment útil en aquelles situacions en les quals es
requereix obtenir coneixement global representatiu d'un conjunt d'organitzacions o
entitats, les bases de dades de les quals han estat explorades localment i que
comparteixen els seus models locals de mineria de dades però no les seues dades
originals. Un àmbit d'aplicació d'aquest model són les bases de dades que incorporen
informació sensible protegida per la llei i que, per tant, presenten un accés directe
limitat a les dades.
El treball aborda els següents aspectes fonamentals:
Una revisió de l'estat de l'art sobre els aspectes relacionats amb el
descobriment de coneixement global procedent de múltiples bases de dades,
mitjançant tècniques de mineria de dades.
Formalització d'un model general d'integració de coneixement distribuït i orfe,
és a dir, procedent de bases de dades desconegudes o a les quals no és
possible accedir. Junt a la formalització del model conceptual es presenta
també una proposta d'implementació funcional basada en el paradigma
d'agents.
iv Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Per a validar el model d'integració proposat, s'han dissenyat i implementat un
conjunt d'experiments amb dues bases de dades. Per a cada base de dades
s'han generat conjunts de patrons de coneixement i s'ha validat la seua
integració seguint el model conceptual proposat.
Aquest treball ha permès identificar un conjunt de problemes oberts i línies
d'investigació que perfilen el camí cap al desenvolupament de possibles treballs
científics, d'interès en l'àmbit del descobriment de coneixement en bases de dades i la
mineria de dades. Entre aquests problemes podem destacar l'adaptació dinàmica del
model, el desenvolupament de noves estratègies paral·leles i distribuïdes de mineria
de dades o l'estudi de nous mètodes d'estimació de mesures de qualitat dels patrons
integrats.
v
ABSTRACT
The research presented in this PhD report is focused on knowledge discovery in
databases, concretely on the extraction of global knowledge hidden in distributed
databases, by applying data mining techniques. More specifically the aim of this work
is the development of a model that allows the integration of knowledge formulated
as sets of patterns created by the application of data mining techniques on several
data sets, which are inaccessible due to whatever reason.
This proposal is especially useful when it is required to discover representative global
knowledge from a set of organizations or entities, which databases had been explored
locally and share their local data mining models but not their original data. This
model can be applied in the field of databases with sensitive information protected
by law and, consequently, the direct access to the data is limited. A scope of this
model is databases that include sensitive information protected by law and therefore
have limited direct access to data.
The fundamental aspects developed on this research work are the following:
A state of the art review of the aspects related with the global knowledge
discovery from multiple databases using data mining techniques.
Formalization of a general model for the integration of distributed and orphan
knowledge, that is, knowledge extracted from unknown or inaccessible
databases. Along with the conceptual model formalization, a functional
implementation proposal based on the agent’s paradigm will be presented.
To validate the proposed integration model, we have designed and
implemented a set of experiments with two databases. For each database, sets
of patterns of knowledge were generated and its integration has been validated
following the conceptual model proposed.
vi Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
This work has identified a set of open problems that outline the path towards the
development of scientific research potential, interest in the field of knowledge
discovery in databases and data mining. Among these problems, we highlight the
dynamic adaptation of the model, the development of new strategies for parallel and
distributed data mining or exploring new methods to estimate quality measures of
integrated patterns.
vii
RESUMEN DEL CONTENIDO
INTRODUCCIÓN, 1
ESTADO DEL ARTE, 11
MODELO CONCEPTUAL, 29
MODELO FUNCIONAL, 65
PRUEBAS Y VALIDACIÓN, 95
CONCLUSIONES, 137
REFERENCIAS BIBLIOGRÁFICAS, 143
ix
TABLA DE CONTENIDO
CAPÍTULO 1 INTRODUCCIÓN 1
1.1. Motivación 2
1.2. Identificación del Problema 5
1.3. Hipótesis y Objetivos 6
1.4. Propuesta de Solución 7
1.5. Metodología y Plan de Investigación 9
CAPÍTULO 2
ESTADO DEL ARTE 11
2.1. Tareas de Minería de Datos 12
2.2. Análisis de múltiples conjuntos de datos mediante minería de datos 15 2.2.1. Minería de Datos Paralela 17 2.2.2. Minería de Datos Distribuida 19
2.3. Síntesis de Modelos de Minería de Datos (Postmining) 23 2.3.1. Síntesis de Modelos de Reglas de Asociación 23 2.3.2. Síntesis de Modelos de Clusters 26
2.4. Conclusiones 27
CAPÍTULO 3 MODELO CONCEPTUAL 29
3.1. Codificación 34 3.1.1. Subproceso Selección de Modelos 35 3.1.2. Subproceso Traducción de Modelos 37 3.1.3. Resumen del Proceso Codificación 39
x Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
3.2. Síntesis 39 3.2.1. Subproceso Construcción de Solución Inicial 41 3.2.2. Subproceso Mejora de Solución 48 3.2.3. Subproceso Asignación de Medidas 56 3.2.4. Resumen del Proceso Síntesis 60
3.3. Representación 61 3.1.1. Subproceso Selección de Patrones 62 3.1.2. Subproceso Representación de Modelo 63 3.1.3. Resumen del Proceso Representación 64
3.4. Resumen del Proceso Integración 64
CAPÍTULO 4
MODELO FUNCIONAL 65
4.1. Entorno del SIC 69 4.1.1. Estados del Mundo 69 4.1.2. Tareas 70
4.2. Agentes del SIC 72 4.2.1. Comunicación entre Agentes 74 4.2.2. Paquete Codificación 78 4.2.3. Paquete Síntesis 80 4.2.4. Paquete Representación 89 4.2.5. Resumen de agentes del SIC 92
CAPÍTULO 5
PRUEBAS Y VALIDACIÓN 95
5.1. Diseño de Experimentos 96
5.2. Experimentación y Resultados 101 5.2.1. Selección y Preparación 102 5.2.2. Integración de Modelos de Reglas de Asociación 105 5.2.3. Integración de Modelos de Clusters 119
5.3. Conclusiones 134
CAPÍTULO 6 CONCLUSIONES 137
6.1. Aportaciones 138
6.2. Problemas Abiertos 139
6.3. Divulgación de Resultados 140
REFERENCIAS BIBLIOGRÁFICAS 143
xi
FIGURAS
Figura 1.1 Incremento del Nº de conferencias de IEEE que abordan la MD. 3
Figura 1.2 Fases del Modelo de Integración de Conocimiento propuesto.
8
Figura 2.1 Clasificación de tareas de minería de datos. 14
Figura 2.2 Alternativas de análisis de múltiples conjuntos de datos distribuidos. 16
Figura 2.3 Arquitecturas clásicas para MDD. Variante 1. 19
Figura 2.4 Arquitecturas clásicas para MDD. Variante 2. 20
Figura 2.5 Arquitecturas clásicas para MDD. Variante 3. 21
Figura 3.1 Representación de un proceso en el MC_MIC, basándose en Eriksson-Penker. 30
Figura 3.2 Representación del flujo de tareas del proceso p1. 31
Figura 3.3 Integración de modelos locales de minería de datos. 33
Figura 3.4 Detalle a nivel de procesos del MIC. 33
Figura 3.5 Proceso de Codificación (pC). 35
Figura 3.6 Proceso Selección de Modelos (pSM). 36
Figura 3.7 Proceso Traducción de Modelos (pTM). 38
Figura 3.8 Proceso de Síntesis (pS). 40
Figura 3.9 Proceso Construcción de Solución Inicial (pCSI). 41
Figura 3.10 Proceso Mejora de Solución (pMS). 49
Figura 3.11 Proceso Asignación de Medidas (pAM). 57
Figura 3.12 Proceso Representación (pR). 61
Figura 3.13 Proceso Selección de Patrones (pSP). 62
Figura 3.14 Proceso Representación de Modelo (pRM). 63
Figura 4.1 Estructura de un agente PDE dentro de un MAS. 67
Figura 4.2 Estructura jerárquica de los agentes del SIC. 72
xii Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 4.3 Diagrama de paquetes del SIC. 73
Figura 4.4 Interfaces de comunicación del agente Coordinador del SIC ( ). 73
Figura 4.5 Diagrama de secuencia del protocolo Contract Net de FIPA. 76
Figura 4.6 Diagrama de secuencia del protocolo Request de FIPA. 77
Figura 4.7 Interfaces de comunicación de los agentes del Paquete Codificación. 78
Figura 4.8 Interfaces de comunicación de los agentes del Paquete Síntesis. 81
Figura 4.9 Interfaces de comunicación de los agentes del Paquete Representación. 89
Figura 5.1 Etapas de la Experimentación. 96
Figura 5.2 Etapa 1: Selección y preparación de los datos de prueba. 97
Figura 5.3 Etapa 2: Aplicación de la propuesta y análisis de resultados. 100
Figura 5.4 Escenario de pruebas. 102
Figura 5.5 Media de la FO en 30 ejecuciones de cada metaheurística, para la BD
Diabetes. Integración de modelos de reglas de asociación.
108
Figura 5.6 Media de la FO en 30 ejecuciones de cada metaheurística, para la BD
Nursery. Integración de modelos de reglas de asociación.
109
Figura 5.7 Calidad de los modelos globales integrados de reglas de asociación. Análisis
de escalabilidad BD Diabetes.
116
Figura 5.8 Calidad de los modelos globales integrados de reglas de asociación. Análisis
de escalabilidad BD Nursery.
117
Figura 5.9 Tiempo de ejecución en la integración de modelos de reglas de asociación.
Análisis de escalabilidad. BD Diabetes.
118
Figura 5.10 Tiempo de ejecución en la integración de modelos de reglas de asociación.
Análisis de escalabilidad. BD Nursery.
118
Figura 5.11 Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de
asociación). Análisis de escalabilidad. BD Diabetes.
119
Figura 5.12 Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de
asociación). Análisis de escalabilidad. BD Nursery.
119
Figura 5.13 Media de la FO en 30 ejecuciones de cada metaheurística, para la BD
Diabetes. Integración de modelos de agrupamiento.
123
Figura 5.14 Media de la FO en 30 ejecuciones de cada metaheurística, para la BD
Nursery. Integración de modelos de agrupamiento.
124
Figura 5.15 Calidad de los modelos globales integrados de agrupamiento. Análisis de
escalabilidad BD Diabetes.
131
Figura 5.16 Calidad de los modelos globales integrados de agrupamiento. Análisis de
escalabilidad BD Nursery.
132
Figura 5.17 Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis
de escalabilidad. BD Diabetes.
133
Figura 5.18 Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis
de escalabilidad. BD Nursery.
133
Figura 5.19 Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).
Análisis de escalabilidad. BD Diabetes.
134
Figura 5.20 Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).
Análisis de escalabilidad. BD Nursery.
134
xiii
TABLAS
Tabla 3.1 Parámetros requeridos en el subproceso pSM. 36
Tabla 3.2 Valores posible del rol del atributo en el patrón del modelo ( ). 37
Tabla 3.3 Significado de las medidas cobertura y precisión para cada tipo de patrón. 38
Tabla 3.4 Parámetros requeridos en el subproceso pCSI. 42
Tabla 3.5 Parámetros requeridos en la tarea Evaluar Solución. 47
Tabla 3.6 Operadores definidos para la tarea Obtener Soluciones Vecinas. 51
Tabla 3.7 Parámetros requeridos en la tarea Obtener Solucione Vecinas. 53
Tabla 3.8 Variables de Estado que se actualizan en la tarea Seleccionar Solución
Candidata.
55
Tabla 3.9 Parámetros requeridos en la tarea Seleccionar Solución Candidata. 56
Tabla 3.10 Parámetros requeridos en el subproceso pAM. 59
Tabla 3.11 Parámetros requeridos en el subproceso pSP.
62
Tabla 4.1 Actos comunicativos de FIPA-ACL. 75
Tabla 4.2 Resumen de tareas ejecutadas por los agentes del Paquete Codificación. 80
Tabla 4.3 Resumen de tareas ejecutadas por los agentes del Paquete Síntesis. 88
Tabla 4.4 Resumen de tareas ejecutadas por los agentes del Paquete Representación. 92
Tabla 4.5 Resumen de agentes del SIC.
92
Tabla 5.1 Atributos de la base de datos Nursery. 97
Tabla 5.2 Atributos de la base de datos Diabetes. 98
Tabla 5.3 Porcentajes de registros totales en las particiones de datos. 103
Tabla 5.4 Porcentajes de registros totales en las particiones de datos. 104
Tabla 5.5 Cantidad de reglas de asociación de los modelos locales. 104
Tabla 5.6 Valores de algunos parámetros especificados para cada metaheurística.
Integración de modelos de reglas de asociación.
106
Tabla 5.7 Jerarquía de AM según media de valores mínimos de la FO para la BD 106
xiv Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Diabetes. Integración de modelos de reglas de asociación.
Tabla 5.8 Jerarquía de AM según media de valores mínimos de la FO para la BD
Nursery. Integración de modelos de reglas de asociación.
107
Tabla 5.9 Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.
Integración de modelos de reglas de asociación.
110
Tabla 5.10 Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.
Integración de modelos de reglas de asociación.
111
Tabla 5.11 Cantidad de modelos globales integrados diferentes, obtenidos para cada
base de datos. Integración de modelos de reglas de asociación.
112
Tabla 5.12 Modelos centralizados de Reglas de Asociación. 113
Tabla 5.13 Métricas de los modelos globales integrados para la base de datos Diabetes.
Integración de modelos de reglas de asociación.
113
Tabla 5.14 Métricas de los modelos globales integrados para la base de datos Nursery.
Integración de modelos de reglas de asociación.
114
Tabla 5.15 Error relativo en estimación de medidas de patrones comunes.
Integración de modelos de reglas de asociación.
115
Tabla 5.16 Valores de algunos parámetros especificados para cada metaheurística.
Integración de modelos de agrupamiento.
120
Tabla 5.17 Jerarquía de AM según media de valores mínimos de la FO para la BD
Diabetes. Integración de modelos de agrupamiento.
121
Tabla 5.18 Jerarquía de AM según media de valores mínimos de la FO para la BD
Nursery. Integración de modelos de agrupamiento.
121
Tabla 5.19 Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.
Integración de modelos de agrupamiento.
125
Tabla 5.20 Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.
Integración de modelos de agrupamiento.
126
Tabla 5.21 Cantidad de modelos globales integrados diferentes, obtenidos para cada
base de datos. Integración de modelos de agrupamiento.
127
Tabla 5.22 Métricas de los modelos globales integrados para la base de datos Diabetes.
Integración de modelos de agrupamiento.
128
Tabla 5.23 Métricas de los modelos globales integrados para la base de datos Nursery.
Integración de modelos de agrupamiento.
128
Tabla 5.24 Error relativo en estimación de medidas de patrones comunes.
Integración de modelos de agrupamiento.
130
1
CAPÍTULO 1
1 INTRODUCCIÓN
El desarrollo a lo largo de los años de la informática ha traído consigo la aparición de
problemas a los que se han ido dando solución gracias a las investigaciones que en
ésta o en disciplinas afines se llevaban a cabo. Valga como ejemplo las necesidades de
comunicación y alta disponibilidad presentadas por el Departamento de Defensa de
los Estados Unidos ante un eventual ataque que dieron lugar a ARPANET
(Advanced Research Projects Agency Network), precursora de la actual Internet.
Además del área de redes de comunicaciones, dentro de la cual podríamos situar
Internet, se ha trabajado desde los diferentes grupos de investigación informática en
otras muchas áreas relacionadas como la inteligencia artificial, la arquitectura de
computadores, el análisis de señales, la minería de datos, etc.
Los sistemas de información han facilitado a entidades y organizaciones de carácter
tanto público como privado una gestión eficiente de sus recursos y un control más
efectivo de los flujos de información. Al mismo tiempo, de forma complementaria a
muchos sistemas de información, se han almacenado grandes cantidades de datos
necesarios para la actividad básica de la organización. En muchas ocasiones, estos
datos contienen información de gran utilidad para el proceso de negocio con vistas a
su optimización o a la detección de anomalías. El desarrollo de las bases de datos ha
permitido que una misma organización pueda tener sus datos distribuidos
geográficamente en los diferentes emplazamientos de sus sedes.
Las técnicas de minería de datos intentan descubrir información subyacente en los
datos que pueda convertirse en conocimiento. La distribución de los datos en
diferentes bases de datos complica la tarea de extracción de conocimiento ya que este
conocimiento también se encuentra distribuido y, posiblemente, particionado debido
a la división de los datos; estas situaciones aumentan la complejidad del uso de
2 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
técnicas de minería de datos. Además, hay ocasiones en las que el acceso a los datos
está restringido por cuestiones legales o éticas y, por tanto, no es posible trabajar con
los datos originales; se debe integrar el conocimiento resultante de la exploración
individual de las diferentes bases de datos.
Un ejemplo de la situación previamente descrita lo podríamos encontrar en las bases
de datos con información clínica. Tanto por razones éticas como por cuestiones
legales (dependiendo del país origen de la información), el acceso a determinada
información clínica está restringido; especialmente a aquella información que permite
de alguna forma la identificación del paciente. Además, la información médica está
distribuida entre los distintos centros clínicos y regiones asistenciales. La integración
del conocimiento (no de los datos) comprendido en estas bases de datos permitiría
grandes avances en muchas áreas de la medicina.
Este trabajo de investigación plantea aportar avances en las líneas relacionadas con la
integración de conocimiento descubierto mediante técnicas de minería de datos. Para
ello se propone un modelo de integración que permita trabajar con conocimiento
huérfano, es decir, que no necesite acceder a los datos originales para aplicar los
mecanismos de integración. Por otra parte también se pretende dotar de la mayor
generalidad posible a la propuesta, no centrándola en un único modelo de
representación del conocimiento.
1.1. Motivación
El incremento exponencial del uso de las tecnologías de la información y las
comunicaciones alcanza todos los ámbitos de la sociedad. Esto ha provocado que
nos encontremos rodeados de enormes cantidades de datos y con una necesidad
urgente de transformarlos en información útil y conocimiento. De aquí que la
minería de datos haya alcanzado gran auge en la actualidad. Desde los años 90 se
vienen aplicado intensamente técnicas de minería de datos con diversos fines: apoyo
a la toma de decisiones (banca, finanzas, seguros, comercio, marketing, deporte,
educación, transporte, etc.), gestión de procesos industriales (compuestos químicos,
mezclas, componentes, etc.), investigación científica (medicina, genética, astronomía,
meteorología, psicología, etc.), entre otros [Berry & Linoff, 2004; Fayyad et al.,
1996b; Fielitz & Scott, 2003; Giudici & Figini, 2009; Grossman et al., 2001; Hudgins-
Bonafield, 1997; Kirkosa et al., 2007].
Instituciones científicas y empresas de todo el mundo dedican gran esfuerzo al
desarrollo de investigaciones que abarcan diversas aristas vinculadas a la minería de
datos. La gráfica de la figura 1.1 demuestra el incremento vertiginoso en los últimos
Capítulo 1. Introducción 3
años en el número de conferencias, centradas exclusivamente en temas de minería de
datos o que incluyen aspectos relacionados con esta, que organiza o con las que
colabora IEEE (Institute of Electrical and Electronics Engineers) [IEEE, 2010].
Figura 1.1. Incremento del Nº de conferencias de IEEE que abordan la MD.
A finales del año 2007, en la Facultad de Ingeniería Informática de la CUJAE, en
Cuba, tuve la oportunidad de participar en el desarrollo de una nueva versión (2.0)
del sistema Angycor (Software para control de procedimientos en un servicio de
hemodinámica). La versión 1.0 del sistema Angycor [Tardío et al., 1999] se
encontraba en explotación en el cardio-centro del hospital CIMEQ (Centro de
Investigaciones Médico Quirúrgicas) de Cuba, desde el año 1997. Este sistema
permite poblar una base de datos donde se almacena información asociada a cuatro
de los diferentes tipos de procedimientos que se pueden realizar en un servicio de
hemodinámica, estos son: angioplastia coronaria, coronariografía, estudio
hemodinámico y valvuloplastia mitral y pulmonar. Los médicos especialistas
reconocen el gran valor que tiene, para el desarrollo de investigaciones en la
especialidad de cardiología, la información registrada en el sistema Angycor durante
más de 10 años de trabajo. Con el propósito de valorar la conveniencia de incorporar
en la nueva versión del sistema Angycor, o en versiones sucesivas, la funcionalidad de
analizar mediante técnicas de minería de datos la información almacenada, se decidió
efectuar un estudio experimental [Wilford et al., 2008]. Como resultado, se confirmó
la hipótesis inicial de que la minería de datos favorece las investigaciones científicas
sobre el tema en la especialidad de cardiología. Se descubrieron nuevos patrones de
4 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
conocimiento que resultaron de interés. Se obtuvo un modelo de clasificación (reglas
de decisión) de las coronariografías, identificando las características que influyen en la
ocurrencia de determinadas complicaciones en este tipo de proceder quirúrgico.
Además, se identificaron asociaciones importantes entre los factores de riego
presentes en los pacientes con cardiopatía isquémica atendidos en este cardio-centro.
Una vez terminada y puesta en explotación la nueva versión del sistema Angycor
desarrollada, se comenzó a valorar la posibilidad de extender el uso de esta
herramienta a otros cardio-centros, ubicados en distintas regiones de Cuba. A partir
de este momento, nos enfrentamos a una interrogante que motivó el desarrollo
posterior de la presente tesis doctoral: ¿cómo obtener conocimiento global,
descubierto mediante técnicas de minería de datos, a partir de la información
almacenada localmente en cada cardio-centro?
Debido al desarrollo de las tecnologías de la información y las comunicaciones,
existen en la actualidad numerosos sistemas en los que los datos se encuentran
distribuidos en varios nodos, ubicados, incluso, en lugares geográficamente distantes.
En estos casos, para extraer conocimiento se requiere aplicar técnicas de minería de
datos en múltiples bases de datos. La minería de datos a partir de múltiples bases de
datos (multi-database mining) ha sido reconocida como una arista importante del
descubrimiento de conocimiento en bases de datos [Adhikari et al., 2010; Aronis et
al., 1997; Wu & Zhang, 2003; Zhang et al., 2003; Zhang et al., 2009; Zhong et al.,
2003].
Una de las estrategias para descubrir conocimiento en múltiples bases de datos
consiste en centralizar los datos distribuidos en un único repositorio y aplicar técnicas
tradicionales o paralelas de minería de datos. Sin embargo, esta solución puede no ser
factible, debido a restricciones legales y/o de seguridad de los datos.
Ante la imposibilidad de acceder a las fuentes de datos distribuidas, para descubrir
conocimiento en estos entornos, una opción factible puede ser integrar o sintetizar el
conocimiento o los patrones de minería de datos descubiertos de manera
independiente en cada base de datos local. Esta forma de minería de datos es
denominada también Postmining [Wu & Zhang, 2003]. Las investigaciones en síntesis
de modelos de minería de datos locales son relativamente recientes [Adhikari et al.,
2010; Gionis et al., 2005; Hore et al., 2009; Wu & Zhang, 2003; Zhang et al., 2004b;
Zhang et al., 2009; Zhong et al., 2003]. Estas han abordado aspectos importantes
buscando mejorar la calidad del conocimiento sintetizado, sin embargo, presentan
algunas limitaciones. Entre estas se destacan:
Carencia de generalidad de todas las propuestas, ya que son específicas para
un tipo de modelo de minería de datos en particular, concentrándose en la
Capítulo 1. Introducción 5
síntesis de modelos de reglas de asociación o en la síntesis de modelos de
agrupamiento (clustering).
Restricciones, en algunas propuestas, en cuanto al tamaño de los conjuntos de
datos que originaron los modelos locales.
Necesidad de acceder, en algunas propuestas, de manera parcial o total a las
fuentes de datos origen.
1.2. Identificación del Problema
En el contexto descrito en el apartado anterior se identifica como un problema a
resolver la carencia de un modelo general (no específico para un tipo de modelo de
minería de datos en particular) que permita obtener conocimiento global mediante la
integración de conjuntos de patrones locales descubiertos de manera independiente
en múltiples bases de datos desconocidas o a las que no es posible acceder. A
continuación se formaliza el problema enunciado.
Sea el conjunto formado por modelos de minería de datos locales que representan
conocimiento local o parcial:
1.1
Donde cada elemento que representa un modelo local se define como un
conjunto de patrones (ecuación 1.2).
En un modelo de minería de datos, un patrón puede ser una regla, un clúster, etc. De
esta manera, cada modelo contiene patrones según sea su tipo. Por ejemplo, si
se corresponde con un modelo de agrupamiento, este estará compuesto por un
conjunto de grupos o clusters.
1.2
Donde cada patrón ( ) se formaliza mediante la tupla:
1.3
En la ecuación 1.3, representa las características del patrón que lo identifican
(por ejemplo, el antecedente y el consecuente de una regla). En la misma ecuación,
son las medidas del patrón, que expresan su calidad o representatividad en el
conjunto de datos que le dio origen (por ejemplo, la confianza (precisión) y el
soporte (cobertura) de una reglas de asociación).
6 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Por otra parte, asociado a cada modelo local (conjunto de patrones locales) se
tiene una ficha ( ) que registra información resumida referente a los datos fuente
(por ejemplo: cantidad de registros analizados), así como, información concerniente
al proceso de minería de datos desarrollado localmente (por ejemplo, umbrales de
medidas de patrones: valor mínimo de cobertura y de precisión), de utilidad para la
obtención del conocimiento global. Se define entonces el conjunto de fichas como
sigue:
1.4
A partir de las definiciones anteriores es posible entonces formalizar el problema de
investigación, enunciado al inicio, como la obtención de un modelo global integrado
o conjunto de patrones globales de minería de datos ( ), resultado de la integración
de modelos locales de minería de datos ( ), considerando la información
registrada en sus fichas correspondientes ( ):
1.5
Donde representa un operador de integración de modelos de minería de datos
locales.
1.3. Hipótesis y Objetivos
Ante la necesidad de resolver el problema identificado, la presente investigación
propone la siguiente hipótesis de partida:
Es posible generalizar la obtención de patrones globales a partir de conjuntos de
patrones locales o modelos de minería de datos, generados de manera
independiente en múltiples bases de datos a las que no es posible acceder.
Se plantea entonces como objetivo general de la investigación:
Formalizar un modelo general que permita integrar modelos (conjuntos de
patrones) de minería de datos locales o parciales descubiertos de manera
independiente en múltiples bases de datos a las que no es posible acceder.
El objetivo general enunciado dará cumplimiento a la hipótesis de partida, aspecto
central del presente trabajo. Además, para el desarrollo de la investigación, a partir del
objetivo general, se establecen los siguientes objetivos secundarios:
Capítulo 1. Introducción 7
Realizar un estudio del estado actual de investigaciones y desarrollos
relacionados con la minería de datos distribuida y la integración de modelos.
Crear un modelo conceptual que proporcione una visión del modelo general
desde el punto de vista de los procesos que lo definen.
Crear un modelo funcional como propuesta de implementación del modelo
conceptual, basada en el paradigma de agentes.
Diseñar e implementar un conjunto de experimentos y un prototipo del
modelo general que permita evaluar la validez de la propuesta.
1.4. Propuesta de Solución
A partir del problema identificado, y considerando la hipótesis planteada, nuestra
propuesta de solución es la formalización de un Modelo de Integración de
Conocimiento que pueda sintetizar modelos locales/parciales descubiertos de
manera independiente en múltiples bases de datos.
El modelo propuesto consta de tres fases: Codificación, Síntesis y Representación (figura
1.2). Como entrada al modelo propuesto se tienen los modelos locales/parciales ( ),
con sus fichas correspondientes ( ), y como salida se obtiene un modelo global ( )
que integra dichos modelos locales.
La primera fase consiste en la Codificación de los modelos locales (conjuntos de
patrones) en un formato homogéneo. Su objetivo fundamental es obtener una
representación de modelos locales adecuada para su posterior integración. La fase de
Síntesis es la más compleja, es en esta donde se lleva a cabo la integración de los
modelos propiamente. Consiste básicamente, como su nombre sugiere, en la Síntesis
de los conjuntos de patrones locales codificados, con el propósito de obtener, como
solución, un único conjunto de patrones globales que sea el que “más se parezca a
todos” los conjuntos de patrones locales codificados. Por su parte, la tercera fase es
similar a la primera, pero en sentido inverso. Esta consiste en la Representación del
modelo global integrado (conjunto de patrones globales) en un formato estándar de
intercambio de modelos de minería de datos. En general, la primera y la tercera fase
de la propuesta pueden interpretarse como un proceso de traducción entre un
formato de intercambio de modelos de minería de datos y una estructura de datos
interna que facilite el procesamiento.
8 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 1.2. Fases del Modelo de Integración de Conocimiento propuesto.
Para abordar el modelo general que soporta nuestra propuesta (Modelo de
Integración de Conocimiento - MIC), se han concebido dos vistas diferentes o sub-
modelos: el Modelo Conceptual (MC_MIC) y el Modelo Funcional (MF_MIC).
Formalmente lo expresamos como:
1.6
El MC_MIC constituye básicamente la vista de los procesos (P) que se llevan a cabo
dentro del MIC. El Modelo Conceptual se centra en la descripción de los procesos y sus
subprocesos, así como en la descripción de las tareas principales identificadas como
parte de estos. Por su parte, el MF_MIC, tomando como referencia los procesos
identificados en el MC_MIC, representa la vista de los agentes (A) que participan en
la ejecución de estos procesos y de las relaciones de interacción que se dan entre los
diferentes agentes. Para la especificación formal del MIC se utiliza como lenguaje
básico de definición UML debido a las cualidades descriptivas propias del estándar.
A modo de resumen, la solución propuesta está formada por tres fases
fundamentales: codificación, síntesis y representación. Como resultado de la primera
fase se propone una codificación homogénea de modelos y patrones de minería de
datos que contribuye a la generalidad de la propuesta. Por su parte, la fase de síntesis
se formaliza como un problema de optimización mediante la definición de una
función objetivo que evalúa la calidad de las soluciones exploradas. Esta
formalización es flexible en su concepción ya que permite aplicar diferentes
Capítulo 1. Introducción 9
metaheurísticas en la búsqueda de la mejor solución. La última fase del MIC propone
devolver el modelo global integrado que se obtiene como resultado, formulado en un
formato estándar de representación e intercambio de modelos de minería de datos.
1.5. Metodología y Plan de Investigación
Para la metodología de investigación se ha seguido el método general hipotético-
deductivo, apoyándose en métodos específicos tanto teóricos como empíricos:
Métodos teóricos: se utiliza el método de análisis-síntesis para estudiar y analizar el
estado del arte en el tema y sintetizar una propuesta dentro del marco de la
investigación.
Métodos empíricos: se utiliza el médoto de experimentación para validar el modelo
de integración propuesto.
Siguiendo la metodología propuesta se diseñó un plan de trabajo, que se resume
como sigue:
Estudio bibliográfico detallado sobre los aspectos de interés dentro del campo
de acción.
Análisis de los métodos existentes para la integración de modelos locales de
minería de datos.
Formalización de un modelo general de integración de conocimiento
descubierto mediante técnicas de minería de datos en múltiples fuentes de
datos distribuidos, sin acceder a los datos originales.
Obtención de un conjunto de datos para la validación de la hipótesis de
partida.
Diseño y realización de un conjunto de experimentos para demostrar la
validez de la propuesta y, por ende, de la hipótesis de partida.
En correspondencia con el plan de trabajo propuesto, esta memoria de tesis se ha
estructurado en distintos capítulos. El capítulo 2 aborda el estudio del estado del arte
actual en el ámbito de la minería de datos, profundizando en las técnicas de minería
de datos para el análisis de múltiples bases de datos, y de forma particular, en las
propuestas de integración o síntesis de patrones locales. El capítulo 3 describe el
modelo general propuesto, mediante la vista de los procesos que define. En el
capítulo 4 se describe una propuesta de implementación funcional del modelo
conceptual, basada en el paradigma de agentes. El capítulo 5, siguiendo la
metodología planteada, aborda la etapa final de la investigación, en la que se valida el
10 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
modelo conceptual propuesto, mediante el diseño e implementación de un conjunto
de experimentos. Finalmente, se dedica el capítulo 6 a la exposición de las principales
conclusiones, aportaciones de la investigación, y los problemas abiertos y líneas
futuras de investigación que se desprenden del mismo.
11
CAPÍTULO 2
2 ESTADO DEL ARTE
En la actualidad es un hecho el crecimiento acelerado de la cantidad de bases de datos
que almacenan grandes volúmenes de información valiosa. Sin embargo, la capacidad
de almacenar datos puede sobrepasar la habilidad de analizarlos y extraer
conocimiento útil a partir de estos.
En ocasiones, el análisis de los datos almacenados se realiza mediante consultas
expresadas con lenguajes como el SQL (Structured Query Language), por lo que se
produce sobre una base de datos operacional, es decir, junto al procesamiento
transaccional en línea (On-Line Transaction Processing, OLTP) de las aplicaciones.
Esta forma de análisis de datos sólo permite generar información resumida de manera
previamente establecida, poco flexible y poco escalable a grandes volúmenes de datos.
La tecnología de bases de datos introduce el almacén de datos (data warehouse), que
consiste en un repositorio de fuentes de datos heterogéneos, integrados y organizados
bajo un esquema unificado para facilitar su análisis y dar soporte a la toma de
decisiones [Inmon, 2002, 2005; Kimball & Ross, 2002]. Dicha arquitectura soporta
operaciones de procesamiento analítico en línea (On-Line Analytical Processing,
OLAP), es decir, técnicas de análisis descriptivo, como pueden ser el resumen, la
consolidación o la agregación, además de la posibilidad de ver la información desde
distintas perspectivas. Sin embargo, esta tecnología no permite obtener patrones,
asociaciones, pautas, es decir, conocimiento que pueda ser aplicado a nuevos datos.
A partir de la década de los 90 del siglo pasado tomó auge un conjunto de
herramientas y técnicas que soportan la extracción de conocimiento útil a partir de los
datos disponibles, y que se agrupan bajo el calificativo de “minería de datos” o “data
mining”. La minería de datos emerge como el siguiente paso evolutivo en el proceso
12 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
de análisis de datos. Se conocen varias definiciones de minería de datos. En [Fayyad
& Uthurusamy, 1996] se define como un proceso no trivial de identificación válida,
novedosa y potencialmente útil de patrones comprensibles que se encuentran ocultos
en los datos. La minería de datos contribuye a la toma de decisiones tácticas y
estratégicas, proporcionando un sentido automatizado para identificar información
clave procedente de grandes volúmenes de datos generados por procesos
tradicionales.
La minería de datos ha sido popularmente tratada como un sinónimo de
Descubrimiento de Conocimiento en las Bases de Datos o Knowledge Discovery in
Databases (KDD); sin embargo, algunos autores [Berry & Linoff, 2004; Fayyad et al.,
1996a; Fayyad & Uthurusamy, 1996; Little, 2009; Nong, 2003; Wang, 2006; Wang &
Fu, 2005; Witten & Frank, 2005] consideran la minería de datos como una etapa,
como la aplicación de técnicas y algoritmos para extraer patrones de los datos, y
nombran KDD al proceso completo: identificación del problema, pre-procesamiento,
minería de datos y post-procesamiento.
En el proceso de KDD, una vez identificado el problema y realizado el pre-
procesamiento de los datos, se van definiendo las posibles tareas de minería de datos
a realizar. La selección de estas tareas depende esencialmente de los objetivos que se
persiguen. De esta forma, una tarea de minería de datos se corresponde con un tipo
de problema de minería de datos.
2.1. Tareas de Minería de Datos
Las tareas de minería de datos (MD) combinan la tecnología de bases de datos y
almacenes de datos, con técnicas de aprendizaje automático y estadística. Esta fusión
de disciplinas diversas ha estado motivada, fundamentalmente, por el significativo
incremento del volumen de los datos en todas las esferas de la actividad humana.
Son muy diversas las clasificaciones que se pueden encontrar en la bibliografía
referentes a las posibles tareas de MD. Una de las más populares define seis categorías
diferentes [Berry & Linoff, 2000a, 2004; Hernández et al., 2004; Palma & Marín,
2008; Sierra, 2006]:
Clasificación. Identificación de características de un objeto o registro con el
propósito de asignarle una clase o categoría predefinida. Para ello, se requiere
construir un modelo de clasificación. La salida obtenida son valores discretos,
que se distribuyen en grupos o clases. Para la clasificación existen varios tipos
de técnicas: métodos de inducción de reglas, árboles de decisión, redes
Capítulo 2. Estado del Arte 13
neuronales, algoritmos tipo k-nn (k-nearest neighbours), métodos bayesianos,
etc. [Witten & Frank, 2005].
Estimación. Semejante a la clasificación, pero la salida son valores continuos. En
algunos casos es posible hacer estimación y posteriormente clasificación.
Predicción. Similar a la clasificación y la estimación, con la particularidad de que
la variable estimada o la clase asignada, sea continua o discreta, se refiere a un
evento que ocurrirá en el futuro.
Determinación de grupos afines o reglas de asociación. Se encarga de descubrir
fenómenos que ocurren de conjunto, aunque se desconoce el tipo de relación
causal que existe entre estos. A partir de los grupos afines identificados es
posible, generar reglas de asociación entre los datos. Una regla de asociación
constituye una implicación X Y, en la que X (antecedente) y Y
(consecuente) representan conjuntos de pares atributo-valor. Si un atributo
determinado aparece en el antecedente de una regla, entonces no aparecerá en
el consecuente de la misma, y viceversa. Uno de los algoritmos más populares
para generar reglas de asociación, y en el que se basan otros muchos
algoritmos [Agrawal & Srikant, 1994; Agrawal & Shafer, 1996; Han et al., 2000;
Li et al., 2006; Zaki et al., 1996; Zaki, 1999], es el Apriori [Agrawal & Srikant,
1994; Hernández et al., 2004].
Agrupamiento o Clustering. Tiene el propósito de formar subgrupos homogéneos
(clusters), a partir de un grupo diverso, según el grado de semejanza entre las
instancias; los elementos de un cluster tienen una “similitud” alta entre ellos y
baja con respecto a los elementos de otros clusters. La formalización del
concepto de “similitud” es a través de métricas o medidas de distancia. Para
implementar esta tarea se han desarrollado diferentes técnicas: métodos
aglomerativos jerárquicos, divisivos jerárquicos, particionales, probabilísticos,
etc. [Palma & Marín, 2008; Sierra, 2006].
Descripción y visualización. Su aplicación resulta de gran utilidad para realizar un
análisis descriptivo previo a la aplicación de las restantes tareas de MD, con el
propósito de estudiar las características del conjunto de datos de entrada. Esta
actividad puede efectuarse mediante variados métodos; entre los métodos más
simples para lograr un análisis descriptivo se tienen los siguientes: resumen,
OLAP y técnicas de visualización [Berry & Linoff, 2000b; Berry, 2004].
La clasificación, la estimación y la predicción se agrupan bajo el calificativo de
minería de datos directa (MDD) o métodos supervisados; mientras que las tres
restantes tareas (determinación de grupos afines o reglas de asociación, clustering, y
descripción y visualización) conforman el grupo de minería de datos indirecta
(MDI) o métodos no supervisados (figura 2.1). En el caso de la minería de datos
14 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
directa o aprendizaje supervisado el objetivo está bien determinado, se conoce la
clase a la que pertenece cada muestra del conjunto de datos. Es decir, el algoritmo
de MD conoce los valores que puede tomar la variable estudiada de acuerdo a los
valores que toman los datos de entrada. En este caso, sólo habría que definir el
grado real de pertenencia a un estado dado. Por su parte, en la minería de datos
indirecta o aprendizaje no supervisado, no están claros los resultados que se desean
obtener, ni se conoce la clase a la que pertenece cada muestra del conjunto de
datos; en estos casos, el algoritmo de MD tiene la misión de encontrar conjuntos de
datos similares sin decir la clase a la que pertenecen [Berry & Linoff, 2000b; Berry,
2004].
Figura 2.1. Clasificación de tareas de minería de datos.
Existen diferentes técnicas o métodos para llevar a cabo las tareas de MD definidas
anteriormente. Al mismo tiempo, una técnica puede aplicarse para resolver varias
tareas de MD. Algunas de las técnicas de MD más utilizadas son: los árboles de
decisión, inducción de reglas, clasificación basada en vecindad, redes neuronales,
técnicas de clustering, etc. [Berry & Linoff, 2000b; Berry, 2004; Hernández et al.,
2004; Sierra, 2006; Wang, 2006; Witten & Frank, 2005].
Las técnicas de MD se pueden clasificar en: técnicas retardadas o perezosas, y en
técnicas anticipativas o impacientes [Hernández et al., 2004]. Las primeras (técnicas
retardadas) actúan ante cada pregunta o predicción requerida, no construyen un
modelo. En este caso, los ejemplos del conjunto de datos de entrada deben
preservarse, ya que son necesarios para realizar cada predicción. Las técnicas de
clasificación basada en vecindad son un ejemplo de técnica retardada. Por su parte, las
técnicas anticipativas sí obtienen, a partir de todos los ejemplos, un modelo que
puede utilizarse posteriormente para predecir. Por lo tanto, una vez que se construya
el modelo, los ejemplos pueden ignorarse.
Ahora bien, no todas las técnicas anticipativas generan modelos “comprensibles”
[Hernández et al., 2004]. En este contexto, entiéndase por modelo “comprensible”
Capítulo 2. Estado del Arte 15
aquel a partir del cual es posible identificar un conjunto de patrones. Un ejemplo
clásico de técnica anticipativa que no genera modelos “comprensibles” es una red
neuronal. Mientras que, los árboles de decisión, las técnicas de inducción de reglas, el
clustering, son ejemplos de técnicas anticipativas que generan modelos
“comprensibles”, es decir, modelos que se pueden expresar como conjuntos de
patrones descubiertos. Este trabajo de investigación se enmarca en los modelos de
minería de datos “comprensibles”, que generan algunas de las técnicas anticipativas.
Para la representación de modelos de minería de datos, y su intercambio entre
diferentes aplicaciones y plataformas, resulta imprescindible el uso de estándares.
Existen numerosos sistemas de minería de datos, algunos de ellos con formatos
diferentes e incompatibles. La cooperación o integración entre estos sistemas es
imposible sin la existencia de estándares independientes que definan la forma de
expresar la información a compartir. Aunque existen varias iniciativas para establecer
estándares de representación e intercambio de modelos en minería de datos, la
iniciativa más destacada y ampliamente aceptada es PMML (Predictive Model Markup
Language), estándar basado en XML [DMG, 2010; Grossman et al., 2002; Grossman,
2006; Guazzelli et al., 2009; Guazzelli et al., 2010; Pechter, 2009]. La definición de
este estándar está siendo llevada a cabo por el denominado Data Mining Group
(DMG). Esta organización industrial se creó en 1998 y constituye un consorcio de
grandes empresas vendedoras de productos de minería de datos, tales como: IBM,
Microsoft, Oracle, SAS y SPSS. La versión 4.0 de PMML es la más reciente, publicada
en junio del 2009.
2.2. Análisis de múltiples conjuntos de
datos mediante minería de datos
La mayoría de las investigaciones sobre minería de datos en la actualidad se centran
en el análisis de una única base de datos, aplicando técnicas de minería de datos
tradicionales [Han & Kamber, 2006; Little, 2009; Witten & Frank, 2005]. Sin
embargo, existen muchos sistemas de información donde los datos se encuentran
distribuidos entre varios nodos (en ocasiones ubicados en sitios distantes). Los
avances en la informática y las comunicaciones han favorecido el desarrollo de este
tipo de sistemas. En estos entornos, las técnicas de minería de datos tradicionales
podrían resultar insuficientes.
Para descubrir conocimiento en múltiples conjuntos de datos distribuidos existen tres
variantes posibles (figura 2.2). Una alternativa consiste en agrupar todos los datos
distribuidos en un único conjunto (data set) para su procesamiento centralizado
16 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
mediante técnicas de minería de datos tradicionales o técnicas paralelas [Cios et al.,
2007; Han & Kamber, 2006; Little, 2009; Witten & Frank, 2005]. Una segunda
variante es aplicar técnicas de minería de datos distribuidas [Cannataro et al., 2004;
Kargupta et al., 2009; Miller & Han, 2009]. Sin embargo, estas dos alternativas de
minería de datos presentan algunas limitaciones:
Es posible que no sea conveniente o factible centralizar los datos si se
considera que su volumen es significativo.
Algunos algoritmos de minería de datos son secuenciales por naturaleza, no
pueden usar hardware paralelo.
Debido a políticas de seguridad y privacidad de los datos, hay organizaciones
que comparten sus modelos de minería de datos pero no sus bases de datos
originales.
Las técnicas de minería de datos paralelas y distribuidas no devuelven como
parte del resultado, modelos parciales creados a partir de cada data set local o
vista de datos; sin embargo, en la mayoría de las aplicaciones reales se requiere
construir y conservar estos modelos parciales o locales para apoyar la toma de
decisiones estratégicas.
Figura 2.2. Alternativas de análisis de múltiples conjuntos de datos distribuidos.
Existe una tercera alternativa que consiste en reutilizar los modelos de minería de
datos locales, que se generen de manera independiente a partir de diferentes
conjuntos de datos, recopilándolos con el propósito de sintetizarlos posteriormente y
obtener patrones globales a partir de estos. Esta variante, en [Wu & Zhang, 2003] se
denomina Postmining. Nuestra investigación está directamente relacionada con dicha
Capítulo 2. Estado del Arte 17
forma de minería de datos, ya que, a diferencia de las dos variantes anteriores, no
requiere acceder a los datos originales.
No obstante, el estudio de las técnicas paralelas y distribuidas de minería de datos
resulta relevante en la presente investigación, con el propósito de caracterizar los
mecanismos de integración o síntesis de modelos parciales, de existir, subyacentes en
estas técnicas.
2.2.1. Minería de Datos Paralela
Una de las dificultades a las que se ha enfrentado la minería de datos desde sus inicios
y que al mismo tiempo ha justificado su desarrollo, ha sido la necesidad de tratar con
ingentes bases de datos. La minería de datos paralela (MDP) representa una
alternativa para resolver los problemas de escalabilidad y ejecución que poseen las
técnicas clásicas de minería de datos, las cuales, generalmente, no operan de manera
eficiente al procesar conjuntos de datos muy grandes. Las investigaciones en esta área
se centran en el estudio del grado de paralelismo, la sincronización, la distribución de
los datos, y las técnicas de optimización del uso de los recursos del sistema requeridas
para la obtención de los resultados globales. Por otra parte, a partir del estudio
realizado, se aprecia que la paralelización de algoritmos que implementan
específicamente técnicas anticipativas de minería de datos que generan modelos
“comprensibles” [Hernández et al., 2004], ha sido más trabajada en la generación de
grupos afines o reglas de asociación y en la clasificación mediante árboles de decisión
[Aggarwal et al., 2005; Guo & Grossman, 1999; Mohammadian, 2004 ; Nong, 2003;
Park & Kargupta, 2003; Wang, 2003, 2006; Witten & Frank, 2005].
La mayoría de los esfuerzos realizados en la paralelización de algoritmos de
generación de grupos afines o reglas de asociación se basan en el clásico algoritmo
Apriori [Agrawal & Srikant, 1994; Hernández et al., 2004]. Ejemplos de estos son:
Count Distribution, Data Distribution, Candidate Distribution, PEAR (versión
paralela del algoritmo secuencial basado en Apriori: SEAR), PPAR (versión paralela
del algoritmo secuencial basado en Apriori: Spear) y PDM (versión paralela del
algoritmo secuencial basado en Apriori: DHP) [Agrawal & Shafer, 1996; Garg &
Mishra, 2010; Guo & Grossman, 1999; Mueller, 1995; Park et al., 1995; Prakash &
Parvathi, 2010; Wang, 2003; Yang & Yang, 2010; Zaki et al., 1996; Zaki, 1999; Zaki &
Ho, 2000]. En estos algoritmos, los diferentes procesos paralelos intercambian
información para generar los itemsets frecuentes (grupos afines). Según el algoritmo
específico y la fase en la que se encuentre su ejecución, la información que se
intercambia puede ser: la lista de los itemsets candidatos (aquellos que pueden llegar a
ser frecuentes), el soporte de los itemsets candidatos, o la lista de los itemsets frecuentes.
18 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Por otra parte, en el caso de la paralelización de algoritmos de clasificación mediante
árboles de decisión, algunas de las propuestas más conocidas son: SLIQ, SPRINT,
ScalParC, SPIES, así como diferentes implementaciones paralelas del C4.5 [Amado et
al., 2001; Ben & Tom, 2010; Darlington et al., 1997; Guo & Grossman, 1999; Joshi et
al., 1998; Mehta et al., 1996; Mehta, 2006; Shafer et al., 1996; Taner & Dikmen, 2007;
Wang, 2003]. Todos los algoritmos paralelos de inducción de árboles de decisión
parten de considerar la fase de aprendizaje como la más intensiva y la que requiere ser
paralelizada ya que la fase de poda no tiene un alto costo computacional. Dentro de la
fase de aprendizaje el elemento crítico es la selección del atributo que mejor divide y
la partición de los datos a partir de dicho atributo. Son diversas las estrategias que
implementan los algoritmos paralelos de clasificación mediante árboles de decisión.
Una de ellas consiste en la construcción del árbol global de manera cooperativa por
todos los procesos que se ejecutan en paralelo. Estos deberán intercambiar
información sobre la distribución de clases de sus datos locales cada vez que se
requiere seleccionar el atributo que mejor divide y expandir el nodo correspondiente.
Otra estrategia consiste en que cada proceso trabaje sobre diferentes partes del árbol.
En este caso, es necesario que estos acuerden al inicio el nodo raíz. Al final el árbol
global se construye combinando los subárboles construidos por cada proceso, como
en un rompecabezas.
Por su parte, en la paralelización de algoritmos de agrupamiento, algunas de las
propuestas más conocidas son: P-AutoClass, GLC, P-CLUSTER, HOP, MAFIA, la
paralelización del K-Means y del DBSCAN [Chen et al., 2010; Friedman, 2003; Goil
et al., 1999; Guo & Grossman, 1999; Pizzuti & Talia, 2003; Sánchez et al., 1999;
Tirumala et al., 2009; Wang, 2003; Yang et al., 2009]. Debido a la diversidad de
métodos de agrupamiento (particionales, jerárquicos divisivos y aglomerativos,
basados en densidad) las estrategias que implementan los algoritmos paralelos de
clustering son diferentes y, por lo general, se corresponden con un tipo de
agrupamiento en particular. En cualquier caso, se requiere sincronización e
intercambio de información, en mayor o menor medida, entre los distintos procesos.
La sincronización puede ser, por ejemplo, para determinar los centroides globales en
cada iteración de un algoritmo particional, o para determinar el par de grupos
(clusters) más cercanos en un algoritmo jerárquico.
En resumen, una de las estrategias que implementan los algoritmos paralelos que se
basan en técnicas anticipativas de minería de datos que generan modelos
“comprensibles”, radican en fragmentar el conjunto de datos de entrada en diferentes
partes para su procesamiento. Estas particiones pueden ser de dos tipos: horizontales
o verticales. De manera general, una vez creadas las particiones de datos, se definen
varias fases o subprocesos que para cumplimentarse deben realizarse, en mayor o
Capítulo 2. Estado del Arte 19
menor medida, de forma sincronizada y mediante el intercambio de información
entre los diferentes nodos que procesan cada partición.
2.2.2. Minería de Datos Distribuida
La minería de datos sobre Bases de Datos Distribuidas (BDD), sean homogéneas o
heterogéneas, se conoce como Minería de Datos Distribuida (MDD). Las BDD
homogéneas son aquellas en las que el mismo esquema de la base de datos está
repetido en cada nodo. En este caso, se dice que la fragmentación de la base de datos
es horizontal. Por su parte, en las BDD heterogéneas cada parte o nodo posee un
esquema diferente, por ejemplo almacena un subconjunto de las tablas de una base de
datos relacional o atributos diferentes de una misma tabla. En este caso, la
fragmentación de la base de datos es vertical.
Un sistema de MDD comprende diferentes componentes, algoritmos de minería de
datos, subsistema de comunicación, administrador de recursos, planificador de tareas,
interfaces de usuario, etc. [Park & Kargupta, 2003]. En un sistema de MDD existen
tres variantes clásicas de arquitectura (figuras 2.3-2.5) [Hernández et al., 2004].
Figura 2.3. Arquitecturas clásicas para MDD. Variante 1.
Una de las variantes (figura 2.3) consiste en que cada procesador o nodo distribuido
disponga de un componente de minería de datos encargado de analizar los datos que
en este se almacenan, obteniéndose un modelo de minería de datos local (o resultados
20 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
parciales1) en cada uno de los nodos distribuidos. En un nivel superior esos modelos
se combinan o integran para obtener el modelo de minería de datos global.
Las dos variantes clásicas de arquitectura restantes son similares entre sí, ya que
ambas consisten en implementar un único componente de minería de datos, en la
parte superior del sistema distribuido, que actúa sobre una vista integrada de las
distintas bases de datos locales (figura 2.4 y 2.5). La diferencia entre estas dos
variantes radica en la forma en que se genera la vista integrada sobre la que actúa la
capa de minería de datos. En una de estas (figura 2.4) se realizan consultas en cada
base de datos distribuida de manera independiente, según el subconjunto de datos a
analizar. Posteriormente, las consultas se integran y conforman la vista de datos sobre
la que operan los algoritmos de minería de datos. En la otra variante (figura 2.5), se
construye una vista integrada de los datos distribuidos, y las consultas se realizan a
partir de esta vista y no en cada base de datos distribuida de manera independiente.
No obstante, en ambas variantes (figura 2.4 y 2.5), no se crean modelos de minería de
datos parciales para luego ser integrados, sino únicamente el modelo de minería de
datos global.
Figura 2.4. Arquitecturas clásicas para MDD. Variante 2.
1 En el caso de las técnicas de minería de datos retardadas no se obtienen modelos locales sino resultados
locales.
Capítulo 2. Estado del Arte 21
Figura 2.5. Arquitecturas clásicas para MDD. Variante 3.
En cualquier caso, con independencia de la arquitectura, la salida percibida por el
usuario en un sistema de MDD consiste en un único modelo o resultado global.
Si tenemos en cuenta el modelo de computación distribuida que siguen los sistemas
de MDD, se pueden agrupar en:
Sistemas cliente/servidor. Implementan tres capas: la capa cliente con un módulo
que permite la creación interactiva de tareas de minería de datos, así como, la
visualización de los datos y de los modelos obtenidos; la capa del servidor de
aplicaciones que es el responsable de la autenticación de usuarios, el control de
acceso, y las tareas de coordinación y gestión de datos, y una tercera capa de
tipo servidor que proporciona servicios de minería de datos y es la más cercana
a los datos. Ejemplos de estos sistemas son Kensigton [Chattratichat et al.,
1999] e Intelliminer [Parthasarathy & Subramonian, 2000].
Sistemas basados en tecnología Grid. Se basan en la infraestructura que ofrece la
tecnología Grid. Esta infraestructura, al integrar técnicas de procesamiento
descentralizado y paralelo, permite distribuir el análisis de los datos entre un
gran número de nodos remotos. Son pocos los productos de alto nivel,
basados en la tecnología Grid, que soportan el descubrimiento de
conocimiento en entornos distribuidos. La mayoría de las investigaciones y
proyectos vinculados a esta temática, se desarrollan fundamentalmente en
Europa y Estados Unidos. Ejemplo de sistemas de este tipo son:
DataMiningGrid [DataMiningGrid, 2007; Stankovski et al., 2008a; Stankovski
22 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
et al., 2008b], Knowledge Grid [Cannataro et al., 2004; Dubitzky, 2008],
Discovery Net [Guo, 2002], TeraGrid [Berman, 2001] y Weka4WS [Talia et al.,
2005; Talia et al., 2008].
Sistemas basados en agentes. Utilizan uno o más agentes [Wooldridge & Jennings,
1995; Wooldridge, 2009] por cada nodo distribuido. Estos agentes son
responsables de analizar los datos locales y de comunicarse con otros agentes
durante la fase de minería de datos. El conocimiento globalmente coherente es
sintetizado mediante el intercambio del conocimiento descubierto localmente
en cada nodo. Entre estos sistemas se encuentran BODHI [Kargupta & Park,
2003; Ye, 2004], JAM [Stolfo, 1997], PADMA [Kargupta et al., 1999] y DAME
[Krishnaswamy et al., 2001].
Las técnicas de minería de datos que implementan los sistemas de MDD se
benefician, en general, del potencial paralelismo que pueden aplicar sobre las fuentes
de datos distribuidos. Dichas técnicas, además de la sincronización que pueden
requerir en determinados momentos, tal y como ocurre en las técnicas paralelas,
tienen la característica de que la transmisión de datos entre los nodos se realiza a
través de la red; por tanto, su funcionamiento se centra fundamentalmente en reducir
el costo de la comunicación. La mayoría de las técnicas y algoritmos de minería de
datos existentes para fuentes de datos distribuidas, constituyen extensiones de
técnicas clásicas de minería de datos para bases de datos relacionales.
En MDD son numerosas y muy variadas las propuestas que se han publicado de
algoritmos que implementan técnicas anticipativas [Aggarwal et al., 2005; Guo &
Grossman, 1999; Nong, 2003; Park & Kargupta, 2003; Wang, 2006; Zaki & Ho,
2000]. En general, se observan tres tendencias en el diseño de técnicas y algoritmos de
MDD. La primera, heredada de la MDP, se basa en múltiples rondas de intercambio
de mensajes entre los nodos distribuidos, y necesita una sincronización muy precisa.
La segunda tendencia presenta técnicas que se basan en la selección de una muestra o
resumen de los datos locales almacenados en cada sitio y su centralización para llevar
a cabo la posterior fase de aprendizaje. La tercera tendencia está formada por técnicas
que buscan minimizar la comunicación y sincronización en la fase de aprendizaje,
promoviendo el análisis de los datos de manera local en cada nodo, para luego
combinar los resultados parciales centralmente y obtener un modelo global. Estas dos
últimas tendencias comparten el objetivo de minimizar la comunicación y
sincronización durante la fase de aprendizaje. Las estrategias de integración o
combinación de modelos parciales que implementan estas técnicas son específicas
para cada tipo de conocimiento o patrones de minería de datos (reglas, clusters,
clases, etc) que se requiere integrar. Finalmente, es importante precisar que la mayoría
de las técnicas de MDD combinan características de las tres tendencias mencionadas
anteriormente, intentando alcanzar un equilibrio entre eficacia y eficiencia.
Capítulo 2. Estado del Arte 23
2.3. Síntesis de Modelos de Minería de
Datos (Postmining)
El proceso de recopilación, análisis y síntesis de modelos de minería de datos
descubiertos a partir de múltiples conjuntos de datos se denomina Postmining [Wu &
Zhang, 2003]. Esta forma de minería de datos puede constituir una alternativa factible
ante la necesidad de obtener conocimiento global, a partir de un conjunto de modelos
de minería de datos locales o parciales generados de manera independiente; además,
resulta útil especialmente en aquellos dominios de aplicación en los que el acceso a los
datos que originaron estos modelos parciales no es posible.
Las investigaciones en síntesis de modelos de minería de datos son relativamente
recientes [Adhikari & Rao, 2007, 2008; Adhikari et al., 2010; Gionis et al., 2005; Hore
et al., 2009; Lange & Buhmann, 2005; Long et al., 2005; Qian & Suen, 2000; Strehl &
Ghosh, 2002; Wu & Zhang, 2003; Zhang et al., 2004a; Zhang et al., 2003; Zhang et
al., 2004b; Zhang et al., 2004c; Zhang et al., 2009; Zhang & Brodley, 2004; Zhong et
al., 2003]. Todas las propuestas que se han publicado hasta la fecha son específicas
para un tipo de modelo de minería de datos en particular, por lo que carecen de
generalidad, concentrándose en la síntesis de modelos de reglas de asociación y en la
síntesis de modelos de agrupamiento. En los siguientes apartados se describen las
investigaciones publicadas para cada tipo de modelo de minería de datos.
2.3.1. Síntesis de Modelos de Reglas de Asociación
Desde hace unos 10 años aproximadamente se desarrollan investigaciones en relación
a la minería de múltiples bases de datos que se centran en la síntesis de modelos de
reglas de asociación descubiertos de manera independiente.
Una de las primeras investigaciones es la presentada en [Jensen & Soparkar, 2000], la
que aborda la integración de reglas de asociación descubiertas desde un almacén de
datos con esquema estrella [Inmon, 2005; Kimball & Ross, 2002; Wang, 2006]. Esta
propuesta se compone de dos fases fundamentales:
Encontrar los itemsets frecuentes sobre las tablas dimensiones del cubo
correspondiente del almacén de datos, aplicando una modificación del
algoritmo Apriori.
24 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Unificar los resultados de los modelos obtenidos desde cada dimensión,
usando las llaves extranjeras presentes en la tabla de hechos.
Esta propuesta tiene limitaciones importantes, ya que su algoritmo de síntesis está
muy ajustado a un diseño específico de la base de datos: el esquema estrella de un
almacén de datos. La “síntesis” de los modelos obtenidos se beneficia de las
facilidades que ofrece haber escogido el esquema estrella. Además, este método
asume que se tiene acceso al conjunto de datos origen, ya que basa la construcción de
los modelos parciales (conjuntos de itemsets frecuentes) en cada tabla de dimensión.
Es importante precisar que esta propuesta se basa en la síntesis de itemsets
frecuentes, no de reglas de asociación.
Por otra parte, en [Wu & Zhang, 2003; Zhang et al., 2004a; Zhang et al., 2003; Zhang
et al., 2004b; Zhang et al., 2004c; Zhang et al., 2009] los autores defienden un enfoque
para descubrir reglas de asociación en múltiples bases de datos que se basa en la
“síntesis” de reglas, ajustando sus medidas (soporte y confianza) según diferentes
coeficientes de peso. La síntesis no es más que la aplicación del operador de unión de
los conjuntos de patrones locales. En resumen, definen un nuevo proceso para la
minería de múltiples conjuntos de datos que consiste en tres pasos: clasificar los
conjuntos de datos de entrada (en el caso de fuentes de datos heterogéneas);
identificar dos tipos de patrones: patrones usuales o que están presentes en la mayoría
de los modelos (high-vote patterns), y patrones excepcionales que son aquellos que se
obtienen en pocos modelos pero con medidas altas; y sintetizar estos patrones locales
(reglas de asociación) ajustando sus medidas. Este enfoque presenta algunas
limitaciones. Los autores asumen que cada conjunto de datos analizado contiene una
cantidad de registros similar. Si el tamaño de los conjuntos de datos es diferente, los
autores sugieren, previo a la aplicación de las técnicas de minería de datos locales,
dividir los conjuntos de datos más grandes y/o unir los conjuntos de datos más
pequeños con el propósito de que todos los conjuntos de datos tengan un tamaño
similar. Sin embargo, cuando el acceso a las bases de datos locales no es posible, este
enfoque no es viable. Por otra parte, asumen que las reglas de asociación se obtienen
considerando el mismo valor de soporte mínimo y el mismo valor de confianza
mínimo para cada conjunto de datos. En cambio, en las aplicaciones reales, los
modelos de reglas de asociación locales pueden ser generados considerando
diferentes umbrales de soporte y/o de confianza para cada conjunto de datos origen.
En [Zhong et al., 2003] se propone un método específico para descubrir reglas
peculiares en múltiples bases de datos. Estas son reglas soportadas en una cantidad
relativamente pequeña de instancias que son muy diferentes a otras instancias del
conjunto analizado.
Adhikari y Rao, describen en [Adhikari & Rao, 2008] una propuesta de extensión del
modelo de [Zhang et al., 2003] para sintetizar patrones globales en múltiples bases de
Capítulo 2. Estado del Arte 25
datos. Definen una arquitectura que se basa en una serie de capas e interfaces entre las
capas. Cada interfaz representa un conjunto de operaciones que pueden producir
vista(s) de datos o patrones de conocimiento (conjunto de reglas), a partir de vista(s)
de datos de la capa inferior. En este modelo extendido el acceso a los datos origen
está implícito en el proceso de síntesis. Además, al igual que en [Zhang et al., 2003],
asumen que cada conjunto de datos contiene similar cantidad de registros.
Posteriormente, la investigación presentada en [Adhikari & Rao, 2007] está orientada
a mejorar la calidad de los patrones de conocimiento (reglas de asociación)
sintetizados. Proponen una codificación de las reglas de asociación que nombran
ACP, que permite reducir el espacio de almacenamiento requerido para representar
las bases de reglas correspondientes a diferentes bases de datos. Al reducir el espacio
requerido, sugieren obtener un mayor número de reglas de asociación locales
especificando valores mínimos de soporte y confianza menores. Esto hace que la
calidad de las reglas globales sea mayor. En dicha propuesta, el proceso de obtención
de patrones locales no es independiente, ya que se definen valores mínimos de
soporte y confianza específicos.
Otra de las investigaciones publicadas propone un método para integrar modelos de
reglas de asociación descubiertos en diferentes conjuntos de datos en formato XML
[Paul & Saravanan, 2008]. Para ello, los autores se basan en las formulaciones
matemáticas definidas en [Zhang et al., 2004a] para identificar patrones globales
excepcionales[Zhang et al., 2004a]. Los patrones excepcionales son aquellos que
tienen altos valores de soporte y confianza, pero son descubiertos en pocos modelos.
Una limitación de este método es precisamente que permite descubrir patrones
globales excepcionales, pero no patrones globales soportados en el conjunto de todos
los datos distribuidos.
En [Adhikari et al., 2010] se propone una nueva forma de descubrir reglas de
asociación globales a partir de múltiples bases de datos. Dicha propuesta se basa en
una técnica que los autores nombran PFT (Pipelined Feedback Technique). Con esta
técnica se logra mejorar significativamente la calidad de los patrones globales
sintetizados. Sin embargo, los conjuntos de datos origen no se analizan de manera
independiente, lo que constituye la limitación fundamental de esta propuesta. La
obtención de los modelos locales forma parte de la propia técnica PFT. Los
conjuntos de datos origen se procesan de manera secuencial, y en orden decreciente
según su tamaño. Excepto el primer conjunto de datos, los restantes utilizan las reglas
resultantes del análisis del conjunto de datos que le antecede, según el orden
previamente establecido.
26 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
2.3.2. Síntesis de Modelos de Clusters
En la tarea de agrupamiento o clustering se han publicado algunos métodos que
logran sintetizar un conjunto de modelos de clusters, obteniendo un modelo global
sin acceder a los datos que originaron los modelos parciales. A continuación se
describen las propuestas que resultaron más relevantes para esta investigación.
En [Qian & Suen, 2000] se aborda la integración de modelos de agrupamiento desde
un punto de vista matemático. El método que proponen los autores, enuncia que el
problema de agrupamiento puede ser tratado como un problema de optimización
acorde con un criterio de semejanza o agrupamiento. Para ello, plantean la integración
en términos de funciones objetivos y proponen la combinación de dichas funciones a
partir de la optimización multi-objetivo. En este método se plantea el problema de la
integración desde un punto de vista peculiar, realmente no se combinan los resultados
de los modelos de agrupamiento, sino las funciones a partir de las cuales se
construyen los modelos.
Por otra parte, está el trabajo propuesto por Alexander Strehl y Joydeep Ghosh en
[Strehl & Ghosh, 2002]. Este trabajo tiene como valor fundamental el hecho de que
las particiones o modelos locales pueden ser generados a partir de cualquier algoritmo
de agrupamiento, es decir se puede aplicar un algoritmo basado en centro en una
partición y uno basado en densidad en otra partición y se obtienen modelos locales
que igualmente pueden ser integrados. Esto se debe a que la manera de representar
estos modelos es a través de un vector etiquetado. En este vector están representadas
todas las instancias de la fuente de datos a partir de una etiqueta que se corresponde
con el grupo obtenido localmente al cual pertenece. Sin embargo, debido a esta forma
de representación, se puede identificar también su principal desventaja, que constituye
el hecho de que el vector etiquetado crece proporcionalmente con la cantidad de
objetos que existan en cada partición local, lo cual aumenta el uso de memoria y
disminuye la escalabilidad. Después de este trabajo surgieron otros que se basan en la
misma representación [Gionis et al., 2005; Lange & Buhmann, 2005; Long et al.,
2005; Zhang & Brodley, 2004]
Finalmente, en [Hore et al., 2009] se propone un método de integración de modelos
de agrupamiento que representen conjuntos de centroides. En este se corrigen las
desventajas del trabajo comentado anteriormente en cuanto al uso de espacio y la
escalabilidad, debido a que los modelos locales que plantea están compuestos
solamente por el conjunto de los centroides identificados en cada partición local, y no
por un valor para cada elemento en la misma. Sin embargo, se limitan a integrar
modelos obtenidos al aplicar específicamente un tipo de algoritmo de agrupamiento:
los basados en centro. Además, los valores que caracterizan cada centriode deben ser
numéricos.
Capítulo 2. Estado del Arte 27
2.4. Conclusiones
Los trabajos analizados en el estado del arte muestran que existen tres variantes
posibles para procesar, mediante técnicas de minería de datos, múltiples bases de
datos. Estas son: agrupar todos los datos distribuidos y procesarlos de manera
centralizada mediante técnicas tradicionales o paralelas de minería de datos, analizar
los datos mediante técnicas de minería de datos distribuida, o aplicar técnicas de
postmining. Esta última alternativa consiste en reutilizar los modelos de minería de
datos locales o parciales con el propósito de sintetizarlos y obtener patrones globales
a partir de estos. Dicha forma de minería de datos resulta de especial interés en esta
investigación, ya que, a diferencia de las dos variantes restantes, no requiere acceder a
los datos originales. Por lo tanto, se ha profundizado en el estudio de las técnicas de
postmining.
Del estudio de los trabajos en postmining publicados hasta la fecha, se concluye que
todas las propuestas carecen de generalidad, en el sentido que son específicas para la
síntesis de modelos de reglas de asociación, o para la síntesis de modelos de
agrupamiento. Por otra parte, tanto en las propuestas de síntesis de modelos de reglas
de asociación como en las propuestas de síntesis de modelos de agrupamiento, se
identifican algunas limitaciones. Las más significativas se resumen a continuación:
Algunas de las propuestas son dependientes de un esquema específico de base
de datos.
Asumen que cada conjunto de datos local contiene una cantidad similar de
registros.
Acceden de manera parcial o total a los datos origen.
Los modelos locales no se generan de manera independiente.
Presentan problemas de escalabilidad.
29
CAPÍTULO 3
3 MODELO CONCEPTUAL
El modelo general que soporta nuestra propuesta (Modelo de Integración de Conocimiento -
MIC) se describe mediante dos vistas diferentes: el Modelo Conceptual (MC_MIC) y el
Modelo Funcional (MF_MIC). En este capítulo corresponde abordar el MC_MIC,
detallándose cada uno de sus elementos.
Teniendo en cuenta las características del problema a tratar y las necesidades de
expresividad del modelo que se propone, resulta adecuado tomar como base la
metodología y herramientas formales utilizadas en el modelado de procesos
[Eriksson & Penker, 1999; Jeston & Neils, 2006; Smith & Fingar, 2002]. Es por ello
que se concibe el MC_MIC como la vista de los procesos (P) fundamentales que
conforman el modelo general propuesto (MIC).
Dentro de la Gestión de Procesos de Negocios (Bussiness Process Management -
BPM), metodología empresarial cuyo objetivo fundamental es mejorar la eficiencia
mediante la gestión sistemática de los procesos del negocio, cada proceso está
compuesto por un conjunto completo y dinámico de actividades colaborativas que se
ejecutan en un orden dado buscando alcanzar una meta u objetivo común, utiliza
recursos a los que les puede cambiar su estado, y tiene asociado una entrada y una
salida específicas [Eriksson & Penker, 1999; Lindsay et al., 2003]. En las Normas ISO
(International Standardization Organization) 9000, específicamente en la Norma
ISO-9001, se define un proceso de negocio como un conjunto de actividades
mutuamente relacionadas o que interactúan, que utilizan recursos y que se gestionan
con el fin de transformar elementos de entrada en resultados [ISO, 2000]. Esta
conceptualización, de carácter estándar, se ajusta bien al significado que nuestro
modelo le adjudica al término.
30 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
De la misma forma, las necesidades de expresividad del MC_MIC hacen que resulte
adecuado utilizar la notación gráfica de [Eriksson & Penker, 1999], como extensión
del estándar UML para procesos del negocio, considerando sus cualidades
descriptivas. Dicha notación gráfica, se sustenta en la definición de proceso dada por
sus creadores, en la que se hace énfasis en cómo se realizan las actividades o
subprocesos que conforman un proceso de negocio, en lugar de describir los
productos o servicios que resultan de su ejecución. Por lo que, cada uno de los
procesos fundamentales implicados en el MC_MIC, y sus subprocesos, se formalizan
gráficamente. Además, estos se formalizan algebraicamente, como complemento a la
formalización gráfica, y se describen de forma verbal no formal.
Entonces, en el MC_MIC tomando como referencia la notación de Eriksson-Penker,
los procesos se representan mediante diagramas de actividad UML (Diagramas de
Proceso). En la figura 3.1 se muestra la representación general de un proceso.
Figura 3.1. Representación de un proceso en el MC_MIC, basándose en Eriksson-Penker.
A la izquierda del símbolo de proceso se representan los recursos que entran al
proceso, mientras que a la derecha se indican los recursos que salen del proceso. En
la parte superior del símbolo de proceso se indica la meta u objetivos a alcanzar por
el proceso, mediante un recurso con el estereotipo <<goal>>. Los restantes recursos
involucrados en el proceso pueden representarse en la parte superior y/o en la parte
inferior del símbolo de proceso. Aquellos recursos que sean utilizados por el proceso
se relacionan con éste a través del estereotipo de dependencia <<supply>>, mientras
que aquellos encargados de controlar el proceso se relacionan mediante el estereotipo
<<control>>. Para evitar sobrecargar los diagramas de proceso, se decide excluir de la
representación gráfica a los recursos de tipo actores, responsables de la ejecución de las
Capítulo 3. Modelo Conceptual 31
tareas incluidas en los procesos. De esta forma, se ha ajustado la notación de
Eriksson-Penker a las necesidades de expresividad del MC_MIC.
Por otra parte, el MC_MIC se formaliza algebraicamente mediante la tupla:
3.1
Donde es el conjunto de todos los procesos identificados en el MC_MIC, es el
conjunto de todas las tareas, es el conjunto de todos los recursos tipo actores
responsables de la ejecución de los procesos, y es el conjunto de los restantes
recursos implicados en los procesos. En lo adelante, los recursos tipo actores se nombran
simplemente actores.
Cada proceso se define formalmente por la tupla:
3.2
Donde es la etiqueta o nombre del proceso, es el conjunto de las tareas
(actividades) que conforman el flujo del proceso, es el conjunto de los actores
responsables de la ejecución del proceso, y es el conjunto de los restantes
recursos involucrados en el proceso. Para todo proceso se cumple que
, , y . En cada proceso , el flujo que determina la
secuencia ordenada de las tareas se formaliza de manera gráfica mediante los
diagramas de actividad de UML extendidos, soportados en la notación de Eriksson-
Penker. En nuestro modelo se asocian las actividades (de los diagramas de actividad)
con las tareas identificas como parte del MC_MIC. De esta forma, el flujo de
tareas de cada proceso se representa dentro del MC_MIC tal y como se
muestra en la figura 3.2.
Figura 3.2. Representación del flujo de tareas del proceso p1.
Para el flujo de tareas representado en la figura 3.2, el conjunto de las tareas del
proceso estará compuesto por las tareas , y conjuntamente con las tareas
del sub-proceso :
3.3
32 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Por otra parte, cada tarea , cada actor , y cada recurso se formaliza
respectivamente de la siguiente forma:
3.4
3.5
3.6
Donde , y representan las etiquetas que especifican el nombre de la tarea , el
nombre del actor , y el nombre del recurso respectivamente; mientras que y
especifican el tipo de dependencia que tiene el actor , o el recurso con cada
proceso con el que se relacione. Según define la notación de Eriksson-
Penker, los tipos de dependencia o relación que pueden establecer los recursos, de
manera general, con los procesos son:
<<input>> Para identificar las entradas del proceso
<<output>> Para identificar las salidas del proceso
<<achieve>> Para identificar las metas del proceso
<<supply>> Para identificar los recursos necesitados por el
proceso
<<control>> Para identificar los recursos que controlan el
proceso
Considerando las precisiones enunciadas con anterioridad para la representación de
los procesos y de los recursos implicados con estos, al ajustar la notación de
Eriksson-Penker a las necesidades de expresividad del MC_MIC, se decidió omitir en
dicha representación gráfica la especificación de los tipos de dependencia:
<<input>>, <<output>> y <<achieve>>, tal y como se ilustra en la figura 3.1.
Una vez definida la nomenclatura corresponde formalizar el MC_MIC. Para ello se
ha empleado la metodología top-down; es decir, se describen inicialmente los
elementos generales del modelo propuesto, y posteriormente estos se van detallando
hasta alcanzar el máximo nivel de granularidad. Luego, en un primer nivel de detalle,
el MC_MIC puede representarse como un único proceso (Integración) responsable,
como su nombre lo indica, de integrar n modelos locales de minería de datos que han
sido generados a partir de n conjuntos de datos (figura 3.3).
Capítulo 3. Modelo Conceptual 33
Figura 3.3. Integración de modelos locales de minería de datos.
El MIC tiene como restricción la imposibilidad de acceder a los conjuntos de datos
fuente, por lo que, el proceso de Integración (pI) deberá realizarse conociendo
únicamente los modelos locales y, asociado a cada uno, una ficha que recoge
información útil para la integración. Entonces, como entrada al proceso pI se tienen
los modelos locales y sus fichas correspondientes .
Donde y son los conjuntos de modelos locales y fichas respectivamente. De
manera general, las fichas registrarán información resumida referente a los conjuntos
de datos fuente (por ejemplo: cantidad de registros analizados), así como,
información concerniente al proceso de minería de datos desarrollado localmente
(por ejemplo, umbrales de medidas de patrones: valor mínimo de cobertura y de
precisión), entre otros. Como salida del proceso pI se obtiene un modelo global de
minería de datos integrado.
Figura 3.4. Detalle a nivel de procesos del MIC.
En un nivel de detalle superior, se representa en la figura 3.4 la vista de los
subprocesos que conforman el proceso pI. Como se puede observar este está
constituido por tres subprocesos: Codificación (pC), Síntesis (pS), y Representación (pR):
34 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
p p p 3.7
El primer subproceso (pC) consiste en la codificación de los modelos locales que
serán integrados. Este tiene como propósito realizar una traducción, del formato de
representación e intercambio en el que dichos modelos se reciben, a un formato
homogéneo de representación de conjuntos de patrones locales (correspondientes a
cada modelo) que resulte adecuado para el subproceso de Síntesis posterior. El
subproceso Síntesis (pS), que es el de mayor complejidad dentro del proceso de
Integración consiste, como su nombre sugiere, en la síntesis de los conjuntos de
patrones locales codificados, con el propósito de obtener, como solución, un único
conjunto de patrones globales que sea el que “más se parezca a todos” los conjuntos
de patrones locales codificados. Finalmente, el tercer y último subproceso,
Representación (pR), una vez obtenido el conjunto de patrones globales sintetizados, se
ocupa de la representación de dicho conjunto de patrones globales en el formato de
representación e intercambio de modelos requerido para ser entregado al usuario.
Este subproceso puede interpretarse como una traducción en sentido inverso a la
realizada en el subproceso de Codificación.
En los siguientes apartados se definen formalmente, describiéndose con mayor
detalle, cada uno de los subprocesos antes mencionados. Por lo que, el resto del
capítulo se estructura de la siguiente forma: en los apartados 3.1, 3.2 y 3.3 se
describen los subprocesos Codificación, Síntesis y Representación respectivamente;
mientras que, en el apartado 3.4 se concluye el capítulo y se incluye, a modo de
resumen, la definición algebraica de los conjuntos de procesos (P), tareas (T), actores
(A) y recursos (R) que resultan de la formalización del MC_MIC.
3.1. Codificación
Como se muestra en la figura 3.4, el subproceso Codificación (pC) es el responsable de
iniciar el proceso de Integración (pI). Este tiene como objetivo fundamental, una vez
que selecciona los modelos locales que serán integrados, traducir dichos modelos
locales, codificándolos en un formato homogéneo de representación, en forma de
conjuntos de patrones locales correspondientes a cada modelo. El carácter
homogéneo de la codificación, implica que se representen de manera similar
diferentes tipos de patrones (reglas de asociación y clusters). Esto contribuye a que el
subproceso Síntesis se pueda definir con independencia del tipo de los modelos
locales que se deseen integrar.
Capítulo 3. Modelo Conceptual 35
Los tipos de modelos de minería de datos o patrones que pueden ser integrados en
nuestro MIC son: reglas de asociación y cluster.
En la figura 3.5 se formaliza gráficamente el proceso pC, siguiendo la notación
Eriksson-Penker. Como se puede observar, el proceso pC, está compuesto por los
subprocesos: Selección de Modelos (pSM) y Traducción de Modelos (pTM).
Figura 3.5. Proceso de Codificación (pC).
El proceso se formaliza algebraicamente como:
3.8
La etiqueta del proceso ( ) tiene el valor “Codificación”. Los elementos que
conforman los conjuntos de tareas ( ), de actores ( ), y de recursos ( ) del
proceso se irán especificando a lo largo de esta sección 3.1, quedando definidos
explícitamente en el apartado 3.1.3. En la realización de las tareas del proceso pC
participa el actor Codificador de Modelos, responsable de todo el proceso.
A continuación se describe el proceso pC detallando cada uno de sus subprocesos
(pSM y pTM).
3.1.1. Subproceso Selección de Modelos
El subproceso Selección de Modelos (pSM), es el responsable de examinar las fichas
( ) de los modelos locales ( ) y descartar aquellas fichas “incompletas” y
sus modelos correspondientes. Finalmente, el conjunto de modelos locales cuyas
fichas están “completas” son revisados, atendiendo a los parámetros especificados,
con el propósito de seleccionar los modelos que serán considerados definitivamente
para la integración. En la figura 3.6 se formaliza gráficamente este subproceso. Como
36 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
se puede observar, el flujo de trabajo de pSM está constituido por dos tareas: Examinar
Fichas y Seleccionar Modelos.
Figura 3.6. Proceso Selección de Modelos (pSM).
En la tarea Examinar Fichas se revisan todas las fichas de los modelos locales
recibidos y se devuelve como resultado las fichas de los modelos locales a considerar
en las tareas y subprocesos siguientes, por calificarlas como “completas”. Para
conceder tal calificativo a una ficha, esta debe incluir como información obligatoria:
Tamaño de la vista de datos origen (cantidad de instancias).
Descripción de cada atributo de la vista de datos origen (etiqueta y dominio).
Umbral de precisión y de cobertura mínima utilizado para la aceptación de los
patrones en el modelo local correspondiente.
Una vez que se conocen las fichas “completas”, con sus modelos locales
correspondientes, el actor Codificador de Modelos prosigue a la ejecución de la tarea de
selección de los modelos locales que serán integrados, considerando los valores de
los Parámetros especificados por el usuario. En la tabla 3.1 se detallan los Parámetros
utilizados en este subproceso.
Tabla 3.1. Parámetros requeridos en el subproceso pSM.
Parámetro Significado Dominio Valor por defecto
Umbral mínimo de (cantidad
de patrones en un modelo local)
(al menos un patrón)
Umbral mínimo de (cantidad
de instancias de la vista de datos
origen utilizadas en la
construcción del modelo local)
(al menos una instancia)
Capítulo 3. Modelo Conceptual 37
En resumen, se seleccionan aquellos modelos locales que cumplan con los valores
especificados para los Parámetros y
.
3.1.2. Subproceso Traducción de Modelos
El subproceso Traducción de Modelos (pTM) se ocupa de codificar, en forma de conjunto
de patrones , cada uno de los modelos seleccionados en el subproceso pSM.
Donde cada patrón ( ) se formaliza mediante la tupla: . En
esta tupla, , que representa las características del patrón que lo identifican (el
antecedente y el consecuente de una regla o el centro de un cluster) se codifica como
un vector cuya dimensión se corresponde con la cantidad de atributos de las
vistas de datos origen, información almacenada en cada ficha. Cada elemento de
dicho vector representa un atributo diferente y se define por la tupla:
3.9
Donde indica el rol del atributo en el patrón del modelo local , tomando
como posibles valores: AR, CR, NR o CC (tabla 3.2); y se asocia con el valor
nominal (categórico) que toma el atributo en el patrón del modelo local .
Tabla 3.2. Valores posible del rol del atributo en el patrón del modelo ( ).
Valor de Significado
AR El atributo k en el patrón j aparece en el Antecedente de la Regla
(tipo de patrón: regla de asociación o regla de clasificación).
CR El atributo k en el patrón j aparece en el Consecuente de la Regla
(tipo de patrón: regla de asociación o regla de clasificación).
NR El atributo k en el patrón j No aparece en la Regla
(tipo de patrón: regla de asociación o regla de clasificación).
CC El atributo k en el patrón j caracteriza el Centro del Cluster
(tipo de patrón: cluster).
Por su parte, que representa las medidas de calidad del patrón en el modelo ,
se define por la tupla:
3.10
38 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Donde indica la precisión del patrón en el modelo y su cobertura. En la
tabla 3.3 se resume, para cada tipo de patrón, el significado que se asume en el
MC_MIC, para ambas medidas.
Tabla 3.3. Significado de las medidas cobertura y precisión para cada tipo de patrón.
Tipo de patrón Cobertura ( ) Precisión ( )
Regla de
Asociación
Cantidad de
instancias que
cumplen con la
regla
.
Razón de instancias que cumplen con
la regla , de las que pueden
aplicar.
Cluster Cantidad de
instancias
agrupadas en el
cluster.
Distancia media de los elementos del
cluster al centro. Promedio de la
precisión asociada a cada atributo que
describe los clusters.
;
Donde es el Total de elementos
en el cluster del modelo local cuyo
valor del atributo es igual al valor que
toma dicho atributo en el centro del
cluster.
En la figura 3.7 se representa el flujo de trabajo del subproceso pTM, determinado por
una única tarea: Codificar Modelos.
Figura 3.7. Proceso Traducción de Modelos (pTM).
La tarea Codificar Modelos, como su nombre sugiere, codifica cada uno de los modelos
locales seleccionados en el subproceso pSM, tal y como se explicó anteriormente,
Capítulo 3. Modelo Conceptual 39
creando los conjuntos de patrones correspondientes a cada modelo . Para ello,
cada patrón se representa como un par : vector que identifica el patrón
( ) y sus medidas de precisión y de cobertura ( ). Esta tarea
es realizada por el actor Codificador de Modelos.
3.1.3. Resumen del Proceso Codificación
Ambos subprocesos descritos en las secciones precedentes (3.1.1 y 3.1.2) garantizan
que pC codifique en un formato homogéneo, adecuado para la posterior Síntesis, los
modelos locales seleccionados para la integración. Cada uno de estos subprocesos se
formalizó gráficamente, mediante la notación de Eriksson-Penker. A continuación, a
modo de resumen, se definen los conjuntos de tareas ( ), de actores ( ), y de
recursos ( ) que resultan de las formalizaciones gráficas asociadas al proceso pC.
3.11
3.12
3.13
3.2. Síntesis
Como se muestra en la figura 3.4, el subproceso Síntesis (pS) es el segundo en el flujo
de trabajo del proceso de Integración (pI). Este consiste, básicamente, en la Síntesis de
los conjuntos de patrones locales codificados con el propósito de obtener, como
solución, un único conjunto de patrones globales que sea el que más se “parezca” y
resuma a todos los conjuntos de patrones locales codificados. En otras palabras, se
trata de obtener un conjunto de patrones globales, de manera que la distancia entre
dicho conjunto y todos los conjuntos de patrones locales sea mínima. Para ello, se
parte de una solución inicial, o conjunto de soluciones iniciales, y posteriormente se
sigue un proceso iterativo de mejora de soluciones. Una vez que se decide detener el
proceso iterativo (los criterios de parada pueden ser diversos) se tiene una propuesta
40 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
final de conjunto de patrones globales. Cada uno de estos patrones globales carece de
medidas (cobertura y precisión) relativas al conjunto global de los datos que
originaron los modelos locales; es por ello que posteriormente es necesario asignar a
cada patrón global del conjunto solución un valor global estimado de cobertura y de
precisión.
En la figura 3.8 se formaliza gráficamente pS, siguiendo la notación Eriksson-Penker.
Figura 3.8. Proceso de Síntesis (pS).
Por otra parte, dicho proceso se formaliza algebraicamente como:
3.14
La etiqueta del proceso ( ) tiene el valor “Síntesis”. Los elementos que conforman
los conjuntos de tareas ( ), de actores ( ), y de recursos ( ) del proceso se irán
especificando a lo largo de esta sección 3.2, quedando definidos explícitamente en el
apartado 3.2.4. En la realización de las tareas del proceso pS participan los siguientes
actores: el actor Sintetizador, el que se comporta como responsable de todo el proceso,
controlando su ejecución, el actor Constructor de la Solución Inicial, el actor Mejorador de
Solución, el actor Estimador de Medidas , el actor Evaluador de Soluciones, y el actor Generador
de Vecindad.
En las siguientes secciones se describe pS detallando cada uno de sus subprocesos
(pCSI, pMS y pAM).
Capítulo 3. Modelo Conceptual 41
3.2.1. Subproceso Construcción de Solución Inicial
El subproceso Construcción de Solución Inicial (pCSI), una vez que selecciona la
codificación que se usará para las soluciones, se ocupa de construir una solución
inicial o conjunto de soluciones iniciales, según el valor del parámetro
que establece el tamaño de la población de soluciones. Si (valor por
defecto) entonces se construye una única solución (tabla 3.4). Posteriormente evalúa
la calidad de las soluciones construidas, según la función objetivo definida. En el
modelo que se propone, una solución constituye un conjunto de patrones globales.
En la figura 3.9 se formaliza gráficamente este subproceso. Como se puede observar,
el flujo de trabajo de pCSI está constituido por tres tareas: Seleccionar Codificación de
Soluciones, Construir Solución Inicial y Evaluar Solución.
Figura 3.9. Proceso Construcción de Solución Inicial (pCSI).
En la tarea Seleccionar Codificación de Soluciones, como su nombre sugiere, el actor
Sintetizador selecciona la codificación que se usará para representar las soluciones en el
modelo. Tanto la solución inicial como las restantes soluciones candidatas que se
obtienen tienen la misma representación. La codificación seleccionada dependerá del
nivel de integración del modelo global solicitado por el usuario. Como se puede
apreciar en la tabla 3.4, el modelo soporta dos niveles de integración: nivel uno o
básico ( ), y nivel dos o avanzado ( ).
42 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Tabla 3.4. Parámetros requeridos en el subproceso pCSI.
Parámetro Significado Dominio Valor por defecto
Tamaño de la población de
soluciones
:
(Se evalúa una
solución en cada
iteración)
Nivel de Integración
requerido en el modelo
global
:
(Nivel de Integración
básico)
Tipo de Solución Inicial :
(Solución Inicial
Aleatoria)
En el nivel de integración básico ( ), los patrones del modelo global
integrado ( ) se toman solamente de los m modelos locales seleccionados en el
proceso pSM para su integración:
3.15
Es decir, en este nivel no es posible descubrir nuevos patrones. Por lo que, en este
caso, cada solución candidata constituye una selección de los patrones locales ( )
que se incluirán en el modelo global integrado. Por su parte, el nivel avanzado
( ), sí admite el descubrimiento de nuevos patrones. Por tal motivo, las
soluciones candidatas, en este caso, podrán estar conformadas tanto por patrones
contenidos en los modelos locales como por nuevos patrones descubiertos. A
continuación se define la codificación que se requiere para representar las soluciones
en cada nivel de integración.
En el nivel básico, cada solución candidata ( ) se representa en un vector binario
de dimensión fija . Donde:
3.16
Cada elemento del vector se corresponde con uno de los
patrones contenidos en los modelos locales seleccionados, tomando valor 0, si el
patrón correspondiente no se incluye en la solución candidata, o valor 1 en caso
Capítulo 3. Modelo Conceptual 43
contrario. Entonces, las soluciones candidatas ( ), en el nivel básico de integración,
se representan en un vector binario ( ) de dimensión fija. Esto determina un
espacio de soluciones constante de .
Por otra parte, en el nivel avanzado, cada solución candidata ( ), se representa, de
modo similar, en un vector . Sin embargo, en este caso, la dimensión del vector
es variable:
3.17
De manera que los primeros elementos
del vector se
corresponden con los patrones contenidos en los modelos locales seleccionados;
mientras que, los restantes elementos
del vector se
corresponden con los nuevos patrones descubiertos (patrones que no existen en
ningún modelo local, y que se crean combinando algunos de los patrones existentes).
Por cada patrón nuevo que se descubra, la dimensión del vector solución ( )
aumenta en uno. Los nuevos patrones descubiertos se van almacenando en la Lista
de Nuevos Patrones descubiertos ( ).
Una vez definida la codificación a emplear (vector binario de dimensión fija o de
dimensión variable), según el nivel de integración requerido, el actor Constructor de la
Solución Inicial ejecutará la tarea Construir Solución Inicial. Esta consiste, como su
nombre lo indica, en la construcción de la solución inicial ( ) o conjunto de
soluciones iniciales ( ), según el valor del parámetro (tabla 3.4). Con
independencia del nivel de integración requerido, las soluciones iniciales se
construyen sin patrones nuevos, por tanto, la dimensión del vector binario
correspondiente a una solución inicial será:
3.18
Una solución inicial puede crearse de manera aleatoria o no, según el valor del
parámetro (tipo de solución inicial, tabla 3.4). El modelo que se propone soporta
cuatro variantes de o, más bien, cuatro variantes de construir una solución
inicial ( ). La primera ( ) consiste en la construcción de una solución inicial
de manera aleatoria, que no es más que generar para cada elemento del vector un
bit aleatorio. La segunda variante ( ), se puede decir que es de tipo
seudoaleatoria, ya que , en este caso, contendrá el conjunto de patrones incluidos
en uno de los modelos locales a integrar, seleccionado aleatoriamente ( ). La
tercera variante ( ), se refiere al conjunto vacío de patrones, es decir, todos los
44 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
elementos del vector tendrán valor 0. Mientras que, en la cuarta variante (
) todos los elementos del vector tendrán valor 1.
Finalmente, la tarea Evaluar Solución, como su nombre indica, se ocupa de evaluar la
calidad de la solución inicial ( ) (o conjunto de soluciones iniciales ), que recibe
como entrada. Esta tarea la realiza el actor Evaluador de Soluciones. La calidad de una
solución está en correspondencia con la semejanza que existe entre el modelo
integrado que se tiene como solución candidata y el conjunto de modelos locales a
integrar. Por lo que, el propósito en el MIC es minimizar la distancia entre el modelo
integrado y dichos modelos locales. A continuación, se define la función objetivo
que permite evaluar una solución candidata ( ). En este caso se cumple que
.
3.19
Donde es un peso asociado a cada modelo local que se calcula a partir de la
cantidad de instancias del conjunto de datos que dio origen a cada modelo local
(ecuación 3.20), y
es una función que devuelve la distancia entre el
modelo integrado candidato cuyos patrones han sido ordenados ( ) y un
modelo local también ordenado ( ) (ecuación 3.21). Para ordenar los patrones de
los modelos y se utiliza el operador
.
Este operador ordena (ascendentemente) los patrones de ambos modelos, en función
de la distancia de los pares de patrones ( ) más similares. De manera que, el
patrón del modelo ( ordenado) quede “alineado” con el patrón del
modelo ( ordenado). Si la cantidad de patrones en ambos modelos no es la
misma existirán entonces patrones “no alineados” en el modelo de mayor dimensión.
3.20
Entonces, la función
se formaliza como sigue:
+
3.21
Donde:
Capítulo 3. Modelo Conceptual 45
3.22
3.23
3.24
En la ecuación 3.21, el primer sumando se refiere a la distancia por concepto de
patrones “alineados”; mientras que, el segundo sumando se refiere a la distancia por
concepto de patrones “no alineados”. Los coeficientes y se utilizan para
ajustar el peso que se otorga, en la distancia total entre dos modelos, a la distancia por
concepto de patrones “alineados” ( ) y a la distancia por concepto de patrones “no
alineados” ( ) respectivamente. Mientras que, los coeficientes binarios y se
utilizan para anular o no cada uno de los sumandos que calculan la distancia por
concepto de los patrones “no alineados” que existen en el modelo local ( ) o en el
modelo integrado ( ) respectivamente. El concepto de patrones “no alineados”
implica que estos existen en el modelo que contiene mayor cantidad de patrones.
En la ecuación 3.21, “penaliza” la función de distancia entre modelos, por
concepto de patrones “no alineados” en el modelo global. Es decir, representa
una medida de distancia por concepto de patrones que sobran en el modelo global.
Expresa la proporción que existe entre los patrones “no alineados” del modelo global
respecto al total de sus patrones (ecuación 3.25).
3.25
Por otra parte, la función
devuelve la distancia entre el patrón del
modelo y el patrón del modelo
(patrones “alineados”) (ecuación 3.26). La
distancia entre dos patrones depende del tipo de los patrones (regla o cluster). Como
se aprecia en la ecuación 3.26, la distancia entre dos reglas se define en función de la
distancia entre los antecedentes y los consecuentes de las reglas. En este caso, se tiene
un peso para los antecedentes y otro para los consecuentes . Por su parte,
la distancia entre dos clusters se define en función de la distancia entre sus centros.
3.26
Donde:
46 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
3.27
Las funciones de distancia entre antecedentes de reglas, consecuentes de reglas y
centros de clusters se definen a partir de la distancia entre atributos como sigue:
3.28
Donde:
3.29
En la ecuación 3.29, y representan el rol y el valor, respectivamente, del atributo
en el patrón del modelo que corresponda (modelo integrado o modelo local).
Por lo que, la distancia entre el atributo del patrón del modelo integrado y el
atributo del patrón del modelo local , tal y como se define en la ecuación 3.29,
es igual a:
0 Si el rol ( ) del atributo en ambos patrones es el mismo y los valores
( ) de dicho atributo son iguales.
0.5 Si el rol ( ) del atributo en ambos patrones es diferente, y además el
atributo no está presente en uno de los dos patrones, en cuyo caso
el rol del atributo toma valor (el atributo no está presente en el
antecedente o en el consecuente de la regla).
1 Si el atributo está presente en ambos patrones, pero con valores
diferentes.
Como se aprecia en la ecuación 3.21, cada patrón del modelo local tiene asociado
un peso (ecuación 3.30).
Capítulo 3. Modelo Conceptual 47
3.30
La función evalúa la “calidad” de cada patrón local en el modelo
correspondiente (ecuación 3.31). La “calidad” de los patrones en los modelos locales
dependerá de la precisión y de la cobertura de dicho patrón en el modelo.
3.31
Donde:
3.32
Como se aprecia en la ecuación 3.31, y son pesos correspondientes a las
medidas precisión y cobertura respectivamente. Las funciones y
devuelven la precisión y la cobertura respectivamente del patrón . A continuación
se definen ambas funciones.
3.33
3.34
En la tabla 3.5 se resumen los Parámetros utilizados en este subproceso.
Tabla 3.5. Parámetros requeridos en la tarea Evaluar Solución.
Parámetro Significado Dominio Valor por defecto
Peso asociado al
Antecedente de una regla.
(ecuación 3.25 y 3.26)
Peso asociado al
Consecuente de una regla.
(ecuación 3.25 y 3.26)
Peso asociado a la medida
(precisión de un patrón).
(ecuación 3.30 y 3.31)
48 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Peso asociado a la medida
(cobertura de un patrón).
(ecuación 3.30 y 3.31)
Peso asociado a la distancia
por concepto de patrones
“alineados”
Peso asociado a la distancia
por concepto de patrones
“no alineados”
En el siguiente apartado se describe el subproceso Mejora de Solución (pMS) del proceso
Síntesis (pS).
3.2.2. Subproceso Mejora de Solución
El subproceso pMS, persigue como propósito mejorar la solución inicial ( ) (o
conjunto de soluciones iniciales ) de manera iterativa. En cada iteración, a partir
de la solución candidata actual ( ) (o conjunto de soluciones candidatas ) se
obtienen nuevas propuestas de soluciones (soluciones vecinas) que se evalúan según
la función objetivo definida (ecuación 3.19). Posteriormente, considerando la calidad
de las soluciones vecinas generadas, así como, la calidad de la solución candidata
actual (o conjunto de soluciones candidatas actuales) se define el nuevo estado actual,
es decir, la nueva solución candidata (o el nuevo conjunto de soluciones
candidatas ). La forma en que se define un nuevo estado actual, depende de la
metaheurística que se implemente. El MC_MIC no propone la aplicación de un
algoritmo metaheurístico en particular [Wolpert & Macready, 1997], por lo que es
flexible en este sentido. Los valores que toman un conjunto de parámetros definidos
en el MC_MIC son los que definen las características de la metaheurística a
implementar en la búsqueda de la “mejor” solución.
Este proceso se repite hasta que se cumple la “condición de parada”. La “condición
de parada” puede ser por ejemplo: alcanzar un máximo de iteraciones, o estancarse
durante un máximo de iteraciones (no mejorar la calidad de la “mejor” solución
encontrada). En la figura 3.10 se formaliza gráficamente este subproceso. Como se
puede observar, el flujo de trabajo de pMS está constituido por tres tareas: Obtener
Soluciones Vecinas, Evaluar Soluciones Vecinas y Seleccionar Solución Candidata.
Capítulo 3. Modelo Conceptual 49
Figura 3.10. Proceso Mejora de Solución (pMS).
En la tarea Obtener Soluciones Vecinas, realizada por el actor Generador de Vecindad, como
su nombre sugiere, se generan nuevas soluciones a partir de la solución candidata
actual ( ) o de las soluciones candidatas actuales ( ). Para ello, se aplican
Operadores, según los valores de los Parámetros definidos, hasta generar la cantidad de
soluciones vecinas requeridas. Cada Operador tiene un valor de probabilidad asociado,
que se corresponde con la probabilidad de que dicho Operador sea utilizado para
generar soluciones vecinas. En la tabla 3.6 se resumen los Operadores definidos en
nuestro modelo, que están disponibles para cada nivel de integración. Como se puede
observar, el operador de agrupamiento no está disponible en el
nivel básico de integración. El nivel avanzado admite todos los Operadores definidos.
El operador (Operador aleatorio) es el más sencillo de los operadores.
Este permite generar soluciones aleatorias ( ).
El operador (Operador de mutación) permite mutar el valor de
( ) elementos de un vector , seleccionados aleatoriamente. Es
decir, se le aplica el operador de negación de la lógica ( ) a elementos (bits)
de un vector . Como cada elemento del vector ( ) representa un patrón, la
aplicación de este operador implica: incluir algunos patrones no contenidos en el
modelo integrado correspondiente a solución (cambiar los bits de 0 a 1), y eliminar
otros patrones que sí estaban contenidos en dicho modelo integrado (cambiar los bits
de 1 a 0). Si el tamaño de la población de soluciones es mayor que 1, entonces para
cada solución representada en el conjunto se genera un bit aleatorio que indica
50 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
si dicha solución muta o no. Las que no mutan pasan directamente a formar parte del
conjunto de soluciones que se devuelve.
El operador (Operador de cruzamiento) permite realizar
cruzamientos de soluciones a partir del conjunto actual de soluciones candidatas
( ). Este operador solo se puede aplicar si el tamaño de la población de soluciones
es mayor que 1. A partir del conjunto actual de soluciones candidatas se seleccionan
tantas soluciones como especifique el parámetro (porcentaje de selección).
Luego, de las soluciones seleccionadas se van tomando de dos en dos aleatoriamente.
De cada par de soluciones seleccionadas aleatoriamente (soluciones padres) resulta
un par de soluciones (soluciones hijas). Para cada par se genera un bit aleatorio que
indica si estos cruzan o no. El cruzamiento que se realiza es un cruzamiento
uniforme. Es decir, cada elemento de los vectores en las soluciones hijas se crea
copiando el correspondiente valor de un padre u otro, utilizando para ello una
máscara (vector binario) de cruce generada aleatoriamente. Donde hay un “1” en la
máscara los valores en el primer hijo se toman del primer padre y donde hay un “0”
se toman del segundo padre. Los valores del segundo hijo se establecen con las
decisiones inversas. Los pares que no cruzan pasan directamente a formar parte del
conjunto de soluciones que se devuelve. Esto se repite hasta obtener un conjunto de
soluciones del mismo tamaño que el conjunto de entrada ( ).
Por su parte, el operador (Operador de agrupamiento) permite agrupar
( ) patrones incluidos en una solución ( ), seleccionados
aleatoriamente. Es decir, se selecciona aleatoriamente elementos de un vector
con valor 1 (patrones incluidos en el modelo integrado actual) y se crea, a partir
de los patrones correspondientes seleccionados, un nuevo patrón (patrón hijo) que
“resume” las características de sus patrones padres. Si ya existe algún patrón igual al
patrón hijo creado, entonces se pone un 1 en el elemento correspondiente a dicho
patrón en el vector ; de lo contrario, se inserta al final de la Lista de Nuevos
Patrones descubiertos ( ) el nuevo patrón, y en un vector se adiciona al final un
elemento con valor 1, correspondiente al nuevo patrón descubierto que ha sido
incluido en el modelo integrado actual. Por lo tanto, al aplicar el operador
es posible que se genere un nuevo patrón; en este caso, la
dimensión del vector solución aumenta en uno. Finalmente, los elementos del
vector correspondientes a los patrones padres se ponen en 0 (son eliminados del
modelo integrado correspondiente al vector ). Cada elemento de contiene un
nuevo patrón descubierto ( ). Cada patrón en la lista carece de
medidas (cobertura y precisión) por lo que tiene la forma: . A
continuación se explica cómo este operador crea el patrón hijo a partir de los
patrones padres seleccionados. Si el tamaño de la población de soluciones es mayor
Capítulo 3. Modelo Conceptual 51
que 1, entonces para cada solución representada en el conjunto se genera un bit
aleatorio que indica si se le aplica o no a dicha solución el agrupamiento.
Tabla 3.6. Operadores definidos para la tarea Obtener Soluciones Vecinas.
Operador Función Nivel de
Integración
Genera soluciones aleatorias ( ). Nivel de Integración básico
( ) y Nivel de Integración avanzado
( )
Selecciona aleatoriamente ( ) elementos del vector ( bits),
que representan patrones, y le cambia su valor (si hay un 1 pone un 0, y si hay un 0 pone un 1).
Nivel de Integración básico
( ) y Nivel de Integración avanzado
( )
Selecciona tantas soluciones de como
especifique el parámetro (porcentaje de selección).
Toma soluciones (de las seleccionadas) de dos en dos aleatoriamente.
Para cada par genera un bit aleatorio que indica si estos cruzan o no.
Si cruzan, realiza un cruzamiento uniforme.
Los que no cruzan pasan directamente a formar parte del conjunto de soluciones que se devuelve.
Repite, hasta obtener un conjunto de soluciones del mismo tamaño que el conjunto
de entrada ( ).
Nivel de Integración básico
( ) y Nivel de Integración avanzado
( )
Para cada solución del conjunto genera
un bit aleatorio que indica si se le aplica o no el agrupamiento. Para las que requieran el agrupamiento hace lo siguiente:
Selecciona aleatoriamente (
) elementos del vector con el bit en 1,
Nivel de Integración avanzado
( )
52 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
que se corresponden con patrones
incluidos en el modelo integrado.
Genera un nuevo patrón (hijo), cuyos valores de atributos se obtienen a partir de los valores
de los patrones seleccionados (padres).
El nuevo patrón (hijo) resume las características de sus patrones padres.
El patrón descubierto se inserta al final en la
Lista de Nuevos Patrones descubiertos ( )
y en el vector se inserta al final un
elemento con el bit 1, correspondiente al patrón descubierto; mientras que, los elementos del vector correspondientes a los patrones padres se ponen a 0.
En nuestro modelo, como se explicó en el apartado 3.1.2, cada patrón , se
representa mediante un vector ( ), donde cada elemento del vector está definido
por la tupla (rol, valor). Entonces, en el operador de agrupamiento, para la
construcción de un nuevo patrón o patrón hijo (vector ), a partir de los
patrones padres seleccionados (conjunto de vectores ),
utiliza el operador ). Este operador sigue el siguiente
algoritmo:
Función
Entrada:
Salida: PARA HASTA HACER
FIN PARA
SI ENTONCES DEVOLVER SI NO
HACER
DEVOLVER FIN SI
Como se puede apreciar en el algoritmo descrito anteriormente, para determinar el
valor de cada posición del vector , se invoca a la función pasándole por
parámetro el conjunto de valores correspondientes a la posición en los vectores de
patrones padres. La función se define de la siguiente forma:
Función Entrada:
Salida: HACER //valor que más se repite
HACER //valor que más se repite
Capítulo 3. Modelo Conceptual 53
Una vez ejecutada la función para cada posición del vector , se invoca a
la función . Si el patrón representado en el vector es de tipo cluster,
dicha función devuelve siempre ; de lo contrario (el patrón es de tipo
regla) la función devuelve si no se cumple la siguiente
restricción:
3.35
La función devuelve si no existen atributos en el consecuente
de la regla, en cuyo caso no sería una regla válida. De suceder esto, es preciso invocar
a la función , cuyo algoritmo se muestra a continuación. Esta
función selecciona una posición aleatoria del vector (patrón hijo) y fija el
atributo correspondiente a dicha posición en el consecuente de la regla: poniendo el
valor en el rol ( ).
Función Entrada: Salida:
HACER HACER
En la tabla 3.7 se resumen los Parámetros utilizados en este subproceso, para la tarea
Obtener Soluciones Vecinas.
Tabla 3.7. Parámetros requeridos en la tarea Obtener Solucione Vecinas.
Parámetro Significado Dominio Valor por defecto
Probabilidad de aplicar el Operador aleatorio para generar soluciones vecinas.
Probabilidad de
aplicar el Operador de mutación para generar soluciones vecinas.
Probabilidad de aplicar el Operador de cruzamiento para generar soluciones vecinas.
54 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Probabilidad de aplicar el Operador de agrupamiento para generar soluciones vecinas.
Parámetro del Operador aleatorio.
(tabla 3.6)
Parámetro del Operador de mutación.
(tabla 3.6)
;
Parámetro del Operador de cruzamiento.
(tabla 3.6)
Parámetro del Operador de agrupamiento.
(tabla 3.6)
;
Una vez generadas todas las soluciones requeridas para conformar la vecindad, el
actor Evaluador de Soluciones se ocupa de ejecutar la tarea Evaluar Soluciones Vecinas. Esta
tarea, como su nombre indica, consiste en la evaluación de la función objetivo
(ecuación 3.19) en cada una de las soluciones que conforman la vecindad generada.
La evaluación de cada una de las soluciones vecinas se realiza siguiendo el mismo
procedimiento descrito en el apartado 3.2.1, para la evaluación de la solución inicial.
Los parámetros requeridos en esta tarea se resumen en la tabla 3.5 (apartado 3.2.1).
Posteriormente, el actor Sintetizador ejecutará la tarea Seleccionar Solución Candidata, la
que, como su nombre sugiere, consiste básicamente en la selección de la nueva
solución candidata ( ) o nuevo conjunto de soluciones candidatas ( ),
considerando las soluciones vecinas generadas, lo que define el nuevo estado actual.
La forma específica en que se define el nuevo estado actual depende de la
metaheurística que se implemente.
Para finalizar la tarea Seleccionar Solución Candidata, el actor Sintetizador actualiza las
Variables de Estado que permiten controlar el subproceso Síntesis. En la tabla 3.8 se
resumen estas variables.
Capítulo 3. Modelo Conceptual 55
Tabla 3.8. Variables de Estado que se actualizan en la tarea Seleccionar Solución Candidata.
Variable Significado Dominio Valor Inicial
Cantidad de iteraciones realizadas
(No ha concluido ninguna iteración)
Mejor solución encontrada
(Solución Inicial)
Mejor valor alcanzado de la función objetivo
;
(Máximo valor que puede tomar la función objetivo)
(ecuación 3.19)
Cantidad de iteraciones consecutivas realizadas que mantienen constante el mejor valor encontrado de la función objetivo
( )
(No se han realizado iteraciones consecutivas que hayan mantenido constante el mejor valor encontrado de la función objetivo)
Indica si se finaliza o no el proceso Síntesis
(No se finaliza el proceso Síntesis)
La variable (tabla 3.8) se actualizará, según el valor del Parámetro (Condición
de Parada) (tabla 3.9). El modelo que se propone soporta tres variantes de Condición
de Parada para el proceso de Síntesis. La primera ( ) implica que se detiene el
proceso cuando se alcance una cantidad máxima de iteraciones ( ). En la segunda
variante ( ), se detiene cuando no se supere el mejor valor alcanzado para la
función objetivo ( ) en una cantidad de iteraciones determinada (
).
La tercera y última variante ( ) el proceso se detiene si se obtiene una solución
que mejore o iguale cierto valor umbral para la función objetivo ( ).
Con la actualización de las Variables de Estado, concluye la tarea Seleccionar Solución
Candidata. Al concluir esta tarea, tal y como se muestra en la figura 3.10, si la variable
, se concluye el proceso Síntesis, devolviéndose el conjunto de
Patrones globales (mejorados) ( ); de lo contrario ( ), comenzará una
56 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
nueva iteración, ejecutándose una vez más la tarea Obtener Soluciones Vecinas a partir de
la nueva solución candidata ( ) o el nuevo conjunto de soluciones candidatas
( ).
En la tabla 3.9 se resumen los Parámetros requeridos en la tarea Seleccionar Solución
Candidata.
Tabla 3.9. Parámetros requeridos en la tarea Seleccionar Solución Candidata.
Parámetro Significado Dominio Valor por defecto
Condición de Parada :
(Se alcanzó la cantidad iteraciones especificada en el
parámetro )
Umbral máximo de
(tabla 3.8)
(Cantidad máxima de iteraciones : 5000)
Umbral máximo de (tabla 3.8)
(Cantidad máxima de iteraciones sin mejorar la función objetivo: 50)
Umbral mínimo de (valor
de función objetivo)
(Mínimo valor de la función objetivo)
3.2.3. Subproceso Asignación de Medidas
El subproceso Asignación de Medidas (pAM), es el responsable, como su nombre sugiere,
de estimar y asignar las medidas correspondientes (cobertura y precisión) a cada uno
de los patrones globales que resultan del subproceso anterior. En la figura 3.11 se
formaliza gráficamente este subproceso. Como se puede observar, el flujo de trabajo
de pAM está constituido por una única tarea: Asignar Medidas, ejecutada por el actor
Estimador de Medidas.
Para asignar a cada patrón global las medidas de cobertura y precisión adecuadas, el
actor Estimador de Medidas asocia a cada patrón global del modelo integrado
Capítulo 3. Modelo Conceptual 57
un conjunto de patrones locales
, que serán utilizados
posteriormente para la estimación de las medidas de dicho patrón global . Por lo
que, cada patrón
se selecciona de un modelo local
diferente.
Esto se hace con el objetivo de elegir de cada modelo local el patrón que sea más
similar al patrón global ; es decir, aquel patrón
que devuelva el menor
valor en la función de distancia entre patrones:
(ecuación 3.26).
Figura 3.11. Proceso Asignación de Medidas (pAM).
Si los patrones son de tipo regla, debido a sus características, es posible mejorar el
proceso de selección de los patrones que se emplearán de cada modelo local
,
con el propósito de seleccionar aquel patrón que sea más conveniente, intentando
minimizar el error que se cometerá en la posterior estimación de las medidas del
patrón global correspondiente. Para ello, se propone utilizar una nueva función
de distancia entre atributos, modificando la ecuación 3.29 la que sería utilizada, en
este caso, por la función de distancia entre patrones (de tipo regla) de la ecuación
3.26:
3.36
58 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Por lo que, la distancia entre el atributo del patrón del modelo y el atributo
en el patrón del modelo , tal y como se define en la ecuación 3.36, es igual a:
0 Si el rol ( ) del atributo en ambos patrones es el mismo y los valores
( ) de dicho atributo son iguales.
0.2 Si el rol ( ) del atributo en ambos patrones es diferente, y además el
atributo no está presente en el patrón local , en cuyo caso el rol
del atributo toma valor . Esto implica que dicho atributo no esté
presente en el antecedente o en el consecuente de la regla del modelo
local .
0.8 Si el rol ( ) del atributo en ambos patrones es diferente y además, el
atributo no está presente en el patrón global , en cuyo caso el
rol del atributo toma valor . Esto implica que dicho atributo no
esté presente en el antecedente o en el consecuente de la regla del
modelo integrado .
1 Si el atributo está presente en ambos patrones, pero con valores
diferentes.
Con el uso de esta nueva ecuación de distancia entre atributos (ecuación 3.36) se
priorizan aquellos patrones locales de tipo regla que representan un subconjunto del
patrón global.
Puede ocurrir que exista más de un patrón en un modelo local
que devuelva
el menor valor de distancia al evaluar la ecuación 3.26. Si esto sucede se selecciona,
en el caso de las reglas, aquel patrón local de menor calidad (ecuación 3.36; mientras
que en el caso de los clusters se selecciona uno al azar.
Una vez que se tienen los conjuntos de patrones locales asociados a cada patrón
global, considerando los valores de los Parámetros especificados por el usuario, se
prosigue a la aplicación de los operadores correspondientes para la estimación de las
medidas que serán asignadas a cada patrón global. A continuación se definen los
operadores que soporta nuestro modelo para la estimación de las medidas de
los patrones globales.
3.37
Capítulo 3. Modelo Conceptual 59
3.38
3.39
3.40
Donde y son los conjuntos de medidas locales y sus pesos
respectivamente, que corresponden al patrón global . El peso
de un
patrón local es una medida de semejanza entre el patrón global y el patrón local
seleccionado , el cual se define como:
3.41
Los operadores de estimación de medidas serán aplicados tantas veces como
patrones globales (mejorados) se tengan como entrada en el subproceso pAM. Los
valores de los Parámetros y determinarán el operador que se utilizará para
estimar la precisión y la cobertura respectivamente (tabla 3.10).
Tabla 3.10. Parámetros requeridos en el subproceso pAM.
Parámetro Significado Dominio Valor por defecto
Tipo de operador que se usará para
estimar (precisión)
(para estimar se usará el operador
promedio )
Tipo de operador que se usará para
estimar (cobertura)
(para estimar se usará el operador suma
)
Una vez aplicados los operadores definidos para la estimación de las medidas, estas
son asignadas a cada patrón global, resultando el conjunto de Patrones globales
(sintetizados) que constituye la salida del subproceso.
60 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
3.2.4. Resumen del Proceso Síntesis
Los subprocesos pCSI, pMS y pAM, descritos en las secciones precedentes (3.2.1, 3.2.2 y
3.2.3) garantizan que el proceso pS obtenga un conjunto de patrones globales que
sintetice los conjuntos de patrones locales seleccionados en el proceso pC, de manera
que el conjunto de patrones globales se corresponda con la mejor solución
encontrada según la función objetivo definida y los parámetros y operadores
especificados. Ante la imposibilidad de explorar todo el espacio de soluciones
posibles, el proceso pS no garantiza obtener una solución óptima, sino que su
objetivo fundamental es encontrar una Buena Solución, logrando un equilibrio
apropiado entre Eficacia y Eficiencia. Cada uno de los subprocesos que conforman el
proceso pS se formalizó gráficamente, mediante la notación de Eriksson-Penker. A
continuación, a modo de resumen, se definen los conjuntos de tareas ( ), de
actores ( ), y de recursos ( ) que resultan de las formalizaciones gráficas
asociadas al proceso pS.
3.42
3.43
3.44
Capítulo 3. Modelo Conceptual 61
3.3. Representación
El subproceso Representación (pR) tiene como propósito fundamental, una vez que
selecciona aquellos patrones (del conjunto de patrones globales sintetizados) que serán
incluidos definitivamente en el modelo integrado, representar dicho modelo global en
un formato estándar de intercambio de modelos de minería de datos. El uso de un
estándar de representación e intercambio de modelos de minería de datos garantiza el
vínculo o el enlace necesario con diferentes lenguajes y sistemas. Por lo tanto, el
resultado de la ejecución del subproceso pR será un fichero en formato estándar con
el modelo global integrado, el cual podrá ser interpretado en cualquier plataforma.
En la figura 3.12 se formaliza gráficamente el proceso pR, siguiendo la notación
Eriksson-Penker.
Figura 3.12. Proceso Representación (pR).
El proceso se formaliza algebraicamente como:
3.45
La etiqueta del proceso ( ) tiene el valor “Representación”. Los elementos que
conforman los conjuntos de tareas ( ), de actores ( ), y de recursos ( ) del
proceso se irán especificando a lo largo de esta sección 3.3, quedando definidos
explícitamente en el apartado 3.3.3. En la realización de las tareas del proceso pR
participa el actor Representador de Modelos, responsable de todo el proceso.
En las siguientes secciones se describe pR detallando cada uno de sus subprocesos.
62 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
3.3.1. Subproceso Selección de Patrones
El subproceso Selección de Patrones (pSP), es el responsable de examinar cada uno de los
patrones globales sintetizados ( ) con el propósito de seleccionar los patrones
que serán incluidos definitivamente en el modelo global integrado. En la figura 3.13
se formaliza gráficamente este subproceso. Como se puede observar, el flujo de
trabajo de pSP lo constituye una única tarea: Seleccionar Patrones.
Figura 3.13. Proceso Selección de Patrones (pSP).
La tarea Seleccionar Patrones, como su nombre lo indica, consiste en la selección de los
patrones que serán incluidos finalmente en el modelo global integrado, considerando
los valores de los Parámetros especificados por el usuario. En la tabla 3.11 se detallan
los Parámetros utilizados en este subproceso.
Tabla 3.11. Parámetros requeridos en el subproceso pSP.
Parámetro Significado Dominio Valor por defecto
Umbral mínimo de
(Se refiere a la magnitud mínima que debe tener la Precisión de los patrones en el modelo global)
(significa que se toma como
umbral mínimo de : el mínimo valor de Umbral de Precisión utilizado para la aceptación de los patrones en los modelos locales)
Umbral mínimo de
(Se refiere a la magnitud mínima que debe tener la Cobertura de los patrones en el modelo global)
(significa que se toma como
umbral mínimo de : el mínimo valor de Umbral de Cobertura utilizado para la aceptación de los
patrones en los modelos locales)
Umbral máximo de
(Se refiere a la
(no se limita la cantidad de
Capítulo 3. Modelo Conceptual 63
cantidad máxima permitida de patrones en el modelo global)
patrones en el modelo global)
En resumen, se seleccionarán aquellos patrones globales que cumplan con los valores
especificados para los Parámetros: ,
. Una vez realizada esta selección, si la
cantidad de patrones en el modelo global supera el valor de , entonces se
eliminarán aquellos patrones de menor precisión y cobertura, hasta cumplir con el
umbral máximo de cantidad de patrones especificado ( ).
3.3.2. Subproceso Representación de Modelo
El subproceso Representación de Modelo (pRM) se ocupa de representar el modelo global
de minería de datos. Este modelo contendrá el conjunto de patrones globales
seleccionados en el subproceso pSP. Como resultado se obtiene un fichero en
formato estándar correspondiente al modelo global de minería de datos que resultó
de la integración de un conjunto de modelos locales. En la figura 3.14 se representa el
flujo de trabajo del subproceso pRM, determinado por una única tarea: Representar
Modelo Global.
Figura 3.14. Proceso Representación de Modelo (pRM).
El actor Representador de Modelos, a partir de las Fichas de los modelos locales que fueron
integrados, crea el “encabezamiento” del fichero correspondiente al modelo global
que se quiere representar, según defina el formato estándar. Posteriormente, a partir
del conjunto de patrones globales (seleccionados), construye el “cuerpo” del fichero,
representando los patrones globales según el tipo de los modelos locales que fueron
integrados (reglas de asociación, clusters, etc.).
64 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
3.3.3. Resumen del Proceso Representación
Ambos subprocesos descritos en las secciones precedentes (3.3.1 y 3.3.2) garantizan
que pR represente, en un formato estándar de intercambio de modelos de minería de
datos, el modelo global obtenido a partir de los modelos locales de entrada al proceso
de Integración. Cada uno de estos subprocesos se formalizó gráficamente, mediante la
notación de Eriksson-Penker. A continuación, a modo de resumen, se definen los
conjuntos de tareas ( ), de actores ( ), y de recursos ( ) que resultan de las
formalizaciones gráficas asociadas al proceso pR.
3.46
3.47
3.48
3.4. Resumen del Proceso Integración
Los tres subprocesos (pC, pS y pR) descritos en las secciones precedentes (3.1, 3.2 y
3.3) garantizan que pI integre los modelos locales que recibe como entrada, según los
parámetros especificados, obteniendo como resultado un modelo de minería de
datos global representado en un formato estándar de intercambio de modelos. Cada
uno de estos subprocesos se formalizó gráficamente, mediante la notación de
Eriksson-Penker. A continuación se definen los conjuntos de tareas ( ), de actores
( ), y de recursos ( ) que resultan de las formalizaciones gráficas asociadas al
proceso pI.
3.49
3.50
3.51
Finalmente, en la ecuación 3.52 se formaliza algebraicamente el conjunto de Procesos
(P) que resulta de las especificaciones del MC_MIC.
3.52
65
CAPÍTULO 4
4 MODELO FUNCIONAL
Una vez definido el Modelo Conceptual (MC_MIC), mediante los procesos que
sustentan nuestra propuesta (Modelo de Integración de Conocimiento - MIC),
corresponde abordar el Modelo Funcional (MF_MIC). El MF_MIC constituye una
propuesta de especificación funcional de nuestro modelo (MIC). Este se define
formalmente como un Sistema Multi-Agente (MAS - Multi-Agent System) que
hemos denominado Sistema de Integración de Conocimiento (SIC). Las tareas que
ejecutan los agentes del SIC son el elemento de enlace entre el Modelo Conceptual y el
Modelo Funcional del MIC. En el presente capítulo se describe el Modelo Funcional,
definiendo los agentes que cooperan para controlar y ejecutar las tareas especificadas
en el Modelo Conceptual. La formalización del Modelo Funcional (MF_MIC) se realiza
tomando como base el marco formal definido en [Lorenzo, 2009; Lorenzo et al.,
2009; Maciá, 2001; Maciá & García, 2006], en el que se consideran los agentes como
entidades que están permanentemente percibiendo su entorno, deliberando sobre la
siguiente tarea que realizarán, y ejecutando dicha tarea. Este enfoque se conoce como
arquitectura PDE (Perception-Deliberation-Execution) [Maciá, 2001]. Por otra parte,
las necesidades de expresividad del MF_MIC hacen que resulte adecuado utilizar
para su especificación formal, el estándar UML (Unified Modeling Language) en su
versión 2.0 [Bauer & Odell, 2005; Rumbaugh et al., 2007].
El MF_MIC se formaliza algebraicamente mediante la tupla:
4.1
Donde constituye el entorno de nuestro sistema y es el conjunto de todos
los agentes responsables de ejecutar y controlar las tareas identificadas en el
66 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
MC_MIC, interactuando entre sí y con el entorno. Los agentes en el Modelo Funcional
se corresponden con los recursos de tipo actores identificados en el Modelo Conceptual.
El entorno puede interpretarse como un “repositorio de conocimiento” en el
que pueden existir modelos locales de minería de datos que requieren ser integrados,
y por otra parte, modelos globales de minería de datos que integran determinados
conjuntos de modelos locales. Formalmente se define como el conjunto de
estados del mundo , el conjunto de tareas ( ), el conjunto de influencias ( ) y la
reacción del mundo ante las distintas influencias ( ):
, , , eact 4.2
Los estados posibles del mundo ( ) constituyen instancias de los
conceptos fundamentales que se manejan en el entorno del sistema, con sus
propiedades y relaciones. Las tareas ( ) son las acciones que ejecutan los
agentes. Mientras que, las influencias ( ) no son más que la conjunción
de los estados y las tareas. La función modela la reacción del mundo ante las
distintas influencias, es decir, la reacción del entorno ante las acciones de los agentes.
Por su parte, cada agente del MF_MIC puede formalizarse, en principio,
como:
4.3
Donde es la etiqueta que especifica el nombre del agente y define el tipo de
dicho agente. Los tipos de agentes que pueden existir en nuestro modelo son: agentes
coordinadores ( ) y agentes operadores ( ). Los agentes coordinadores son los
responsables de coordinar la ejecución de las tareas definidas como parte de los
procesos descritos en el MC_MIC; mientras que, los agentes operadores son los
encargados de ejecutarlas. Donde:
4.4
4.5
En la ecuación 4.3, los restantes elementos que formalizan un agente: ,
y , se refieren a las funciones de Percepción, Deliberación y Ejecución
propias de la arquitectura PDE (figura 4.1).
Capítulo 4. Modelo Funcional 67
Figura 4.1. Estructura de un agente PDE dentro de un MAS.
Un agente , mediante la función convierte un estado del medio en una
interpretación propia. A estas interpretaciones se les nombra percepciones, y pueden
ser definidas para cada agente través del conjunto como:
4.6
De esta forma, para cada agente queda definida la percepción como una aplicación
del conjunto de estados del medio sobre el conjunto de percepciones del agente:
4.7
Los agentes que se definen en el MF_MIC se clasifican, según su comportamiento,
en agentes cognitivos [Maciá, 2001]. Estos agentes poseen la capacidad de
memorizar, por lo que, la función de deliberación ( ) que desarrollan está
dotada de conocimiento. En la formalización de un agente cognitivo se incluyen los
estados internos de la memoria del agente, y una función de memorización de
estados . Dicha función deberá relacionar las percepciones con el conjunto de
estados internos del agente, para obtener nuevos estados internos. Luego, sea el
conjunto de estados internos (conocimiento) de un determinado agente cognitivo :
4.8
La función de memorización se define como:
x 4.9
Entonces, la función de deliberación de cada agente del MF_MIC relacionará las
percepciones y los estados internos del agente para obtener las tareas a ejecutar:
68 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
x 4.10
Para los agentes cognitivos la función que representa su comportamiento se define, a
partir de los estados del medio y de sus estados internos, como:
con
4.11
Finalmente, la operación de ejecución de los agentes se define en función de las
percepciones de cada uno (ecuación 4.12). Es decir, cada agente utiliza sus
percepciones para obtener las influencias ( ). Esto implica que los agentes podrán
ejecutar sus tareas sin necesidad de tener conocimiento global del estado del entorno.
4.12
Un agente cognitivo se formaliza como:
4.13
Los cambios globales del sistema (SIC) de un estado a otro estado se
pueden expresar, de manera general, como:
(t 1) eact (t), t t
t 1 t t
t 1 t t
con t (t)
4.14
Donde la primera ecuación describe el estado del entorno según el tiempo y el
comportamiento de cada agente, y el resto de las ecuaciones expresan las
modificaciones en el estado interno de los agentes cognitivos.
La acción del sistema se expresa como la unión de todas las influencias aportadas por
los diferentes agentes. Ante la acción del sistema reacciona el entorno, lo cual se
Capítulo 4. Modelo Funcional 69
modela mediante la función , ocurriendo de esta forma una transición hacia
un nuevo estado.
En los siguientes apartados se describirán en detalle el entorno del sistema ( ) y
el conjunto de agentes ( ) que conforman el MAS, ambos elementos del MF_MIC.
4.1. Entorno del SIC
Como se explicó antes, el conjunto de estados del mundo , el conjunto de tareas
( ), y el conjunto de influencias ( ) definen el entorno de nuestro sistema ( ).
De estos, el conjunto de influencias ( ) queda completamente definido a través de
las tareas ( ) y de los estados del mundo ; ya que, una influencia ( ) no es
más que la ejecución de una tarea sobre un estado del mundo . Es por
ello, que no es preciso dedicar un apartado a las influencias. A continuación se
describen los estados del mundo y las tareas del .
4.1.1. Estados del Mundo
Cada estado del entorno del sistema se puede formalizar como un conjunto de
pares ordenados:
4.15
Donde, cada elemento del conjunto posee la estructura , en la que el
primer elemento ( ) es una lista de modelos locales (ecuación 4.16), y el segundo
elemento ( ) es una lista de modelos globales (ecuación 4.17). Cada modelo (local
o global) incluye su correspondiente ficha ( ). En un elemento determinado
( ) del conjunto , cada uno de los modelos globales de la lista son el
resultado de la integración del conjunto de modelos locales . Para un conjunto de
modelos locales determinado pueden resultar diferentes modelos globales que los
integren, según el comportamiento de los diversos agentes del sistema ante sus
percepciones y su estado interno. Como se define en las ecuaciones 4.16 y 4.17, en
las listas y , cada elemento está compuesto por un modelo y su ficha
correspondiente.
4.16
4.17
70 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Siempre que una determinada lista de modelos globales no esté vacía, la lista de
modelos locales correspondiente tampoco podrá estarlo, lo que se define
formalmente en la siguiente restricción:
4.18
Tal y como se definió en el apartado 1.2, cada uno de los modelos (locales o globales)
tienen asociados un conjunto de patrones, donde cada patrón ( ) se formaliza
mediante la tupla: .
4.1.2. Tareas
Las tareas que ejecutan los agentes constituyen el elemento de enlace entre el
MF_MIC y el MC_MIC, ya que se corresponden con los procesos y tareas
identificados durante el modelado conceptual. Se formalizan mediante la siguiente
estructura:
nombre, pre, acción 4.19
Donde se describe el nombre, las precondiciones y las acciones que se ejecutarán si
se cumplen las precondiciones [Maciá, 2001]:
nombre, es una expresión con la forma f(x1, ..., xk) donde cada xi es una variable
autorizada para aparecer en las fórmulas pre y acción.
pre y acción, son conjuntos de fórmulas con la forma g(a1, ..., an), donde g es un
predicado n-ario y cada ai son constantes o variables. pre describe las
condiciones que debe verificar la acción para ser ejecutada.
Al ejecutar la acción, se producen un conjunto de influencias que actúan sobre el
entorno. Las funciones de de cada agente se definen mediante la ejecución de
una determinada tarea como se expresa a continuación:
Ejec ( nombre, pre, acción , t )
acción si pre t se verifica
si pre t no se verifica
4.20
Para cada agente , la función de ejecución de una tarea ( ),
se define en función de las percepciones de dicho agente ( ). Cada agente utiliza
sus percepciones para ejecutar acciones, y como resultado obtener las influencias. A
partir de las percepciones, se evalúan las fórmulas declaradas como precondiciones
Capítulo 4. Modelo Funcional 71
(pre). El conjunto de fórmulas que conforman la acción del agente se ejecuta sólo si se
verifican todas las precondiciones.
En el Modelo Conceptual se definieron las tareas como parte de los procesos
fundamentales que conforman nuestra propuesta. En esta vista funcional,
corresponde expresarlas en términos de tareas que podrán ser ejecutadas por un
agente del sistema; lo que implica definir a grandes rasgos el algoritmo que deberá
ejecutar el agente software. A modo de ejemplo, se muestra a continuación la
definición formal de las tareas Examinar Fichas y Seleccionar Modelos que constituyen el
primer subproceso (Selección de Modelos) definido en el Modelo Conceptual (apartado
3.1.1).
nombre ExaminarFichas(
)
pre ExistenModelosLocales( ) ExistenFichas( )
acción ObtenerModelosFichasCompletas(
)
Donde es la lista de modelos locales iniciales y la lista de sus fichas
correspondientes; mientras que, es la lista de los modelos locales iniciales
cuyas fichas están “completas” (apartado 3.1.1) y es la lista de sus fichas
correspondientes.
nombre SeleccionarModelos(
)
pre ExaminadasFichas(
)
ExisteModelosFichasCompletas(
)
acción ObtenerModelosCantPatrones(
)
ObtenerModelosCantInstancias(
)
Donde y
son los parámetros utilizados para la selección de los modelos
locales (apartado 3.1.1, tabla 3.1), almacenados en la memoria interna ( ) del agente
Codificador de Modelos ( ), responsable de la ejecución de la tarea Seleccionar Modelos.
Por su parte, es la lista de modelos locales seleccionados y la lista de sus
fichas correspondientes.
Como resultado de la ejecución de las diferentes tareas ( ) sobre un estado del
mundo ( ) se obtienen las influencias ( ). La unión de todas las influencias
( ) aportadas por los diferentes agentes define la acción del sistema.
72 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
4.2. Agentes del SIC
A continuación se definen los agentes ( ) que conforman el sistema (SIC), así como
sus interacciones con el propósito de integrar conjuntos de modelos locales ( ) y
generar, como resultado de la integración, nuevos modelos globales ( ). Estos
agentes son los responsables de la ejecución y del control de las tareas identificadas
en nuestro Modelo Conceptual (MC_MIC), lo que hace posible el funcionamiento del
sistema. Los agentes del SIC pueden desempeñar tres roles diferentes, en
correspondencia con su tipo: Agente Operador (AO), Agente Coordinador (AC) o Agente
Coordinador General (ACG). En la figura 4.2 se muestra la estructura jerárquica de los
agentes del SIC, según su rol.
Figura 4.2. Estructura jerárquica de los agentes del SIC.
El Agente Coordinador General (ACG), es el responsable del funcionamiento de todo el
sistema, por lo que, ejecuta fundamentalmente tareas de planificación y control en
correspondencia con el flujo de los procesos descritos en el MC_MIC. Subordinados
directamente a este agente se encuentran los Agentes Coordinadores (AC), responsables
de supervisar a los Agentes Operadores (AO) que se organizan en cada uno de los
paquetes funcionales del SIC. El Modelo Funcional (MF_MIC) que describe el SIC se
ha estructurado formalmente en paquetes funcionales que agrupan el desempeño de
los agentes del sistema, tal y como se muestra en el diagrama de paquetes de la figura
4.4, mediante notación UML [Rumbaugh et al., 2007]. Los paquetes Codificación,
Síntesis y Representación, se corresponde con cada uno de los tres procesos
fundamentales definidos en el MC_MIC (capítulo 3).
ACG
AC1
AO1 AOn
ACm
AOp
Capítulo 4. Modelo Funcional 73
Figura 4.3. Diagrama de paquetes del SIC.
El agente Coordinador del SIC ( ) controla todo el sistema, interactuando con
los agentes coordinadores de cada paquete: agente Coordinador de Codificación ( ),
agente Coordinador de Síntesis ( ) y agente Coordinador de Representación ( ). Las
tareas ejecutadas por el ACG ( ) que le permiten llevar a cabo su función de
planificador y controlador general son: Activar codificación, Activar síntesis, Activar
representación, Desactivar codificación, Desactivar síntesis, Desactivar representación. Estas, no
son más que la activación y desactivación de cada uno de los procesos fundamentales
del modelo propuesto, correspondientes a cada paquete funcional. Las tareas de
activación, implican a su vez la especificación de los parámetros de configuración
requeridos en cada paquete. De esta forma el agente planifica y controla todo el
flujo de ejecución del SIC. Luego, el agente emplea interfaces para la
comunicación con los agentes coordinadores de los tres paquetes funcionales del
sistema: Paquete Codificación, Paquete Síntesis y Paquete Representación, tal y como se
formaliza gráficamente en el diagrama de componentes de la figura 4.4.
Figura 4.4. Interfaces de comunicación del agente Coordinador del SIC ( ).
Como se puede apreciar en la figura 4.4, la interacción entre los agentes del SIC,
representados como componentes del sistema, se formaliza mediante interfaces
obligatorias (interfaces de salida) para el agente iniciador de la comunicación, e
74 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
interfaces proporcionadas (interfaces de entrada) para el agente receptor de la
comunicación [Rumbaugh et al., 2007]. En el diagrama de la figura 4.4, se muestran
tres canales de comunicación, en los que el agente Coordinador del SIC ( ) es el
que posee la interfaz de salida, mientras que los agentes: agente Coordinador de
Codificación ( ), agente Coordinador de Síntesis ( ) y agente Coordinador de
Representación ( ) implementan las interfaces de entrada.
En el siguiente apartado se define formalmente el modelo de comunicación utilizado
por los agentes del SIC.
4.2.1. Comunicación entre Agentes
En el Modelo Funcional presentado en este trabajo, se deben precisar dos elementos
fundamentales para formalizar la comunicación entre los agentes del SIC: el lenguaje
de comunicación y el protocolo de interacción utilizado [Weiss, 2000; Wooldridge,
2009]. A continuación se definen ambos elementos.
Uno de los resultados más relevantes en la estandarización de la teoría de agentes es
el desarrollo de lenguajes de comunicación entre agentes ACLs (Agent
Communication Languages). La concepción de estos lenguajes implica la interacción
a un nivel más semántico, basándose en la teoría de actos comunicativos. La
definición formal de actos comunicativos permite especificar la intención de cada
mensaje. Existen varias especificaciones de ACLs, como: KQML (Knowledge Query
and Manipulation Language) [Labrou & Finin, 1998], y más recientemente FIPA-
ACL [FIPA, 2002c], propuesto por FIPA (Foundation for Intelligent Physical
Agents). KQML y FIPA-ACL presentan una estructura básica similar, aunque existen
diferencias en los actos comunicativos que definen. En nuestro Modelo Funcional, para
la definición de los mensajes que intercambian los agentes del SIC, se emplea el
estándar FIPA-ACL, siendo sus especificaciones compatibles con la notación UML
2.0.
En FIPA-ACL se definen 22 actos comunicativos o “performative”. Estos se listan
en la tabla 4.1, indicando la categoría de cada uno, según la intención que expresan
[FIPA, 2002c]. A su vez, la especificación de los mensajes en FIPA-ACL se basa en
FIPA-SL (FIPA-Semantic Language), lenguaje que permite formalizar la semántica
del contenido de los mensajes.
Capítulo 4. Modelo Funcional 75
Tabla 4.1. Actos comunicativos de FIPA-ACL.
Categorías Actos Comunicativos
Solicitud de Información query-if, query-ref, subscribe
Envío de Información confirm, disconfirm, inform, inform-if, inform-ref
Negociación accept-proposal, cfp, propose, reject-proposal
Ejecución de Acciones agree, cancel, propagate, proxy, refuse, request, request-when, request-whenever
Manejo de Errores failure, not-understood
A modo de ejemplo se muestra a continuación cómo se expresa en nuestro caso, un
mensaje dirigido de un agente a otro agente , mediante el cual el agente emisor
solicita la receptor que seleccione modelos locales a integrar posteriormente; es decir,
que ejecute la acción Seleccionar Modelos (ver apartado 4.1.2), incluida en el proceso de
codificación.
(request
:sender
:receiver
:content (action iota ? ?
(SeleccionarModelos (
? ? )))
:language fipa-sl
)
Además, el estándar FIPA-ACL define una serie de protocolos de interacción que
representan los patrones que modelan las posibles conversaciones, definiendo el tipo
(mediante la especificación de la intención) y la secuencia de los mensajes
involucrados. En el MF_MIC, la comunicación entre los agentes se modela tomando
como base fundamentalmente los protocolos de interacción definidos por FIPA:
Contract Net (Red de Contratos) y Request (Solicitud) [FIPA, 2002a, 2002b, 2002c].
Mediante el protocolo Contract Net el agente iniciador de la comunicación realiza
solicitudes de determinado servicio, a varios agentes. Para ello, envía mensajes cfp con
la tarea requerida y las condiciones sobre su ejecución. Los agentes receptores del
mensaje son potenciales contratistas. Estos responden con propuestas que son
valoradas por el agente solicitante, con el propósito de elegir finalmente al agente que
contratará. En la figura 4.5 se muestra el diagrama de secuencia, en notación UML
2.0, correspondiente al protocolo Contract Net, tal y como lo define FIPA [FIPA,
2002a, 2002c]. La comunicación por este protocolo es bastante costosa, debido a la
cantidad de mensajes que se requiere intercambiar, por lo que, se utiliza sólo en casos
necesarios.
76 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 4.5. Diagrama de secuencia del protocolo Contract Net de FIPA.
Por otra parte, en la comunicación por el protocolo Request, el agente emisor solicita
al receptor que ejecute cierta acción. Una aplicación importante de este protocolo es
solicitar al agente receptor que realice determinado acto comunicativo. En la figura
4.6 se muestra el diagrama de secuencia que describe este protocolo [FIPA, 2002b,
2002c].
Capítulo 4. Modelo Funcional 77
Figura 4.6. Diagrama de secuencia del protocolo Request de FIPA.
Además, tomando como referencia el estándar UML 2.0, los canales de
comunicación que se establecen entre los diferentes agentes del sistema se formalizan
gráficamente mediante diagramas de componentes. En estos, cada agente se
representa como un componente software, especificando sus interfaces obligatorias
(interfaces de salida) y sus interfaces proporcionadas (interfaces de entrada), según
corresponda. Según se define en UML 2.0 [Rumbaugh et al., 2007] una “interfaz
obligatoria” es una declaración de que el componente requiere obtener funciones o
servicios de otros elementos que los proporcionen. Mientras que, una “interfaz
proporcionada” es un conjunto de servicios proporcionados por el componente para
que sean invocados desde el exterior, es decir, desde componentes o clases externas.
Luego, un canal de comunicación entre dos agentes ( y ) se define como una
tupla formada por la interfaz de salida (interfaz obligatoria) del agente iniciador de
la comunicación, la interfaz de entrada (interfaz proporcionada) del agente
receptor, y el protocolo de interacción:
Protocolo 4.21
78 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
En los apartados siguientes se describen los agentes coordinadores y agentes
operadores del SIC, agrupados en los tres paquetes funcionales antes mencionados:
Paquete Codificación, Paquete Síntesis y Paquete Representación.
4.2.2. Paquete Codificación
El rol de Agente Coordinador en el Paquete Codificación lo desempeña (agente
Coordinador de Codificación), por lo que dicho agente es el responsable de la codificación
de los modelos locales que serán integrados posteriormente en el paquete Síntesis.
Para ello, controla el funcionamiento de los Agentes Operadores: agente Receptor de Modelos
( ) y agente Codificador de Modelos ( ), mediante la ejecución de las tareas: Iniciar
Recepción de Modelos, Detener Recepción de Modelos e Iniciar Codificación. Además, ejecuta la
tarea Enviar Modelos Codificados al Coordinador de Síntesis, lo que implica la comunicación
con dicho agente ( ). En la figura 4.7 se muestran las interfaces de comunicación
de los tres agentes contenidos en el Paquete Codificación.
Figura 4.7. Interfaces de comunicación de los agentes del Paquete Codificación.
El diagrama anterior describe las relaciones entre los agentes del Paquete Codificación,
mediante las interfaces de entrada (interfaces proporcionadas) y las interfaces de
salida (interfaces obligatorias) de cada uno. Además, el agente Coordinador de Codificación
( ) posee interfaz de salida con el agente Coordinador de Síntesis ( ) e interfaz de
entrada con el agente Coordinador del SIC ( ).
Capítulo 4. Modelo Funcional 79
Mediante las tareas Iniciar Recepción de Modelos y Detener Recepción de Modelos el agente
orienta al agente que comience a receptar conjuntos de modelos locales de
minería de datos del entorno, o que detenga la recepción de modelos, según
corresponda. De manera similar, mediante la tarea Iniciar Codificación el agente
orienta, en este caso al agente , que inicie las tareas de codificación de modelos
locales de minería de datos. Finalmente, mediante la tarea Enviar Modelos Codificados al
Coordinador de Síntesis, como su nombre sugiere, el agente envía al agente Coordinador
de Síntesis ( ), los modelos locales codificados como conjuntos de patrones locales
(salida del proceso Codificación, descrito en el Modelo Conceptual) para su posterior
integración.
Las tareas que ejecuta el agente Receptor de Modelos ( ) son: Recibir Modelos y Enviar
Modelos al agente . El agente constituye el punto de entrada de los datos del
entorno hacia los restantes agentes del SIC, por lo que, su función de percepción
tiene especial importancia. Esta se define como sigue:
( )
donde 4.22
Por su parte, la función de deliberación del agente se puede formalizar como:
( ,
)
donde
4.23
La tarea Enviar Modelos consiste en enviar al agente los conjuntos de modelos
locales ( ) del entorno que requieren ser integrados, es decir aquellos en los que
la lista de modelos integrados correspondiente es nula o vacía ( ). La tarea
Recibir Modelos implica continuar recibiendo los conjuntos de modelos de minería de
datos del entorno del sistema.
Por su parte, el agente Codificador de Modelos ( ) ejecuta las tareas: Examinar Fichas,
Seleccionar Modelos, Codificar Modelos y Enviar Modelos Codificados al agente . Las tres
primeras tareas se corresponden con las descritas en el Modelo Conceptual como parte
del proceso Codificación (pC). La tarea Enviar Modelos Codificados consiste en enviar al
agente los modelos locales, codificados como conjuntos de patrones locales,
listos para su posterior integración.
80 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
En la tabla 4.2, a modo de resumen, se relacionan los agentes del Paquete Codificación
con las tareas que cada uno ejecuta.
Tabla 4.2. Resumen de tareas ejecutadas por los agentes del Paquete Codificación.
Agente Tareas
CC
(Coordinador)
Iniciar Recepción de Modelos, Detener Recepción de Modelos, Iniciar Codificación, Enviar Modelos Codificados al Coordinador de Síntesis
RM
(Operador)
Recibir Modelos, Enviar Modelos
CM
(Operador)
Examinar Fichas, Seleccionar Modelos, Codificar Modelos, Enviar Modelos Codificados
4.2.3. Paquete Síntesis
El Paquete Síntesis es el de mayor complejidad en el MF_MIC. En este caso, el rol de
Agente Coordinador corresponde al agente Coordinador de Síntesis ( ). Este es el
responsable de la síntesis de los modelos locales codificados con el propósito de
obtener un conjunto de patrones globales de manera eficiente y eficaz. Controla el
funcionamiento de los Agentes Operadores: agente Constructor de Solución Inicial ( ),
agente Mejorador de Solución ( ) y agente Estimador de Medidas ( ), mediante la
ejecución de las tareas: Iniciar Construcción de Solución Inicial, Iniciar Mejora de Solución e
Iniciar Estimación de Medidas. Además, ejecuta la tarea Enviar Patrones Globales al
Coordinador de Representación, lo que implica la comunicación con dicho agente ( ).
Además de los tres Agentes Operadores antes mencionados, existen otros dos agentes
en el Paquete Síntesis: agente Evaluador de Soluciones ( ) y agente Generador de Vecindad
( ). Estos agentes no se comunican con el agente Coordinador de Síntesis ( ), sino
con otros Agentes Operadores. En la figura 4.8 se muestran las interfaces de
comunicación de todos los agentes contenidos en el Paquete Síntesis.
Capítulo 4. Modelo Funcional 81
Figura 4.8. Interfaces de comunicación de los agentes del Paquete Síntesis.
Como se puede apreciar en el diagrama anterior, el agente Coordinador de Síntesis ( )
posee interfaz de salida (interfaz obligatoria) con el agente Coordinador de Representación
( ) e interfaces de entrada (interfaces proporcionadas) con el agente Coordinador de
Codificación ( ) y con el agente Coordinador del SIC ( ). El agente Generador de
Vecindad ( ) posee interfaz de entrada con el agente Mejorador de Solución ( );
mientras que, el agente Evaluador de Soluciones ( ) posee interfaces de entrada con el
agente Constructor de Solución Inicial ( ) y con el agente Mejorador de Solución ( ).
Mediante las tareas Iniciar Construcción de Solución Inicial, Iniciar Mejora de Solución e Iniciar
Estimación de Medidas el agente indica a los agentes , y que
comiencen, respectivamente, las tareas de construcción de solución inicial, mejora
iterativa de la solución y estimación de medidas de patrones, especificando los
parámetros necesarios en cada caso. Finalmente, mediante la tarea Enviar Patrones
Globales al Coordinador de Representación, como su nombre sugiere, el agente envía al
agente Coordinador de Representación ( ), los patrones globales sintetizados (salida del
proceso Síntesis descrito en el Modelo Conceptual) para su posterior representación.
Las tareas que ejecuta el agente Constructor de Solución Inicial ( ) son: Seleccionar
Codificación de Soluciones, Construir Solución Inicial, Solicitar Evaluación de Solución Inicial y
Enviar Solución Inicial al agente . Las dos primeras tareas se corresponden con las
tareas, del mismo nombre, definidas en el proceso Construcción de Solución Inicial (pCSI),
82 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
descritas en el Modelo Conceptual. La tarea Solicitar Evaluación de Solución consiste, como
sugiere su nombre, en solicitar al agente que evalúe, mediante la función objetivo
propuesta (ecuación 3.19), la solución inicial construida. Finalmente, la tarea Enviar
Solución Inicial consiste en enviar al agente la solución inicial construida o conjunto
de patrones globales iniciales (carentes de medidas), especificando su “calidad”
(evaluación de la función objetivo).
A partir de la solución inicial construida por el agente , el agente Mejorador de
Solución ( ) se ocupa de la mejora iterativa de dicha solución inicial, tal y como se
define en el proceso Mejora de Solución (pMS) del Modelo Conceptual.
La naturaleza iterativa de este proceso, hace de la función de deliberación del agente
una de las más complejas de nuestro Modelo Funcional. En dicha función el agente
utiliza los datos almacenados en su memoria interna ( ) para llevar a cabo y
controlar el proceso iterativo.
Esta función de deliberación se formaliza como se muestra a continuación:
( ,
)
donde
(
4.24
Capítulo 4. Modelo Funcional 83
Donde:
: Mejor solución encontrada (conjunto de patrones globales), almacenada en
la memoria del agente. Variable de Estado definida en el proceso Mejora de Solución
(pMS)(tabla 3.8).
: Valor de la función objetivo para la mejor solución encontrada (conjunto
de patrones globales), almacenado en la memoria del agente. Variable de Estado
definida en el proceso Mejora de Solución (pMS)(tabla 3.8).
: Variable almacenada en la memoria del agente que indica si este
ha comenzado ( ) o no ( ) a procesar determinada solicitud de mejora de solución
inicial.
: Variable almacenada en la memoria del agente, correspondiente a la Variable de
Estado del mismo nombre, definida en el proceso Mejora de Solución (pMS)(tabla 3.8), que
indica si se finaliza ( ) o no ( ) dicho proceso.
: Constituye el estado actual, a partir de la cual se genera la vecindad de
soluciones.
: Agrupa los siguientes parámetros de configuración del proceso Mejora de
Solución (pMS): , , , , , , ,
, , ,
, ) (tablas 3.4, 3.5, 3.7 y 3.9). Estos son
especificados por el agente Coordinador de Síntesis al solicitarle al agente Mejorador de
Solución, la mejora de una solución inicial determinada. El agente Mejorador de Solución,
mediante la función de memorización, almacena dichos patrones en su memoria
interna.
: Vecindad del estado actual (solución candidata o conjunto de soluciones
).
: Lista de los modelos locales seleccionados en el Paquete Codificación. Variable
almacenada en la memoria del agente.
: Lista de las fichas de los modelos locales seleccionados en el Paquete
Codificación. Variable almacenada en la memoria del agente.
: Evaluaciones de la función objetivo, definida en nuestro Modelo Conceptual,
para cada una de las soluciones incluidas en la vecindad , que constituyen una
medida de la “calidad” de dichas soluciones.
: Nuevo estado, soluciones candidatas seleccionadas.
: Valor de la función objetivo para las soluciones del nuevo estado actual.
84 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Como se deduce de la función de deliberación del agente las tareas que este
ejecuta son: Solicitar Soluciones Vecinas, Solicitar Evaluación de Soluciones Vecinas, Seleccionar
Solución Candidata y Enviar Solución Mejorada al agente . La primera tarea consiste en
solicitar al agente Generador de Vecindad ( ) que genere un conjunto de soluciones
vecinas ( ) a partir del estado actual ( ). La segunda tarea radica en solicitar al
agente Evaluador de Soluciones ( ) que evalúe, en la función objetivo definida en
nuestro Modelo Conceptual, las soluciones vecinas ( ). La tercera se corresponde
con la tarea de igual nombre descrita en el Modelo Conceptual como parte del proceso
Mejora de Solución (pMS). Finalmente, la tarea Enviar Solución Mejorada consiste en enviar
al agente la propuesta final de patrones globales mejorados ( ). Se muestra a
continuación la definición formal de la tarea Seleccionar Solución Candidata.
nombre SeleccionarSoluciónCandidata(
)
pre GeneradasSolucionesVecinas( )
EvaluadasSolucionesVecinas(
)
acción SeleccionarNuevaSolución(
)
A continuación se formaliza la función de memorización ( ) del agente ,
debido a la importancia que esta tiene para el éxito del proceso Mejora de Solución
(pMS), y por considerarse dicho proceso el de mayor complejidad en nuestro Modelo
Conceptual. En dicha función sólo se especifican las variables de la memoria interna
del agente que cambian su valor.
Capítulo 4. Modelo Funcional 85
( ,
) |
4.25
Por su parte, el agente Estimador de Medidas ( ) se ocupa de la estimación y
asignación de las medidas (cobertura y precisión) que corresponden a cada uno de los
patrones globales que recibe. Las tareas que ejecuta son: Asignar Medidas y Enviar
Patrones Globales con Medidas al agente . La primera tarea se corresponde con la
descrita en el Modelo Conceptual como parte del proceso Asignación de Medidas (pAM).
Esta se formaliza de la siguiente forma:
86 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
nombre AsignarMedidas( )
pre ExistenModelosLocales( )
ExistenPatronesGlobalesMejorados( )
acción ObtenerPatronesLocalesParaCadaPatrónGlobal( )
AplicarOperadoresDeEstimación( )
Donde y son los parámetros utilizados para la estimación de las medidas de
los patrones globales (tabla 3.10), que indican el tipo de operador a aplicar en cada
caso. es la lista de modelos locales que fueron seleccionados en el Paquete
Codificación. es el conjunto de patrones globales mejorados carentes de
medidas. representa un conjunto de conjuntos de patrones locales asociados a
cada patrón global, que utiliza los operadores de estimación de medidas. es el
conjunto resultante de patrones globales sintetizados, con medidas asignadas.
En resumen, el agente , al ejecutar la tarea Asignar Medidas asociará a cada patrón
global un conjunto de patrones, cada uno seleccionado de un modelo local diferente,
y posteriormente, a partir del conjunto de patrones locales asociado a cada patrón
global ( ), aplicará los operadores definidos para estimar las medidas
correspondientes.
Por otra parte, la tarea Enviar Patrones Globales con Medidas consiste en enviar al agente
los patrones globales sintetizados, con sus medidas asignadas, listos para su
posterior representación.
Como se explicó antes, el agente Evaluador de Soluciones ( ) y el agente Generador de
Vecindad ( ) no se comunican directamente con el agente Coordinador de Síntesis ( ),
sino con otros agentes operadores del paquete Síntesis que requieren de sus servicios.
El agente Evaluador de Soluciones ( ) ejecuta las tareas: Evaluar Solución, Evaluar
Soluciones Vecinas, Enviar Evaluación de Solución Inicial al agente y Enviar Evaluación de
Soluciones Vecinas al agente . Las dos primeras tareas se corresponden con las
descritas en el Modelo Conceptual como parte de los procesos Construcción de Solución
Inicial (pCSI) y Mejora de Solución (pMS), respectivamente. Estas se formalizan a
continuación:
Capítulo 4. Modelo Funcional 87
nombre EvaluarSolución(
)
pre ExistenModelosLocalesFichas( )
acción EvaluarFunciónObjetivo (
)
La tarea Evaluar Soluciones Vecinas consiste básicamente en ejecutar las funciones
declaradas en la sección acción de la formalización anterior, correspondiente a la tarea
Evaluar Solución.
nombre EvaluarSolucionesVecinas(
)
pre ExistenSolucionesVecinas( )
ExistenModelosLocalesFichas( )
acción ParaCadaSoluciónVecinaEvaluar (
)
La tarea Enviar Evaluación de Solución Inicial consiste en enviar al agente la
evaluación de la solución inicial correspondiente; mientras que, la tarea Enviar
Evaluación de Soluciones Vecinas consiste en enviar al agente la evaluación de cada
una de las soluciones que conforman la vecindad de la solución actual. Para la
evaluación de las soluciones, el agente emplea la función objetivo definida en el
en el Modelo Conceptual.
El agente Generador de Vecindad ( ) ejecuta las tareas: Obtener Soluciones Vecinas y
Enviar Soluciones Vecinas al agente . La primera tarea se corresponde con la descrita
en el Modelo Conceptual como parte del proceso Mejora de Solución (pMS). Esta se define
formalmente como sigue:
88 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
nombre ObtenerSolucionesVecinas(
)
pre ExisteSoluciónCandidataActual( )
acción GenerarVecindad(
)
Para generar una vecindad de soluciones, se aplican los operadores definidos en el
Modelo Conceptual: cruzamiento, mutación, agrupamiento y aleatorio, en este orden,
según sus respectivos valores de probabilidad ( ), a partir de
las soluciones que conforman en estado actual ( ).
La tarea Enviar Soluciones Vecinas consiste en enviar al agente las soluciones
vecinas generadas a partir de la solución actual.
En la tabla 4.3, a modo de resumen, se relacionan los agentes del Paquete Síntesis con
las tareas que cada uno ejecuta.
Tabla 4.3. Resumen de tareas ejecutadas por los agentes del Paquete Síntesis.
Agente Tareas
CS
(Coordinador)
Iniciar Construcción de Solución Inicial, Iniciar Mejora de Solución, Iniciar Estimación de Medidas, Enviar Patrones Globales al Coordinador de Representación
CSI
(Operador)
Seleccionar Codificación de Soluciones, Construir Solución Inicial, Solicitar Evaluación de Solución Inicial, Enviar Solución Inicial
MS
(Operador)
Solicitar Soluciones Vecinas, Solicitar Evaluación de Soluciones Vecinas, Seleccionar Solución Candidata, Enviar Solución Mejorada
EM
(Operador)
Asignar Medidas, Enviar Patrones Globales con Medidas
ES
(Operador)
Evaluar Solución, Evaluar Soluciones Vecinas, Enviar Evaluación de Solución Inicial, Enviar Evaluación de Soluciones Vecinas
GV
(Operador)
Obtener Soluciones Vecinas, Enviar Soluciones Vecinas
Capítulo 4. Modelo Funcional 89
4.2.4. Paquete Representación
En este caso, el agente Coordinador de Representación ( ) es el responsable de la
representación de los patrones globales en un formato estándar de intercambio de
modelos de minería de datos. Para ello, controla el funcionamiento de los Agentes
Operadores: agente Representador de Modelos ( ) y agente Emisor de Modelos ( ),
mediante la ejecución de las tareas: Iniciar Representación de Modelos e Iniciar Emisión de
Modelos. La figura 4.9 muestra las interfaces de comunicación de los tres agentes
agrupados en el Paquete Representación.
Figura 4.9. Interfaces de comunicación de los agentes del Paquete Representación.
El diagrama anterior describe las relaciones entre los agentes del Paquete Representación
mediante las interfaces que estos implementan. Adicionalmente, el agente Coordinador
de Representación ( ) posee interfaces de entrada (interfaces proporcionadas) con el
agente Coordinador del SIC ( ) y con el agente Coordinador de Síntesis ( ).
El agente , al ejecutar la tarea Iniciar Representación de Modelos, como su nombre
sugiere, indica al agente que inicie la representación de modelos de minería de
datos. De la misma forma, mediante la tarea Iniciar Emisión de Modelos indica, en este
caso al agente , que inicie la emisión de los modelos representados.
Las tareas que ejecuta el agente Representador de Modelos ( ) son: Seleccionar Patrones,
Representar Modelo Global y Enviar Modelos Representados al agente . Las dos primeras
tareas se corresponden con las descritas en el Modelo Conceptual como parte del
proceso Representación (pR). Mientras que, la tarea Enviar Modelos Representados consiste
en enviar al agente los modelos globales representados.
90 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Como se definió en el Modelo Conceptual, la tarea Representar Modelo Global tiene como
propósito representar en un formato estándar de intercambio de modelos de minería
de datos, el conjunto de patrones globales seleccionados. Aunque existen otras
iniciativas para establecer estándares de representación e intercambio de modelos en
minería de datos, la iniciativa más destacada y ampliamente aceptada es PMML
(Predictive Model Markup Language), estándar basado en XML [DMG, 2010;
Grossman et al., 2002; Grossman, 2006; Guazzelli et al., 2009; Guazzelli et al., 2010].
PMML tiene dos ventajas fundamentales. La primera se refiere al intercambio de
modelos: un modelo creado en una herramienta determinada puede ser cargado e
interpretado por otra herramienta diferente. La segunda ventaja de PMML es la
facilidad de despliegue entre servidores y plataformas diferentes. La definición del
estándar PMML está siendo llevada a cabo por el denominado Data Mining Group
(DMG). Esta organización industrial se creó en 1998 y constituye un consorcio de la
mayoría de las grandes empresas vendedoras de productos de minería de datos, tales
como: IBM, Microsoft, Oracle, SAS y SPSS. La versión 4.0 de PMML es la más
reciente, publicada en junio del 2009 [DMG, 2010; Pechter, 2009]. Por todo lo
anterior, se propone el uso del estándar PMML en nuestro Modelo Funcional, para
representar los modelos globales de minería de datos resultantes.
Entre las secciones básicas que componen un documento PMML se encuentran las
siguientes [DMG, 2010; Guazzelli et al., 2010]:
Data Dictionary: Define los atributos de entrada a los modelos y especifica el
tipo y rango de valores de cada uno.
Mining Schema: Constituye la lista de los atributos utilizados en el modelo.
Estos atributos son un subconjunto de los atributos especificados en la
sección Data Dictionary. El Mining Schema contiene información específica
para un determinado modelo; mientras que, el Data Dictionary contiene las
definiciones de los datos que son independientes del modelo. En esta sección
se define, también, el role (usageType) de los atributos en el modelo, el que
puede ser: active (entrada al modelo), predicted (salida del modelo), o
supplementary (contiene información descriptiva y es ignorado por el
modelo).
Transformation Dictionary: Contiene información de los campos derivados
mediante el uso de transformaciones tales como: normalización,
discretización, mapeo de valores y agregación.
Statistics: Especifica estadísticas relativas al conjunto de datos de
entrenamiento (dataset).
Models: Esta sección describe el contenido de los modelos y es específica para
cada técnica de minería de datos.
Capítulo 4. Modelo Funcional 91
Las entradas al modelo pueden ser definidas directamente desde la sección Mining
Schema (atributos básicos) o indirectamente, como atributos derivados, a través de la
sección Transformation Dictionary. Por otra parte, debido a que cada técnica de minería
de datos tiene diferentes tipos de contenido, los formatos de los documentos XML
necesarios para almacenar de manera persistente estos contenidos son diferentes. Por
ejemplo, en el caso de los árboles de decisión, PMML especifica etiquetas (tags) para
describir la topología del árbol, las condiciones de división de los nodos, así como,
estadísticas asociadas a cada nodo. PMML soporta la representación de modelos de
minería de datos para las siguientes técnicas: regresión polinomial, regresión logística,
regresión general, clusters basados en el cálculo de centros, clusters basados en el
cálculo de densidades, árboles de decisión, reglas de asociación, redes neuronales,
entre otros.
Luego, la tarea Representar Modelo Global que ejecuta el agente se define
formalmente como sigue:
nombre RepresentarModeloGlobal( )
pre ExistenFichas( )
SeleccionadosPatrones(
)
acción CrearEncabezamientoDeFichero( )
CrearCuerpoDeFichero( )
Donde ,
y son los parámetros utilizados para la selección de los
patrones globales (tabla 3.11). es la lista de las fichas correspondientes a los
modelos locales que fueron seleccionados en el Paquete Codificación. y son el
conjunto inicial de patrones globales y el conjunto de patrones globales
seleccionados, respectivamente. es el fichero PMML que representa el modelo
global integrado resultante.
En resumen, el agente , al ejecutar la tarea Representar Modelo Global crea el
encabezamiento del fichero PMML (secciones: Data Dictionary, Mining Shema,
Transformation Dictionary y Statistics), y posteriormente, a partir del conjunto de
patrones globales seleccionados ( ), construye la sección Model del
fichero PMML (específica para cada tipo de modelo de minería de datos).
Por su parte, el agente Emisor de Modelos ( ) ejecuta la tarea Emitir Modelo Global que
consiste, como su nombre sugiere, en emitir o devolver un modelo global de minería
de datos integrado, correspondiente a cierto conjunto de modelos locales. Por lo
tanto, este agente actúa directamente sobre el entorno del sistema.
92 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
En la tabla 4.4, a modo de resumen, se relacionan los agentes del Paquete Representación
con las tareas que cada uno ejecuta.
Tabla 4.4. Resumen de tareas ejecutadas por los agentes del Paquete Representación.
Agente Tareas
CR
(Coordinador)
Iniciar Representación de Modelos, Iniciar Emisión de Modelos
RepM
(Operador)
Seleccionar Patrones, Representar Modelo Global, Enviar Modelos Representados
EmiM
(Operador)
Emitir Modelo Global
4.2.5. Resumen de Agentes del SIC
En los apartados anteriores se han descrito cada uno de los elementos que formalizan
el MF_MIC como un MAS. Se definió formalmente el entorno del sistema ( )
y los agentes que conforman el SIC, agrupados en paquetes funcionales. A modo de
resumen en la tabla 4.5 se muestran dichos agentes y una descripción de su
funcionamiento.
Tabla 4.5. Resumen de agentes del SIC.
Nombre Descripción
Agente Controlador del SIC
(CSIC)
Controla el funcionamiento de los agentes coordinadores de los paquetes: Codificación, Síntesis y Representación, responsables de la ejecución de las
tareas fundamentales del SIC
Paquete Codificación
Agente Coordinador de
Codificación (CC)
Coordina la recepción y codificación de los modelos locales
Agente Receptor de Modelos
RM)
Recepta los conjuntos de modelos locales que requieren ser integrados
Agente Codificador de
Modelos CM)
Codifica, en un formato homogéneo de representación, los modelos locales seleccionados para su posterior integración
Capítulo 4. Modelo Funcional 93
Paquete Síntesis
Agente Coordinador de
Síntesis (CS)
Coordina la Síntesis de los modelos locales codificados que recibe
Agente Constructor de
Solución Inicial CSI)
Construye una Solución Inicial
Agente Mejorador de
Solución MS)
Intenta obtener una nueva solución que mejore la solución que recibe
Agente Estimador de
Medidas EM)
Aplica operadores para la estimación y asignación de las medidas que corresponden a cada uno de los patrones globales que recibe
Agente Evaluador de
Soluciones ES)
Evalúa una solución candidata o un conjunto de soluciones vecinas, empleando la función objetivo definida
Agente Generador de
Vecindad GV)
Aplica operadores para generar, a partir de una solución dada, un número determinado de soluciones vecinas
Paquete Representación
Agente Coordinador de
Representación (CR)
Coordina la representación, en el estándar PMML, de un conjunto de patrones globales sintetizados
Agente Representador de
Modelos RepM)
Representa, en el estándar PMML, un modelo de minería de datos integrado
Agente Emisor de Modelos
EmiM)
Emite un modelo de minería de datos integrado, representado en formato PMML
95
CAPÍTULO 5
5 PRUEBAS Y VALIDACIÓN
Una vez alcanzado el objetivo general de la investigación, en el que se plantea la
formalización de un modelo general que permita integrar modelos de minería de
datos parciales descubiertos de manera independiente, corresponde abordar la última
fase de la investigación. Esta persigue como propósito validar la hipótesis de partida
planteada en la tesis. Para ello, nos apoyaremos en el método de experimentación,
que nos permitirá probar nuestra propuesta y analizar los resultados obtenidos para
demostrar su validez.
A continuación, se listan los objetivos específicos a cumplir mediante la
experimentación para demostrar la hipótesis de partida, definiendo cómo se pretende
alcanzar cada uno.
1. Validar el carácter general de la propuesta, ejecutando pruebas que integren tanto
conjuntos de modelos locales de agrupamiento, como conjuntos de modelos
locales de reglas de asociación.
2. Validar la factibilidad de la propuesta, analizando la calidad del modelo global
que se obtiene al integrar n modelos locales, comparándolo con el
correspondiente modelo centralizado (aquel que resulta de la aplicación de la
minería de datos sobre el conjunto de datos centralizado).
3. Validar la flexibilidad del modelo propuesto en su fase de síntesis, aplicando diferentes
metaheurísticas para obtener el modelo global integrado.
4. Analizar escalabilidad de la propuesta, analizando la calidad del modelo global
integrado resultante (comparándolo con el modelo centralizado
correspondiente), y el tiempo de respuesta, al aumentar la cantidad de
modelos y patrones locales a integrar.
96 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
En este capítulo se define, en primer lugar, el diseño de los experimentos y,
posteriormente, se describe la realización de los mismos, exponiendo los resultados
del análisis y la evaluación de las pruebas ejecutadas.
5.1. Diseño de Experimentos
El diseño de los experimentos debe permitir alcanzar los cuatro objetivos específicos,
definidos previamente, para demostrar la hipótesis de partida. A partir de estos
objetivos se identifican dos etapas fundamentales en la experimentación. Estas son:
selección y preparación de los datos de prueba, y aplicación de nuestra propuesta y
análisis de resultados (figura 5.1). A continuación se describe el diseño de ambas
etapas de la experimentación.
Figura 5.1. Etapas de la Experimentación.
En el diagrama de actividad, en notación UML, que se muestra en la figura 5.2 se
describe la primera etapa, la cual comprende la selección de las bases de datos y
creación, a partir de estas, de los conjuntos de modelos locales o parciales que
permitirán aplicar nuestra propuesta en la etapa posterior. Tal y como describe el
diagrama de actividad, la primera tarea es precisamente la selección de las bases de
datos que se utilizarán en las pruebas. Se decidió utilizar dos bases de datos en la
experimentación: una pública y otra privada.
La base de datos pública seleccionada fue Nursery ( ) disponible en [Frank &
Asuncion, 2010], la que se deriva de un modelo de decisión originalmente
desarrollado para clasificar las solicitudes de escuelas infantiles. Contiene 12960
instancias con 9 atributos (tabla 5.1). Esta base datos ha sido utilizada y referencia
recientemente en varias publicaciones científicas [Andreopoulos et al., 2009; BakIrlI
et al., 2010; He et al., 2010; Kumar et al., 2009; Quan et al., 2009].
Etapa 1: Selección y Preparación de los Datos de Prueba
Etapa 2: Aplicación de la Propuesta y Análisis
de los Resultados
Capítulo 5. Pruebas y Validación 97
Figura 5.2. Etapa 1: Selección y preparación de los datos de prueba.
Tabla 5.1. Atributos de la base de datos Nursery.
Atributo Valores
parents usual, pretentious, great_pret
has_nurs proper, less_proper, improper, critical, very_crit
form complete, completed, incomplete, foster
children 1, 2, 3, more
housing convenient, less_conv, critical
finance convenient, inconv
social non-prob, slightly_prob, problematic
health recommended, priority, not_recom
class not_recom, recommend, very_recom, priority, spec_prior
98 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Por su parte, la base de datos privada que se utilizó, Diabetes ( ), procede de un
proyecto de minería de datos real que se desarrolla en la Facultad de Ingeniería
Informática del Instituto Superior Politécnico José Antonio Echeverría (CUJAE). En
esta se registran 5 características de 8624 pacientes diabéticos procedentes de la
localidad de Jaruco, Provincia Habana, Cuba. En la tabla 5.2 se describen los
atributos de esta base de datos.
Tabla 5.2. Atributos de la base de datos Diabetes.
Atributo Valores
Sexo Masculino, Femenino
Piel Blanca, Negra, Mestiza
Ha padecido de presión
alta o hipertensión
Verdadero, Falso
Índice de masa corporal N: normal, PO: pre obeso, O1: obeso tipo1, O2:
obeso tipo2, O3: obeso tipo3, D: delgado, DM:
delgadez moderada, DS: delgadez severa
Clasificación del paciente
en grupos de riesgo
DC: diabético conocido, DD: diabético detectado,
GNR: grupo de no riesgo, GR: grupo de riesgo,
TGA: tolerancia a la glucosa alterada, AGA: alteración
de la glucosa en ayunas
Una vez seleccionadas las bases de datos, estas se fragmentan horizontalmente
obteniéndose, a partir de cada una ( ), seis conjuntos de particiones de
datos ( ) de diferentes cantidades de particiones ( ): 3,
5, 7, 10, 15 y 20, respectivamente, con el objetivo de poder analizar la escalabilidad de la
propuesta en la etapa de experimentación posterior.
Las particiones de datos incluidas en cada conjunto (
) cumplen las siguientes premisas:
5.1
5.2
Capítulo 5. Pruebas y Validación 99
Posteriormente, a partir de cada partición de datos ( ,
) se genera un
modelo de reglas de asociación y un modelo de clustering. Se construyen tanto
modelos locales de reglas de asociación como modelos locales de agrupamiento, con
el objetivo de poder validar el carácter general de la propuesta. Para la creación de los
modelos de reglas de asociación se ejecuta el algoritmo A priori; mientras que, para la
creación de los modelos de clustering se ejecuta el algoritmo particional de
agrupamiento SimpleKMeans. Ambos algoritmos están implementados en la
herramienta de minería de datos Weka [Holmes et al., 1994; Weka, 2010; Witten &
Frank, 2005]. Con la creación de todos los modelos locales concluye la primera etapa
de la experimentación.
Corresponde entonces describir la segunda etapa. Esta se resume en el diagrama de
actividad que se muestra en la figura 5.3.
Como se puede apreciar, la primera tarea consiste en especificar, para cada caso, los
valores que tomarán los parámetros requeridos en el MIC (figura 5.3). Estos
parámetros se definieron en el Modelo Conceptual de nuestra propuesta (MC_MIC).
Seguidamente, se procede a la integración, en paralelo, de los diferentes conjuntos de
modelos locales, aplicando tres metaheurísticas diferentes en la fase de síntesis para
obtener el modelo global: búsqueda aleatoria, escalador de colinas y algoritmo
genético.
La búsqueda aleatoria se considera la más simple de las metaheurísticas pero, por lo
general, costosa computacionalmente. Esta no utiliza soluciones anteriores para guiar
la búsqueda, solo explora el espacio de soluciones de manera aleatoria para encontrar
la mejor solución. Por lo tanto, se podría decir que la “vecindad” de una solución
dada está determinada por todo el espacio de soluciones a explorar. En la mayoría de
las investigaciones, la búsqueda aleatoria se utiliza como punto de referencia para los
resultados que se obtienen con otros métodos y/o como medidor de las
características del espacio [Rosete, 2000].
El escalador de colinas [Korf, 1990; Rosete, 2000; Yuret & Maza, 1993], a diferencia
de la búsqueda aleatoria, se desplaza en el espacio de soluciones, buscando una
mejora del valor de la función objetivo con la idea de llegar al óptimo de la función.
Para esto, construye una “vecindad” asociada a la solución actual, que está compuesta
por una o varias soluciones candidatas generadas a partir de dicha solución.
Por su parte, un algoritmo genético [Goldberg & Horn, 1999] es una metaheurística
que, a diferencia de las dos primeras, permite llevar varias trayectorias de búsquedas a
la vez. Esta se basa en la idea de que la combinación de buenos individuos
(soluciones) puede dar lugar a individuos mejores adaptados, pues los seres vivos se
adaptan a su entorno gracias a las características heredadas de sus progenitores. Para
100 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
ello, parte de una población inicial de soluciones, que se somete a cruzamientos y
mutaciones. Posteriormente, se escoge una nueva población tomando los m mejores
individuos entre padres e hijos, a la que se le repite nuevamente el proceso.
Figura 5.3. Etapa 2: Aplicación de la propuesta y análisis de resultados.
Capítulo 5. Pruebas y Validación 101
En resumen, cada conjunto de modelos locales se integra aplicando búsqueda
aleatoria, escalador de colinas y algoritmos genéticos en la fase de síntesis, realizando
30 ejecuciones con cada metaheurística. Al probar diferentes algoritmos
metaheurísticos, es posible validar la flexibilidad del modelo propuesto en su fase de síntesis.
Una vez que se han obtenido todos los modelos globales con sus correspondientes
estadísticas (registradas durante el proceso de integración), se procede al análisis de
los resultados. Para ello, es preciso llevar a cabo las tareas siguientes (figura 5.3):
1. Realizar un análisis comparativo de las metaheurísticas aplicadas teniendo en
cuenta: la calidad de las soluciones (evaluadas mediante la función objetivo
(ecuación 3.19)) y el tiempo promedio de ejecución.
2. Identificar el conjunto de los modelos globales integrados ( )
obtenidos en las 30 ejecuciones realizadas con la metaheurística que mejor se
comportó para cada caso.
3. Obtener, en la herramienta Weka, los modelos centralizados
( ) de reglas de asociación y de agrupamiento a partir de cada
base de datos ( ).
4. Comparar los modelos globales integrados ( ) con su
correspondiente modelo centralizado ( ), con el propósito de
validar la factibilidad de la propuesta.
5. Analizar escalabilidad de la propuesta, a partir de los resultados de todas las
ejecuciones realizadas.
Tras definir el diseño de los experimentos que permite validar la hipótesis de partida
planteada en esta investigación, corresponde abordar, en el apartado que sigue, la
realización de dichos experimentos y el análisis de los resultados.
5.2. Experimentación y Resultados
Para llevar a cabo la experimentación diseñada, se implementó un sistema, prototipo
funcional del modelo propuesto, sobre la plataforma de desarrollo JAVA
[Richardson et al., 2007; Trottier, 2002]. En la implementación de la fase de síntesis
del modelo que se propone en el presente trabajo, se utilizó la biblioteca de clases
BiCIAM [Fajardo, 2009; Fajardo et al., 2009; Rosete et al., 2008] . Esta biblioteca fue
desarrollada por un grupo de profesores de la Facultad de Informática del Instituto
Superior Politécnico José Antonio Echeverría, en Cuba. La misma integra diferentes
algoritmos metaheurísticos, entre estos: búsqueda aleatoria, escalador de colinas y
algoritmo genético.
102 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Todas las pruebas ejecutadas en el sistema, durante la fase de experimentación, se
efectuaron en un cluster de 8 ordenadores con idénticas características. Se trata de
dispositivos Asus EEE Box B202, ordenadores de propósito general y reducidas
dimensiones con un procesador Intel Atom de 1.6 GHz, una memoria de 1Gb y 80
Gb de almacenamiento (figura 5.4).
Figura 5.4. Escenario de pruebas.
Una vez descrito el escenario donde se ejecutarán las pruebas del modelo propuesto,
en el siguiente apartado se describe la primera etapa de la experimentación: Selección
y Preparación de los Datos de Prueba.
5.2.1. Selección y Preparación
En esta primera etapa, a partir de las bases de datos seleccionadas ( ), se
crean los seis conjuntos de particiones de datos ( ) de
tamaño: 3, 5, 7, 10, 15 y 20 respectivamente, tal y como se definió en el diseño de la
experimentación. La selección de los registros a incluir en las diferentes particiones
de ambas bases de datos se efectúa de manera aleatoria, respetando un porcentaje de
registros que deberá tener cada partición. En la tabla 5.3 se resumen los porcentajes
de registros totales de cada partición definidos para los seis conjuntos. Como se
puede apreciar, no existe ningún conjunto en el que todas las particiones tengan el
mismo tamaño.
Capítulo 5. Pruebas y Validación 103
Tabla 5.3. Porcentajes de registros totales en las particiones de datos.
Cantidad de Particiones
Porcentaje de registros totales en cada partición
3 15%, 30%, 55%
5 5%, 10%, 15%, 30%, 40%
7 5%, 5%,10%,10%,15%, 20%, 35%
10 5%, 5%,5%, 5%,5%,10%,10%,15%,15%, 25%
15 2%, 2%, 2%, 2%, 2%, 5%, 5%,5%, 5%,10%,10%,10%,10%,15%, 15%,
20 2%, 2%, 2%, 2%, 2%, 2%, 2%, 2%, 2%, 2%, 5%, 5%,5%, 5%,10%,10%,10%,10%,10%, 10%,
Una vez creadas las particiones a partir de ambas bases de datos, la siguiente tarea es
la obtención de los modelos de reglas de asociación y de clustering. Para ello, se carga
cada partición en la herramienta Weka y se ejecutan los algoritmos Apriori y
SimpleKMeans.
Los modelos de reglas de asociación, en el caso de las particiones de la base de datos
Diabetes se generaron especificando como valores mínimos de soporte (cobertura) y
de confianza (precisión) de las reglas 0.1 y 0.8 respectivamente. Mientras que, en el
caso de las particiones de la base de datos Nursery se generaron especificando como
valores mínimos de soporte y de confianza de las reglas 0.2 y 0.6 respectivamente.
Para la selección de estos valores mínimos se realizaron varias pruebas de generación
de modelos en diferentes particiones de datos, con el propósito de fijar finalmente
los valores que permitieran obtener, en la mayoría de los casos, reglas de diversidad
de medidas de soporte y confianza.
Por su parte, el algoritmo SimpleKMeans exige especificar como parámetro la cantidad
de grupos o clusters (K) que se desean generar. Por tanto, fue necesario definir el
valor de K para cada modelo de clustering a obtener desde cada partición de datos.
En la tabla 5.4 se muestra los valores del parámetro K especificados para la creación
de los modelos de clustering en cada una de las particiones generadas a partir de
ambas bases de datos. Estos valores se determinaron buscando que la cantidad de
grupos a generar en cada modelo de clustering a integrar fuera diferente y
proporcional al porcentaje de registros totales de la partición de datos
correspondiente (tabla 5.3). Para los conjuntos de particiones de tamaño 3, 5, y 10, la
cantidad total de clusters, o patrones locales, se fijó en 60; mientras que, para los
conjuntos de particiones de tamaño 7, 15 y 20, la cantidad total de clusters se fijó en
70, 90 y 120 respectivamente.
104 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Tabla 5.4. Porcentajes de registros totales en las particiones de datos.
Cantidad de Particiones
Cantidad de grupos (K) a generar en cada partición
3 9, 18, 33
5 3, 6, 9, 18, 24
7 4, 4,7,7,10, 14, 24
10 3, 3, 3, 3, 3, 6, 6, 9, 9, 15
15 2, 2, 2, 2, 2, 5, 5, 5, 5, 9, 9, 9, 9,14,14
20 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 6, 6, 6, 6, 10,10,10,10,10,10
En los modelos locales de agrupamiento o clustering la cantidad de patrones a
obtener en cada uno es un parámetro de entrada (K); sin embargo, en los modelos de
reglas de asociación la cantidad de reglas a obtener no se fija previamente. Esta
cantidad está limitada por los valores mínimos de soporte y de confianza. La tabla 5.5
resume las cantidades de reglas de asociación que resultaron de cada partición de
datos, con los valores mínimos de soporte y de confianza especificados
anteriormente.
Tabla 5.5. Cantidad de reglas de asociación de los modelos locales.
Particiones Cantidad de reglas de asociación
BD Diabetes
55, 32, 30
76, 35, 37, 22, 46
76, 62, 28, 34, 38, 27, 39
76, 62, 25, 48, 68, 41, 14, 12, 58, 42
55, 37, 62, 12, 19, 54, 28, 20, 78, 68, 81, 68, 59, 48, 43
43, 48, 59, 73, 88, 73, 81, 68, 51, 68, 28, 76, 58, 20, 19, 62, 12, 14,
73, 48
BD Nursery
57, 24, 22
130, 46, 65, 35, 30
241, 186, 135, 113, 45, 41, 38
205, 168, 172, 246, 158, 118, 62, 47, 23, 49
Capítulo 5. Pruebas y Validación 105
529, 552, 360, 536, 548, 186, 181, 176, 247, 136, 48, 104, 64, 45,
25
569, 478, 279, 459, 509, 515, 478, 374, 552, 520, 168, 205, 247,
186, 127, 124, 126, 113, 151, 135
Una vez creados todos los modelos locales concluye la primera etapa de la
experimentación. En los dos apartados siguientes se aborda, para cada tipo de
modelo de minería de datos, la segunda etapa de la experimentación: aplicación de la
propuesta y análisis de los resultados.
5.2.2. Integración de Modelos de Reglas de
Asociación
En esta sección se describe la segunda etapa de la experimentación, específicamente
las pruebas de integración de modelos locales de reglas de asociación.
La primera tarea consiste en especificar los valores de los diferentes parámetros
requeridos en el modelo propuesto. En las pruebas de integración de modelos de
reglas de asociación, la mayoría de los parámetros mantuvieron sus valores por
defecto, especificados en las tablas del capítulo 3: 3.1, 3.4, 3.5, 3.7, 3.9-3.11, siendo
necesario modificar, en función de la metaheurística a aplicar en el proceso de
síntesis, los valores de los parámetros: . En la tabla
5.6 se muestran los valores especificados para dichos parámetros en cada caso.
Resulta importante precisar que la condición de parada utilizada en la fase de síntesis,
para las tres metaheurísticas, fue alcanzar la cantidad de iteraciones especificada en el
parámetro (5000 iteraciones). Por otra parte, para la estimación de las métricas
de precisión y de cobertura de las reglas de asociación globales se utilizó el operador
media ( ) y el operador suma ( ) respectivamente (ecuaciones 3.38 y 3.37), ya
que estos mostraron los mejores resultados en las pruebas con modelos de reglas de
asociación realizadas durante la etapa de concepción y ajuste del modelo propuesto,
como parte de la investigación de desarrollada.
106 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Tabla 5.6. Valores de algunos parámetros especificados para cada metaheurística.
Integración de modelos de reglas de asociación.
Metaheurística Valores de Parámetros
Búsqueda Aleatoria
Escalador de Colinas
Algoritmo Genético
Una vez especificados los valores de los parámetros requeridos, se procede a la
integración de cada uno de los conjuntos de modelos de reglas de asociación, para
cada metaheurística. Para realizar, a partir de los resultados, el análisis comparativo
de las metaheurísticas se considera dos aspectos fundamentales:
Calidad promedio de las soluciones evaluadas en las 5000 iteraciones de las 30
ejecuciones, mediante la función objetivo definida en el modelo.
Tiempo promedio de una ejecución.
Las tablas 5.7 y 5.8 resumen, para cada base de datos de prueba, las posiciones
jerárquicas de los algoritmos metaheurísticos (AM): búsqueda aleatoria (BA),
escalador de colinas (EC) y algoritmo genético (AG), en función de la media de los
valores mínimos de la función objetivo (FO) ( ) en las 30
ejecuciones realizadas. Como se puede apreciar la metaheurística que mejor se
comportó en la síntesis, para ambas bases de datos y con independencia de las
cantidades de modelos y patrones locales de entrada, fue el algoritmo genético. La
segunda y tercera posición, igualmente en todos los casos, resultó ser para el
escalador de colinas y la búsqueda aleatoria respectivamente.
Tabla 5.7. Jerarquía de AM según media de valores mínimos de la FO para la BD Diabetes.
Integración de modelos de reglas de asociación.
Cantidad de Modelos/ Patrones Locales
Orden AM Media del Mínimo FO
3/117
1 AG 0,0173
2 EC 0,0193
3 BA 0,0265
5/216
1 AG 0,0233
2 EC 0,0249
3 BA 0,0344
7/304
1 AG 0,0245
2 EC 0,0259
3 BA 0,0378
Capítulo 5. Pruebas y Validación 107
10/446
1 AG 0,0271
2 EC 0,0293
3 BA 0,0497
15/732
1 AG 0,0298
2 EC 0,0326
3 BA 0,0529
20/1062
1 AG 0,0317
2 EC 0,0354
3 BA 0,0698
Tabla 5.8. Jerarquía de AM según media de valores mínimos de la FO para la BD Nursery.
Integración de modelos de reglas de asociación.
Cantidad de Modelos/ Patrones Locales
Orden AM Media del Mínimo FO
3/103
1 AG 0,0274
2 EC 0,0283
3 BA 0,0369
5/306
1 AG 0,0365
2 EC 0,0421
3 BA 0,0499
7/799
1 AG 0,0405
2 EC 0,0483
3 BA 0,0629
10/1248
1 AG 0,0457
2 EC 0,0538
3 BA 0,0689
15/3737
1 AG 0,0508
2 EC 0,0619
3 BA 0,0849
20/6315
1 AG 0,0548
2 EC 0,0653
3 BA 0,0950
En las figuras 5.5 y 5.6 se puede apreciar gráficamente que, para ambas bases de
datos, en el proceso de síntesis la metaheurística que obtiene el menor valor de media
de la función objetivo en las 30 ejecuciones es el algoritmo genético, convergiendo al
mínimo de la función objetivo desde iteraciones tempranas. Nótese que la escala
empleada en todas las gráficas para el número de iteraciones (eje x) es 1:10 (una
iteración de la gráfica representa 10 iteraciones reales).
108 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 5.5. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Diabetes.
Integración de modelos de reglas de asociación.
Con el escalador de colinas los resultados son similares al algoritmo genético, pero se
observa que la diferencia entre ambos aumenta al aumentar la cantidad de
modelos/patrones locales a integrar. Por su parte, la búsqueda aleatoria se diferencia
considerablemente de las dos restantes. Resulta interesante observar que esta
diferencia, al aumentar la cantidad de modelos/patrones locales, se hace más notoria.
Cuando aumenta la cantidad de modelos/patrones locales aumenta, a su vez, el
espacio de soluciones, lo que puede afectar la efectividad de una búsqueda a ciegas
como la que implementa la búsqueda aleatoria.
Capítulo 5. Pruebas y Validación 109
Figura 5.6. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Nursery.
Integración de modelos de reglas de asociación.
Por otra parte, se observa que en las pruebas con la base de datos Nursery (figura 5.6),
la media de la función objetivo en los tres algoritmos metaheurísticos toma valores
más altos que en las pruebas con la base de datos Diabetes (figura 5.5). Esto se debe,
fundamentalmente, a que los modelos locales a integrar en las pruebas con la base de
datos Diabetes son más similares entre sí (tienen mayor número de reglas comunes)
que los de la bases de datos Nursery. Además, para un mismo número de modelos
locales a integrar, la cantidad de patrones locales totales en las pruebas
correspondientes a la base de datos Nursery es considerablemente mayor que en las de
Diabetes.
110 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Las tablas 5.9 y 5.10 resumen, para cada base de datos, las posiciones jerárquicas de
las metaheurísticas, en función de la media del tiempo de ejecución. En estas se
observa que el algoritmo genético es también la metaheurística más rápida. Esto
puede parecer contradictorio si se considera que tanto la búsqueda aleatoria como el
escalador de colinas son metaheurísticas más simples que el algoritmo genético. Sin
embargo, el motivo de estos resultados se debe al tiempo de evaluación de la función
objetivo en cada una de las soluciones que se generan en las diferentes pruebas con
cada metaheurística.
La complejidad temporal de la evaluación de la función objetivo es , está en
función de tres variables: la cantidad total de patrones de los modelos locales ( ) a
integrar, la cantidad de atributos que describen los patrones locales ( ), y la cantidad
de patrones incluidos en el modelo global integrado correspondiente a la solución
candidata que se evalúa ( ). Las dos primeras variables ( ) se mantienen
constantes para cada conjunto de modelos locales a integrar. Sin embargo, como se
muestra en ambas tablas (5.9 y 5.10), la media de la cantidad de patrones globales ( )
incluidos en las soluciones candidatas avaluadas, es considerablemente menor en el
caso del algoritmo genético. Esto explica los resultados del tiempo promedio de las
ejecuciones para cada metaheurística.
Tabla 5.9. Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.
Integración de modelos de reglas de asociación.
Cantidad de Modelos/ Patrones Locales
Orden AM Media de Tiempo Ejecución (min: seg: miliseg)
Media de Cantidad Patrones Globales
3/117
1 AG 1:40:482 27
2 EC 6:44:802 44
3 BA 10:17:360 59
5/216
1 AG 4:16:813 30
2 EC 18:04:203 45
3 BA 23:14:547 58
7/304
1 AG 5:57:931 28
2 EC 25:34:854 47
3 BA 39:14:674 56
10/446
1 AG 7:06:813 29
2 EC 36:09:375 58
3 BA 50:57:647 63
15/732
1 AG 9:35:987 28
2 EC 42:34:654 57
3 BA 76:27:565 68
20/1062
1 AG 14:56:813 29
2 EC 78:36:847 59
3 BA 99:19:742 73
Capítulo 5. Pruebas y Validación 111
La media del tiempo de ejecución de las pruebas realizadas con ambas bases de datos
(tablas 5.9 y 5.10), aún en el caso del algoritmo genético que es la metaheurística más
rápida, pude parecer alta; sin embargo, es preciso llamar la atención sobre un
elemento importante. Como se puede apreciar en las gráficas de las figuras 5.6 y 5.7,
en todas las pruebas ejecutadas, independientemente de la base de datos y de la
metaheurística, se converge al mínimo de la función objetivo desde iteraciones
tempranas: a partir, aproximadamente, de la iteración número 100 de las gráficas, que
representa la iteración 1000 por la escala empleada.
Tabla 5.10. Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.
Integración de modelos de reglas de asociación.
Cantidad de Modelos/ Patrones Locales
Orden AM Media de Tiempo Ejecución (min: seg: miliseg)
Media de Cantidad Patrones Globales
3/103
1 AG 1:33:265 24
2 EC 6:06:000 44
3 BA 9:47:281 52
5/306
1 AG 6:40:344 43
2 EC 37:57:219 67
3 BA 47:59:312 77
7/799
1 AG 10:30:886 48
2 EC 58:34:854 77
3 BA 79:14:674 86
10/1248
1 AG 15:16:813 49
2 EC 66:09:375 78
3 BA 123:57:647 89
15/3737
1 AG 20:35:987 45
2 EC 80:34:654 77
3 BA 256:27:565 81
20/6315
1 AG 25:16:813 33
2 EC 90:36:847 41
3 BA 279:19:742 63
Para ambas bases de datos, en todas las pruebas ejecutadas, la jerarquía de las tres
metaheurísticas (considerando la media de la función objetivo y la media del tiempo
de ejecución) es la misma: el algoritmo genético se comporta mejor que las dos
restantes, luego le sigue el escalador de colinas, mientras que, los peores resultados se
obtienen con la búsqueda aleatoria.
Una vez concluido los tres procesos definidos en el Modelo Conceptual (codificación,
síntesis y representación), al analizar los modelos globales integrados que resultaron
en las 30 ejecuciones realizadas con algoritmo genético (para cada conjunto de
modelos locales) se identifican los modelos globales integrados diferentes obtenidos
para cada conjunto de modelos locales. En la tabla 5.11 se muestra la cantidad de
112 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
modelos globales integrados diferentes obtenidos al integrar cada conjunto de
modelos locales, para cada base de datos.
Tabla 5.11. Cantidad de modelos globales integrados diferentes, obtenidos para cada base de
datos. Integración de modelos de reglas de asociación.
Cantidad de Modelos Globales Integrados
Cantidad de Modelos Locales
BD Diabetes BD Nursery
3 1 1
5 1 1
7 2 2
10 1 3
15 2 3
20 3 3
Para validar la factibilidad de la propuesta es preciso analizar la calidad de los diferentes
modelos globales integrados obtenidos para cada conjunto de modelos locales. Para
ello, se compara cada modelo global integrado con el correspondiente modelo
centralizado (aquel que resulta de la aplicación de la minería de datos sobre el
conjunto de datos centralizado). Esta comparación se realiza considerando los
siguientes elementos:
1. Cantidad de patrones total de ambos modelos (integrado y centralizado).
2. Porcentaje de patrones comunes respecto al total de patrones del modelo
centralizado.
3. Porcentaje de patrones no alineados (sobrantes en uno u otro modelo)
respecto al total de patrones del modelo centralizado.
4. Distancia entre ambos modelos (integrado y centralizado), según la ecuación
de distancia definida en el capítulo 3 (ecuación 3.21).
5. Error relativo en la estimación de las medidas (soporte y confianza) de los
patrones del modelo global integrado que están presentes en el modelo
centralizado correspondiente (patrones comunes).
A partir de cada base de datos (Diabetes y Nursery) se generaron en Weka, mediante el
algoritmo Apriori ambos modelos centralizados. Para ello, se especificaron los
mismos valores mínimos de soporte y de confianza con los que se crearon los
modelos locales de cada base de datos. La tabla 5.12 resume las características de los
modelos centralizados.
Capítulo 5. Pruebas y Validación 113
Tabla 5.12. Modelos centralizados de Reglas de Asociación.
BD Diabetes BD Nursery
Cantidad de Reglas
27 2
Mínimo Valor de Soporte
0.1 0.2
Mínimo Valor de Precisión
0.8 0.6
Una vez obtenidos los modelos centralizados (MC), se analiza la calidad de los
modelos globales integrados (MI). Las tablas 5.13 y 5.14 resumen los valores
promedio de los cuatro primeros elementos definidos anteriormente, para cada
conjunto de modelos locales correspondiente a cada base de datos.
Por su parte, la tabla 5.15 muestra el error relativo promedio en la estimación del
soporte y de la confianza de los patrones comunes entre los modelos globales
integrados y el centralizado correspondiente, para cada conjunto de modelos locales
de ambas bases de datos.
Tabla 5.13. Métricas de los modelos globales integrados para la base de datos Diabetes.
Integración de modelos de reglas de asociación.
Cantidad Modelos Locales/ Patrones Locales
Media de Cantidad de Patrones en MI
Media de Porcentaje de Patrones Comunes respecto al total en MC
Media de Porcentaje de Patrones no Alineados respecto al total en MC
Media de Distancia entre MI y MC
3/117 26 96,3% 0,04% 0,0063
5/216 23 85,2% 0,14% 0,0084
7/304 22 81,5% 0,18% 0,0091
10/446 24 88,8% 0,11% 0,0079
15/732 22 81,5% 0,18% 0,0091
20/1062 21 77,7% 0,22% 0,0089
Media 23 85,2% 0,14% 0,0083
114 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Tabla 5.14. Métricas de los modelos globales integrados para la base de datos Nursery.
Integración de modelos de reglas de asociación.
Cantidad Modelos Locales/ Patrones Locales
Media de Cantidad de Patrones en MI
Media de Porcentaje de Patrones Comunes respecto al total en MC
Media de Porcentaje de Patrones no Alineados respecto al total en MC
Media de Distancia entre MI y MC
3/103 2 100% 0% 0
5/306 2 100% 0% 0
7/799 2 100% 0% 0
10/1248 3 100% 50% 0,0002
15/3737 3 100% 50% 0,0002
20/6315 3 100% 50% 0,0002
Media 3 100% 25% 0,0001
Es preciso recordar que la cantidad de patrones de los modelos globales que se
obtienen al finalizar el proceso de Integración, puede no coincidir con la cantidad de
patrones que resultan del subproceso de síntesis, ya que en el subproceso de
representación, posterior al de síntesis, se eliminan en este caso aquellas reglas que
no cumplen con los valores mínimos de soporte y confianza. De aquí la diferencia
que existe entre los valores de Media de Cantidad de Patrones Globales que se muestran
en las tablas 5. 9 y 5.10 y los valores de Media de Cantidad de Patrones en MI que se
muestran en las tablas 5.13 y 5.14.
Como se puede observar en las tablas 5.13 y 5.14 la Media de Distancia entre MI y MC
para la base de datos Diabetes es de 0,0083; mientras que, en el caso de la base de datos Nursery esta es menor, de: 0,0001. Esto se debe fundamentalmente a que para la base de datos Nursery, la cantidad de patrones en el modelo centralizado es sólo 2, estando estos presentes en todos los modelos globales integrados (100% de patrones comunes). Mientras que, para la base de datos Diabetes, el modelo centralizado tiene 27 patrones, y la media de patrones comunes es de un 85,2%. Es decir, como promedio el 100%, en el caso de la base de datos Nursery, y el 85,2%, en el caso de la base de datos Diabetes, de los patrones del modelo centralizado se obtienen en el modelo de Integración propuesto, sin necesidad de acceder a los datos originales, lo que se considera un buen resultado.
En cuanto a la media del error relativo en la estimación de las medidas (soporte y
confianza) de los patrones comunes (tabla 5.15), ambos valores se consideran bajos,
obteniéndose mejores resultados en la estimación del soporte (0,2% y 0,3% de error
Capítulo 5. Pruebas y Validación 115
relativo para las bases de datos Diabetes y Nursery, respectivamente) que en la
estimación de la confianza (1,1% y 1,4% de error relativo para las bases de datos
Diabetes y Nursery, respectivamente).
Tabla 5.15. Error relativo en estimación de medidas de patrones comunes.
Integración de modelos de reglas de asociación.
BD Diabetes BD Nursery
Cantidad Modelos Locales
Media del Error Relativo (Soporte)
Media del Error Relativo (Confianza)
Media del Error Relativo (Soporte)
Media del Error Relativo (Confianza)
3 0,0027 0,0111 0,0030 0,0131
5 0,0023 0,0113 0,0027 0,0134
7 0,0019 0,0110 0,0034 0,0145
10 0,0021 0,0117 0,0033 0,0148
15 0,0025 0,0115 0,0038 0,0151
20 0,0018 0,0119 0,0035 0,0157
Media 0,0022 0,0114 0,0033 0,0144
A partir del análisis de las tablas 5.12-5.15 se puede concluir que los modelos globales
integrados obtenidos para ambas bases de datos poseen una alta calidad, más aún si
se considera que la obtención de estos se ha realizado sin acceder a los datos
originales. Estos presentan, considerando ambas bases de datos, como promedio un
porcentaje de patrones comunes igual 92,6% y un porcentaje de patrones no
alineados igual a 12,7%, mientras que la distancia media es de 0,0042, lo que
representa una diferencia entre el modelo centralizado y los modelos globales
integrados de un 0,42%. De esta forma se valida la factibilidad de la propuesta para la
integración de modelos de reglas de asociación, sin acceder a los datos originales.
La siguiente tarea de validación consiste en analizar la escalabilidad de la propuesta para la
integración de modelos de reglas de asociación, a partir de los resultados de los
experimentos descritos anteriormente. Para ello, nos basamos en dos elementos
fundamentales: la calidad del modelo global integrado resultante (comparándolo con
el modelo centralizado correspondiente), y el tiempo de ejecución del método, al
aumentar la cantidad de modelos y patrones locales a integrar, para ambas bases de
datos. En este análisis consideraremos solamente los resultados obtenidos con el
algoritmo genético que fue la metaheurística que mejor se comportó para ambas
bases de datos. Para analizar escalabilidad en cuanto a la calidad de la solución nos
centramos en los elementos que a nuestro criterio son más significativos: porcentaje
116 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
de patrones comunes respecto al total de patrones del modelo centralizado, distancia
entre ambos modelos (integrado y centralizado) y error relativo en la estimación del
soporte (cobertura) y en la estimación de la confianza (precisión) de los patrones
comunes. En las figuras 5.7 y 5.8 se muestran gráficas que ilustran cómo se
comportan estos elementos al aumentar la cantidad de modelos/patrones locales a
integrar, correspondientes a cada base de datos.
Figura 5.7. Calidad de los modelos globales integrados de reglas de asociación. Análisis de
escalabilidad BD Diabetes.
Como se puede apreciar, para ambas bases de datos (figuras 5.7 y 5.8) a medida que
aumenta la cantidad de modelos y patrones locales la calidad del modelo global
integrado, haciendo una valoración general de todos los elementos, se mantiene
aceptable. Es decir, no se observa detrimento de la calidad de los modelos globales
integrados. La diferencia apreciable entre la media del porcentaje de patrones
comunes para la base de datos Diabetes y para la base de datos Nursery, así como, la
Capítulo 5. Pruebas y Validación 117
diferencia entre la media de la distancia entre los modelos globales integrados y el
correspondiente modelo centralizado, para dichas bases de datos, se debe,
fundamentalmente, a que el modelo centralizado de Nursery contiene muy pocos
patrones (solamente 2) que cumplen con los valores especificados de mínimo de
soporte y de confianza: 0.2 y 0.6 respectivamente.
Figura 5.8. Calidad de los modelos globales integrados de reglas de asociación. Análisis de
escalabilidad BD Nursery.
Por otra parte, en las figuras 5.9 y 5.10 se puede observar que a medida que aumenta
la cantidad de modelos y patrones locales, para ambas bases de datos, el tiempo de
ejecución también aumenta. No obstante, este aumento del tiempo de ejecución se
considera aceptable ya que la cantidad de patrones locales a integrar es elevada. En
este sentido, es importante analizar la tendencia lineal del tiempo de ejecución al
aumentar la cantidad de patrones locales a integrar, para cada base de datos (figuras
5.11 y 5.12).
118 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 5.9. Tiempo de ejecución en la integración de modelos de reglas de asociación.
Análisis de escalabilidad. BD Diabetes.
Figura 5.10. Tiempo de ejecución en la integración de modelos de reglas de asociación.
Análisis de escalabilidad. BD Nursery.
En las gráficas de tendencia lineal correspondientes a las pruebas ejecutadas para
cada base de datos (figura 5.11 y 5.12), se puede apreciar que el índice de correlación
lineal (R2), para ambas bases de datos, es cercano a 1, lo que implica que estas
variables (tiempo de ejecución y cantidad de patrones locales) están directamente
correlacionadas. Luego, el tiempo de ejecución aumenta de manera lineal respecto a
la cantidad de patrones locales a integrar.
Capítulo 5. Pruebas y Validación 119
Figura 5.11. Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de
asociación). Análisis de escalabilidad. BD Diabetes.
Figura 5.12. Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de
asociación). Análisis de escalabilidad. BD Nursery.
5.2.3. Integración de Modelos de Agrupamiento
En esta sección se abordan las pruebas de integración de modelos locales de
agrupamiento o clustering realizadas en la segunda etapa de la experimentación.
En estas, al igual que en las pruebas de modelos de reglas de asociación, la mayoría
de los parámetros mantuvieron sus valores por defecto, especificados en las tablas
3.1, 3.4, 3.5, 3.7, 3.9-3.11, siendo necesario modificar solamente los valores de los
parámetros: en función de la metaheurística a
aplicar en el proceso de síntesis. En la tabla 5.16 se muestran los valores
especificados para dichos parámetros en cada caso. De la misma forma, la condición
120 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
de parada utilizada en la fase de síntesis, para las tres metaheurísticas (búsqueda
aleatoria, escalador de colinas y algoritmo genético) fue alcanzar la cantidad de
iteraciones especificada en el parámetro (5000 iteraciones). Por otra parte, para
la estimación de las métricas de precisión y de cobertura de los grupos o globales se
utilizó el operador máximo ( ) y el operador media ( ), ya que estos
mostraron los mejores resultados en las pruebas con modelos de clustering realizadas
durante la etapa de concepción y ajuste del modelo propuesto, como parte de la
investigación de desarrollada.
Tabla 5.16. Valores de algunos parámetros especificados para cada metaheurística.
Integración de modelos de agrupamiento.
Metaheurística Valores de Parámetros
Búsqueda Aleatoria
Escalador de Colinas
Algoritmo Genético
Una vez especificados los valores de los parámetros requeridos, se procede a la
integración de cada uno de los conjuntos de modelos de agrupamiento, para cada
metaheurística. En el análisis comparativo de las metaheurísticas, al igual que en las
pruebas de reglas de asociación, se considera los siguientes elementos:
Calidad promedio de las soluciones evaluadas en las 5000 iteraciones de las 30
ejecuciones, mediante la función objetivo definida en el modelo.
Tiempo promedio de una ejecución.
Las tablas 5.17 y 5.18 resumen, para cada base de datos de prueba, las posiciones
jerárquicas de los algoritmos metaheurísticos (AM): búsqueda aleatoria (BA),
escalador de colinas (EC) y algoritmo genético (AG), en función de la media de los
valores mínimos de la función objetivo (FO) ( ) en las 30
ejecuciones realizadas.
En todas las pruebas de integración de modelos de agrupamiento, la metaheurística
que mejor se comportó en la síntesis, para ambas bases de datos y con independencia
de las cantidades de modelos y patrones locales de entrada, fue al algoritmo genético.
La segunda y tercera posición, igualmente en todos los casos, resultó ser para el
escalador de colinas y la búsqueda aleatoria respectivamente. Se observa, por tanto,
que, las metaheurísticas se comportan de manera similar en las pruebas de
integración de modelos de agrupamiento y en las pruebas realizadas para la
integración de modelos de reglas de asociación. Sin embargo, la media del mínimo de
Capítulo 5. Pruebas y Validación 121
la función objetivo, en comparación con los resultados de las pruebas de reglas de
asociación, toma valores más altos.
Tabla 5.17. Jerarquía de AM según media de valores mínimos de la FO para la BD Diabetes.
Integración de modelos de agrupamiento.
Cantidad de Modelos/ Patrones Locales
Orden AM Media del Mínimo FO
3/60
1 AG 0,1130
2 EC 0,1139
3 BA 0,1143
5/60
1 AG 0,1242
2 EC 0,1254
3 BA 0,1254
7/70
1 AG 0,1255
2 EC 0,1364
3 BA 0,1397
10/60
1 AG 0,1255
2 EC 0,1363
3 BA 0,1397
15/90
1 AG 0,1295
2 EC 0,1394
3 BA 0,1487
20/120
1 AG 0,1302
2 EC 0,1454
3 BA 0,1630
Tabla 5.18. Jerarquía de AM según media de valores mínimos de la FO para la BD Nursery.
Integración de modelos de agrupamiento.
Cantidad de Modelos/ Patrones Locales
Orden AM Media del Mínimo FO
3/60
1 AG 0,2139
2 EC 0,2244
3 BA 0,2289
5/60
1 AG 0,2190
2 EC 0,2304
3 BA 0,2340
7/70
1 AG 0,2270
2 EC 0,2504
3 BA 0,3940
10/60
1 AG 0,2280
2 EC 0,2514
3 BA 0,4140
15/90
1 AG 0,2330
2 EC 0,2574
3 BA 0,4440
20/120
1 AG 0,2389
2 EC 0,2634
3 BA 0,4740
122 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
En las figuras 5.14 y 5.15 se puede apreciar gráficamente que, en el proceso de
síntesis, para ambas bases de datos, la metaheurística que obtiene el menor valor de
media de la función objetivo en las 30 ejecuciones es el algoritmo genético,
convergiendo al mínimo de la función objetivo desde iteraciones tempranas. En
todas estas gráficas, la escala empleada para el número de iteraciones (eje x) es 1:10
(una iteración de la gráfica representa 10 iteraciones reales).
En las dos primeras pruebas las tres metaheurísticas se comportan de manera similar
para ambas bases de datos. No obstante, se identifica con mayor claridad que es el
algoritmo genético la mejor, a partir de los datos de las tablas 5.17 y 5.18. Se observa
que en las siguientes pruebas, al aumentar la cantidad de modelos/patrones locales a
integrar, los valores de la media de la función objetivo para las tres metaheurísticas se
van distanciando, fundamentalmente los relativos a la búsqueda aleatoria. Cuando
aumenta la cantidad de modelos/patrones locales aumenta, a su vez, el espacio de
soluciones, lo que puede afectar la efectividad de una búsqueda a ciegas como la que
implementa la búsqueda aleatoria.
Por otra parte, se observa que en las pruebas con la base de datos Nursery (figura
5.14), la media de la función objetivo en los tres algoritmos metaheurísticos toma
valores más altos que en las pruebas con la base de datos Diabetes (figura 5.13). Esto
se debe a que los modelos locales a integrar en las pruebas con la base de datos
Diabetes son más similares entre sí (los centros de los clusters son más similares) que
los de la bases de datos Nursery. Esto hace, a su vez, que los resultados con una
búsqueda a ciegas (búsqueda aleatoria) en el caso de esta base de datos sean peores.
Capítulo 5. Pruebas y Validación 123
Figura 5.13. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Diabetes.
Integración de modelos de agrupamiento.
124 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 5.14. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Nursery.
Integración de modelos de agrupamiento.
Las tablas 5.19 y 5.20 resumen, para cada base de datos, las posiciones jerárquicas de
las metaheurísticas, en función de la media del tiempo de ejecución. En estas, se
observa que el algoritmo genético es también la metaheurística más rápida, lo que se
explica al analizar las variables que influyen en la complejidad temporal de la
evaluación de la función objetivo en cada una de las soluciones que se generan, en las
diferentes pruebas, con cada metaheurística. Como se explicó en el apartado anterior,
la complejidad temporal de la evaluación de la función objetivo es , donde
es la cantidad total de patrones de los modelos locales a integrar, es la cantidad de
Capítulo 5. Pruebas y Validación 125
atributos que describen los patrones locales, y la cantidad de patrones incluidos en
el modelo global integrado correspondiente a la solución candidata que se evalúa. Las
dos primeras variables ( ) se mantienen constantes para cada conjunto de
modelos locales a integrar. Sin embargo, como se muestra en las tablas 5.19 y 5.20, la
media de la cantidad de patrones globales ( ) incluidos en las soluciones candidatas
avaluadas, es menor en el caso del algoritmo genético; tal y como sucede en las
pruebas de integración de modelos de reglas de asociación.
Tabla 5.19. Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.
Integración de modelos de agrupamiento.
Cantidad de Modelos/ Patrones Locales
Orden AM Media de Tiempo Ejecución (min: seg: miliseg)
Media de Cantidad Patrones Globales
3/60
1 AG 0:20:281 30
2 EC 0:53:688 33
3 BA 0:53:919 33
5/60
1 AG 0:26:813 30
2 EC 0:34:203 55
3 BA 0:44:547 58
7/70
1 AG 0:47:931 35
2 EC 1:44:854 57
3 BA 1:54:674 68
10/60
1 AG 0:30:813 29
2 EC 0:39:375 55
3 BA 0:44:547 58
15/90
1 AG 1:05:987 30
2 EC 2:34:654 57
3 BA 3:27:565 83
20/120
1 AG 1:26:813 29
2 EC 3:36:847 69
3 BA 4:19:742 97
La media del tiempo de ejecución de las pruebas realizadas con ambas bases de datos
(tablas 5.19 y 5.20), para la integración de modelos de agrupamiento toma valores
más bajos que en las pruebas de integración de reglas de asociación (5.9 y 5.10). Esto
se explica, fundamentalmente, por el hecho de que, para una misma cantidad de
modelos locales de entrada, el número total de patrones locales a integrar en las
pruebas con modelos de agrupamiento es menor que en las pruebas con modelos de
reglas de asociación.
126 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Tabla 5.20. Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.
Integración de modelos de agrupamiento.
Cantidad de Modelos/ Patrones Locales
Orden AM Media de Tiempo Ejecución (min: seg: miliseg)
Media de Cantidad Patrones Globales
3/60
1 AG 0:38:203 50
2 EC 0:78:688 43
3 BA 0:83:919 53
5/60
1 AG 0:36:813 40
2 EC 0:44:203 55
3 BA 0:44:547 58
7/70
1 AG 0:57:931 45
2 EC 1:44:854 57
3 BA 1:54:674 68
10/60
1 AG 0:56:813 49
2 EC 0:39:375 55
3 BA 0:44:547 58
15/90
1 AG 1:35:987 40
2 EC 2:34:654 57
3 BA 3:27:565 83
20/120
1 AG 2:16:813 49
2 EC 3:36:847 69
3 BA 4:27:565 83
Para ambas bases de datos, en todas las pruebas ejecutadas, de manera general la
jerarquía de las tres metaheurísticas (considerando la media de la función objetivo y la
media del tiempo de ejecución) es la misma: el algoritmo genético se comporta mejor
que las dos restantes, luego le sigue el escalador de colinas, mientras que, los peores
resultados se obtienen con la búsqueda aleatoria.
Una vez concluidos los tres procesos definidos en el Modelo Conceptual (codificación,
síntesis y representación), al analizar los modelos globales integrados que resultaron
en las 30 ejecuciones realizadas con el algoritmo genético (para cada conjunto de
modelos locales de agrupamiento a integrar) se identifican los diferentes modelos
globales de agrupamiento obtenidos para cada conjunto de modelos locales. En la
tabla 5.21 se muestra la cantidad de modelos globales integrados diferentes obtenidos
a partir de cada conjunto de modelos locales, para cada base de datos.
Capítulo 5. Pruebas y Validación 127
Tabla 5.21. Cantidad de modelos globales integrados diferentes, obtenidos para cada base de
datos. Integración de modelos de agrupamiento.
Cantidad de Modelos Globales Integrados
Cantidad de Modelos Locales BD Diabetes BD Nursery
3 3 3
5 3 3
7 4 4
10 3 5
15 4 5
20 5 6
Para validar la factibilidad de la propuesta es preciso analizar la calidad de los diferentes
modelos globales integrados obtenidos para cada conjunto de modelos locales. Para
ello, se compara cada modelo global integrado con el correspondiente modelo
centralizado (aquel que resulta de la aplicación de la minería de datos sobre el
conjunto de datos centralizado). En este caso, dicha comparación se realiza
considerando los siguientes elementos:
1. Cantidad de patrones total de ambos modelos (integrado y centralizado).
2. Porcentaje de patrones comunes respecto al total de patrones del modelo
centralizado.
3. Distancia entre ambos modelos (integrado y centralizado), según la ecuación
de distancia definida en el capítulo 3 (ecuación 3.21).
4. Error relativo en la estimación de las medidas (soporte y confianza) de los
patrones del modelo global integrado que están presentes en el modelo
centralizado correspondiente (patrones comunes).
A partir de cada base de datos (Diabetes y Nursery) se generaron en Weka, mediante el
algoritmo SimpleKMeans los modelos centralizados requeridos para comparar con los
modelos globales integrados obtenidos. Debido a las características propias de los
modelos de agrupamiento, se generan tantos modelos centrales como sea necesario
en función del valor requerido del parámetro K. Es decir, si es preciso comparar, por
ejemplo, con 2 modelos globales integrados de 30 y 40 grupos o clusters cada uno, se
generan 2 modelos centrales de 30 y 40 grupos respectivamente.
Una vez obtenidos los modelos centralizados (MC), se prosigue a analizar la calidad
de los modelos globales integrados (MI). Las tablas 5.22 y 5.23 resumen los valores
promedio de los tres primeros elementos definidos anteriormente, para los diferentes
conjuntos de modelos locales correspondientes a cada base de datos.
128 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Por su parte, la tabla 5.24 muestra el error relativo promedio en la estimación de la
cobertura y de la precisión de los patrones comunes entre los modelos globales
integrados y el centralizado correspondiente, para cada conjunto de modelos locales
de ambas bases de datos.
Tabla 5.22. Métricas de los modelos globales integrados para la base de datos Diabetes.
Integración de modelos de agrupamiento.
Cantidad Modelos Locales/ Patrones Locales
Media de Cantidad de Patrones en MI
Media de Porcentaje de Patrones Comunes respecto al total en MC
Media de Distancia entre MI y MC
3/60 30 76,6% 0,1322
5/60 30 73,3% 0,1442
7/70 32 71,8% 0,1371
10/60 29 68,9% 0,1535
15/90 33 69,7% 0,1489
20/120 29 68,9% 0,1377
Media 31 71,5% 0,1423
Tabla 5.23. Métricas de los modelos globales integrados para la base de datos Nursery.
Integración de modelos de agrupamiento.
Cantidad Modelos Locales/ Patrones Locales
Media de Cantidad de Patrones en MI
Media de Porcentaje de Patrones Comunes respecto al total en MC
Media de Distancia entre MI y MC
3/60 50 61,4% 0,3442
5/60 40 69,3% 0,3187
7/70 45 68,5% 0,3076
10/60 49 62,7% 0,3437
15/90 40 65,8% 0,3301
20/120 49 63,6% 0,3399
Media 46 65,2% 0,3307
Capítulo 5. Pruebas y Validación 129
Como se puede observar en las tablas 5.22 y 5.23 la Media de Distancia entre MI y MC
para la base de datos Diabetes y para la base de datos Nursery es de 0,1423 y 0,3307 respectivamente. Estos valores resultan más altos que los correspondientes a las pruebas realizadas con modelos de reglas de asociación. Esto significa que el modelo propuesto ha obtenido modelos globales de mayor calidad en la integración de reglas de asociación que en la integración de clusters. Este resultado se justifica por la propia naturaleza de un tipo de modelo u otro. Los modelos de reglas de asociación, a diferencia de los de agrupamiento, contienen muchos patrones redundantes y similares entre sí: generalmente, en un mismo modelo, unas reglas están contenidas en otras. Por el contrario, en los modelos de agrupamiento, cada patrón (cluster) representa un conjunto de instancias o registros de datos con alta similitud entre sí, y diferentes a las instancias incluidas en otros clusters. Por otra parte, mientras que un patrón tipo regla puede identificarse mediante pocos atributos (al menos dos), un patrón cluster se identifica por su centro o centriode, el que se define especificando valores en todos los atributos del conjunto de datos origen. Esto hace que sea mayor la probabilidad de encontrar patrones iguales en dos modelos locales de reglas de asociación cualesquiera, que en dos modelos locales de agrupamiento.
De la misma forma, debido a la propia naturaleza de ambos tipos de modelos, los
valores de media del error relativo en la estimación de las medidas (cobertura y
precisión) de los patrones comunes (tabla 5.24), son superiores a los obtenidos en las
pruebas de integración de modelos de reglas de asociación. En este caso, los errores
más bajos son los correspondientes a la estimación de la precisión (8,0% y 8,2% de
error relativo para las bases de datos Diabetes y Nursery, respectivamente).
Por otra parte, es importante señalar que lo que en esta experimentación estamos
considerando error en la estimación de las medidas de los clusters globales, realmente
puede no serlo, ya que estamos considerando sólo los patrones comunes entre el
modelo global integrado y el centralizado para comparar sus medidas. Sin embargo,
las medidas de un cluster o grupo (cobertura y precisión) de un determinado modelo,
no dependen sólo de dicho cluster, como sí sucede con las reglas de asociación, sino
que depende de las características de los clusters restantes del modelo. Esto sucede
debido a que en un modelo de clustering cada instancia de los datos origen se agrupa
en el cluster cuyo centroide sea el “más cercano”. Luego, si se tienen dos modelos de
agrupamiento, para un mismo conjunto de datos origen, que poseen un cluster igual
(con igual centroide), la cantidad de instancias que se incluirán en dicho cluster para
cada modelo dependerá de la distribución de los restantes clusters representados en
el modelo.
130 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Tabla 5.24. Error relativo en estimación de medidas de patrones comunes.
Integración de modelos de agrupamiento.
BD Diabetes BD Nursery
Cantidad Modelos Locales
Media del Error Relativo (Cobertura)
Media del Error Relativo (Precisión)
Media del Error Relativo (Cobertura)
Media del Error Relativo (Precisión)
3 0,203 0,081 0,303 0,092
5 0,214 0,078 0,314 0,086
7 0,226 0,083 0,326 0,089
10 0,217 0,079 0,317 0,091
15 0,219 0,080 0,319 0,082
20 0,213 0,079 0,313 0,096
Media 0,215 0,080 0,315 0,089
Haciendo una valoración general de los resultados reflejados en las tablas 5.22-5.24, y
teniendo en cuenta las características propias de los modelos de agrupamiento, se
puede concluir que los modelos globales integrados obtenidos para ambas bases de
datos poseen una buena calidad, más aún si se considera que la obtención de estos se
ha realizado sin acceder a los datos originales. Estos presentan, considerando ambas
bases de datos, como promedio un porcentaje de patrones comunes igual 68,3%, con
una distancia media entre modelos globales integrados y el correspondiente modelo
centralizado de 0,2265, lo que representa una diferencia entre el modelo centralizado
y los modelos globales integrados de un 22,7% aproximadamente. De esta forma se
valida la factibilidad de la propuesta para la integración de modelos de agrupamiento, sin
acceder a los datos originales.
El siguiente paso es analizar la escalabilidad de la propuesta para la integración de
modelos de clustering, a partir de los resultados de los experimentos descritos
anteriormente. Para ello, procedemos de la misma forma que en el análisis de
escalabilidad para reglas de asociación. Es decir, nos basamos en dos elementos
fundamentales: la calidad del modelo global integrado resultante (comparándolo con
el modelo centralizado correspondiente), y el tiempo de ejecución del método, al
aumentar la cantidad de modelos y patrones locales a integrar, para ambas bases de
datos, a partir de los resultados obtenidos con el algoritmo genético. Para analizar la
escalabilidad en cuanto a la calidad de la solución nos centraremos en: porcentaje de
patrones comunes respecto al total de patrones del modelo centralizado, distancia
entre ambos modelos (integrado y centralizado) y error relativo en la estimación de la
cobertura y de la precisión de los patrones comunes. En las figuras 5.15 y 5.16 se
muestran gráficas que ilustran cómo se comportan estos elementos al aumentar la
Capítulo 5. Pruebas y Validación 131
cantidad de modelos/patrones locales a integrar, correspondientes a cada base de
datos respectivamente.
Figura 5.15. Calidad de los modelos globales integrados de agrupamiento. Análisis de
escalabilidad BD Diabetes.
Como se puede apreciar, para ambas bases de datos (figuras 5.15 y 5.16) a medida
que aumenta la cantidad de modelos y patrones locales la calidad del modelo global
integrado se mantiene estable.
La diferencia entre la media del porcentaje de patrones comunes para la base de
datos Diabetes y para la base de datos Nursery, así como, la diferencia entre la media de
la distancia entre modelos globales integrados y el correspondiente modelo
centralizado, para dichas bases de datos, se debe a que los modelos locales de la base
de datos Nursery son más diferentes entre sí, tienen menos clusters en común.
132 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 5.16. Calidad de los modelos globales integrados de agrupamiento. Análisis de
escalabilidad BD Nursery.
Por otra parte, en las figuras 5.17 y 5.18 se puede observar que a medida que
aumenta la cantidad de modelos y patrones locales, para ambas bases de datos, el
tiempo de ejecución también aumenta.
Capítulo 5. Pruebas y Validación 133
Figura 5.17. Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis de
escalabilidad. BD Diabetes.
Figura 5.18. Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis de
escalabilidad. BD Nursery.
Al analizar la tendencia lineal del tiempo de ejecución en función de la cantidad de
patrones locales a integrar (figuras 5.19 y 5.20), se puede apreciar que el índice de
correlación (R2), para ambas bases de datos, es cercano a 1, lo que implica que estas
variables (tiempo de ejecución y cantidad de patrones locales) están directamente
correlacionadas. Tal y como ocurre para los modelos de reglas de asociación, el
tiempo de ejecución aumenta de manera lineal respecto a la cantidad de patrones
locales a integrar.
134 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Figura 5.19. Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).
Análisis de escalabilidad. BD Diabetes.
Figura 5.20. Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).
Análisis de escalabilidad. BD Nursery.
5.3. Conclusiones
Los experimentos realizados permiten demostrar la hipótesis planteada en esta
investigación, dando cumplimiento a los objetivos específicos enunciados al inicio del
presente capítulo.
Se validó el carácter general de la propuesta, demostrando la aplicabilidad y
factibilidad del modelo para la integración, tanto de modelos locales de
agrupamiento, como de modelos locales de reglas de asociación. En las pruebas
realizadas los mejores resultados se obtuvieron en la integración de modelos de reglas
Capítulo 5. Pruebas y Validación 135
de asociación, obteniéndose una media de un 92,6% de patrones comunes entre los
modelos globales integrados y el correspondiente modelo centralizado.
Se validó la flexibilidad del modelo propuesto en su fase de síntesis, aplicando
diferentes metaheurísticas para obtener el modelo global integrado. De las
metaheurísticas utilizadas en la experimentación (búsqueda aleatoria, escalador de
colinas y algoritmo genético), el algoritmo genético fue la que mejor se comportó en
todos los casos, en cuanto a calidad del modelo global integrado y a tiempo de
ejecución.
Se analizó la escalabilidad de la propuesta, a partir de los resultados de las pruebas
realizadas. Se observó que en todos los casos, a medida que aumenta la cantidad de
modelos y patrones locales la calidad del modelo global integrado se mantiene
estable. Por otra parte, el tiempo de ejecución aumenta de manera lineal respecto a la
cantidad de patrones locales a integrar.
137
CAPÍTULO 6
6 CONCLUSIONES
En la presente tesis se ha realizado un estudio detallado, dentro del ámbito de la
minería de datos, centrado en la extracción de conocimiento global oculto en
múltiples bases de datos. La revisión realizada muestra el interés social y científico de
esta temática. Prueba de ello es el notable incremento del número de conferencias
de IEEE que abordan diferentes aristas de la minería de datos. Los trabajos más
recientes analizados demuestran la existencia aún de problemas abiertos y de interés.
De estos nos centramos en la obtención de conocimiento global a partir de
conocimiento local y huérfano, es decir, conjuntos de patrones locales descubiertos,
mediante minería de datos, en múltiples fuentes de datos desconocidas o a las que
no es posible acceder.
El principal resultado de este trabajo ha sido la creación de un modelo general que
facilita la integración de conocimiento expresado como conjuntos de patrones
procedentes de múltiples bases de datos a las que, por cualquier motivo, no es
posible acceder. El carácter general del modelo, a diferencia de propuestas
anteriores, hace posible que pueda ser utilizado para la integración tanto de modelos
de reglas de asociación, como de modelos de agrupamiento o clustering.
La formalización del modelo general propuesto se realiza mediante un modelo
conceptual que constituye la vista de los procesos y las tareas principales
identificadas como parte de estos. Junto a este modelo conceptual se presenta
también una propuesta de implementación funcional basada en el paradigma de
agentes.
Se ha diseñado e implementado una serie de experimentos para los que se han
creado conjuntos de modelos locales (tanto de reglas de asociación como de
138 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
clusters) a partir de dos bases de datos; los experimentos han permitido validar la
integración de los modelos locales siguiendo el modelo conceptual propuesto.
Los siguientes apartados abordan las principales aportaciones de la investigación, los
problemas abiertos y las líneas posibles de trabajo futuro, así como, las publicaciones
que han permitido divulgar y validar los resultados obtenidos durante la
investigación.
6.1. Aportaciones
El desarrollo de esta investigación ha generado aportaciones relevantes que se
resumen a continuación:
Un modelo conceptual que proporciona una solución de carácter genérico a
la integración de conocimiento expresado como conjuntos de patrones
procedentes de múltiples bases de datos. Este supone las siguientes
novedades:
Independencia del tamaño de los conjuntos de datos que dieron origen a
los modelos locales/parciales a integrar.
Reducción de la información procedente de los datos originales necesaria
para el proceso de integración.
Una codificación homogénea de modelos y patrones de minería de datos que
contribuye a la generalidad de la propuesta.
Un método de síntesis de patrones locales que se formaliza como un
problema de optimización mediante la definición de una función objetivo
que evalúa la calidad de las soluciones exploradas. Esta formalización es
flexible en su concepción, permitiendo aplicar diferentes metaheurísticas en
la búsqueda de la mejor solución (conjunto de patrones globales).
Un método de estimación de medidas de calidad de los patrones globales,
que se basa en la selección de un conjunto de patrones locales semejantes al
patrón global correspondiente, y la aplicación de operadores a partir de las
medidas de los patrones locales seleccionados.
Una propuesta de modelo funcional soportado en el modelo conceptual
definido, basado en el paradigma de agentes; este paradigma introduce de
forma inherente características de distribución y flexibilidad deseadas, que
pueden resultar muy útiles en aplicaciones de minería de datos.
Capítulo 6. Conclusiones 139
6.2. Problemas Abiertos
Tras esta investigación se identifican un conjunto de problemas abiertos que perfilan
el camino hacia el desarrollo de posibles trabajos científicos y líneas futuras de
investigación, de interés en el ámbito del descubrimiento de conocimiento en bases
de datos.
Entre los principales problemas abiertos, directamente relacionados con el modelo
propuesto, se tienen los siguientes:
Dotar al modelo de la capacidad de adaptarse dinámicamente a distintos
requerimientos y autoconfigurarse.
Extender el modelo propuesto para la integración de nuevos tipos de patrones
de minería de datos, o patrones que describan nuevos tipos de datos.
Optimizar la fase de síntesis del modelo propuesto, valorando nuevas
codificaciones de los modelos locales y de las soluciones que se evalúan.
Desarrollar nuevas estrategias de estimación de las medidas de calidad de los
patrones globales del modelo integrado, con el objetivo de disminuir el error de
la estimación.
Por otra parte, entre los principales problemas abiertos, derivados de la investigación
realizada, se han identificado los siguientes:
Desarrollar nuevas estrategias paralelas y distribuidas de minería de datos, a
partir del enfoque de síntesis de modelos locales/parciales propuesto en esta
tesis.
Generar datos ficticios a partir de un conjunto de modelos locales a integrar, y
aplicar posteriormente técnicas de minería de datos tradicionales
(procesamiento centralizado).
Definir métricas de distancia entre distintos tipos de modelos de minería de
datos.
Obtener patrones globales a partir de patrones de conocimiento distribuido en
modelos locales/parciales de minería de datos descubiertos en conjuntos de
datos altamente heterogéneos entre sí.
140 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
6.3. Divulgación de Resultados
Como parte del desarrollo de esta investigación se han presentado diversas
publicaciones a congresos y revistas que han permitido tanto divulgar como validar
los resultados obtenidos:
I. Wilford Rivera, D. Ruiz Fernández, A. Rosete Suarez, O. Marín Alonso, “Integrating Data ining odels from Distributed Data ources”. Distributed Computing and Artificial Intelligence: 7th International Symposium (DCAI), 2010, Advances in Intelligence and Soft Computing, 79, Editor-in-chief: J. Kacprzyk, Springer-Verlag, ISSN 1867-5662, pp 389-396. (Indexed by: SCOPUS, ISI Proceedings)
I. Wilford Rivera, D. Ruiz Fernández, A. Rosete Suarez, “Modelo de integración de conocimiento descubierto mediante técnicas de minería de datos”, Desarrollo de Grandes Aplicaciones de Red, VII Jornadas (JDARE 2010), Alicante, España, octubre 14-15, 2010. Actas. Eds Maciá, F et al, ISSN: 1889-7819, ISBN: 978-84-613-4894-7, pp 275-286.
D. Martín Rodríguez, D. Morales Vega, I. Wilford Rivera, I. Torres Pérez, A. osete uárez, D. uiz Fernández, “Aplicación de algoritmos metaheurísticos en la integración de modelos de minería de datos”, Desarrollo de Grandes Aplicaciones de Red, VII Jornadas (JDARE 2010), Alicante, España, octubre 14-15, 2010. Actas. Eds Maciá, F et al, ISSN: 1889-7819, ISBN: 978-84-613-4894-7, pp 213-224.
I. Wilford Rivera, A. Rosete Suarez, D. Ruiz Fernández, “Modelo Conceptual para la Integración de patrones de minería de datos”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.
D. Morales Vega, I. Wilford Rivera, A. Rosete Suarez, “Integración de modelos de agrupamiento obtenidos de múltiples fuentes de datos”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.
D. Martín Rodríguez, I. Wilford Rivera, A. Rosete Suarez, “Algoritmos Paralelos para la Extracción de Reglas de Asociación”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.
I. Torres Pérez, I. Wilford Rivera, A. Rosete Suarez, “Multiclasificadores: Un Paradigma dentro del Aprendizaje Automático”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.
I. Wilford Rivera, D. Ruiz Fernández, A. Rosete Suarez, D. Morales Vega, I. orres Pérez, D. artín odríguez. “ étodo para la Integración de odelos resultantes de la aplicación de Técnicas de Minería de Datos”. Desarrollo de
Capítulo 6. Conclusiones 141
Grandes Aplicaciones de Red, VI Jornadas (JDARE 2009), Alicante, España, octubre 15-16, 2009, Actas. Eds Maciá, F et al, ISSN: 1889-7819, ISBN: 978-84-613-4894-7, pp 367-380.
I. Wilford Rivera, A. Rosete Suarez, A. Rodríguez Díaz. “Aplicación de la Minería de Datos para el análisis de información clínica. Estudio Experimental en cardiopatías isquémicas”, Revista Cubana de Informática Médica (RCIM), No. 1, Año 9, ISSN: 1684-1859, 2009. (Certificada por el CITMA)
I. Wilford Rivera, A. osete uarez, A. odríguez Díaz. “Análisis de Información Clínica mediante técnicas de Minería de Datos”, RevistaeSalud.com, Vol. 5, No. 20, Editada por: FeSalud, ISSN: 1698-7969, 2009.
I. Wilford ivera, A. osete uarez, D. uiz Fernández. “Descubrimiento de conocimiento, a partir de múltiples conjuntos de datos, mediante la integración de modelos de minería de datos”. egundo aller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Ciudad de Panamá, Panamá, 4-7 noviembre 2009, ISBN 978-959-261-304-1.
D. artin odríguez, I. Wilford ivera, A. osete uarez. “Estado del arte: algoritmos paralelos de reglas de asociación”. egundo aller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Ciudad de Panamá, Panamá, 4-7 noviembre 2009, ISBN 978-959-261-304-1.
D. orales Vega, I. Wilford ivera, A. osete uarez. “Algoritmos de agrupamiento para el análisis de múltiples fuentes de datos. Estado del arte.” Segundo Taller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Ciudad de Panamá, Panamá, 4-7 noviembre 2009, ISBN 978-959-261-304-1.
I. Wilford Rivera, A. Rosete Suárez, D. Ruiz Fernández, D. Martin odríguez, D. orales Vega, I. orres Perez, “Propuesta de método para la integración de modelos de minería de datos”, COMPUMAT 2009, La Habana, Cuba, 18-20 noviembre 2009, ISSN: 1728-6042.
D. Martin Rodríguez, I. Torres Perez, I. Wilford Rivera, D. Morales Vega, A. osete uarez, “Aplicación de la minería de datos para el estudio de procedimientos de hemodinámica”, COMPUMAT 2009, La Habana, Cuba, 18-20 noviembre 2009, ISSN: 1728-6042.
I. Wilford ivera, D. uiz Fernández, A. osete uarez. “ inería de datos para el estudio de las coronariografías realizadas a pacientes con cardiopatía isquémica”, XXVI Congreso Anual de la ociedad Española de Ingeniería
142 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
Biomédica (CASEIB), Valladolid, España, 2008. Actas. ISBN: 978–84–691–3640–9, p. 427-430.
I. Wilford Rivera, A. Rosete Suarez, F.O. Fernández Peña, D. Ruiz Fernández. “Arquitectura para minería de datos distribuida basada en la semántica de la intención de los mensajes”, Desarrollo de Grandes Aplicaciones de Red, V Jornadas (JDARE 2008), Alicante, España, octubre 16-17, 2008, Actas. Eds Maciá, F et al, ISBN-13: 978-84-612-6812-2, pp. 259-268.
I. Wilford Rivera, A. Rosete uarez, D. uiz Fernández. “Estado del Arte sobre Minería de Datos Distribuida”, V Simposio Internacional de Ingeniería Industrial, Informática y Afines, III Taller de Informática Aplicada, XIV Convención Científica de Ingeniería y Arquitectura (CCIA), CUJAE, Cuba, 2008, ISBN: 978-959-261-281-5.
I. Wilford Rivera, A. Rosete uarez, D. uiz Fernández. “Aplicación de la minería de datos en la informática médica. Estudio de las coronariografías”, V Simposio Internacional de Ingeniería Industrial, Informática y Afines, III Taller de Informática Aplicada, XIV Convención Científica de Ingeniería y Arquitectura (CCIA), CUJAE, Cuba, 2008, ISBN: 978-959-261-281-5.
I. Wilford Rivera, A. Rosete Suarez, A. Rodríguez Díaz. “Aplicación de Técnicas de Minería de Datos para el Análisis de Información Clínica”, II Congreso Internacional de Ingeniería Biomédica, XIV Convención Científica de Ingeniería y Arquitectura (CCIA), CUJAE, Cuba, 2008, ISBN: 978-959-261-281-5.
I. Wilford Rivera, A. Rosete Suarez, F.O. Fernández Peña. “Consideraciones generales de una propuesta de arquitectura de software para minería de datos distribuida”, Primer taller internacional de descubrimiento de conocimiento, gestión del conocimiento y toma de decisiones, XIV Congreso Latino Ibero Americano de Investigación de Operaciones, (Eds. J. Amador, C. Paternina, J. Velázquez), CLAIO 9-12 Septiembre 2008, Cartagena de Indias, Colombia, ISBN: 978-958-825283-4, p. 108.
I. Wilford Rivera, A. Rosete Suárez, D. Ruiz Fernández, A. Rodríguez Díaz. “ inería de Datos Distribuida. Análisis de fuentes de datos homogéneas”, IV Taller de Inteligencia Artificial, UCIENCIA 2008, octubre 2008, ISBN: 978-959-286-007-0.
143
REFERENCIAS BIBLIOGRÁFICAS
[Adhikari & Rao, 2007]
Adhikari, A., Rao, P. R.: Enhancing quality of knowledge synthesized from multi-database mining. Pattern Recognition Letters. vol. 28, no. pp. 2312–2324 (2007)
[Adhikari & Rao, 2008]
Adhikari, A., Rao, P. R.: Synthesizing heavy association rules from different real data sources. Pattern Recognition Letters. vol. 29, no. pp. 59-71 (2008)
[Adhikari et al., 2010]
Adhikari, A., Ramachandrarao, P., Prasad, B., Adhikari, J.: Mining Multiple Large Data Sources. The International Arab Journal of Information Technology. vol. 7, no. 3, pp. 241-249 (2010)
[Aggarwal et al., 2005]
Aggarwal, C. C., Han, J., Wang, J., Yu, P. S. (2005). "On High Dimensional Projected Clustering of Data Streams." In Data Mining and Knowledge Discovery: Springer Science + Business Media, Inc.
[Agrawal & Srikant, 1994]
Agrawal, R., Srikant, R. (1994). "Fast Algorithms for Mining Association Rules." roc. of the 20th Int’l Conference on Very Large Databases Santiago, Chile.
[Agrawal & Shafer, 1996]
Agrawal, R., Shafer, J. C.: Parallel mining of association rules. IEEE Transactions on Knowledge and Data Engineering. vol. 8, no. 6, pp. 962-969 (1996)
[Amado et al., 2001]
Amado, N., Gama, J., Silva, F. (2001). "Parallel Formulations of Decision-Tree Classification Algorithms." In LNAI: 2258: Springer-Verlag Berlin Heidelberg.
144 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
[Andreopoulos et al., 2009]
Andreopoulos, B., An, A., Wang, X., Labudde, D.: Efficient layered density-based clustering of categorical data. Journal of Biomedical Informatics. vol. 42, no. 2, pp. 365-376 (2009)
[Aronis et al., 1997]
Aronis, J. M., Kolluri, V., Provost, F. J., Buchanan, B. G. (1997). "The WoRLD: Knowledge discovery from multiple distributed databases." 10th international Florida Arti Intelligence Research Symposium (FLAIRS-97) Florida, pp. 337–341.
[BakIrlI et al., 2010]
BakIrlI, G., Birant, D., Kut, A.: An incremental genetic algorithm for classification and sensitivity analysis of its parameters. Expert Systems with Applications. vol. 41 In Press, Corrected Proof, no. 3 pp. 12-27 (2010)
[Bauer & Odell, 2005]
Bauer, B., Odell, J.: UML 2.0 and agents: how to build agent-based systems with the new UML standard. Journal of Engineering Applications of Artificial Intelligence. vol. 18, no. 2, pp. 141-157 (2005)
[Ben & Tom, 2010]
Ben, Y., Tom, E.: A Streaming Parallel Decision Tree Algorithm. Journal of Machine Learning Research. vol. 11, no. 1 pp. 849-872 (2010)
[Berman, 2001]
Berman, F.: From teragrid to knowledge grid. Commun. ACM. vol. 44, no. 11, pp. 27-28 (2001)
[Berry & Linoff, 2000a]
Berry, M., Linoff, G.: Mastering Data Mining, The Art and Science of Customer Relationship Management. John Wiley & Sons, Inc. (2000a)
[Berry & Linoff, 2000b]
Berry, M., Linoff, S.: Mastering Data Mining. John Wiley & Sons. Inc (2000b)
[Berry & Linoff, 2004]
Berry, M., Linoff, G.: Data Mining Techniques for Marketing Sales, and Customer Relationship Management. Wiley Pub., Inc. (2004)
[Berry, 2004]
Berry, M. W.: Survey of text mining: clustering, classification, and retrieval. Springer-Verlag, New York (2004)
[Cannataro et al., 2004]
Cannataro, M., Congiusta, A., Pugliese, A., Talia, D., Trunfio, P.: Distributed Data Mining on Grids: Services, Tools, and Applications. IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics. vol. 34, no. 6, pp. 34-45 (2004)
Referencias Bibliográficas 145
[Cios et al., 2007]
Cios, K. J., Pedrycz, W., Swiniarsky, R. W., Kurgan, L. A.: Data Mining. A Knowledge Discovery Approach. Springer Science Business Media, LLC, New York, USA (2007)
[Chattratichat et al., 1999]
Chattratichat, J., Darlington, J., Guo, Y., Hedvall, S., Koler, M., Syed, J. (1999). "An architecture for distributed enterprise data mining." Proceedings of the 7th International Conference on High-Performance Computing and Networking. Lecture Notes In Computer Science 1593, pp. 573-582.
[Chen et al., 2010]
Chen, M., Gao, X., Li, H. (2010). "Parallel DBSCAN with Priority R-tree." Information Management and Engineering (ICIME), The 2nd IEEE International Conference on, pp. 508-511.
[Darlington et al., 1997]
Darlington, J., Guo, Y., Sutiwaraphun, J., Wing, H. (1997). "Parallel Induction Algorithms for Data MIning." In Advances in Intelligent Data Analysis Reasoning about Data, Second International Symposium, IDA-97. pp. 437-445.
[DataMiningGrid, 2007]
DataMiningGrid. (2007). DataMiningGrid Proyect, www.datamininggrid.org. [21 Diciembre 2007]
[DMG, 2010]
DMG. (2010). Predictive Model Markup Language (PMML). Data Mining Group, http://www.dmg.org.htm.
[Dubitzky, 2008]
Dubitzky, W.: Data mining techniques in grid computing environments. Wiley-Blackwell (2008)
[Eriksson & Penker, 1999]
Eriksson, H., Penker, M.: Business Modeling with UML: Business Patterns at work. Wiley & Sons (1999)
[Fajardo, 2009]
Fajardo, J. (2009). "Algoritmo Multigenerador de soluciones para la competencia y colaboración de generadores metaheurísticos." Tesis de Maestría en Informática Aplicada, CUJAE, C. Habana, Cuba.
[Fajardo et al., 2009]
Fajardo, J., Paredes, D., Rosete, A., Espín, R. A. (2009). "Modelo de Integración de los Algoritmos Metaheurísticos." Segundo Taller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Hotel Royal Decamerón Playa Blanca, Ciudad de Panamá, Panamá, 4-7 de noviembre.
146 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
[Fayyad et al., 1996a]
Fayyad, U., Piatetsky-Shapiro, G., Smyth, P.: The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM. vol. 39, no. 11, pp. 27-34 (1996a)
[Fayyad et al., 1996b]
Fayyad, U. M., Haussler, D., Stolorz, Z. (1996b). "KDD for Science Data Analysis: Issues and Examples." Second International Conference on Knowledge Discovery and Data Mining (KDD-96) Menlo Park, Calif. pp. 50-56.
[Fayyad & Uthurusamy, 1996]
Fayyad, U. M., Uthurusamy, R.: Data Mining and Knowledge Discovery in databases Comm. of ACM. vol. 39, no. 11, pp. 24-26 (1996)
[Fielitz & Scott, 2003]
Fielitz, L., Scott, D.: Prediction of physical performance using data mining. Research Quarterly for Exercise and Sport. vol. 74, no. 1, pp. 24-26 (2003)
[FIPA, 2002a]
FIPA. (2002a). FIPA Contract Net Interaction Protocol Specification, http://www.fipa.org/specs/fipa00029. [Octubre 2010]
[FIPA, 2002b]
FIPA. (2002b). FIPA Request Interaction Protocol Specification, [Octubre 2010]
[FIPA, 2002c]
FIPA. (2002c). FIPA Propose Interaction Protocol Specification. Foundation for Intelligent Physical Agents, http://www.fipa.org/specs/fipa00036. [Septiembre 2010]
[Frank & Asuncion, 2010]
Frank, A., Asuncion, A. (2010). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science, http://archive.ics.uci.edu/ml. [Septiembre 2010]
[Friedman, 2003]
Friedman, N. (2003). "PCluster: Probabilistic Agglomerative Clustering of Gene Expression Profiles." In Technical. Report Technical Report 80: Hebrew University.
[Garg & Mishra, 2010]
Garg, R., Mishra, P. K.: Parallel Association Rule Mining on Heterogeneous System. International Journal of Computer Applications. vol. 1, no. 14, pp. 81-85 (2010)
Referencias Bibliográficas 147
[Gionis et al., 2005]
Gionis, A., Mannila, H., Tsaparas, P. (2005). "Clustering aggregation." ICDE pp. 341-352.
[Giudici & Figini, 2009]
Giudici, P., Figini, S.: Applied Data Mining for Business and Industry. John Wiley and Sons Ltd (2009)
[Goil et al., 1999]
Goil, S., Nagesh, H., Choudhary, A. (1999). "MAFIA: Efficient and Scalable Subspace Clustering for Very Large Data Sets." In Center for Paralel and Distributed Computing: Technical Report No. CPDC-TR-906-0.
[Goldberg & Horn, 1999]
Goldberg, D. E., Horn, J.: Genetic Algorithm Difficulty and the Modality of Fitness Landscapes. Illinois Genetic Algorithms Laboratory (1999)
[Grossman et al., 2001]
Grossman, R., Kamath, C., Kegelmeyer, P., Kumar, V., Namburu, R.: Data Mining for Scientific and Engineering Applications. Kluwer Academic Publishers (2001)
[Grossman et al., 2002]
Grossman, R., Hornick, M., Meyer, G.: Data Mining Standards Initiatives. Commun. ACM. vol. 45, no. 8, pp. 59-61 (2002)
[Grossman, 2006]
Grossman, R.: KDD Workshop on Data Mining Standards, Services & Platforms (DM-SSP). ACM SIGKDD Explorations. vol. 8, no. 2, pp. 82-83 (2006)
[Guazzelli et al., 2009]
Guazzelli, A., Zeller, M., Chen, W., Williams, G.: PMML: An Open Standard for Sharing Models. The R Journal. vol. 1, no. 1, pp. 60-65 (2009)
[Guazzelli et al., 2010]
Guazzelli, A., Lin, W., Jena, T.: PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics. Prentice Hall (2010)
[Guo & Grossman, 1999]
Guo, Y., Grossman, R. (1999). "High Performance Data Mining. Scaling Algorithms, Applications and Systems." Data Mining and Knowledge Discovery New York pp. 235-339.
[Guo, 2002]
Guo, Y. (2002). Discovery Net, www.lesc.ic.ac.uk/projects/dnet.html. [ Diciembre 2007]
148 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
[Han et al., 2000]
Han, E., Karypis, G., Kumar, V.: Scalable parallel data mining for association rules. IEEE Trans. on Knowledge and Data Engineering. vol. 12, no. 3, pp. 337-352, (2000)
[Han & Kamber, 2006]
Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann, Oxford, UK (2006)
[He et al., 2010]
He, D., Wu, X., Zhu, X.: Rule Synthesizing from Multiple Related Databases. Advances in Knowledge Discovery and Data Mining, Lecture Notes in Computer Science, Springer Berlin / Heidelberg. vol. 6119, no. 3 pp. 201-213 (2010)
[Hernández et al., 2004]
Hernández, J., Ramírez, M., Ferri, C.: Introducción a la Minería de Datos. Prentice Hall, Madrid (2004)
[Holmes et al., 1994]
Holmes, G., Donkin, A., Witten, I. H. (1994). "Weka: A machine learning workbench " Second Australia and New Zealand Conference on Intelligent Information Systems Brisbane, Australia.
[Hore et al., 2009]
Hore, P., Hall, L., Goldgof, D. B.: A scalable framework for cluster ensembles. Pattern Recognition. vol. 42, no. 1 pp. 676-678 (2009)
[Hudgins-Bonafield, 1997]
Hudgins-Bonafield, C.: Data mining software scores high with the NBA. Network Computing. vol. 8, no. 11, pp. 36-47 (1997)
[IEEE, 2010]
IEEE. (2010). "IEEE Conferences & Events, http://www.ieee.org."
[Inmon, 2002]
Inmon, W. H.: Building the Data Warehouse, Third Edition. John Wiley & Sons, Inc., New York (2002)
[Inmon, 2005]
Inmon, W. H.: Building the Data Warehouse, Fourth Edition. Wiley Publishing, Inc., Indianapolis (2005)
[ISO, 2000]
ISO. (2000). Guidance on the Process Approach to Quality Management. ISO, www.iso.ch/iso/en/iso9000/200rev9.html. [Noviembre 2009]
Referencias Bibliográficas 149
[Jensen & Soparkar, 2000]
Jensen, V. C., Soparkar, N. (2000). "Frequent Itemset Counting Across Multiple Tables." PAKDD Berlin: Springer-Verlag.
[Jeston & Neils, 2006]
Jeston, J., Neils, J.: Business Process Management. Practical guide to successful implementations. Elsevier (2006)
[Joshi et al., 1998]
Joshi, M., Karypis, G., Kumar, V. (1998). "ScalParC: A scalable and parallel classification algorithm for mining large datasets." Parallel Processing Symposium.
[Kargupta et al., 1999]
Kargupta, H., Hamzaoglu, I., Stafford, B. (1999). "Scalable, distributed data mining using an agent based architecture " In Proceedings the Third International Conference on the Knowledge Discovery and Data Mining. California, USA: AAAI Press.
[Kargupta & Park, 2003]
Kargupta, H., Park, B. (2003). "Distributed Data Mining: Algorithms, Systems, and Applications." In The Handbook of Data Mining: Lawrence Erlbaum Associates.
[Kargupta et al., 2009]
Kargupta, H., Han, J., Yu, P. S., Motwani, R., Kumar, V.: Next Generation of Data Mining. Chapman &Hall/CRC Taylor & Francis Group, LLC (2009)
[Kimball & Ross, 2002]
Kimball, R., Ross, M.: The Data Warehouse Toolkit, Second Edition, The Complete Guide to Dimensional Modeling. John Wiley & Sons, Inc., New York (2002)
[Kirkosa et al., 2007]
Kirkosa, E., Spathisb, C., Manolopoulosc, Y.: Data Mining techniques for the detection of fraudulent financial statements. Expert Systems with Applications. vol. 32, no. 4, pp. 995-1003 (2007)
[Korf, 1990]
Korf, R. E. (1990). "Search." In Encyclopedia of Artificial Intelligence, ed. S.C. Shapiro: Wiley Inter-science.
[Krishnaswamy et al., 2001]
Krishnaswamy, S., Zaslavsky, A., Loke, S. W. (2001). "Federated data mining services and a supporting XML-based language." In Proceedings of the 34th Annual Hawaii International Conference on System Sciences, 2001. Hawaii IEEE.
150 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
[Kumar et al., 2009]
Kumar, P., Saroj, Siddavatam, R. (2009). "Classification Models: Non Evolutionary vs. Evolutionary Approach." Advances in Computing, Control, & Telecommunication Technologies, 2009. ACT '09. International Conference on pp. 341-343.
[Labrou & Finin, 1998]
Labrou, Y., Finin, T. (1998). "Semantics and Conversions for an Agent Communication Language." In Reading in Agents, ed. Huhns M & Singh M: Morgan Kaufmann, pp. 235-242.
[Lange & Buhmann, 2005]
Lange, T., Buhmann, J. M. (2005). "Combining partitions by probabilistics label aggregation." 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining pp. 147-156.
[Li et al., 2006]
Li, J., Liu, Y., Liao, W.-k., Choudhary, A.: Parallel Data Mining Algorithms for Association Rules and Clustering. (2006)
[Lindsay et al., 2003]
Lindsay, A., Downs, D., Lunn, K.: Business processes-attempts to find a definition. Information and Software Technology. vol. 45, no. 1, pp. 1015-1019 (2003)
[Little, 2009]
Little, B.: Data Mining: Method, Theory and Practice. WIT Press (2009)
[Long et al., 2005]
Long, B., Zhang, Z. M., Yu, P. S. (2005). "Combining multiple clusterings by soft correspondence." ICDM pp. 282-289.
[Lorenzo, 2009]
Lorenzo, I.: Modelo de Detección de Intrusos mediante Reducción de Características. Solución al Dilema Capacidad-Eficiencia. Departamento de Tecnología Informática y Computación, Universidad de Alicante, Alicante, Tesis Doctoral (2009)
[Lorenzo et al., 2009]
Lorenzo, I., Maciá, F., Mora, F. J., Marcos, D., Gil, J. A., Lau, R. (2009). "Marco Formal para el Modelado de un Sistema de Detección de Intrusos de Red." JDARE 2009 Alicante, España, pp. 15-37.
[Maciá, 2001]
Maciá, F.: Modelos de administración de redes heterogéneas de computadores. Sistema de regeneración de nodos de red. Departamento de Tecnología Informática y Computación, Universidad de Alicante, Alicante, Tesis Doctoral (2001)
Referencias Bibliográficas 151
[Maciá & García, 2006]
Maciá, F., García, J.: Mobile Agent System Framework Suitable for Scalable Networks. Kybernetes. The International Journal of Systems and Cybernetics. vol. 35, no. 5, pp. 688–699 (2006)
[Mehta et al., 1996]
Mehta, M., Agrawal, R., Rissanen, J. (1996). "SLIQ: A fast scalable classifier for data mining." Fifth Intl Conference on Extending Database Technology (EDBT) Avignon, France.
[Mehta, 2006]
Mehta, M., Agrawal, R., Rissanen, J.: SLIQ: A Fast Scalable Classifier for Data Mining. Advances in Database Technology. vol. 1057, no. 2 pp. 18-32 (2006)
[Miller & Han, 2009]
Miller, H. J., Han, J.: Geographic Data Mining and Knowledge Discovery. Chapman &Hall/CRC Taylor & Francis Group, LLC (2009)
[Mohammadian, 2004 ]
Mohammadian, M.: Intelligent Agents for Data Mining and Information Retrieval. Idea Group Publishing, Hershey (2004 )
[Mueller, 1995]
Mueller, A.: Fast sequential and parallel algorithms for association rule mining: A comparison. Technical Report CS-TR-3515, University of Maryland, College Park (1995)
[Nong, 2003]
Nong, Y.: The Handbook of Data Mining. Lawrence Erlbaum Associates, Inc., New Jersey (2003)
[Palma & Marín, 2008]
Palma, J. T., Marín, R.: Inteligencia Artificial: métodos, técnicas y aplicaciones. McGraw-Hill (2008)
[Park & Kargupta, 2003]
Park, B., Kargupta, H. (2003). "Distributed Data Mining." In The Handbook of Data Mining, ed. Ye. Nong. New Jersey: Lawrence Erlbaum Associates, Inc.
[Park et al., 1995]
Park, J. S., Chen, M., Yu, P. S. (1995). "Efficient parallel data mining for association rules." ACM Intl. Conf. Information and Knowledge Management.
[Parthasarathy & Subramonian, 2000]
Parthasarathy, S., Subramonian, R.: Facilitating data mining on a network of workstations. Advances in distributed and parallel knowledge discovery. vol. 11 no. 1 pp. 233-258 (2000)
152 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
[Paul & Saravanan, 2008]
Paul, S., Saravanan, V.: Knowledge integration in a parallel and distributed environment with association rule mining using XML data. International Journal of Computer Science and Network Security (IJCSNS). vol. 8, no. 5, pp. 334-339 (2008)
[Pechter, 2009]
Pechter, R.: What's PMML and What's New in PMML 4.0? The ACM SIGKDD Explorations Newsletter. vol. 11, no. 1, pp. 19-25 (2009)
[Pizzuti & Talia, 2003]
Pizzuti, C., Talia, D.: P-AutoClass: Scalable Parallel Clustering for Mining Large Data Sets. IEEE Computer Society. vol. 15, no. 3, pp. 629-641 (2003)
[Prakash & Parvathi, 2010]
Prakash, S., Parvathi, R. M. S.: An Enhanced Scaling Apriori for Association Rule Mining Efficiency. European Journal of Scientific Research. vol. 39, no. 2, pp. 257-264 (2010)
[Qian & Suen, 2000]
Qian, Y., Suen, C. (2000). "Clustering combination method." International Conference on Pattern Recognition (ICPR 2000) Barcelona, Spain, pp. 732-735.
[Quan et al., 2009]
Quan, T. T., Ngo, L. N., Siu Cheung, H. (2009). "An Effective Clustering-based Approach for Conceptual Association Rules Mining." Computing and Communication Technologies, 2009. RIVF '09. International Conference on pp. 1-7.
[Richardson et al., 2007]
Richardson, W. C., Avondolio, D., Schrager, S., Mitchell, M. W., Scanlon, J.: Professional Java, JDK 6 Edition. Wiley Publishing, Indianapolis (2007)
[Rosete, 2000]
Rosete, A. (2000). "Una solución flexible y eficiente para el trazado de grafos basada en el Escalador de Colinas Estocástico." ISPJAE, La Habana
[Rosete et al., 2008]
Rosete, A., Fajardo, J., Paredes, D., Bardají, Y.: Hacia un modelo integrado de los algoritmos metaheurísticos. 14 Convención Científica de Ingeniería y Arquitectura. (2008)
[Rumbaugh et al., 2007]
Rumbaugh, J., Jacobson, I., Booch, G.: El Lenguaje Unificado de Modelado. Manual de Referencia. Segunda Edición. Pearson, Addison Wesley (2007)
Referencias Bibliográficas 153
[Sánchez et al., 1999]
Sánchez, G., Ruiz, J., Díaz, J.: GLC: Un Nuevo Algoritmo de Agrupamiento para Grandes Conjuntos de Datos Mezclados. Technical Report, Serie Roja, CIC-IPN, México,. vol. 56, no. 7 pp. 67-78 (1999)
[Shafer et al., 1996]
Shafer, J., Agrawal, R., Mehta, M. (1996). "Sprint: A scalable parallel classier for data mining." 22nd VLDB.
[Sierra, 2006]
Sierra, B.: Aprendizaje Automático: conceptos básicos y avanzados. Prentice Hall, Madrid, España (2006)
[Smith & Fingar, 2002]
Smith, H., Fingar, P.: Business Process Management. The Third Wave. Meghan-Kiffer (2002)
[Stankovski et al., 2008a]
Stankovski, V., Swain, M., Kravtsov, V., Niessen, T., Wegener, D., Kindermann, J., Dubitzky, W.: The DataMiningGrid system is described in detail in the paper Grid-enabling data mining applications with DataMiningGrid: An architectural perspective of the authors. Future Generation Computer Systems. vol. 24, no. 4, pp. 259-279 (2008a)
[Stankovski et al., 2008b]
Stankovski, V., Trnkoczy, J., Swain, M., Dubitzky, W., Kravtsov, V., Schuster, A., Niessen, T., Wegener, D., May, M., Röhm, M., Franke, J. (2008b). "Digging Deep into the Data Mine with DataMiningGrid." In IEEE Computer Society.
[Stolfo, 1997]
Stolfo, S. (1997). "Java agents for meta-learning over distributed databases " In Proceedings Third International Conference on Knowledge Discovery and Data Mining. California: AAAI Press.
[Strehl & Ghosh, 2002]
Strehl, A., Ghosh, J. (2002). "Cluster ensembles – a knowledge reuse framework for combining partitionings." Conference on Artificial Intelligence (AAAI 2002) Edmonton, Canada, pp. 93-98.
[Talia et al., 2005]
Talia, D., Verta, O., Trunfio, P. (2005). "Weka4WS: A WSRF-Enabled Weka Toolkit for Distributed Data Mining on Grids " In Knowledge Discovery in Databases: PKDD 2005, ed. Springer Berlin / Heidelberg: Springer.
154 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
[Talia et al., 2008]
Talia, D., Trunfio, P., Verta, O.: The Weka4WS framework for distributed data mining in service-oriented Grids. Concurrency and Computation: Practice and Experience. vol. 20, no. 16, pp. 1933-1951 (2008)
[Taner & Dikmen, 2007]
Taner, O., Dikmen, O.: Parallel univariate decision trees. Pattern Recognition Letters. vol. 28, no. 10 pp. 825-832 (2007)
[Tardío et al., 1999]
Tardío, M. A., Arie, S., Bisbe, A. M. (1999). "ANGYCOR: Software para control de procedimientos en un Servicio de Hemodinámica." 1er Congreso Virtual de Cardiología.
[Tirumala et al., 2009]
Tirumala, S. N., Prasad, E. V., Venkateswarlu, N. B. (2009). "A Scalable k-means Clustering Algorithm on Multi-Core Architecture." International Conference on Methods and Models in Computer Science.
[Trottier, 2002]
Trottier, A. (2002). "Java 2 Core Language Little Black Book." Paraglyph Press.
[Wang, 2003]
Wang, J.: Data Mining: Opportunities and Challenges. Idea Group Publishing, Hershey (2003)
[Wang, 2006]
Wang, J.: Encyclopedia of Data Warehousing and Mining. Idea Group Reference, Hershey (2006)
[Wang & Fu, 2005]
Wang, L., Fu, X.: Data Mining with Computational Intelligence. Springer-Verlag Berlin Heidelberg New York (2005)
[Weiss, 2000]
Weiss, G.: Multiagent Systems. A Modern Approach to Distributed Artificial Intelligence. The MIT Press (2000)
[Weka, 2010]
Weka. (2010). Weka 3 - Data Mining Software in Java, http://www.cs.waikato.ac.nz/ml/weka. [Octubre 2010]
[Wilford et al., 2008]
Wilford, I., Ruiz, D., Rosete, A. (2008). "Minería de datos para el estudio de las coronariografías realizadas a pacientes con cardiopatía isquémica." XXVI Congreso Anual de la Sociedad Española de Ingeniería Biomédica (CASEIB) Valladolid, España pp. 427-430.
Referencias Bibliográficas 155
[Witten & Frank, 2005]
Witten, I. H., Frank, E.: Data Mining Practical Machine Learning Tools and Techniques, Second Edition. Morgan Kaufmann, San Francisco (2005)
[Wolpert & Macready, 1997]
Wolpert, D. H., Macready, W. G. (1997). "No free lunch theorems for optimization." In IEEE Transactions on Evolutionary Computation.
[Wooldridge & Jennings, 1995]
Wooldridge, M., Jennings, N. (1995). "Intelligent Agents - Theories, Architectures, and Languages." In Intelligent Agents, ed. Springer Berlin / Heidelberg.
[Wooldridge, 2009]
Wooldridge, M. J.: An introduction to multiagent systems. John Wiley & Sons (2009)
[Wu & Zhang, 2003]
Wu, X., Zhang, S.: Synthesizing High-Frequency Rules from Different Data Sources. IEEE Transactions on Knowledge and Data Engineering. vol. 15, no. 2, pp. 353-367 (2003)
[Yang et al., 2009]
Yang, J., Yan, P., Xie, Y.: An Efficient Parallel Clustering Algorithm for Large Scale Database. Journal of Software. vol. 4, no. 10, pp. 119-1126 (2009)
[Yang & Yang, 2010]
Yang, J., Yang, Y. (2010). "A Parallel Algorithm for Mining Association Rules." 2010 International Conference on Networking and Digital Society, IEEE, pp. 475-478.
[Ye, 2004]
Ye, N.: The Handbook of Data Mining. CRC Press (2004)
[Yuret & Maza, 1993]
Yuret, D., Maza, M. d. l. (1993). "Dynamic Hill Climbing: Overcoming the limitations of optimization techniques." Massachusetts Institute of Technology, Cambridge, USA
[Zaki et al., 1996]
Zaki, M. J., Ogihara, M., Parthasarathy, S., Li, W. (1996). "Parallel data mining for association rules on shared-memory multi-processors." ACM/IEEE Conf. on Supercomputing.
[Zaki, 1999]
Zaki, M. J.: Parallel and Distributed Association Mining: A Survey. IEEE Educational Activities Department vol. 7, no. 4, pp. 14-25 (1999)
156 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano
[Zaki & Ho, 2000]
Zaki, M. J., Ho, C. T. (2000). "Large-Scale Parallel Data Mining." LNAI 1759, Springer-Verlag Berlin Heidelberg.
[Zhang et al., 2004a]
Zhang, C., Liu, M., Nie, W., Zhang, S.: Identifying Global Exceptional Patterns in Multi-database Mining. IEEE Computational Intelligence Bulletin. vol. 3, no. 1, pp. 19-24 (2004a)
[Zhang et al., 2003]
Zhang, S., Wu, X., Zhang, C.: Multi-Database Mining. IEEE Computational Intelligence Bulletin. vol. 2, no. 1, pp. 5-13 (2003)
[Zhang et al., 2004b]
Zhang, S., Zhang, C., Wu, X.: Knowledge Discovery in Multiple Databases. Spinger (2004b)
[Zhang et al., 2004c]
Zhang, S., Zhang, C., Yu, J.: An efficient strategy for mining exceptions in multi-databases. Information Sciences. vol. 165, no. 2 pp. 1-20 (2004c)
[Zhang et al., 2009]
Zhang, S., You, X., Jin, Z., Wu, X.: Mining globally interesting patterns from multiple databases using kernel estimation. Expert Systems with Applications. vol. 36, no. 1 pp. 10863–10869 (2009)
[Zhang & Brodley, 2004]
Zhang, X., Brodley, C. E. (2004). "Solving cluster ensemble problem by bipartite graph partitioning." ICML.
[Zhong et al., 2003]
Zhong, N., Yao, Y., Ohshima, M.: Peculiarity oriented multi-database mining. IEEE Transactions on Knowledge and Data Engineering. vol. 15, no. 5 pp. 952-960 (2003)