Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la...

26
Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet

Transcript of Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la...

Page 1: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica

Responsable:

Dr. Humberto Carrillo Calvet

Page 2: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Problemática

• La cantidad de datos que se genera y almacena hoy en día en cualquier área de conocimiento es tan vasta, que rebasa las capacidades de asimilación de cualquier ser humano.

• Este hecho ha ocasionado el nacimiento de nuevas disciplinas como la denominada “Descubrimiento de Conocimiento en Bases de Datos” (KDD), que se enfoca en la extracción de información a partir del procesamiento de grandes cantidades de datos.

Page 3: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Motivación

• Frente a este escenario, resulta apremiante contar con métodos y herramientas computacionales capaces de analizar de forma automática y eficiente la gran cantidad de información acumulada en cualquier disciplina.

Page 4: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Objetivo

• Investigar técnicas y algoritmos de la inteligencia computacional para basar en ellos el desarrollo de sistemas de software que faciliten el análisis de información y descubrimiento de conocimiento en grandes bases de datos. Particularmente se investigarán técnicas que permitan la visualización automática de información digital.

Page 5: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Objetivos Específicos

• Investigar técnicas y algoritmos de la inteligencia computacional que permitan la visualización automática de información digital.

• Diseñar metodologías, de análisis de información, basadas en técnicas de la inteligencia computacional.

• Diseñar y desarrollar prototipos de software que implementen las metodologías planteadas.

Page 6: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Antecedentes

• Desarrollo de la Metodología ViBlioSOM.• Aplicación de técnicas de Minería de Textos• Diseño e implementación de algoritmos que construyen

redes Bayesianas a partir de datos• Aplicaciones de redes Bayesianas en diferentes

dominios: medicina, bioinformática y educación

Page 7: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Metodología ViBlioSOMMetodología ViBlioSOM

Está basada en la utilización secuencial de una colección de sistemas de software que sirven para el procesamiento y análisis inteligente de datos de carácter cienciométrico, mediante el uso de redes neuronales del tipo SOM.

Page 8: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Base de Ficheros “PubMed”Base de Ficheros “PubMed”

La fuente de datos es la base de datos MedLine de la Biblioteca Nacional de Medicina de los Estados Unidos (National Library of Medice, NLM).

MedLine:

• Gratuita.• Contiene más de 14 millones de

registros.• Recupera referencias

bibliográficas de más de 4,500 revistas médicas desde el año de 1966.

Page 9: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de DatosMeSH VocabularyMeSH Vocabulary

La ontología MeSH Vocabulary consta de aproximadamente

23, 000 conceptos.

Page 10: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Penetración de las Matemáticas en la BiomedicinaPenetración de las Matemáticas en la Biomedicina

83.98%

6.05%

4.65%

0.83%

Statistics

Mathematics

Algorithms

Mathematical Computing

Fourier Analysis

Nonlinear Dynamics

Finite Element Analysis

Game Theory

Fractals

Proporción de documentos indexados con algún término perteneciente a Mathematics (Total de documentos 1,109,035 )

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

Nùm

ero

de d

ocum

ento

s

10000

8000

6000

4000

2000

0

Mathematics

Algorithms

Mathematical

Computing

Statistics

Page 11: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Visualización e interpretación de resultados arrojados por la red neuronal Visualización e interpretación de resultados arrojados por la red neuronal

Mapas de componentesMapas de componentes

Page 12: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Visualización e interpretación de resultados arrojados por la red neuronal Visualización e interpretación de resultados arrojados por la red neuronal

Mapas de componentesMapas de componentes

Page 13: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Visualización e interpretación de resultados arrojados por la red neuronal Visualización e interpretación de resultados arrojados por la red neuronal

Análisis de Conglomerados (Clustering)Análisis de Conglomerados (Clustering)

Page 14: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Relaciones entre componentesRelaciones entre componentesMathematics

Game Theory

Games Experimental

Fourirer Analysis

Fractals

Mathematical Computing

Algorithms

Decision Support Techniques

Decision Theory

Finite Element Analysis

Neural Networks

Decision Trees

Nonlinear Dynamics

Page 15: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Minería de Textos

• Desarrollo y explotación de corpus lingüísticos.• Reconocimiento de patrones lingüísticos.• Explotación de métodos y recursos estadísticos.

candidatos

Page 16: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Algoritmos que construyen Redes Bayesianas

Base de datos

X1 X2

X3 X4

algoritmo

El resultado: una red Bayesiana

Page 17: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Aplicaciones de Redes Bayesianas en diversos dominios

• Diagnóstico de cáncer de seno• Diagnóstico de cáncer cérvico-uterino• Evaluación del potencial de marcadores

genéticos para el diagnóstico y diferenciación de tipos de cáncer

• Evaluación de trayectorias escolares de alumnos universitarios

Page 18: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Resultados esperados

• El desarrollo de metodologías para la extracción de conocimiento en bases de datos bibliográficas.

• El desarrollo de metodologías para la clasificación no supervisada de documentos, basados tanto en el resumen (abstract) como en las palabras claves

Page 19: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Resultados esperados

• Un prototipo de software que implemente la metodología ViBlioSOM.

• Un prototipo de software para la minería de datos con Redes Bayesianas.

• Un prototipo de motor de extracción terminológica basado en reglas lingüísticas y métodos estadísticos

• El diseño de un sistema de software que integre la funcionalidad de los prototipos construidos.

Page 20: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Estrategia de trabajo

• Conformación de dos equipos de trabajo, uno para la construcción del software propuesto y otro para la transferencia e investigación de algoritmos para el pre-procesamiento, minería de datos, evaluación y visualización.

Page 21: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Estrategia para el Desarrollo de Software

• Diseño basado en componentes • Mejor manejo de código: reutilización, depuración,

mantenimiento, evolución.

Componente

Implementa la interfaz visual y con el usuario

Clase de objetos que sólo implementa algoritmos.

Paquete de clases

Paquete de clases

Paquete de componentes

Paquete de componentes

Page 22: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Fusión de métodos de minería de datos

• Utilizando componentes de software de manera natural se consigue que los datos de salida de un algoritmo que pertenece a una metodología se puedan usar como entrada de un algoritmo de otra metodología.

Mapas auto-organizados (SOM)

Mapas auto-organizados (SOM)

Redes bayesianasRedes bayesianas

Matriz de Datos

Page 23: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Reutilización en otros dominios

• Los distintos paquetes de componentes se podrán usar para construir aplicaciones en distintos dominios de investigación:

Mapas auto-organizados (SOM)

Mapas auto-organizados (SOM)

Redes bayesianasRedes bayesianas

Bibliometría

Bioinformática

Procesos Industriales

Bolsa de valores

Trayectoria Escolar

Control

Page 24: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Avances

• Se llevaron a cabo distintas aplicaciones experimentales con la metodología ViBlioSOM.

• Se diseñó y desarrolló un prototipo de software que implementa dicha metodología.

• Se están realizando distintas pruebas con este prototipo a partir del cual se planea realizar una segunda etapa de desarrollo.

Page 25: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Productos Obtenidos

• Prototipo de software que implementa la metodología ViBlioSOM.

• Tesis conjunta de licenciatura en Ciencias de la Computación.

• Tesis de Actuaría

Page 26: Línea: Minería de Datos Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet.

Línea: Minería de Datos

Participantes

• Investigador Responsable: – Humberto Carrillo Calvet, (Facultad de Ciencias)

• Investigadores participantes (6):– Nieves Martínez de la Escalera Castells (Facultad de Ciencias)– Gerardo Sierra Martínez (Instituto de Ingeniería)– Alfonso Medina Urrea (Instituto de Ingeniería)– Nicandro Cruz Ramírez (Universidad Veracruzana)– María Victoria Guzmán Sánchez (Instituto Finlay)

• Técnicos participantes (5): – Luis Nava Fernández (Facultad de Ciencias)– José Luis Jiménez Andrade (Facultad de Ciencias) – Romel Calero (Instituto Finlay)– Mary Carmen Trejo Avila (Facultad de Ciencias)– Alexei Eleusis Díaz Vera (Facultad de Ciencias)

• Alumnos de Posgrado(4):– Elio Villaseñor García– Ernesto Ramírez Montalvo– Luis Alberto Barrón Cedeño– Ricardo Olvera