I summit utpl-conferencia

41
isummit 2010 Minería y «Text Analytics» Sylvie Ratté, Ph.D. Directora del Laboratorio de Ingeniería Cognitiva y Semántica École de technologie supérieure, Montréal, QC

description

Data Mining Technologies

Transcript of I summit utpl-conferencia

Page 1: I summit utpl-conferencia

isummit 2010isummit 2010

Minería y «Text Analytics»

Sylvie Ratté, Ph.D.Directora del Laboratorio de Ingeniería Cognitiva y Semántica

École de technologie supérieure, Montréal, QC

Page 2: I summit utpl-conferencia

2

ProgramaPrograma

1. Breve presentación2. «Text analytics» y minería de textos3. Textrix (Anastasia)4. Correspondencia5. Binocle

Page 3: I summit utpl-conferencia

1. Breve presentación

LiNCS y la ÉTS

«Visualización» de textos

1. «Text analytics» y minería de textos

2. Técnicas

3. Proyecto Binocle

Page 4: I summit utpl-conferencia

4

1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS

ÉTS - École de technologie supérieure•'Top' 5 de las 45 escuelas y facultades de ingeniería en Canadá•Uno de cada cuatro Ingenieros de la Provincia de Québec se graduó de la ETS•Más de 4 500 estudiantes•Edificios ultra moderno•1000 unidades en las residencias

Page 5: I summit utpl-conferencia

5

1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS

LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica

Focos en el trazado entre la descripción escrita en lenguaje natural y su representación visual (modelos, diagramas y mapas conceptuales).

Minería de textos

Minería del Web

Minería de redes

Modelos de lenguaje

Sylvie Ratté y Christian Desrosiers

Page 6: I summit utpl-conferencia

grupos y classificacionesgrupos y classificaciones

6

1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos

Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...

Page 7: I summit utpl-conferencia

alertasalertas

7

1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos

Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...

Page 8: I summit utpl-conferencia

representación del dominiorepresentación del dominio

8

1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos

Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...

Page 9: I summit utpl-conferencia

representación de procesosrepresentación de procesos

9

1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos

Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...

Page 10: I summit utpl-conferencia

1. Breve presentación

2. «Text analytics» y minería de textos

Porque los textos?

Porque es difícil?

Porque es fácil?

1. Textrix (Anastasia)

2. Correspondencia

3. Binocle

Page 11: I summit utpl-conferencia

12

2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?

Estimación:

80%-85% de los datos disponibles son textos LN (lenguajes naturales)

Ejemplo en Biotecnología:

80% del conocimiento in artículos científicos

Vamos a ser optimista : 60 artículos / semana ...!

de los cuales: 10% son interesantes... 6 / semana, 300 / años

MedLine: publica 10 000 artículos / mes !!!

Chemical Abstract Registry: 4000 elementos / día, 2.5 millones en 2004

Page 12: I summit utpl-conferencia

13

2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?

Extracción de relaciones en textos de biomedicinaAnálisis de las diferencias entre descripciones en LN y «workflows»Informaciones mobiles sobre medicamentos por SMS en LNBuscar defectos en requisitos de confidentialidadAnálisis de intenciones humanasConstrucción automática de diagramas UMLIntegración de modelos de procesos de negocios con documentos de «Governance»Clasificación automática de reportes de radiologíaExtracción de las interacciones entre proteínas

Page 13: I summit utpl-conferencia

14

Natural Language ProcessingNLP

Minería de textosMT

IR Busceda de information

(information retrieval)

Semantic Web

Web 2.0

Text AnalyticsAnalítica de

textos

2. «text analytics» y Minería de textos2. «text analytics» y Minería de textos

Page 14: I summit utpl-conferencia

15

QuickTime™ and axvid decompressor

are needed to see this picture.

2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?

Page 15: I summit utpl-conferencia

16

• I put the bouquet of flowers that you gave me for Mother's day in the vase that you gave me for my birthday on the chest of drawers that you gave me for armistice day

• 4862 arbres syntaxiques (Church & Patil 82)

2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?

Page 16: I summit utpl-conferencia

17

2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?

George W. Bush pensaba que tranquilamente podría terminar su mandato después de una gira en Irak. En una conferencia de prensa un periodista lanzó, sin golpearlo, dos zapatos e lo insultó cuando éste dio la mano al primer ministro iraquí en su oficina en Bagdad.Mientras los dos hombres se reunieron en el despacho privado del primer ministro Nouri al-Maliki, un periodista iraquí saltó y lanzó sus zapatos al presidente de los EE.UU..

Quien dio la mano al

ministro ?

Quien dio la mano al

ministro ?

La oficina de quien?La oficina de quien?

el periodista y Bush?

el ministro y el periodista?

Bush y el ministro?

el periodista y Bush?

el ministro y el periodista?

Bush y el ministro?

Page 17: I summit utpl-conferencia

imágenestítulos

tablas

gráficosy seguro...

texto

18

2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?

Page 18: I summit utpl-conferencia

alucinaciónplatilo volador

OVNI

nave extraterrestre

19

2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?

Page 19: I summit utpl-conferencia

20

tokenizer+pos-tagger

lemmatizer

chunker

taxonomy

24

2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?

1 1 3

1 2 1

4 1 1

documento 1

documento 1

documento 2

documento 2

documento 3

documento 3

Con una representación simple se puede hacer mucho

gradualmente, pasar a una representación mas «semántica»Palabras

Raíces de palabras

Grupos de palabras

Conceptos

Page 20: I summit utpl-conferencia

el Colonel Rubio ha estrangulado a la Señorita Amapola sobre el balcon con una cuerda.

SN SN SN SNSVSVSVSV

SVSVSVSV SP SP

SVSVSVSV

SVSVSVSV

Frase

SNSN SNSN SNSN SNSNSVSV

21

2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?

por 90% de los casos, no es necesario de tener una representación completa

Page 21: I summit utpl-conferencia

1. Breve presentación

2. «Text analytics» y minería de textos

3. Textrix (Anastasia)

Descripción

Técnicas

Particularidades

1. Correspondencia

2. Binocle

Page 22: I summit utpl-conferencia

23

3. Textrix: Descripción3. Textrix: Descripción

Encontrar las personas peligrosas sobre el InternetVirginiaTech (transcripción de mensaje sobre video)Colombine (transcripción de «journal»)Dawson (blog)LA Fitness Gym (sitio web)...

Objetivo : alertar una persona para revisar el caso

Page 23: I summit utpl-conferencia

24

3. Textrix: Técnicas3. Textrix: Técnicas

Crawler: HerititrixClasificación:Crawl-by-examples (google summer code 2006)Frases claves (patrones de expresiones regulares)

Alertas:por correo electrónicopor SMS

Page 24: I summit utpl-conferencia

25

3. Textrix: Particularidades3. Textrix: Particularidades

MultidisplinarioCriminologíaPsicologíaMinería de textosLingüística

Algoritmo Crawl-by-examples: 28% de precision y 54% de recallAlgoritmo frases clave: 55,5 % de precision y 57% de recall

Simplicidad y inteligencia

Page 25: I summit utpl-conferencia

1. Breve presentación

2. «Text analytics» y minería de textos

3. Textrix (Anastasia)

4. Correspondencia

Concepto general

Aplicaciones

Particularidades

1. Binocle

Page 26: I summit utpl-conferencia

27

4. Correspondencia: Concepto general4. Correspondencia: Concepto general

Evaluar la similitud entre dos modelosEntre modelos extraídosde documentosde datos

Entre un modelo que pre-existe (ontología del dominio, estándar) y un modelo extraído

Page 27: I summit utpl-conferencia

28

4. Correspondencia: Aplicaciones4. Correspondencia: Aplicaciones

Minería de procesos y «text analytics»: Similitud de los procesos de negocios documentados y la realidad

Similitud entre los modelos de «personas» y los requisitos de un empleador, un proyecto, un director de tesis.

Page 28: I summit utpl-conferencia

29

4. Correspondencia: Particularidades4. Correspondencia: Particularidades

MultidisciplinarioLingüísticaOntologíaModelos de negociosMinería de procesos

Técnicas exploradas: Medidas semánticas

Page 29: I summit utpl-conferencia

1. Breve presentación del LiNCS / ÉTS

2. «Text analytics» y minería de textos

3. Textrix (Anastasia)

4. Correspondencia

5. Binocle

Descripción

Ejemplo de «text analytics»

Page 30: I summit utpl-conferencia

32

Las empresas modernas generan documentos…

… en cientos …

… en miles …

5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción

Page 31: I summit utpl-conferencia

33

Misión

Descripción de puestosNormas

Política interna

Formularios

Estándares

Contratos

Procesos de negocio

Planificación estratégica

Minutos

5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción

Page 32: I summit utpl-conferencia

34

Esencial para la evolución de la organización

Necesario para la formación de los interesados

Un activo estratégico

Pero :Complejo

Costoso

Difícil

5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción

Controlar :

Page 33: I summit utpl-conferencia

35

« El registro revisa cada aplicación. »« El registro revisa cada aplicación. »

Un experto analiza las frases pertinentes del ámbito

« El registro revisa cada aplicación. »registro aplicaciónrevisa

Registro Aplicaciónrevisa

5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción

Análisis tradicional de textos

Page 34: I summit utpl-conferencia

36

documentos de empresas

5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción

Page 35: I summit utpl-conferencia

37

?

5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»Metodología exploratoria de documentos reales a través de una cadena iterativa de tratamiento.

Page 36: I summit utpl-conferencia

38

EXTRACCION DECONCEPTOS

DEFINICION DELAS RELACIONES

REPARTO DE LAS FUNCIONES

A

B

C

D

AB

C

DE

F

EF

5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»• Extracción de los términos candidatos •

Evaluación de la pertinencia • Modelo del conocimiento

Page 37: I summit utpl-conferencia

39

caro

rutaseñal

prioridad

hoja

libro

5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»

Extracción de los «conceptos potenciales»

Page 38: I summit utpl-conferencia

40

Perfil de proyecto y evaluación de los riesgos

proyecto

Perfil de proyecto

evaluación de los riesgosPerfil

evaluación

riesgos

5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»

Page 39: I summit utpl-conferencia

ConclusionConclusion

Características de los proyectoMultidisciplinarioTécnicas mezcladas con semánticaAplicaciones innovadoras con impactos reales:sobre la productividadsobre la competitividad

Características de los proyectoMultidisciplinarioTécnicas mezcladas con semánticaAplicaciones innovadoras con impactos reales:sobre la productividadsobre la competitividad

Page 40: I summit utpl-conferencia

42

Una invitación de minería en el sector educativoUna invitación de minería en el sector educativo

• http://www.kdd.org/kdd2010/kddcup.shtml • How generally or narrowly do students learn? • How quickly or slowly? • Will the rate of improvement vary between students? • What does it mean for one problem to be similar to

another? • It might depend on whether the knowledge required

for one problem is the same as the knowledge required for another.

• But is it possible to infer the knowledge requirements of problems directly from student performance data, without human analysis of the tasks?

• This year's challenge asks you to predict student performance on mathematical problems from logs of student interaction with Intelligent Tutoring Systems.

Page 41: I summit utpl-conferencia

Referencias

lincs.etsmtl.ca

• Ratté, S., Ménard, P.A., Text mining and Text Analytics, in S. Ratté, F. Padilla (eds), Data Mining and Text Analytics, UAA Press, Mexico (à paraître).

• Ménard, P.A., Ratté, S. “Classifier-based acronym extraction for business documents, Knowledge and Information Systems, Online First, 2010.

• Cryans, J-D, Ratté, S., Champagne, R. Adaptation of Apriori to MapReduce to build a warehouse of relations between named entities accross the Web, 2nd International Conference on Advances in Databases, Knowledge, and Data Applications, Menuires, France, avril 2010.Tardif, O., Ratté, S. A Lightweight Pronoun Resolution Algorithm for French Corporate Texts, ICACTE - International Conference on Advanced Computer Theory and Engineering, IEEE Computer Society, Phuket, Thailande, 2008, pp. 714 – 718.Ratté, S., Njomgue, W., Ménard, P.A. Highlighting document’s structure, World Academy of Science, Engineering and Technology 31, 2007, pp. 34-38.