SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo...

89
SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor Peinado, Felisa Verdejo Grupo de Recuperación de Información y Procesamiento del Lenguaje Natural Universidad Nacional de Educación a Distancia nlp.uned.es

Transcript of SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo...

Page 1: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

SEPLN 2007

Validación de RespuestasEvaluación y Retos para las Tecnologías del Lenguaje

Anselmo Peñas

Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor Peinado, Felisa Verdejo

Grupo de Recuperación de Informacióny Procesamiento del Lenguaje Natural

Universidad Nacional de Educación a Distancia

nlp.uned.es

Page 2: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

2

Índice

Introducción (15 min.) Implicación Textual (15 min.) Answer Validation Exercise (20 min.) Técnicas y retos (25 min.) Conclusión (5 min.) Preguntas (10 min.)

Validación de Respuestas

Page 3: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

3

QA system architecture

Question

Answer

QuestionAnalysis

Pre-processing/ indexing

Answer type/ structure

Key-terms Passageretrieval

Answerextraction

Answer validation/ scoring

Documents

Page 4: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

4

Validación de Respuestas

Consulta con palabras clave + respuesta Más ocurrencias -> mejor candidata

Respuesta 1

Respuesta 2

Respuesta n

Oráculo

(Google)

Ranking

Page 5: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

5

Validación de Respuestas

Validación como ranking Problema procesamiento en cascada

¿Es necesario cambiar de arquitectura?

Question

Answer

QuestionAnalysis

Passageretrieval

Answerextraction

Answer validation/ scoring

1.00.7 0.7 0.49x x =

Not enough evidence

Page 6: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

6

QA with Spanish as target (evolution)

Top results around 50%

Page 7: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

72006

81% preguntas contestadas por algún sistema

Mejor sistema responde el

52,5%

65% de las contestadas

Mejor en organizaciones

Mejor en definiciones y

personas

Mejor en fechas

Page 8: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

8

¿Arquitecturas colaborativas?

Sistemas diferentes responden mejor tipos de preguntas diferentes Especialización Colaboración

¿Criterios de selección? Valor de confianza en la respuesta Mejorar la validación de respuestas

Page 9: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

9

¿Por qué no se ha hecho ya?

Problema en la definición de la tarea de evaluación Sólo cuentan los aciertos No se penalizan los fallos Validación como ranking de respuestas No se construyen respuestas completas

60 dólares (significado únicamente en presencia de la

pregunta) El barril de petróleo asciende a 60 doláres

Page 10: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

10

Marco de evaluación

Difícil cambiar la metodología o las medidas de evaluación

Nueva tarea de evaluación Answer Validation Exercise

2006 2007

Page 11: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

11

Validación de Respuestas

Definición Entrada

Pregunta Respuesta Texto que soporta la respuesta

Salida Aceptación/rechazo de la respuesta

Page 12: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

12

Validación de Respuestas

¿Cuántas personas viven en Madrid? Más de 6 millones

¿Es correcta la respuesta? ¿?

¿Es correcta de acuerdo con el texto? Según el último censo de la CAM, la población

de la comunidad asciende a 6.122.435 habitantes

Page 13: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

13

Validación de Respuestas

Cambio de aproximación Validación basada en recursos externos y

redundancias (web) Validación basada en el análisis textual de:

Pregunta Respuesta Texto que soporta la respuesta

Efecto Introducir aprendizaje automático +PLN Atraer comunidad de investigación en

Implicación Textual

Page 14: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

14

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusión Preguntas

Page 15: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

15

Implicación Textual

¿De T se infiere H?

T: El precio del barril de petróleo se alzó hasta los 60 dólares

H: El precio del petróleo ha subido

Page 16: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

16

Implicación Textual

Definición La verdad de un enunciado implica

la verdad de otro enunciado: T H

Primer enunciado: Texto T (contexto) Segundo enunciado: Hipótesis H

Relación dirigida

Page 17: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

17

Implicación Textual

¿De T se infiere H? T: El éxito tecnológico conocido como GPS se incubó

en la mente de Ivan Getting

H: I. Getting inventó el Sistema de Posicionamiento Global

La verdad de un enunciado implica la verdad de otro enunciado ¿En cualquier interpretación posible?

(implicación estricta) ¿En alguna interpretación?

Page 18: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

18

Implicación Textual

Definición

Un humano que leyera T inferirá que H seguramente es cierto

Page 19: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

19

Implicación Textual

¿De T se infiere H?

T: El precio del barril de petróleo se alzó hasta los 60 dólares

H: El precio del petróleo ha subido

¿Ha subido el precio del contenedor? El barril es una unidad de medida del petróleo

Page 20: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

20

Implicación Textual

Involucra conocimiento externo del mundo...T H

Conocimiento H

... pero en el contexto de TT AND conocimiento H

Confirmar H en el contexto que proporciona T

Page 21: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

21

Ambigüedad

Redefinición del problema de desambiguación

Interrelación texto-contexto: T -> H Desambigua(T) -> Desambigua(H)

Desambiguación: aquella que habilita la implicación (Matching)

Procesamiento lingüístico en contexto Cambio de perspectiva

Desambigua(T -> H)

Page 22: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

22

Implicación Textual

DefiniciónExiste una interpretación del contexto

que permite afirmar una de las interpretaciones de la hipótesis

Del problema de la ambigüedad al problema de la variación

Page 23: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

23

Implicación Textual

Variación lingüísticaVerdadero reto en Implicación Textual

T: El éxito tecnológico conocido como GPS se incubó en la mente de Ivan Getting

H: I. Getting inventó el Sistema de Posicionamiento Global

Page 24: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

24

¿Por qué Implicación Textual?

Necesidad de introducir inferencia en aplicaciones textuales Aplicaciones -> Validación de Respuestas

Investigación en semántica deslabazada: WSD, NER, SRL, Lexical Semantics, etc.

Necesidad de un marco común de investigación en semántica

Page 25: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

25

Planteamiento empírico

Desde los textos

Un humano que leyera T inferirá que H seguramente es cierto

Un humano es capaz de realizar esta tarea semántica

¿Cómo podría resolverlo una máquina?

Page 26: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

26

Evaluación

Marco de Evaluación actual: PASCAL Recognizing Textual Entailment Challenge

(RTE)

Intrínseca y Global Pares Texto-Hipótesis 50-50% YES/NO Proporción de aciertos (accuracy) Baseline 50%

Grupos participantes 17 grupos en RTE1 23 grupos en RTE2 25 grupos en RTE3

Page 27: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

27

Implicación Textual

Aplicaciones

T: La adquisición de Overture por Yahoo ha finalizado

Extracción de Información Resumen Automático Comprensión de lectura Búsqueda de respuestas

¿Quién compró a Overture? H: Yahoo compró a Overture

Page 28: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

28

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusión Preguntas

Page 29: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

29

Answer Validation Exercise

Ligar la evaluación a la tarea principal de QA Aprovechar los juicios humanos ya

realizados en la tarea principal Activar la tarea en todos los idiomas de

la tarea principal Inglés, Francés, Español, Alemán, Italiano,

Portugués, Holandés

Page 30: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

30

Answer Validation Exercise

ObjectiveValidate the correctness of the answers

Given by real QA systems...

...the participants at CLEF QA

Page 31: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

31

AVE 2006

If the text semantically entails the hypothesis, then the answer is expected to be correct.

Question

Supporting snippet& doc ID

Exact AnswerQA system

Hypothesis

Into affirmativeform

Text

Page 32: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

32

AVE 2006

Question:Who is the President of Mexico?

Answer (obsolete):Vicente Fox

Hypothesis:Vicente Fox is the President of Mexico

Supporting Text:“...President Vicente Fox promises a more democratic Mexico...”

Exercise Supporting Text entails Hypothesis? Answer: YES | NO

Page 33: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

33

Answer Validation Exercise (AVE)

QuestionAnswering

QuestionCandidate answer

Supporting Text

Textual Entailment

Answer is not correct or not enough evidence

Automatic HypothesisGeneration

QuestionHypothesis

Answer is correct

AVE 2006

AVE 2007

Answer Validation

Page 34: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

34

Answer Validation Exercise

Conversión en problema RTE Asumiendo que es posible construir

automáticamente las hipótesis AVE 2006

Hipótesis construidas por la organización Semi-automáticamente Instanciando patrones de hipótesis Estudio de error 200 patrones diferentes por idioma (7 idiomas)

AVE 2007 Construcción automática de hipótesis Parte de la tarea de evaluación

Page 35: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

35

Hypothesis generation

Question “Which is the capital of Croatia?”

Pattern“<answer/> is the capital of Croatia”

AnswerZagreb

HypothesisZagreb is the capital of Croatia

Page 36: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

36

Hypothesis Generation

Question “Which is the capital of Croatia?”

AnswerZagreb was then seen as the political center

HypothesisZagreb was then seen as the political center is the

capital of Croatia

Wrong semantics but also wrong syntactic structure

Syntactic criteria for detecting wrong answers [Criteria for assessing Inexact answers in QA]

Page 37: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

37

Hypothesis Generation Question: “Which is the capital of Croatia?” Answer: placed in the continental part of Croatia Supporting text

“The capital of Croatia is placed in the continental part of Croatia and has one million inhabitants”.

Pattern 1: The capital of Croatia is </answer>

The capital of Croatia is placed in the continental part of Croatia[Correct hypothesis: a non-responsive answer must be validated]

Pattern 2: <answer/> is the capital of Croatia

placed in the continental part of Croatia is the capital of Croatia[More robust pattern]

Page 38: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

38

Hypothesis Generation

Question: What is Deep Blue? Answer: developed by IBM QA assessment: Wrong

Hypothesis: Deep Blue is developed by IBM Supporting text:

... Deep Blue, developed by IBM, was the first machine to win...

Entailment: YES

Page 39: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

39

Hypothesis Generation

Question: “Where did the Titanic sink?” Pattern: “The Titanic sank in <answer/>” Answer 1: “Atlantic Ocean” Answer 2: “1912” Both can generate correct hypotheses entailed by

a text

Pattern The Titanic sank in <answer/> (1) <answer/> is a location (2)

Compressed way: “The Titanic sank in <answer type=location/>”

Page 40: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

40

Tipo de respuesta

Problemas desde la perspectiva de la evaluación

Consenso difícil en las taxonomías Tipos de pregunta y de respuesta

Documentalistas vs. (Li & Roth, COLING 2002)

Conocimiento implícito del mundo Atlantic Ocean es un lugar ¿Ontologías bien pobladas y

consistentes con las taxonomías de tipos de respuestas?

Page 41: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

41

Completitud de la respuesta

Conocimiento implícito del mundo “¿Qué compañía adquirió Nokia en

1998?” Vienna Systems De acuerdo con: “Vienna Systems fue

adquirida por Nokia en 1998” “Vienna Systems is a company”

(presupuesto)

¿Qué presupuestos son aceptables?

Page 42: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

42

ACCEPTACCEPT

AVE Assessment Mapping

Correct

Incorrect REJECTREJECT

Unsupported REJECTREJECT

Non-exact UNKNOWNUNKNOWN

QA assessments

AVE assessments

Page 43: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

43

AVE 2006 Collections

Available for CLEF participants atnlp.uned.es/QA/ave/

Testing Training

English 2088 (10% YES) 2870 (15% YES)

Spanish 2369 (28% YES) 2905 (22% YES)

German 1443 (25% YES)

French 3266 (22% YES)

Italian 1140 (16% YES)

Dutch 807 (10% YES)

Portuguese 1324 (14% YES)

Page 44: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

44

AVE 2006 Evaluation

Not balanced collections

Approach: Detect if there is enough evidence to accept an answer

Measures: Precision, recall and F over pairs YES (where text entails hypothesis)

Baseline system: Accept all answers, (give always YES)

Page 45: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

45

AVE 2006 Participants and runs  DE EN ES FR IT NL PT

Fernuniversität in Hagen 2             2Language Computer Corporation   1 1         2

U. Rome "Tor Vergata"   2           2U. Alicante (Kozareva) 2 2 2 2 2 2 1 13

U. Politecnica de Valencia   1           1

U. Alicante (Ferrández)   2           2LIMSI-CNRS       1       1U. Twente 1 2 2 1 1 2 1 10

UNED (Herrera)     2         2UNED (Rodrigo)     1         1ITC-irst   1           1R2D2 project     1         1

Total 5 11 9 4 3 4 2 38

Page 46: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

46

AVE 2006 Results

Language Baseline (F)

Best (F)

Reported Techiques

English .27 .44 Logic

Spanish .45 .61 Logic

German .39 .54 Lexical, Syntax, Semantics, Logic, Corpus

French .37 .47 Overlapping, Learning

Dutch .19 .39 Syntax, Learning

Portuguese .38 .35 Overlapping

Italian .29 .41 Overlapping, Learning

Page 47: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

47

AVE 2007

Problema en AVE 2006 No fue posible cuantificar la ganancia

potencial de los sistemas QA si incorporan los módulos de AV

Cambio de metodología en AVE 2007 Agrupar respuestas por pregunta

Eliminando respuestas repetidas Sistemas deben seleccionar una

respuesta

Page 48: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

48

AVE 2007 Collections<q id="116" lang="EN">

<q_str>What is Zanussi?</q_str><a id="116_1" value="">

<a_str>was an Italian producer of home appliances</a_str><t_str doc="Zanussi">Zanussi For the Polish film director, see Krzysztof Zanussi. For the hot-air balloon, see Zanussi (balloon). Zanussi was an Italian producer of home appliances that in 1984 was bought</t_str>

</a><a id="116_2" value="">

<a_str>who had also been in Cassibile since August 31</a_str><t_str doc="en/p29/2998260.xml">Only after the signing had taken place was Giuseppe Castellano informed of the additional clauses that had been presented by general Ronald Campbell to another Italian general, Zanussi, who had also been in Cassibile since August 31.</t_str>

</a><a id="116_4" value="">

<a_str>3</a_str><t_str doc="1618911.xml">(1985) 3 Out of 5 Live (1985) What Is This?</t_str>

</a></q>

Page 49: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

49

Comparing AV systems performance with QA systems in German

Group System SystemType

QAaccuracy

% of perfect selection

Perfect selection QA 0.54 100%

FUH iglockner_2 AV 0.50 93.44%

FUH iglockner_1 AV 0.48 88.52%

DFKI dfki071dede QA 0.35 65.57%

FUH fuha071dede QA 0.32 59.02%

Random AV 0.28 51.91%

DFKI dfki071ende QA 0.25 45.9%

FUH fuha072dede QA 0.21 39.34%

DFKI dfki071ptde QA 0.05 9.84%

Page 50: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

50

AVE 2007 Results

9 groups, 16 systems, 4 languages All systems based on Textual Entailment 5 out of 9 groups participated in QA

Introduction of RTE techniques in QA Systems based on syntactic or semantic

analysis perform Automatic Hypothesis Generation Combination of the question and the answer Some cases directly in a logic form

Page 51: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

51

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas y retos Conclusión Preguntas

Page 52: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

52

Técnicas utilizadas en AVE 2007

10 informes (Overview AVE 2007)

Generates hypotheses 6

Wordnet 3

Chunking 3

n-grams, longest common Subsequences

5

Phrase transformations 2

NER 5

Num. expressions 6

Temp. expressions 4

Coreference resolution 2

Dependency analysis 3

Syntactic similarity 4

Functions (sub, obj, etc) 3

Syntactic transformations 1

Word-sense disambiguation 2

Semantic parsing 4

Semantic role labeling 2

First order logic representation

3

Theorem prover 3

Semantic similarity 2

Page 53: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

53

Nivel Léxico

T: El precio del barril de petróleo se alzó hasta los 60 dólares

H: El precio del petróleo ha subido

Precio precio Petróleo petróleo alzar subir

Page 54: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

54

Nivel Léxico

Representación de los textos Bolsas de términos

Implicación Si los términos de H están implicados

por los términos de T Solapamiento léxico Sustitución léxica (sinónimos,

hiperónimos, ...)

Page 55: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

55

Nivel Léxico

Contar proporción de solapamientos Lemas, unigramas n-gramas Subsecuencias Derivaciones morfológicas

Han censado -> censo

Page 56: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

56

WordNet (inferencia)

SynonymyObtain <-> receiveLift <-> riseAllow <-> grant

Hyponymy (encadenada, distancia)Glucose -> sugarCrude -> oil

AntonymyNeg(change) <-> stay <-> continue

Page 57: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

57

WordNet (inferencia)

Verb EntailmentKill -> death

Part meronymyItaly -> Europe

PertainymyItalian -> Italy

MultiwordsMelanoma -> skin_cancer

Page 58: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

58

Nivel Léxico

T: Sacrificaron al perro que mordió a la niña

H: Sacrificaron a la niña

Sacrificar sacrificar Niña niña

Necesidad de considerar sintaxis

Page 59: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

59

Nivel Léxico

T: Bill Gates visita ValenciaH: La Comunidad Valenciana recibe al

fundador de Microsoft

(X) comunidad (X) fundador (X) Microsoft

Necesidad de reconocer entidades

Page 60: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

60

Entidades

T: Según el último censo de la CAM, la población de la comunidad asciende a 6.122.435 habitantes

H: En Madrid viven más de 6 millones de personas

Expresiones numéricas: 6.122.435 -> más de 6 millones Entidades nombradas: CAM -> Madrid Correferencia: comunidad -> CAM

Paráfrasis: población asciende -> viven Reordenación de constituyentes Implicación léxica: habitante -> persona

Page 61: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

61

Implicación numérica (rangos)

17 million citizens More than 15 million people

Texto Hipótesis

recognize

Lím. inferior: 17,000,000Lím. superior: 17,000,000Unidad: citizen

Lím. inferior: 15,000,000Lím. superior: infiniteUnidad: person

normalize

Entailment is TRUE if [17,000,000 .. 17,000,000] [15,000,000 .. Infinite)and citizen entails person

entailment

Page 62: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

62

Entidades con nombre

T: Bill Gates visita Valencia

H: La Comunidad Valenciana recibe al fundador de Microsoft

Bill Gates -> fundador de Microsoft Valencia -> Comunidad Valenciana

Conocimiento del mundo

Page 63: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

63

Resolución de correferencia

T: Desde su formación en 1948, Israel…

H: Israel fue establecida en 1948

Page 64: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

64

Nivel sintáctico

Representación de los textos Árboles de dependencias (generalmente)

Implicación Si el árbol de H es similar, está incluido o

se puede obtener por transformación del árbol de T

Page 65: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

65

Example: graph alignment

T: CNN reported that thirteen soldiers lost their lives in today’s ambush.

H: Several troops were killed in the ambush.

lost

soldiers lives ambush

thirteen their today’s

reported

CNN

dobjinnsubj

nn dep poss

nsubj ccomp

killed

troops were ambush

several the

auxinnsubjpass

amod det

© Stanford

Page 66: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

66

Nivel Sintáctico

Distancia de edición entre árboles Cuantificar coste de borrar, insertar o sustituir

un nodo Medida de similitud sintáctica

Coincidencia léxica y de funciones Sujeto, objeto, modificador

Facilita algunas transformaciones Activa/pasiva Negación

Page 67: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

67

Etiquetado de Roles Semánticos

T: Sacrificaron al perro que mordió a la niñaH: Sacrificaron a la niña

T: Sacrificaron [al [perro]A0 que mordió a [la niña]A1]A1

H: Sacrificaron a [la niña]A1

perro -/-> niña

Page 68: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

68

Etiquetado de Roles Semánticos

Paradójicamente un análisis lingüístico más profundo hace más difícil tratar la variación

T: The diplomat visited Iraq in SeptemberH: The diplomat was in Iraq

T: [The diplomat]/ARG0 visited [Iraq]/ARG1 [in September]/AM_TMP

H: [The diplomat]/ARG0 was [in Iraq]/AM_LOC

Page 69: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

69

Etiquetado de Roles Semánticos

Diferencias en la estructura de los verbos provocan falta de coincidencia entre el tipo de los argumentos

Necesidad de procesar los sintagmas verbales

T: David McCool took the money and decided to start Muzzy Lane in 2002

H: David McCool is the founder of Muzzy Lane

T: David McCool took the money and started Muzzy Lane in 2002

H: David McCool founded Muzzy Lane

Page 70: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

70

Parsing semántico (LCC)

The Muslim Brotherhood, Egypt's biggest fundamentalist group established in 1928, advocates turning Egypt into a strict Muslim state by political means, setting itself apart from militant groups that took up arms in 1992.

AGENT(Muslim Brotherhood, advocate)

PURPOSE(turning Egypt into a strict Muslim state, advocate)

TEMPORAL(1928, establish)

TEMPORAL(1992, took up arms)

PROPERTY(strict, Muslim state)

MEANS(political means, turning Egypt into a strict Muslim state)

SYNONYMY(Muslim Brotherhood, Egypt's biggest fundamentalist group)

Page 71: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

71

Hickl (RTE 2006)

75% accuracy

Page 72: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

72

Monotonía

“Upward monotonity”. Generalizaciones en la hipótesis preservan la implicación.

T: Algunos historiadores coreanos piensan que…H: Algunos historiadores piensan que...

“Downward monotonity”. Generalizaciones en la hipótesis rompen la implicación.

T: La mayoría de los historiadores coreanos piensan que…H: La mayoría de los historiadores piensan que…

© Stanford

Page 73: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

73

Monotonía y adjuntos

Si un adjunto presente en T desaparece en H se preserva la implicación

Si aparece en H, se rompe la implicación

T: Zerich compró petróleo de Irak por valor de 422 millones de dólares

H: Zerich compró petroleo de Irak durante el embargo

Salvo en contextos downward monotone

T: Zerich no compró petróleo Iraquí

H: Zerich no compró petróleo Iraquí durante el embargo

© Stanford

Page 74: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

74

Verbos factuales e implicativos

T: Libia ha intentado desarrollar su propio misil SCUDH: Libia ha desarrollado un misil

Clases de implicatividad Unknown: say, tell, suspect, try, … Fact: know, acknowledge, ignore, … True: manage to, … False: fail to, forget to, … © Stanford

Page 75: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

75

Presupuestos

T1: Juan ama a su mujer

T2: Juan no ama a su mujer

Ambos presuponen queH: Juan tiene mujer

El oyente incorpora el presupuesto: acomodación

Page 76: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

76Hickl (RTE 2007)

Page 77: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

77Hickl (RTE 2007)

Page 78: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

78

Hickl (RTE 2007)

80% accuracy

Page 79: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

79

Nivel Lógico

Nutcracker (Johan Bos) Herramientas disponibles

Parsing semántico (Clark and Curran, 2004) Combinatory Categorial Grammar

Obtener Estructuras de Representación del Discurso (DRS, Boxer) (Bos 2005)

Convertir DRSs a Lógica de Primer Orden Demostrador de teoremas: T -> H

Introducción natural de WordNet

Page 80: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

80

Nivel Lógico

La demostración de “T->H” suele fallar en un demostrador de teoremas

Necesidad de valorar la proximidad a completar la demostración Comparar tamaño entre modelos lógicos (Bos) Relajar predicados sucesivamente (Tatu &

Moldovan)

Page 81: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

81

Estrategias generales

Demostrar que no hay implicación Implicación por defecto Desarrollo de tests de fallo Aplicaciones como validación de respuestas

Demostrar que sí hay implicación No hay implicación por defecto Representación lógica e inferencia Transformaciones léxicas y sintácticas Generación de proposiciones atómicas,

presupuestos, compromisos de discurso

Page 82: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

82

Estrategias generales

Detectar similitud Características de similitud (léxicas,

sintácticas, semánticas…)

Clasificador entrenado con toda la información obtenida Aprender el peso relativo de cada rasgo Entrenamiento: colecciones de desarrollo,

adquisición de corpus

Page 83: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

83

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusiones Preguntas

Page 84: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

84

Conclusiones Es posible reformular la Validación de

Respuestas en términos de Implicación Textual Introduce un 4% de error en representaciones

textuales de la hipótesis ¿Representación conceptual?

Investigación abierta Consensuar taxonomías de tipos de preguntas y

respuestas Consideración de conocimiento implícito

(enciclopédico)

Page 85: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

85

Conclusiones

Análisis superficial Modelo léxico Baseline fácil de alcanzar

Análisis profundo Mayoría de sistemas no mejoran el

baseline del modelo léxico Sin embargo, los mejores sistemas

realizan un análisis profundo

Page 86: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

86

Investigación abierta

Adquirir grandes bases de conocimiento (lingüístico y del mundo) Reglas de transformación sintáctica Conjuntos de paráfrasis Relaciones léxicas Entidades y su variación terminológica …

Adquirir grandes corpus de entrenamiento para Implicación Textual

Page 87: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

87

Investigación abierta

Adquisición de conocimiento No supervisada A partir de corpus general y web Representación del conocimiento Población de ontologías

Inferencia Interacción de niveles de información Más allá de vectores de características

y entrenar un modelo

Page 88: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

88

Investigación abierta

Implicación textual es un problema todavía demasiado amplio

Validación de respuestas Subproblema Permite evaluación extrínseca (mejora

de una aplicación: QA) ¿Modelos semánticos capaces de

tratar la variabilidad del lenguaje?

Page 89: SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

89

Preguntas?

Gracias!

AVE: http://nlp.uned.es/QA/AVE/QA@CLEF: http://clef-qa.itc.it/CLEF: http://www.clef-campaign.orgPASCAL RTE: http://www.pascal-network.org/Challenges/RTE/