Post on 26-Jun-2020
BÚSQUEDA DE RESPUESTAS EN LA WEB: EL VALENCIANO
EN TAREAS MONO Y TRANSLINGÜES
Para optar a la titulación de
Ingeniería Informática Presentado por
José Luis Peñarrubia Carrión Dirigido/tutorizado por
Paolo Rosso, Dpto. Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, España Manuel Montes, Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y Electrónica, Puebla, México
Agradecimientos
Agradezco al profesor Paolo Rosso, la ayuda prestada en todo momento
durante la supervisión del presente trabajo, al igual que a Manuel Montes, ya
que a partir de sus investigaciones y posteriores explicaciones pudimos
empezar a avanzar en la consecución de este trabajo final de carrera.
También quiero agradecer a José Manuel Gómez (Investigador del
Departamento de Sistemas Informáticos y de Computación de la UPV) por
ayudarme con el sistema de recuperación de pasajes JIRS.
1
INDICE DE CONTENIDOS Introducción........................................................................................................ 4 Capítulo 1.Sistemas de recuperación de información ........................................ 8 1.1..Introducción................................................................................................. 4 1.2 La recuperación de información .................................................................. 9 1.2.1 Evolución de los sistemas RI................................................................... 11 1.2.2 Modelos para la recuperación de información......................................... 11 1.3 La extracción de información..................................................................... 13 1.4 La búsqueda de respuestas ...................................................................... 13 1.5 Motores de búsqueda................................................................................. 14 1.5.1 Funcionamiento de un motor de búsqueda ............................................. 15 1.5.2 Arquitectura de un motor de búsqueda ................................................... 16 1.5.3 Los índices de los motores...................................................................... 17 1.5.4 Tipos de robots........................................................................................ 18 1.5.5 Funcionamiento de los robots ................................................................. 19 1.5.6 Indización de las páginas ........................................................................ 19 1.5.7 Alineado de los documentos (ranking) .................................................... 21 1.6 Evaluación de los sistemas de recuperación de información ..................... 22 1.7 Foros de experimentación .......................................................................... 24 Capítulo 2. Sistemas de búsqueda de respuestas ........................................... 29 2.1 Introducción................................................................................................ 30 2.2 Componentes principales de un sistema de BR......................................... 37 2.3 Situación actual .......................................................................................... 39 2.4 Clasificación de los sistemas de BR........................................................... 40 2.4.1 Sistemas que no utilizan técnicas de PLN............................................... 40 2.4.2 Sistemas que usan información léxico-sintáctica .................................... 41 2.4.3 Sistemas que usan información semántica. ............................................ 43 2.4.4 Sistemas que usan información contextual ............................................. 45 2.5 Conceptos generales ................................................................................. 46 2.5.1 Palabras de parada y palabras clave ...................................................... 47 2.5.2 Pesos de términos................................................................................... 47 2.5.3 Obtención de raíces (stemming) ............................................................. 48 2.5.4 Expansión de preguntas.......................................................................... 48 2.5.5 Realimentación........................................................................................ 49 Capitulo 3. BR monolingüe: El sistema INAOE ................................................ 51 3.1 Introducción................................................................................................ 51 3.2 Arquitectura del sistema BR INAOE basado en la Web ............................. 52 3.2.1 Reformulaciones ..................................................................................... 56 3.2.1.1 Reformulación: “Bolsa de palabras” ..................................................... 57 3.2.1.2 Reformulación: “Manipulación del verbo” ............................................. 58 3.2.1.3 Reformulación: “Componentes”............................................................ 59 3.2.1.4 Reformulación: “Componentes excluyendo la primera palabra”........... 60 3.2.1.5 Reformulación: “Componentes excluyendo las dos primeras palabras”
...................................................................................................................... 61 3.2.2 Recolección de Snippets ......................................................................... 61
2
3.2.3 Cálculo de la respuesta ........................................................................... 63 3.2.3.1 Método de frecuencias relativas........................................................... 65 3.2.3.2 Método de expresiones regulares ........................................................ 66 3.2.3.3 Método de frecuencia compensada con expresiones regulares........... 67 3.3 Adaptación del sistema INAOE BR a otros idiomas .................................. 70 Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción
...................................................................................................................... 72 4.1 Introducción................................................................................................ 73 4.2 RI multilingüe.............................................................................................. 77 4.2.1 Aspectos monolingües ............................................................................ 79 4.2.1.1 Stemming ............................................................................................. 79 4.2.1.2 Segmentación de compuestos ............................................................. 80 4.2.1.3 Segmentación de palabras................................................................... 81 4.2.2 Enfoques basados en la traducción de la consulta ................................. 82 4.2.2.1 Diccionarios.......................................................................................... 83 4.2.2.2 Programas de traducción automática ................................................... 87 4.2.2.3 Tesauros .............................................................................................. 88 4.2.3 Otros enfoques: Traducción bidireccional ............................................... 90 4.3 Arquitectura del sistema INAOE multilingüe............................................... 91 4.4 Tareas translingües.................................................................................... 92 Capitulo 5. Experimentos Multilingües ............................................................. 95 5.1 Introducción................................................................................................ 95 5.2 Corpus del CLEF 2003............................................................................... 96 5.2.1 Tarea monolingüe Castellano-Castellano................................................ 97 5.2.1.1 Discusión sobre los resultados............................................................. 97 5.2.2 Tarea translingüe Castellano-Valenciano................................................ 98 5.2.2.1 Discusión sobre los resultados............................................................. 99 5.2.3 Tarea monolingüe Valenciano-Valenciano ............................................ 100 5.2.3.1 Discusión sobre los resultados........................................................... 100 5.2.4 Tarea translingüe Valenciano-Castellano.............................................. 101 5.2.4.1 Discusión sobre los resultados........................................................... 102 5.3 Clasificación de resultados atendiendo a la tipología de la pregunta ....... 103 5.4 El corpus del CLEF 2005.......................................................................... 104 5.4.1 Comparativa con los resultados obtenidos del sistema UPV en CLEF
2005............................................................................................................ 105 Capítulo 6. El componente de búsqueda de pasajes ..................................... 109 6.1 Introducción.............................................................................................. 109 6.2 El sistema de búsqueda de pasajes JIRS ................................................ 111 6.2.1 Definición de JIRS................................................................................. 111 6.2.2 Arquitectura del sistema JIRS ............................................................... 112 6.3 El sistema de búsqueda de respuestas QUASAR.................................... 117 6.3.1 Introducción........................................................................................... 118 6.3.2 Arquitectura del sistema........................................................................ 118 6.4 Casos de estudio con el idioma valenciano.............................................. 119 6.4.1 Discusión sobre los resultados.............................................................. 123 Bibliografía ..................................................................................................... 128
3
Anexo I. Artículo "Cross-language Question Answering: The Key Role of Translation"................................................................................................. 134
Anexo II. Artículo "Arabic-English Question Answering" ................................ 138 Anexo III Preguntas CLEF 2003..................................................................... 144 Anexo IV Preguntas CLEF 2005 .................................................................... 150
4
Introducción
Hoy en día, la Web se ha convertido en nuestro principal repositorio de
información. Toda clase de formatos (librerías digitales, periódicos,
presentaciones, foros, etc…) en más de 1500 idiomas distintos están
disponibles en formato electrónico en la Web. Estos documentos quizás
satisfagan las necesidades del usuario, o quizás no. Por lo tanto, son
necesarias herramientas que ayuden al usuario a gestionar esta ingente
cantidad de información que sin las herramientas adecuadas no es útil.
En los sistemas de Recuperación de Información (RI) el usuario está interesado
en encontrar los documentos más relevantes que se ajusten parcialmente a la
consultan realizada. Por lo tanto, los sistemas de RI resuelven el problema
asociado con la recuperación de documentos desde una colección en
respuesta a una consulta de usuario, siendo su objetivo buscar en una
colección (por ejemplo la Web) para devolver un subconjunto de documentos
ordenados por relevancia. Los más populares sistemas de IR son los motores
de búsqueda para la Web, por ejemplo Google1,Yahoo2 y MSN3.
Recientemente, la combinación del crecimiento y la explosión de la demanda
de mejor acceso a la información han motivado el interés en los sistemas de
Búsqueda de Respuestas (BR) basados en Web.
El propósito de un sistema de búsqueda de respuestas es obtener
respuestas precisas a preguntas realizadas por usuarios sin experiencia,
permitiendo lanzar consultas en lenguaje natural y obteniendo una respuesta
concisa. Por ejemplo, a la pregunta “¿Quién descubrió América?”, el sistema
debe encontrar la respuesta “Colón”.
Dada la dificultad de la tarea, los últimos desarrollos de sistemas de BR están
enfocados principalmente a contestar preguntas sobre hechos, lugares o
personas.
1 http://www.google.com 2 http://www.yahoo.com 3 http://www.msn.com
5
En este Proyecto Final de Carrera, se pretenden realizar pruebas para la
búsqueda de respuestas utilizando el motor de búsqueda Google como recurso
de información. Se probarán las distintas adaptaciones resaltando el aspecto
translingüe de las consultas. Como punto de partida nos basaremos en el
trabajo realizado por el INAOE (Instituto Nacional de Astrofísica, Óptica y
Electrónica), (Puebla, México)4.
Se pro ponen hacer pruebas en los idiomas valenciano, castellano e
inglés (también hemos participado en unos experimentos translingües arabe-
inglés). Veremos como afecta la redundancia existente en la Web a la
respuesta obtenida, y compararemos los resultados entre idiomas en función
de su presencia en la Web.
Se evaluarán la calidad de las respuestas obtenidas, y se compararán con los
resultados obtenidos en el forum anual Cross Language Evaluation Forum
(CLEF)5.
La estructura del documento queda de la siguiente manera:
El Capítulo 1 está dedicado a introducir conceptos básicos de los
sistemas de recuperación de información, evolución, modelos para la
recuperación de información y cómo evaluar la calidad de estos sistemas. Se
presta especial atención a los motores de búsqueda como herramientas de
recuperación de información.
El Capítulo 2 se centra en definir los sistemas de búsqueda de
respuestas como una especialización de los sistemas de recuperación de
información. Se detalla la clasificación de estos sistemas y algunos conceptos
generales.
En el Capítulo 3 abordaremos de lleno la utilización de un sistema de
búsqueda de respuestas, el implementado por el Instituto Nacional de
Astrofísica, Óptica y Electrónica (INAOE) de Puebla (México).
4 http://www.inaoep.mx 5 http://www.clef-campaign.org
6
El Capítulo 4 presenta el problema de la traducción en la recuperación
de información. Además se estudia la recuperación multilingüe mediante la
traducción de la consulta y otros enfoques como por ejemplo el uso de la
traducción bidireccional.
El Capítulo 5 está dedicado exclusivamente a la descripción de los
experimentos realizados con los diferentes sistemas (considerando como
distintos sistemas las adaptaciones del sistema original al idioma de búsqueda
utilizado en cada caso) y el análisis de los resultados obtenidos, que se
incluyen en el Anexo III. Estos experimentos se realizaron con las preguntas de
prueba del CLEF 2003 y 2005.
El Capítulo 6 trata sobre la búsqueda de pasajes. Se describe el
componente y se hace hincapié en la importancia de este módulo en la tarea
de búsqueda de respuestas. Se presenta el sistema JIRS6 (Java Information
Retrieval System), sistema de búsqueda de respuestas basado en la
recuperación de pasajes. Además, se explican las características principales
del sistema de búsqueda de respuestas Quasar (desarrollado en el laboratorio
de Ingeniería del Lenguaje Natural de la UPV) que extrae la respuesta desde
los pasajes devueltos por JIRS.
6 http://jirs.dsic.upv.es
7
8
Capítulo 1.Sistemas de recuperación de información
En este capítulo se define el contexto histórico de la recuperación de
información, la recuperación de información en si, la evolución y las técnicas
utilizadas.
1.1 Introducción
Durante los últimos años hemos asistido al enorme aumento de
información en formato digital disponible. Sumado a esto, también se han
producido grandes avances en materia de redes de ordenadores y
comunicaciones. Esto ha hecho que la información en formato digital que antes
mencionábamos, esté disponible para un mayor número de usuarios. La
cantidad de información disponible, principalmente de carácter textual, unido al
creciente número de usuarios finales que disponen de acceso directo a dicha
información a través de ordenadores personales, impulsó la investigación en
sistemas de información que facilitasen la localización, acceso y descarga de
toda esta enorme cantidad de datos.
Generalmente, cuando un usuario emplea un ordenador para buscar una
información determinada, lo que realmente está intentando es encontrar
respuesta a sus necesidades de información.
Para facilitar esta tarea, se necesitará disponer de sistemas que idealmente
sean capaces de localizar la información, procesarla, integrarla y generar una
respuesta acorde a los requerimientos expresados por el usuario en sus
preguntas. Además, estos sistemas deberán ser capaces de comprender
preguntas y documentos escritos en lenguaje natural en dominios no
restringidos permitiendo una cómoda interacción y adecuada a aquellos
usuarios inexpertos en el manejo de computadores. Sin embargo, y aunque las
investigaciones avanzan en buena dirección, todavía no existe hoy ningún
sistema operacional que cumpla por completo con todos estos requisitos.
9
De todas formas, ante la creciente necesidad de aplicaciones que facilitaran al
menos en parte el acceso y tratamiento de toda esta información, la comunidad
científica concentró sus esfuerzos en la resolución de problemas más
especializados y por ello, más fácilmente abordables. Esta circunstancia
propició el desarrollo de campos de investigación que afrontaron el problema
desde diferentes puntos de vista: la recuperación de información (RI), la
extracción de información (EI) y, posteriormente, la búsqueda de respuestas
(BR). A continuación, destacaremos aquellos aspectos más relevantes de cada
una de estas líneas de investigación.
1.2 La recuperación de información
Los sistemas de RI realizan las tareas de seleccionar y recuperar
aquellos documentos que son relevantes a necesidades de información
arbitrarias formuladas por los usuarios. Como resultado, estos sistemas
devuelven una lista de documentos que suele presentarse ordenada en función
de valores que intentan reflejar en qué medida cada documento contiene
información que responde a las necesidades expresadas por el usuario.
Los sistemas de RI más conocidos son aquellos que permiten con mayor
o menor éxito localizar información a través de Internet. Como ejemplo algunos
de los motores de búsqueda más utilizados actualmente como Google, o
Yahoo.
Una de las características más importantes de estos sistemas reside en
la necesidad de procesar grandes cantidades de texto en un tiempo muy corto
(del orden de milisegundos para búsquedas en Internet).
Esta limitación impone una severa restricción en cuanto a la complejidad de los
modelos y técnicas de análisis y tratamiento de documentos que pueden
emplearse.
Dentro del ámbito de la RI podemos destacar la aparición de dos líneas de
investigación orientadas a mejorar el rendimiento de estos sistemas: la
10
Recuperación de Pasajes (RP) y la aplicación de técnicas de Procesamiento
del Lenguaje Natural (PLN) al proceso de RI.
La RP nace como alternativa a los modelos clásicos de RI. Estos sistemas
miden la relevancia de un documento con respecto a una pregunta en función
de la relevancia de los fragmentos contiguos de texto (pasajes) que lo
conforman. Esta aproximación facilita la detección, dentro de documentos
grandes, de aquellos extractos que pueden ser muy relevantes para el usuario
y que, debido a estar inmersos en un documento mayor, pueden pasar
desapercibidos cuando el sistema considera el documento completo como una
unidad de información. Como demuestran diversos estudios, aunque estos
sistemas resultan computacionalmente más costosos que los de RI, las
mejoras de rendimiento alcanzadas justifican, en la mayoría de los casos, la
adopción de este tipo de aproximaciones.
En el Capítulo 6 se analiza el sistema de recuperación de pasajes JIRS,
desarrollado en la Universidad Politécnica de Valencia. A partir de este
sistema, realizaremos búsquedas sobre documentos en idioma valenciano.
En cuanto a la aplicación de técnicas de PLN, la comunidad científica
consideró a priori que su utilización reportará considerables beneficios a la
tarea de RI. Muchos y diversos intentos llevaron a cabo utilizando diversas
técnicas y herramientas. Sin embargo, el esfuerzo empleado no fue suficiente
para obtener mejoras de rendimiento sustanciales.
Uno de los principales foros de investigación en sistemas de RI lo constituye la
serie anual de conferencias Text REtrieval Conference (TREC)7. En estas
conferencias se diseñan una serie de tareas con la finalidad de evaluar y
comparar el rendimiento de los diferentes sistemas de RI. A través de las actas
de estas conferencias se puede observar con detalle la evolución de las
investigaciones desarrolladas en este campo.
7 http://trec.nist.gov
11
1.2.1 Evolución de los sistemas RI
En la evolución de los sistemas de RI se encuentran tres fases
fundamentales [Baeza,1999]:
1. Desarrollos iniciales. El autor refleja que ya existían métodos de
recuperación de información con las antiguas colecciones de papiros.
Otro ejemplo típico sería la tabla de contenidos de un libro, sustituida por
otras estructuras algo más complejas a medida que ha crecido el
volumen de información a gestionar.
2. Recuperación de información en las bibliotecas. Estas instituciones
fueron de las primeras en adoptar estos sistemas. Originalmente
desarrollados por las propias bibliotecas y posteriormente se ha creado
un mercado de aplicaciones informáticas altamente especializadas en
este sector
3. La World Wide Web. La evolución lógica de los sistemas de RI ha ido
encaminándose hacia recursos de la Web, donde han encontrado gran
aplicación práctica y un aumento del número de usuarios, especialmente
en el campo de los directorios y motores de búsqueda.
1.2.2 Modelos para la recuperación de información
El diseño de un sistema de RI se realiza bajo un modelo, donde ha de
quedar definido “como se obtienen las representaciones de los documentos y
de la consulta, la estrategia para evaluar la relevancia de un documento
respecto a una consulta, los métodos para establecer la importancia de los
documentos de salida y los mecanismos que permiten una realimentación por
parte del usuario para mejorar la consulta” [Villena, 1999]. Existen varia
propuestas de clasificación de los modelos de recuperación, una de las más
completas la realiza Dominich, quien establece cinco grupos, tal y como se
describen en la siguiente tabla [Dominich, 2000]:
12
Modelo Descripción Modelos clásicos Incluye los tres más comúnmente citados: booleano, espacio
vectorial y probabilística. Modelos alternativos Basados en la lógicas difusa.
Modelos lógicos Basados en la lógica formal. La recuperación de información se entiende como un proceso inferencial a través del cual se puede estimar la probabilidad de que una necesidad de información de un usuario, expresada como una o más consultas, sea satisfecha ofreciendo un documento como “prueba” [VIL, 1997].
Modelos basados en la interactividad
Incluyen posibilidades de expansión del alcance de la búsqueda y hacen uso de retroalimentación por la relevancia de los documentos recuperados [SAL, 1989].
Modelos basados en la inteligencia artificial
Bases de conocimiento, redes neuronales, algoritmos genéticos y procesamiento del lenguaje natural.
Tabla 1.1 Clasificación de los Modelos de Recuperación de Información según Dominich. Fuente: Dominich, S. “A unified mathematical definition of classical information retrieval”. Journal of the American Society for Information Science, 51[7],2000. p.614-624.
Baeza-Yates [Baeza,1999] nos proporciona otra clasificación de estos modelos
de recuperación de información, realizada en función de la modalidad de
consulta y de la vista lógica de los documentos:
Términos índice Texto completo
Texto completo + estructura
RecuperaciónClásicos
Conjuntos teóricos Algebraicos
Probabilísticos
Clásicos Conjuntos teóricos
Algebraicos Probabilísticos
Estructurados
Navegación Estructura plana Estructura plana Hipertexto
Estructura guiada Hipertexto
Tabla 1.2 Clasificación de los Modelos de Recuperación de Información según Baeza-Yates. Fuente: Baeza-Yates, R. and Ribeiro-Neto, B. “Modern information retrieval. New Cork: ACM Press. 1999 XX. p.513.
Vista lógica de documentos
Mod
alid
ad
13
1.3 La extracción de información
Los sistemas de EI realizan la tarea de buscar información muy concreta
en colecciones de documentos. Su finalidad consiste en detectar, extraer y
presentar dicha información en un formato que sea susceptible de ser tratado
posteriormente de forma automática.
Estos sistemas se diseñan e implementan específicamente para la realización
de una tarea determinada, por lo tanto, se dispondrá de un sistema diferente en
función del tipo de información a extraer en cada caso particular. Un ejemplo
podría ser un sistema orientado a la extracción del nombre, DNI y las
direcciones de las personas contratantes que aparecen en documentos
notariales. Este sistema operaría de forma que cada vez que apareciese uno
de estos datos, lo extraerá y lo incorporará en el campo correspondiente de
una base de datos creada a tal efecto. Como puede deducirse, estos sistemas
necesitan aplicar técnicas complejas de PLN debido la gran precisión que se
requiere en los procesos de detección y extracción del tipo de información que
les es relevante.
La investigación en este campo ha sido muy intensa. En particular, la serie de
conferencias Message Understanding Conference (MUC) han constituido uno
de sus principales foros de promoción. Estas conferencias han permitido la
evaluación y comparación de diversos sistemas, realizando la misma función
que las conferencias TREC para la recuperación de información.
1.4 La búsqueda de respuestas
La investigación en sistemas de RI y EI facilitó el tratamiento de grandes
cantidades de información, sin embargo, las características que definieron
estas líneas de investigación presentaban serios inconvenientes a la hora de
facilitar la obtención de respuestas concretas a preguntas muy precisas
formuladas de forma arbitraria por los usuarios.
Por una parte, los sistemas de RI se vieron incapaces por si solos de afrontar
tareas de este tipo. De hecho, una vez que el usuario recibirá la lista de
14
documentos relevantes a su pregunta, todavía le quedaba pendiente una ardua
tarea. Necesitaba revisar cada uno de estos documentos para comprobar en
primer lugar, si esos documentos estaban realmente relacionados con la
información solicitada y en segundo lugar, debía leer cada uno de estos
documentos para localizar en su interior la información puntual deseada.
Por otra parte, y aunque los sistemas de EI eran mucho más precisos en la
tarea de encontrar información concreta en documentos, estos sistemas no
permitían el tratamiento de preguntas arbitrarias sino que el tipo de información
requerida necesitaba ser definida de forma previa a la implementación del
sistema.
Todos estos inconvenientes y principalmente, un creciente interés en sistemas
que afrontarán con éxito la tarea de localizar respuestas concretas en grandes
volúmenes de información, dejaron la puerta abierta a la aparición de un nuevo
campo de investigación conocido como Búsqueda de Respuestas (BR) o
Question Answering (QA).
En el Capítulo 2 profundizaremos en los sistemas de BR. En el Capítulo
3 se presenta un sistema de BR implementado, el cual modificaremos y
pondremos en funcionamiento para determinados casos de estudio.
1.5 Motores de búsqueda
Los motores de búsqueda son sistemas de evolución paralela al
crecimiento de la web y al aumento de usuarios. Constituyen uno de los
desarrollos más consolidados de las técnicas de indización automática y, al
mismo tiempo, son los sistemas más sensibles a una amplia serie de
situaciones peculiares que se pueden presentar en la red: “spamming”,
inaccesibilidad de páginas, etc…
Independientemente de su método de rastreo y de los posteriores criterios y
algoritmos empleados para el alineamiento de los documentos, todos los
motores de búsqueda parten de una situación inicial parecida: una lista de
direcciones que sirve de punto de partida para el robot (o los robots). Esta
similitud de condiciones iniciales propicia, una posterior comparación del
15
resultado final, es decir, de la porción de web indexada y de la calidad de esta
indexación.
Existe cierto ocultismo en cuanto a los métodos seguidos por cada motor en la
realización de sus tareas. De cualquier manera, mediante la comparación del
resultado obtenido se podrá apreciar cuál de esos sistemas es de uso más
recomendable.
Se asume que su calidad de un motor de búsqueda depende de lo completa,
representativa y actualizada que sea la colección. En cambio, en un directorio,
la misma reside en la capacidad de los gestores en la realización de las
descripciones y en el número de esos gestores, ambos motivos más
relacionados con capacidades presupuestarias que con prestaciones
tecnológicas,
Los motores representan un claro ejemplo de la aplicación de las
técnicas de recuperación de información a la resolución de un reto, tan
ambiguo como moderno, en el campo de la información y la documentación:
disponer en un índice de las referencias a la mayor cantidad de documentos
existentes.
1.5.1 Funcionamiento de un motor de búsqueda
El funcionamiento de un motor debe estudiarse desde dos perspectivas
complementarias: la recopilación y la recuperación de información. Un motor
compila de forma automática las direcciones de las páginas que van a formar
parte de su índice tras realizar sobre su contenido un proceso de indización.
Una vez se encuentren estos registros debidamente depositados en la base de
datos del motor, los usuarios buscarán en su índice por medio de un una
interfaz de consulta, que puede ser más o menos avanzada en función del
grado de desarrollo del sistema. Al módulo encargado de la recopilación de las
páginas se le conoce comúnmente como robot (“es un programa que rastrea la
estructura hipertexto de la web, recogiendo información sobre las páginas que
encuentra. Esa información se indexa y se introduce en una base de datos que
16
será explorada posteriormente utilizando un motor de búsqueda
[Delgado,2001]”)
Estos robots pueden recopilar varios millones de páginas por día, y actualizar la
información recogida en los índices en periodos de tiempo extremadamente
pequeños. Por regla general, se parte de una lista inicial de direcciones de
sitios web, que son visitados por el robot, y a partir de ahí cada robot rastrea a
su manera la web, de ahí que la información almacenada en cada base de
datos de cada motor sea distinta. Baeza-Yates distingue en un robot las
funciones de análisis y rastreo (“crawling”) de las de indización o indexación
(“indexing”), con lo cual él habla de dos módulos independientes, el “crawler” o
robot y el indexador [Baeza,1999].
1.5.2 Arquitectura de un motor de búsqueda
La mayoría de los motores de búsqueda emplean una arquitectura de
tipo robot-indexador centralizada, que se muestra en la Figura 1.1. A pesar de
lo que puede inducir su nombre y de una amplia serie de definiciones
incorrectas, el robot no se mueve por la red, ni se ejecuta sobre las máquinas
que visita, ya que realmente el robot funciona sobre el sistema local del motor
de búsqueda y envía un serie de peticiones a los servidores web remotos
(donde se alojan las páginas). El índice también se gestiona localmente. Esta
arquitectura clásica es la que implementa, entre otros, el motor Altavista8.
8 www.altavista.es
17
Este modelo presenta algunos problemas para gestionar adecuadamente en el
entorno local la ingente cantidad de datos:
! La actualización de los índices es complicada y lenta.
! No sigue el ritmo de crecimiento de la web, indexando nuevos
documentos en un nivel menor.
! El trasiego de páginas por la red consume un gran ancho de banda y
produce una sobrecarga de tráfico [Delgado, 2001].
! Suelen ignorarse los contenidos dinámicos de la red, creación de
páginas de consulta, ficheros en otros formatos, etc.
1.5.3 Los índices de los motores
El índice “es el corazón de un motor de búsqueda” [Chang, 2001].
Generalmente consiste en una lista de palabras con valor de discriminación
asociadas a sus correspondientes documentos, que en este caso son las
descripciones de los URL recopiladas. La mayor parte de los motores de
búsqueda emplean como estructura de datos un fichero inverso [Chang, 2001;
Delgado,2001] basado en una idea general que se muestra en la ilustración
siguiente:
Figura 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de documentos. Fuente:Baeza-Yates,R. and Ribeiro-Nieto,B. Modern Information retrieval. New Cork:ACM Press:Harlow[etc,]:Addisson-Wesley,1999 XX,513p.
18
(b)File for text of (a)
(a) Example text;each line in one document
En la práctica el fichero inverso se convierte en una estructura de datos con
serios problemas de gestión. Los distintos motores de búsqueda se sirven de
distintos esquemas para definir estas estructuras de datos.
El índice emplea un conjunto de punteros que apuntan a una tabla donde se
recogen todas las URL en las que aparece una palabra clave. La manera en la
que se ordenan estos punteros depende de un mecanismo interno de
ordenación basado, generalmente, en criterios de frecuencias o pesos en el
documento. El enorme tamaño de la colección de URL recopiladas por los
motores obliga a buscar formas de simplificar al máximo el tamaño de estos
índices. La siguiente tabla muestra algunos métodos para la reducción del
tamaño de los índices:
Conversión de texto o minúsculas
Se convierten todas las palabras a caracteres en minúscula, reduciendo así el número de entradas para un mismo término.
Stemming Aislamiento de la base de la palabra(por ejemplo, compresión y comprensivo e reducirán a “compren”), reduciendo así el número de entradas en el índice
Supresión de las palabras vacías
Se suprimen del índice todas aquellas palabras por las que no tiene sentido recuperar información (artículos, preposiciones, adjetivos o interjecciones, por ejemplo)
Comprensión de textos
Técnicas de compactación del tamaño del fichero.
Tabla 1.3 Técnicas empleadas para reducir el tamaño de los índices de un motor de búsqueda.
Document Text 1 Pice porrigde hot, pice
porridge cold 2 Pice porridge in the past 3 Nine days old
4 Some like it, some like it
cold 5 Some like it in the past 6 Nine days old
Number Term Text 1 cold 1,4 2 days 3,5 3 hot 1,4 4 in 2,5
Figura 1.2 Ejemplo de la estructura de un fichero inverso (tabla de la derecha). Fuente:Rijsbergen, C.J. Information Retrieval
19
1.5.4 Tipos de robots
Junto a los robots de carácter general, existen otras modalidades de
estos sistemas [Delgado ,2001]:
! “Knowbots: Programados para localizar referencias hipertexto dirigidas
hacia un documento, servidor, etc., en particular. Permiten evaluar el
impacto de las distintas aportaciones que aportan las distintas áreas de
conocimiento presentes en la red.
! Wanderes (vagabundos): Encargados de realizar estadísticas, como por
ejemplo de crecimiento de la red, número de servidores conectados, etc.
! Worms(gusanos): Encargados de la duplicación de directorios FTP,
para incrementar su utilidad a un número mayor de usuarios.
! WebAnts(hormigas): Conjunto de robots físicamente alejados que
cooperan para la consecución de distintos objetivos, como por ejemplo
para llevar a cabo una indización distribuida.
1.5.5 Funcionamiento de los robots
Se ha comentado anteriormente que el robot inicia el rastreo a partir de
un conjunto de URL muy populares o enviadas por los administradores de sitios
web, y se siguen los enlaces de esa relación inicial de paginas evitando
repeticiones. El recorrido puede ser de dos modos:
! Breadth-first (cobertura amplia pero no profunda)
! Depth-first (cobertura vertical profunda) [Baeza, 1999]
La extensión de la web genera problemas par la actualización de la índices de
los motores, ya que entre dos análisis transcurre un cierto periodo de tiempo,
que varía según el motor. Baeza-Yates estima que entorno al 9% de los
20
enlaces almacenados son inválidos. Este criterio será uno de los más
significativos para evaluar la calidad de un motor de búsqueda frente a otro.
1.5.6 Indización de las páginas
A medida que los robots recopilan páginas, la información de estas debe
ser indexada. Existen dos estrategias para realizar este proceso: usar
información que provee el creador del documento o extraerla directamente del
mismo.
En la práctica los principales motores emplean ambas estrategias para
disponer de una completa descripción del contenido de la página analizada.
Algunos de los criterios utilizados para esta descripción pueden ser: el título del
documento, el número de veces que se repite una palabra en el documento,..
Cada motor utiliza sus propios algoritmos y criterios. Un ejemplo representativo
del comportamiento de un motor clásico a la hora de indexar las páginas web
es el motor Altavista:
! Da prioridad alta a las palabras del título y a las palabras que están
localizadas en el comienzo de la página.
! Asigna mayor peso a una palabra en un documento según su
frecuencia absoluta.
! El mejor tamaño para una página está entre 4 y 8k. Considera las
páginas largas como valiosas en contenido, cuando no están afectadas
de “spamming”.
! Indexa las palabras claves y la descripción de los metadatos. Si no se
tienen metadato, indexa las primeras 30 ó 40 palabras dela página y las
toma como descripción.
! Confiere una mayor prioridad a palabras ubicadas en los metadatos o a
las palabras con las cuales se registran las páginas, pero no son tan
relevantes como el título y el contenido.
! Es sensible a las palabras claves mayúsculas y minúsculas.
! Puede indexar un sitio que contiene marcos. Pero se debe asegurar
que todas las páginas enlacen a la página principal.
21
La siguiente tabla resume algunas de las principales características de la
indización y los motores que las implementan.
Características de la indización
NO SI
Texto completo
Todos
Supresión palabras vacías
FAST, Northen Light
Altavista,Excite,Google
Meta Descripción Google, Northen Light
El resto
Meta palabras clave Excite, FAST,Google, Northen Ligh
El resto
Texto alternativo Excite, FAST, Northen Light
Altavista, Google
Tabla 1.4 Resumen de las características de la indización y motores que las implementan
1.5.7 Alineado de los documentos (ranking)
El alineado, es uno de los procesos críticos a la hora de valorar la
efectividad de un motor de búsqueda, ya que se trata del orden en el que el
motor presenta los resultados a los usuarios, y como es de suponer el usuario
espera encontrar los documentos más relevantes con respecto a sus
necesidades en las primeras posiciones de la lista devuelta. El motor debe
ordenar el conjunto de documentos en función de la relevancia de estos
documentos con el tema de la pregunta realizada. Cuanto mejor sea el
alineamiento de los documentos, menor será el tiempo de búsqueda empleado
por el usuario en examinar el conjunto de documentos devuelto. Esta será otra
característica de gran importancia para valorar la calidad del buscador.
22
1.6 Evaluación de los sistemas de recuperación de información
Según Baeza-Yates “un sistema de RI puede ser evaluado por diversos
criterios, incluyendo entre los mismos: la eficacia en la ejecución, el efectivo
almacenamiento de los datos, la efectividad en la recuperación de la
información y la serie de características que ofrece el sistema al usuario”
[Baeza, 1999].
Estos criterios no deben confundirse, la eficacia en la ejecución es la medida
del tiempo que se toma un sistema de RI para realizar una operación. Este
parámetro ha sido siempre la preocupación principal del gestor de un sistema
de RI, especialmente desde que muchos de ellos son interactivos, y un largo
tiempo de recuperación interfiere con la utilidad del sistema. La eficiencia del
almacenamiento es medida por el espacio que se precisa para almacenar los
datos. Una medida común de medir esta eficiencia es cuantificar el ratio del
tamaño del fichero índice junto con el tamaño de los documentos.
Aquí debemos subrayar la importancia de la efectividad de la recuperación, en
cuanto a la relevancia de los documentos recuperados.
Según algunos autores existen dos tipos de evaluaciones a efectuar, el tiempo
de respuesta y el espacio requerido. Baeza-Yates afirma “cuando se analiza el
tiempo de respuesta y el espacio requerido para la gestión se estudia el
rendimiento de las estructuras de datos empleadas en la indexación de los
documentos, la interacción con el sistema, los retrasos de las redes de
comunicaciones y cualquier otro retardo adicionalmente introducido por el
software del sistema. Esta evaluación podría denominarse evaluación del
funcionamiento del sistema “[Baeza,1999].
En un sistema de RI, los documentos recuperados no van a ser respuestas
exactas a esta petición. Los documentos recuperados se clasifican de acuerdo
a su relevancia con la pregunta. Los sistemas de RI requieren evaluar cómo de
relacionado está el documento recuperado con la query o pregunta pasada al
sistema. A esta evaluación se la conoce como evaluación del funcionamiento
de la recuperación [Baeza,1999].
23
Medidas tradicionalmente empleadas Dentro de las medidas empleadas, hay unas orientadas a analizar el
aspecto físico de los datos y otras que intentan analizar si el contenido es
pertinente o no. Meadow sintetiza las medidas empleadas en tres grupos:
medidas basadas en la relevancia, medidas del proceso y medidas del
resultado [Meadow, 1992].
A continuación se presentan las medidas empleadas y en que tipo de
evaluación se basan.
MEDIDAS BASADAS EN LA RELEVANCIA Precisión
Documentos relevantes recuperados divididos entre el total de documentos recuperados
Exhaustividad Documentos relevantes recuperados dividido entre el total de documentos relevantes
Promedio de la efectividad E-P
Promedios de la efectividad en pares de valores de exhaustividad y precisión
Tabla 1.5 Resumen de las medidas basadas en la Relevancia de los documentos recuperados, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. Text information retrieval systems. San Diego: Academic Press.1993.
MEDIDAS BASADAS EN EL PROCESO Selección
Mide cuántos documentos hay en la base de datos, el grado de solapamiento con otros relacionados que se espera de la base de datos antes de las búsquedas
Contenido Tipo de documentos de la base de datos, temática de los documentos, frecuencia de actualización
Traducción de una consulta
Se verifica si el usuario puede plantear la consulta directamente o precisa de intermediación
Errores en establecimiento de la consulta
Media de errores sintácticos en la escritura de la búsqueda que propician la recuperación de conjuntos vacíos y erróneos
Tiempo medio de realización de la búsqueda
Tiempo medio de realización de una estrategia de búsqueda
Dificultad en la realización de la búsqueda
A la ratio anterior habrá que añadir los problemas que usuarios inexpertos se pueden encontrar
Número de comandos precisos para una búsqueda
Promedio de instrucciones necesarias para realizar una búsqueda
Coste de la búsqueda Costes directos e indirectos en su realización Nº Docs recuperados Extensión del resultado de una búsqueda Nº de Docs revisados por el usuario
Promedio de los documentos que los usuarios están dispuestos a revisar
Tabla 1.6 Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems, San Diego: Academic Press.1993.
1.6
24
MEDIDAS DE RESULTADO Precisión --ya definida anteriormente--
Exhaustividad --ya definida anteriormente--
Promedio efectividad E-P
--ya definida anteriormente--
Medidas promedio de la satisfacción del usuario
Medidas que pretenden medir la reacción de los usuarios ante el resultado de una búsqueda
Tabla 1.7 Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems. San Diego: Academic Press, 1993.
De cualquier manera, las medidas más comúnmente empleadas son la
precisión y la exhaustividad.
1.7 Foros de experimentación CLEF Cada año, el Cross-Language Evaluation Forum organiza una serie de
pruebas de evaluación que prueban distintos aspectos de los sistemas de
recuperación de información. Desde el principio, la intención ha sido
experimentar con toda clase de lenguajes y acceso a información, para el
desarrollo de sistemas monolingües de recuperación de información para
muchos lenguajes y de sistemas multilingües de acceso a información.
En la página oficial del CLEF9, el apartado Working Notes contiene
descripciones de los experimentos llevados a cabo dentro del CLEF. Los
resultados de cada CLEF son presentados y discutidos en los Wokshops
programados en cada campaña.
Al final, se publican los resultados obtenidos después de la puesta en común
con los grupos que se han presentado a la campaña anual del CLEF.
9 http://www.clef-campaign.org
1.7
25
• Recuperación de documentos textual mono-, bi- y multilingüe sobre
nuevas colecciones (Ad Hoc)
• Información mono- y cross-language sobre datos en lenguaje científico
(Domain-Specific)
• Interactivo cross-language retrieval (iCLEF)
• Multiples lenguajes de question answering (QA@CLEF)
• Recuperación cross-language en colecciones de imagenes
(ImageCLEF)
• Recuperación de documentos hablados cross-language (CL-SR)
• Recuperación multilingüe documentos Web (WebCLEF)
• Recuperación geográfica cross-language (GeoCLEF)
TREC La Conferencia de REcuperación de Texto, co-patrocinado por el
Instituto Nacional de Normas y la Tecnología (NIST) y el Departamento de
defensa estadounidense, comienza su andadura en 1992. Su objetivo es
apoyar la investigación en la comunidad de recuperación de documentos
proporcionando la infraestructura necesaria para la evaluación a gran escala de
metodologías de recuperación de texto.
Sus objetivos son:
• Fomentar la investigación en recuperación de documentos basada en
grandes colecciones.
• Aumentar la comunicación entre industria, academia, y gobierno creando
un foro abierto para el intercambio de ideas de investigación.
• Dinamizar la transferencia de tecnología de laboratorios de investigación
en productos comerciales demostrando mejoras sustanciales de
metodologías de recuperación.
• Aumentar la disponibilidad de técnicas de evaluación apropiadas para
empleo por parte de la industria y academia, incluyendo desarrollo de
técnicas de evaluación nuevas aplicables a sistemas corrientes.
Estas conferencias han aportado la evaluación de variadas modalidades de
recuperación de información (desde el clásico modelo booleano a la búsqueda
26
por cadenas de texto o las búsquedas basadas en diccionarios), y han
demostrado hasta qué punto pueden alcanzarse resultados significativos de
investigación a través de la cooperación entre investigadores en el ámbito
mundial. De hecho, en palabras de Sparck Jones, “la comunidad investigadora
debe estar muy agradecida a las conferencias TREC, en tanto que han
revitalizado la investigación en recuperación de información y también ha
demostrado la importancia de este campo de investigación en áreas afines,
tales como el procesamiento del lenguaje natural y la inteligencia artificial
[Chowdhury, 1999].
Pistas o talleres TREC
Un taller TREC consiste en un juego que rastrea áreas de interés para
las que se definen tareas de recuperación. Las pistas sirven a varios objetivos.
Primero, rastrea áreas de investigación nuevas: la primera fase de una pista a
menudo define lo que el problema realmente es, y una pista crea la
infraestructura necesaria (colecciones de prueba, la metodología de
evaluación, etc.) para apoyar la investigación. Las pistas también demuestran
la robustez de tecnología de recuperación principal. Las mismas técnicas son
con frecuencia apropiadas para una variedad de tareas. Finalmente, las pistas
hacen TREC atractivo a una amplia comunidad investigadora proporcionando
tareas que emparejan los intereses de investigación de varios grupos.
Para cada pista se implementa una lista de direcciones. El objetivo inicial
de esta lista de direcciones es hablar de los detalles de las tareas a realizar en
la pista TREC. Sin embargo, una pista de la lista de direcciones también sirve
como foro para tratar cuestiones generales metodológicas relacionadas con las
tareas de recuperación de la pista. Más allá, algunas pistas enlazan con
páginas web específicas que proporcionan la historia y el material de estudio
relativo al tema central. Así, estas listas de páginas enlazan a su vez con la
información que el TREC rastrea, si realmente la pista es programada para ser
controlada en la corriente TREC. El juego de las pistas que serán controladas
en un año dado por TREC, es determinado por el comité de programa TREC.
Las pistas, o temas de estudio, TREC del año 2005 han sido las siguientes:
27
1. Pista de la empresa
2. Pista sobre el genoma
3. Recuperación de exactitud alta de documentos
4. Pista de recuperación robusta
5. Pista de SPAM
6. Pista terabyte
Las pistas sobre las que se trabaja actualmente son:
1. Pista sobre recuperación en varias lenguas
2. Pista sobre la necesidad estable de información de un usuario
3. Pista sobre interacción de usuario con sistemas de recuperación de
texto
4. Pista de vídeo
5. Pista de web
28
29
Capítulo 2. Sistemas de búsqueda de respuestas
El objetivo de los sistemas tradicionales de recuperación de información
ha sido devolver una lista ordenada de documentos en función de su relevancia
con la pregunta efectuada. Desde aquí, era tarea del usuario abrir los
documentos devueltos y buscar en ellos la respuesta. Como principal medio de
búsqueda de información, hoy en día se utiliza Internet. Dado el crecimiento en
cuanto a número de páginas (documentos), sería muy útil un sistema capaz de
resolver de forma más precisa nuestras necesidades de información. Este
problema es esencialmente lo que intentan resolver los sistemas de BR.
La finalidad de los sistemas de BR es devolver la respuesta en si, sin
necesidad por parte del usuario de perder el tiempo en examinar los
documentos devueltos por el sistema de recuperación de información
tradicional.
El contenido del presente capítulo ha sido extraído principalmente de la
publicación “Recuperación de Información de Alta Precisión: Los Sistemas de
Búsqueda de Repuestas” de José Luis Vicedo González [Vicedo, 2002].
2.1 Introducción
Podemos definir la BR como la tarea automática realizada por
ordenadores que tiene como finalidad la de encontrar respuestas concretas a
necesidades precisas de información formuladas por usuarios eventuales. La
principal utilidad de los sistemas de BR en aquellos casos en los que el usuario
final desea conocer alguna información muy concreta y se necesita conocer
inmediatamente. A modo de ejemplo, algunas aplicaciones prácticas podrían
ser las siguientes:
• Sistemas de ayuda en línea de software.
• Sistemas de consulta de procedimientos y datos en grandes
organizaciones.
30
• Interfaces de consulta de manuales técnicos.
• Sistemas búsqueda de respuestas generales de acceso público sobre
Internet.
• etc.
La primera discusión acerca de las características de un sistema de BR
y la primera aproximación a un sistema funcional (QUALM) fueron introducidos
por Wendy Lehnert a finales de los 70 [Lehnert, 1977, 1980]. En estos trabajos
se definieron las características ideales de un sistema de BR. Estos sistemas
deberían entender la pregunta del usuario, buscar la respuesta en una base de
datos de conocimiento y posteriormente componer la respuesta para
presentarla al usuario. En consecuencia, estos sistemas deberán integrar
técnicas relacionadas con el Entendimiento del Lenguaje Natural, la Búsqueda
de Conocimiento (incluyendo posiblemente técnicas de inferencia) y la
Generación de Lenguaje Natural.
La investigación en sistemas de BR tuvo sus inicios en la comunidad científica
relacionada con la inteligencia artificial. Desde esta perspectiva, la
investigación desarrollada consideró requisito indispensable que los sistemas
de BR tendrán que satisfacer todas y cada una de las características ideales
anteriormente citadas. Sin embargo, hasta la fecha únicamente se han podido
obtener algunos resultados a costa de restringir mucho los dominios sobre los
que se realizan las consultas.
Recientemente, la investigación en sistemas de BR también se ha afrontado
desde el punto de vista de la comunidad especializada en sistemas de RI. Sin
embargo, desde esta perspectiva, el poder desarrollar la tarea sobre dominios
no restringidos constituye el requisito básico e innegociable a cumplir.
Partiendo de este requerimiento inicial, las investigaciones se han orientado
hacia el desarrollo de sistemas que van incorporando progresivamente
herramientas más complejas que permiten la evolución de estos sistemas hacia
la consecución de las características ideales propuestas por Lehner.
Teniendo en cuenta estas orientaciones, se puede realizar una primera
clasificación de los sistemas de BR en dos tipos: sistemas de BR en dominios
restringidos y sistemas de BR en dominios no restringidos.
31
Dominios restringidos El interés en sistemas de BR no es nuevo desde la perspectiva de la IA.
Sin embargo, hasta hace unos años la investigación se centró en el desarrollo
de sistemas que respondieran a preguntas realizadas sobre una base de
conocimiento estructurado. En este trabajo se investigó principalmente la
aplicación de herramientas de PLN en combinación con técnicas de IA tales
como demostración de teoremas para la extracción de respuestas de la base
de conocimientos.
El trabajo de Levine muestra con detalle este tipo de aproximaciones [Levine y
Fedder, 1989].
Recientemente, las investigaciones han derivado hacia el tratamiento de bases
de conocimiento no estructuradas, si bien, sólo se han obtenido resultados más
o menos satisfactorios en el caso particular del tratamiento de documentos de
dominios muy restringidos.
Dominios no restringidos La investigación en sistemas de BR en dominios no restringidos vive
actualmente momentos de gran auge. Gran parte del interés en estos sistemas
ha sido propiciado por la inclusión de una tarea específica para la evaluación
de sistemas de BR dentro de la serie de conferencias TREC patrocinadas por
NIST10, DARPA11 y ARDA12. Estas conferencias han dado un gran empuje a
esta línea de investigación no sólo como plataforma de evaluación,
comparación y difusión de los sistemas existentes (las actas y resultados de las
evaluaciones son públicas) sino, principalmente, por su apuesta decidida en
relación al fomento de la introducción de mejoras en los sistemas a través de la
continua introducción de nuevos retos a afrontar. Por ello, en sólo tres años,
estas conferencias se han convertido en el principal foro de discusión y
promoción de los sistemas de BR en todo el mundo y prueba de ello reside en
el crecimiento continuo del número de participantes convocatoria tras
convocatoria.
10 National Institute of Standars and Technology 11 Technology Office of the Defense Advanced Research Projects Agency 12 Advanced Research and Development Activity
32
Las conferencias TREC y los sistemas de BR En 1999, en el seno de la conferencia (TREC, 1999), se presentó la
primera convocatoria de esta serie: “The first Question Answering track". Esta
convocatoria nació con el propósito de fomentar la investigación, evaluación y
comparación de las posibles aproximaciones existentes orientadas a la
construcción de sistemas automáticos que pudiesen proporcionar respuestas a
preguntas concretas a partir de una gran colección de documentos no
estructurados.
En esta primera convocatoria, se evaluó el rendimiento de los sistemas
participantes sobre 200 preguntas de test elaboradas por la organización con la
seguridad de que la respuesta se encontraba en algún documento de la
colección. Para cada pregunta, los sistemas deberían devolver una lista
ordenada con un máximo de 5 respuestas posibles. Cada respuesta consistiría
en un fragmento de texto extraído de la base documental en el que debería
aparecer la respuesta a la pregunta. Se diseñaron dos categorías en función
del tamaño máximo permitido del fragmento de texto respuesta (250 y 50
caracteres). Una descripción detallada de la tarea propuesta y del proceso de
evaluación puede encontrarse en [Voorhees, 1999] y [Voorhees y Tice, 1999].
Con la finalidad de fomentar la investigación en este campo y potenciar la
mejora de los sistemas existentes, en las siguientes convocatorias (TREC9,
2000) y (TREC10, 2001) se introdujeron progresivamente nuevos
requerimientos basados, sobre todo, en el incremento del tamaño de la base
documental y en la cantidad y complejidad de las preguntas de test realizadas.
En particular, el congreso TREC9 fue especialmente fructífero puesto que
abordó el análisis del problema de la BR desde una perspectiva a largo plazo.
Se definieron los objetivos a conseguir en el futuro y además, se diseñó un plan
a cinco años que permitió orientar las investigaciones futuras hacia la
consecución de dichos objetivos.
La descripción de las tareas a realizar propuestas en la convocatoria TREC10
reflejaron ya las primeras consecuencias de dicho plan. En primer lugar, el
tamaño máximo de texto permitido como respuesta se limitó a 50 caracteres
exclusivamente. En segundo lugar, no se garantizó la existencia de respuesta a
las preguntas en la base de datos documental, fomentando así la investigación
33
en herramientas que permitiesen validar la existencia o no de una respuesta
correcta en la base de datos.
Además, se incrementó la complejidad de las preguntas de test. Se incluyeron
preguntas en las que se especificaba un número de instancias a recuperar
como respuesta y también se propusieron series de preguntas formuladas
sobre un mismo contexto. Estas series estaban formadas por preguntas
relacionadas entre sí de forma que la interpretación de cada pregunta
dependiera tanto del significado de las preguntas realizadas previamente como
de sus respectivas contestaciones.
En cuanto al tipo de usuarios de estos sistemas, podemos encontrar un
amplio espectro de usuarios que requieren diferentes capacidades del sistema
para satisfacer sus necesidades de información. Estas necesidades pueden
variar entre las solicitadas por un usuario casual, que interroga al sistema para
la obtención de datos puntuales, y las que puede necesitar un analista
profesional. Estos tipos representan los extremos de esa amplio espectro de
usuarios potenciales de un sistema de BR.
De acuerdo a “The Q&A Roadmap Committee” [Burguer et al., 2003] podemos
clasificar los diferentes usuarios de un sistema de BR en cuatro tipos generales
en función de la complejidad de sus requerimientos.
1. El usuario casual. Este tipo de usuario necesita información precisa acerca de hechos
concretos. (Realiza preguntas cuya respuesta puede encontrarse en un
documento expresada, generalmente, de forma simple). Este usuario realizaría
preguntas de este estilo: “¿Dónde está Gandía?" ,“¿En qué año nació el ex-
presidente Aznar?" o “¿Cuántos habitantes tiene Castellón?". La Figura 2.1
muestra gráficamente la relación entre dicha taxonomía de usuarios y los
diferentes niveles de complejidad de sus requerimientos.
34
Figura 2.1 Niveles de usuarios según complejidad de las preguntas
2. El recopilador de información. A diferencia del anterior, este usuario realiza preguntas cuya respuesta
necesita de un proceso de recopilación de varias fuentes de información
indicadas en la pregunta. Veamos algunos ejemplos de preguntas de este tipo:
“¿Qué países tienen frontera con España?”, “¿Qué países visitó el Papa en
1998?", “¿Qué jugadores de fútbol han anotado mas de 4 goles en un partido
oficial de fútbol en México?".
Como puede observarse, este tipo de preguntas requiere de varias fuentes de
Información (probablemente en diferentes documentos) y su posterior
combinación como respuesta final.
35
3. El periodista.
Es el tipo de usuario al que se le encarga la redacción de un artículo
relacionado con un evento determinado, por ejemplo un huracán que golpea la
costa del Golfo de México.
Para ello, el reportero necesitará recabar datos concretos del suceso
(intensidad del huracán, lugar del desastre, daños materiales,...), el sistema de
BR necesitaría tener en cuenta el contexto de la serie de preguntas que el
usuario interpondrá al sistema. Este contexto permitiría al sistema determinar la
amplitud de la búsqueda y la necesidad de profundizar en determinados
aspectos relacionados.
4. El analista profesional. El perfil de este usuario corresponde con el de un profesional de la
información experto en temas concretos. Por ejemplo, analistas financieros,
personal de agencias estatales de inteligencia especializadas en política
internacional, política económica, o en la investigación de determinados delitos
como el terrorismo, tráfico de drogas, etc.
Un ejemplo del tipo de preguntas que el sistema de BR debería de responder
sería el siguiente. Un analista de la policía intuye que puede haber cierta
conexión entre las actividades de un grupo de secuestradores y un grupo de
policías e intenta investigar la existencia de dicha conexión. Para ello, el
analista podría realizar al sistema las siguientes preguntas: “¿Hay alguna
evidencia de conexión, comunicación o contacto entre estos dos grupos?",
“¿Hay alguna evidencia de que estos grupos estén planeando alguna acción
conjunta?". Un sistema de BR que trabaje a este nivel debe poder aceptar
preguntas muy complejas cuyas respuestas pueden basarse en conclusiones y
decisiones realizadas por el propio sistema.
Estas respuestas necesitarán de la recopilación y síntesis de información
obtenida en diferentes fuentes y deberá ser presentada al usuario de una forma
adecuada a su forma de trabajo.
Como puede deducirse, los niveles de sofisticación de estos diferentes tipos de
usuarios estarán íntimamente relacionados con el nivel de complejidad de las
preguntas y respuestas que el sistema ha de ser capaz de procesar
satisfactoriamente.
36
En consecuencia, el análisis del problema de la BR va a depender
fundamentalmente del correcto estudio de las dos partes principales del
problema: las preguntas y las respuestas.
Desde el punto de vista de la problemática de las preguntas, pueden
destacarse tres factores principales de los que depende el correcto
funcionamiento de un sistema de BR:
I. El contexto en el que se realizan las preguntas. Este contexto
determinará cómo debe interpretar el sistema la información requerida
en cada momento. Por ejemplo, sin un correcto análisis contextual, la
pregunta “¿Dónde está el Cesar Palace?" puede tener varias respuestas
que serán correctas o incorrectas en función de dicho contexto: (1) “Las
Vegas, Nevada", “Paris, Francia"" (donde está el casino Cesar Palace) o
incluso “Ciudad Madero, Tamaulipas" (donde se encuentra un hotel con
dicho nombre).
II. La intención de la pregunta. El análisis de la intención que refleja una
pregunta debe conducir el proceso de búsqueda de forma que los
elementos de juicio, motivos e intenciones reflejadas en ella puedan ser
correctamente abordados y resueltos en el proceso generación de la
respuesta. Por ejemplo, el análisis de la pregunta “¿Por qué las
relaciones diplomáticas entre México y Cuba se han visto deterioradas?"
debe detectar que el usuario requiere una respuesta que justifique las
razones de la afirmación expresada en la pregunta.
III. El alcance de la pregunta. El proceso de interpretación de la pregunta
debe poder determinar en cuál de las fuentes de información disponibles
se ha de realizar la búsqueda y también, el nivel de profundidad
requerido para generar la respuesta. De forma similar, desde el punto de
vista de la complejidad de las respuestas, un sistema de BR necesitaría
contemplar los siguientes aspectos:
a) Diversidad de las fuentes de datos. Un sistema de BR avanzado
ha de permitir la búsqueda de información en un amplio espectro
de fuentes de datos diferentes.
b) La integración de datos individuales. Se requiere que el sistema
sea capaz de integrar, combinar y resumir datos individuales
37
extraídos de cualquier fuente de información para generar
aquellas estructuras de información compuestas que son
relevantes a la pregunta.
c) La interpretación de la información. Estos sistemas deben facilitar
una interpretación de la información relevante recuperada que se
ajuste a la interpretación de la pregunta original. Este proceso
permitiría que los motivos, intenciones y elementos de juicio
expresados en la pregunta se reflejaran en los procesos de
selección de información relevante y de generación de las
respuestas.
Queda claro que el abordar la detección y análisis de los factores
principales que afectan al problema de la BR no resulta una tarea trivial. Sin
embargo, este proceso ha permitido definir el problema desde una perspectiva
general facilitando así, el acotar el ámbito del problema, aproximar sus
objetivos, definir una base que permite situar el estado actual de las
investigaciones en este campo y sobre todo, centrar el interés en aquellos
aspectos hacia los que se deben orientar las investigaciones futuras.
2.2 Componentes principales de un sistema de BR
Tras analizar algunas de las publicaciones actuales más relevantes,
tales como [Prager et al. , 2000 ; Hovy et al. , 2001; Vicedo et al., 2003 ; Perez-
Coutiño et al., 2004; de Pablo et al., 2004], se puede establecer una división de
componentes de un sistema de BR tal y como sigue:
1. Análisis de la pregunta.
2. Recuperación de documentos.
3. Selección de pasajes relevantes.
4. Extracción de respuestas.
38
La Figura 2.2 muestra gráficamente la secuencia de ejecución de estos
procesos y cómo se relacionan entre sí.
Figura 2.2 Módulos de ejecución en la BR a partir de documentos y sus pasajes relevantes
Los componentes mencionados están relacionados entre si procesando
información textual disponible en los distintos niveles hasta terminar el proceso
de BR mediante la devolución de un resultado.
En la primera parte del proceso, las cuestiones formuladas al sistema son
procesadas por el módulo “Análisis de la pregunta”. Este proceso es de vital
importancia puesto que de la cantidad y calidad de la información extraída en
este análisis dependerá en gran medida el rendimiento de los restantes
módulos y por consiguiente, el resultado final del sistema.
Una parte de la información resultado del análisis de la pregunta es utilizado
por el módulo “Recuperación de documentos” para realizar una primera
selección de textos. Dado el gran volumen de documentos a tratar por estos
sistemas y las limitaciones de tiempo de respuesta con las que trabajan, esta
tarea se realiza utilizando sistemas de RI o RP.
39
Los sistemas de Recuperación de Pasajes (RP) utilizan los mismos modelos
tradicionales de RI pero sustituyendo al documento por el pasaje. Un pasaje se
define como una secuencia contigua de texto dentro de un documento.
El resultado obtenido es un subconjunto muy reducido de la base de datos
documental sobre los que se aplicarán los procesos posteriores. A
continuación, el módulo “Selección de pasajes” relevantes se encarga de
realizar un análisis más detallado del subconjunto de textos relevantes con el
objetivo de detectar aquellos fragmentos reducidos de texto que son
susceptibles de contener la respuesta buscada.
Finalmente, el módulo “Extracción de respuestas” procesa el pequeño conjunto
de fragmentos de texto resultado del proceso anterior con la finalidad de
localizar y extraer la respuesta buscada.
2.3 Situación actual
Los sistemas de BR actualmente en operación, afrontan la tarea de BR
desde la perspectiva del usuario casual. Un usuario que realiza preguntas
simples que requieren un hecho, situación o dato concreto como respuesta.
Estos sistemas utilizan un único tipo de fuente de información en la que se
realiza la búsqueda de respuestas: una base de datos textual compuesta por
documentos escritos en un único lenguaje (actualmente el idioma inglés es el
más utilizado). En algunos casos se ha avanzado un poco mas mediante el uso
de bases de datos léxico-semánticas (principalmente WordNet) y la integración
de algún tipo particular de ontología como SENSUS [Hovy et al. , 2000]. Desde
esta perspectiva, los sistemas existentes pueden contestar a preguntas simples
cuya respuesta aparece en un único documento y además, los conceptos
expresados en la pregunta están localizados en zonas del texto cercanas a
dicha respuesta.
40
2.4 Clasificación de los sistemas de BR
La realización de una clasificación de los sistemas existentes resulta una
tarea bastante complicada. Ésta dificultad radica principalmente en la selección
de la perspectiva desde la que se desea realizar dicha clasificación.
Vicedo propone una clasificación detallada que muestra los diferentes niveles
de procesamiento del lenguaje natural que estos sistemas emplean [Vicedo,
2002].
2.4.1 Sistemas que no utilizan técnicas de PLN.
Estos sistemas tratan de aplicar únicamente técnicas de RI adaptadas a
la tarea de BR. La forma general de actuación de estos sistemas se basa en la
recuperación de extractos de texto relativamente pequeños con la suposición
de que dichos extractos contendrán la respuesta esperada.
Generalmente estos sistemas utilizan varias formas de seleccionar aquellos
términos de la pregunta que deben aparecer cerca de la respuesta.
Normalmente, se eliminan las palabras vacías y se seleccionan aquellos
términos con mayor “valor discriminatorio". Estos términos se utilizan para
recuperar directamente fragmentos relevantes de texto que se presentan
directamente como respuestas [Cormack et al., 1999] o bien, para recuperar
documentos que posteriormente serán analizados. Este análisis consiste en
dividir el texto relevante en ventanas de un tamaño inferior o igual a la longitud
máxima permitida como cadena respuesta. Cada una de estas ventanas se
valora en función de determinadas heurísticas para finalmente presentar como
respuestas aquellas ventanas que consiguen la mejor puntuación.
Esta valoración suele tener en cuenta aspectos como el valor de discriminación
de las palabras clave contenidas en la ventana, el orden de aparición de dichas
palabras en comparación con el orden establecido en la pregunta, la distancia a
la ventana de aquellas palabras clave que no se aparecen en la ventana, etc.
41
Además del sistema de la universidad de Waterloo, citado previamente, se
puede incluir en este grupo el sistema utilizado por la universidad de
Massachusetts [Allan et al., 2001].
El rendimiento alcanzado por este tipo de sistemas es relativamente bueno
cuando la longitud permitida como respuesta es grande (del orden de 250
caracteres), sin embargo, decrece mucho cuando se requiere una respuesta
concreta a la pregunta (unos 50 caracteres de longitud máxima).
Un caso especial lo constituye el sistema diseñado por InsigthSoft [Soubbotin
and Soubbotin, 2001]. Este sistema es uno de los que mejor rendimiento
presenta aunque no utiliza ninguna herramienta de PLN. Se diferencia respecto
a las anteriores aproximaciones en el uso de patrones indicativos (combinación
determinada de caracteres, signos de puntuación, espacios, dígitos o palabras)
en el proceso de extracción final de la respuesta.
2.4.2 Sistemas que usan información léxico-sintáctica
En esta clase se pueden catalogar la mayoría de las aproximaciones
existentes. Al igual que los sistemas anteriores, estos sistemas utilizan técnicas
de RI para seleccionar aquellos documentos o pasajes de la colección
documental que son más relevantes a la pregunta. Las diferencias más
significativas estriban en el uso de técnicas de PLN para analizar las preguntas
y facilitar el proceso de identificación y extracción final de las respuestas.
Estos sistemas se caracterizan, en primer lugar, por la realización de un
análisis detallado de la pregunta que permite conocer o aproximar el tipo de
entidad que cada pregunta espera como respuesta. Estas entidades están
organizadas en conjuntos de clases semánticas como por ejemplo, “persona",
“organización", “tiempo', “lugar", etc. La identificación del tipo de respuesta
esperada se suele hacer mediante el análisis de los términos interrogativos de
la pregunta. Para realizar el análisis de la pregunta se suelen utilizar
etiquetadores léxicos y analizadores sintácticos inclusive métodos de
aprendizaje automático [Solorio and López, 2004].
42
Por otra parte, el proceso de extracción de la respuesta combina el uso de
técnicas de RI para la valoración de extractos reducidos de texto, como las
utilizadas en los sistemas de la clase anterior, con el uso de clasificadores de
entidades [Neumann et al., 2004]. Estas herramientas permiten localizar
aquellas entidades cuya clase semántica corresponde con aquella que la
pregunta espera como respuesta. De esta forma, el sistema sólo tiene en
cuenta aquellos extractos de texto que contienen alguna entidad del tipo
requerido como respuesta.
La gran mayoría de los sistemas actuales utilizan esta aproximación [Kwok et
al.2001; Negri et al. 2003 ; Osenova et al., 2004]. De entre los sistemas que
adoptan esta estrategia general, cabe destacar algunas variantes interesantes.
El sistema utilizado por IBM [Prager et al., 2000] y el del INAOE, [Perez-
Coutiño et al., 2004] basan su aproximación en el concepto de anotación
predictiva. Este sistema utiliza un etiquetador de entidades para anotar en
todos los documentos de la colección, la clase semántica de aquellas entidades
que detecta. Dicha clase semántica se indexa junto con el resto de términos de
los documentos. Este proceso facilita la recuperación preliminar de los
extractos de documentos que contienen entidades cuya clase semántica
coincide con la esperada como respuesta.
Otras aproximaciones incluidas en este grupo realizan un uso más intensivo de
la información sintáctica. Algunos sistemas tienen en cuenta la similitud entre
las estructuras sintácticas de las preguntas y posibles respuestas como factor
importante en el proceso de extracción de la respuesta final [Buchholz 2001;
Lee et al., 2001].
Finalmente, cabe destacar algunas aproximaciones que pueden
considerarse próximas a la propuesta aquí presentada. De hecho este trabajo
final de carrera toma el enfoque desarrollado por Brill pero con ciertas
diferencias que mencionaremos mas adelante.
Los sistemas de la Universidad de Waterloo [Clarke et al., 2001] y Microsoft
[Brill et al., 2001] y más recientemente Linguateca [Costa et al., 2004] se
caracterizan principalmente por el uso de Internet (documentos Web) como
fuente de información añadida en el proceso de BR.
En el caso de la Universidad de Waterloo [Clarke et al., 2001], el sistema
realiza el proceso de búsqueda a través de la Web y recopila determinada
43
información, como respuestas posibles encontradas y frecuencia de las
mismas. Posteriormente, el sistema realiza el mismo proceso sobre la base
documental sobre la que ha de extraerse la respuesta pero utilizando la
información obtenida a través de Internet para mejorar el proceso de
identificación y extracción de la respuesta correcta en la base documental. Los
experimentos realizados por este sistema demuestran que el uso de la
información extraída a través de la Web resulta de una importancia notable,
mejorando en gran medida el rendimiento final del sistema.
Por otra parte, Microsoft [Brill et al., 2001] no utiliza Internet como mero apoyo
al sistema, sino que su aproximación se fundamenta en el uso de la
información obtenida a través de la red. En resumen, este sistema trata de
aprovechar la gran densidad de información existente en la Web para encontrar
una respuesta que esté expresada mediante una combinación de los términos
de la pregunta. Por ejemplo, una posible respuesta a la pregunta “¿Cuándo fué
inventado el papel?", podría expresarse de esta forma: “El papel fue inventado
el <FECHA>". Este sistema, a partir de los términos de la pregunta, construye
de forma semi-exhaustiva todas las posibles combinaciones que incluyen los
términos de la pregunta y el tipo de respuesta esperado incluyendo también,
aquellas que son incorrectas “El papel se inventó el <FECHA>". Para realizar lo
anterior se identifica cuál es el verbo en la oración y se hace uso de
conocimiento externo para completar o modificar las preguntas (para el ejemplo
de arriba se usan sinónimos como crear, descubrir). A continuación, todas las
formulaciones generadas se lanzan a través de Internet. Este sistema basa su
funcionamiento en dos suposiciones:
(1) Que las formulaciones incorrectas es poco probable que vayan a
encontrarse.
(2) Que la gran densidad de información accesible a través de la red
hace muy probable que se pueda encontrar una respuesta
expresada de la misma forma que alguna de las reformulaciones
correctas.
Posteriormente, los resultados de estas búsquedas se filtran para detectar
todas aquellas posibles respuestas que coinciden con el tipo esperado. Estas
44
respuestas se valoran principalmente, en función de su frecuencia de aparición
en los resultados de la búsqueda en Internet y se ordenan según dicho valor.
En este punto, el sistema ha generado una lista de las mejores respuestas a la
pregunta encontradas a través de la Web. El último paso consiste en buscar
dichas respuestas en la base documental para determinar cuáles de ellas se
encuentran en alguno de sus documentos. Finalmente, el sistema devuelve
aquellas respuestas mejor clasificadas y que aparecen en esta colección.
En el tercer caso, el sistema Esfinge de Linguateca [Costa et al., 2004] para la
tarea monolingüe en Portugués tiene un enfoque bastante parecido al de
Microsoft pero usando tres diferentes estrategias: En la primera, el sistema
investiga las respuestas en la colección de documentos del CLEF, en la
segunda, el sistema investiga las respuestas en la Web y usa la colección de
documentos del CLEF para confirmar estas respuestas. Y finalmente, en la
tercera estrategia el sistema solo investiga las respuestas en la Web. Es
importante hacer notar que Esfinge utiliza diversos recursos lingüísticos, por
ejemplo un analizador morfológico, para mejorar su rendimiento.
Estas tres últimas aproximaciones están incluidas en el grupo de sistemas de
BR que utilizan el enfoque de usar la Web como un complemento para el mejor
rendimiento de sus sistemas, de hecho es el paradigma mas usado por la gran
mayoría de los sistemas actuales [Negri et al., 2003 ; Echihabi et al., 2003 ;
Jijkoun et al., 2003; Vicedo et al. 2003 ; Bourdil et al. 2004 ; de Pablo et al.
2004 ; Pérez- Coutiño et al., 2004].
2.4.3 Sistemas que usan información semántica.
El uso de técnicas de análisis semántico en tareas de BR es escaso
debido fundamentalmente a las dificultades intrínsecas de la representación del
conocimiento. De hecho, sólo un grupo reducido de sistemas aplica
herramientas que realizan este tipo de análisis.
Estas técnicas se utilizan en los procesos de análisis de la pregunta y de
extracción final de la respuesta. De forma general, estos sistemas obtienen la
45
representación semántica de la pregunta y de aquellas sentencias que son
relevantes a dicha pregunta.
A partir de lo anterior la extracción de la respuesta se realiza mediante
procesos de comparación y unificación entre las representaciones de la
pregunta y las frases relevantes.
El sistema de la Universidad de California del Sur [Hovy et al. 2000, 2001;
Echihabi et al., 2003] utiliza el concepto de tripletas semánticas (una entidad
del discurso, el rol semántico que dicha entidad desempeña y el término con el
que dicha entidad mantiene la relación) para representar dicha información.
Como ejemplo de uso eficaz de las técnicas de análisis semántico cabe
destacar los sistemas de la universidad Metodista [Harabagiu et al., 2000], LCC
[Harabagiu et al., 2001], el grupo de QA de tecnología de lenguaje de DFKI
[Neumann et al., 2004] y la Universidad de Ámsterdam [Jijkoun et al., 2003].
Estos sistemas utilizan el análisis semántico en el proceso de extracción final
de la respuesta. Para ello, tanto las preguntas como las frases que contiene las
posibles respuestas son representadas mediante fórmulas lógicas a las que se
aplica un proceso de unificación para localizarlas posibles respuestas. Estas
respuestas sirven de entrada a un módulo posterior de análisis contextual que
permite verificar si son correctas dichas respuestas, descartando aquellas que
resultan incorrectas.
2.4.4 Sistemas que usan información contextual
La aplicación de técnicas de análisis contextual en sistemas de BR se
restringe a la incorporación de conocimiento general del mundo asociado a
mecanismos inferenciales que facilitan el proceso de extracción de respuestas
y a la aplicación de procesos de resolución de correferencias.
Cabe destacar que los sistemas de la universidad Metodista del Sur [Harabagiu
et al., 2000], LCC [Harabagiu et al., 2001] y la universidad de Ámsterdam
[Jijkoun et al., 2003] son los que mejor rendimiento obtienen de la aplicación de
técnicas de este nivel de análisis del lenguaje natural.
46
Estos sistemas parten de las respuestas posibles obtenidas como resultado del
proceso de unificación realizado a nivel de análisis semántico. A estas
respuestas, se añaden un conjunto de axiomas que representan el
conocimiento general del mundo (obtenidos de WordNet) junto con otros
derivados de la aplicación de técnicas de resolución de correferencias a través
de las respuestas posibles.
La resolución de correferencias constituye el conjunto de técnicas de
análisis contextual más utilizada en procesos de BR. Son varios los sistemas
que aplican alguna técnica de resolución de correferencias en el proceso de BR
[Hovy et al., 2001], [Harabagiu et al., 2001] y [Vicedo et al., 2002].
Generalmente, las técnicas de resolución de la anáfora se aplican en dos
etapas diferentes del proceso de BR: en la extracción de las respuestas y en el
análisis de las preguntas. En el primer caso, la resolución de correferencias se
realiza sobre aquellos documentos que son relevantes a la pregunta con la
finalidad de facilitar la localización y extracción de entidades relacionadas con
la pregunta y la respuesta. En el segundo caso, los sistemas utilizan estas
técnicas para seguir la pista de aquellas entidades del discurso referidas de
forma anafórica a través de series de preguntas individuales que interrogan al
sistema acerca de diferentes aspectos relacionados todos en un mismo
contexto.
2.5 Conceptos generales
Esta sección introduce algunos conceptos de RI muy utilizados y cuyo
conocimiento resulta recomendable para la correcta comprensión de capítulos
sucesivos.
47
2.5.1 Palabras de parada y palabras clave
La representación de un documento depende del conjunto de palabras
que lo componen. Sin embargo, existe un conjunto de palabras, de uso muy
frecuente, que carecen de poder de discriminación puesto que aparecen en la
mayoría de los documentos. Este conjunto de palabras se denomina lista de
palabras de parada (stopword list). Estas palabras se suelen eliminar en el
proceso de indexación con la intención de reducir espacio de almacenamiento
y aumentar el rendimiento de los sistemas. Los siguientes términos en
castellano constituyen algunos ejemplos de este tipo de palabras:
“el",”lo",”para" y “con". Existen varias de estas listas que se han obtenido en
estudios específicos a tal efecto [Fox, 1992; Rijsbergen, 1979].
En contraposición, aquellas palabras que no aparecen en la lista de palabras
de parada, se consideran lo suficientemente discriminantes como para
representar el contenido de un documento y por tanto, son indexables. Estos
términos reciben la denominación de palabras clave (keywords).
2.5.2 Pesos de términos
Una de las consideraciones básicas de los sistemas de RI es que todas
las palabras clave no tienen el mismo valor discriminatorio. Son varias las
técnicas que se han desarrollado para calcular y asignar pesos a las palabras
clave en función de su “poder discriminatorio" intrínseco.
La técnica de asignación de pesos más utilizada es la desarrollada en
[SparckJones, 1972] donde a cada término se le asigna un peso calculado en
función del valor inverso de su frecuencia de aparición en el conjunto de
documentos de la colección (inverse document frequency).
Este valor se computa según la siguiente expresión:
=
tt df
Nidf log
Donde N es el número total de documentos de la colección y dft es el número
de documentos en los que aparece el término t.
48
2.5.3 Obtención de raíces (stemming)
El proceso de obtención de raíces es una técnica que utilizan los
sistemas de RI para aumentar su efectividad y reducir el tamaño de los
archivos de indexación. Este proceso consigue obtener un único término a
partir de palabras con el mismo significado pero que difieren esencialmente en
su morfología. Este proceso obtiene una misma forma canónica para las
diferentes variantes morfológicas de un término que no tiene porqué ser
necesariamente, su raíz lingüística.
Existen diferentes tipos de algoritmos que realizan este proceso.
2.5.4 Expansión de preguntas
La mayoría de los modelos de RI detectan aquellos documentos
relevantes a una pregunta mediante la evaluación del nivel de co-ocurrencia de
términos entre la pregunta y los documentos de la colección. Puesto que esta
comparación se hace a nivel de términos, es fácil encontrar casos en los que el
sistema descarta documentos muy relevantes que utilizan para expresar su
contenido términos diferentes a los empleados en la pregunta.
Bajo la expresión expansión de preguntas (question expansion) se enmarcan
aquellos procesos automáticos que tratan de mejorar las preguntas iniciales
generadas por los usuarios, y cuyo objetivo es minimizar el número de
documentos relevantes descartados a propósito del uso de modelos de
recuperación basados en la co-ocurrencia de términos.
El proceso de expansión consiste en añadir, al conjunto de términos originales
de la pregunta, aquellos otros términos relacionados que pueden utilizarse para
expresar las mismas ideas o conceptos.
Existen diferentes métodos de selección de los términos a incorporar a la
pregunta. Desde la selección de variantes morfológicas de los términos
originales, pasando por la búsqueda de términos semánticamente relacionados
(sinónimos, hipónimos, hiperónimos, . . . ) en bases de datos léxico-semánticas
49
como WordNet, hasta el uso de técnicas estadísticas para la determinación de
los términos a incluir (ejemplo: vecinos más frecuentes).
El uso de este tipo de técnicas ha sido muy beneficioso en términos de
rendimiento del sistema.
Los trabajos desarrollados por Donna Harman [Harman, 1988, 1992] suponen
un buen estudio comparativo de las diferentes técnicas de expansión
existentes.
2.5.5 Realimentación
El concepto de realimentación (relevance feedback) ha sido aplicado en
entornos de RI como técnica diseñada para mejorar la eficacia de estos
sistemas.
Esta técnica consiste en enriquecer la pregunta inicial realizada por el usuario
del sistema mediante la utilización de la información de aquellos documentos
que se han recuperado utilizando exclusivamente dicha pregunta inicial. La
información relevante incluida en estos documentos, se añade a la pregunta
complementando así, la información que ésta contiene y facilitando la detección
nuevos documentos relevantes en búsquedas posteriores.
Este proceso puede ser manual o automático. En el primer caso, el usuario
dirige el proceso de realimentación por ejemplo, seleccionando aquellos
documentos que le son relevantes de entre los recuperados con la pregunta
inicial. Este proceso puede realizarse también de forma automática mediante la
selección de los primeros n documentos recuperados.
Las técnicas de realimentación han demostrado ser muy eficaces en tareas de
RI. En [Harman,1992] se puede encontrar un estudio de las principales
aproximaciones existentes.
50
51
Capitulo 3. BR monolingüe: El sistema INAOE Como ya se ha dicho en los capítulos anteriores, un sistema de
búsqueda de respuestas es aquel sistema capaz de devolver respuestas
concisas a preguntas sobre hechos concretos. En este capítulo se verá un
ejemplo de este tipo de sistemas, el sistema del INAOE de búsqueda de
respuestas mediante tratamiento a nivel léxico y aprovechando la redundancia
existente en la web. El sistema originalmente se implementó para su utilización
en castellano. Veremos como adaptarlo a otros idiomas, y como afecta la
redundancia a los resultados obtenidos.
El presente capítulo ha sido extraído en gran parte del trabajo efectuado
por Alejandro Del Castillo Escobedo y reflejado en la tesis titulada “Búsqueda
de Respuestas mediante Redundancia en la Web” [Del Castillo, 2005].
3.1 Introducción
En el INAOE inician los trabajos sobre sistemas de BR en agosto de
2003. Se trabaja sobre dos ideas en paralelo:
1) Búsqueda de respuestas mediante anotación predictiva, con las siguientes
premisas iniciales de trabajo:
! Se efectúa un análisis léxico sintáctico.
! Se reconocen entidades.
! Se utilizan metadatos para expresar contenido relevante (posibles
respuestas) de los documentos.
! Las preguntas factuales se responden con entidades nombradas
(nombres de personas, lugares, fechas...)
! La hipótesis de trabajo sobre la que se basan es que si se extraen todas
las entidades nombradas en un documento, y se representan
52
adecuadamente su contexto de ocurrencia, entonces podemos
responder a preguntas sin necesidad de recurrir al documento como tal.
2) Búsqueda de respuestas basadas en la web, a partir de las siguientes
premisas:
! Se realiza un tratamiento a nivel léxico de las preguntas y documentos.
! Se basa en la redundancia existente en la web: la misma información
está repetida en multitud de documentos.
! Sistema estadístico de BR capaz de responder preguntas factuales en
español a partir de la web.
! La idea central en la que se basa el sistema es que “las preguntas y las
respuestas de estas se expresan comúnmente usando las mismas
palabras”.
! Por los tanto, las respuestas se pueden encontrar mediante un simple
apareamiento de patrones léxicos, sin necesidad de aplicar recursos
lingüísticos sofisticados.
! La probabilidad de encontrar un ajuste de este tipo debería incrementar
con la redundancia de la colección destino, en nuestro caso la web.
Sobre la segunda línea de investigación, es sobre la que se ha trabajado
en este PFC. Por lo tanto, en este y sucesivos capítulos cuando hablemos de
sistema INAOE estaremos refiriéndonos a esta línea de investigación.
3.2 Arquitectura del sistema BR INAOE basado en la Web
El trabajo está basado en el enfoque desarrollado por Brill [Brill et al.
2001]. Esta metodología no depende de costosas herramientas con las que
tratar las entidades lingüísticas. La idea principal es que las preguntas y
respuestas se expresan comúnmente usando las mismas palabras. Por
ejemplo, en la pregunta “¿Quién es el autor de “El Quijote”?”, podríamos
encontrar como respuesta “El autor de “El Quijote es ..”.” como parte de la
respuesta. Por tanto, habrá que dotar al sistema de un módulo capaz de
53
generar distintas combinaciones de palabras a partir de la pregunta. A partir de
ahí se realizarán las peticiones sobre la Web a través del buscador web
Google.
Este módulo será el módulo llamado “Reformulaciones”. Dada una pregunta, el
sistema genera una serie de reformulaciones con los términos usados en la
pregunta, estas reformulaciones son simples manipulaciones de palabras. O
dicho de otra forma, definimos reformulación como la expresión que,
probablemente, fue usada para escribir la respuesta deseada, dicha expresión
se construye a partir de la manipulación de las palabras de la pregunta original.
A partir de las reformulaciones, y tras haber enviado cada reformulación al
Google, este nos devuelve cadenas de palabras en las cuales se encuentra
parte de la petición formulada. Estos extractos son los llamados snippets. Se
define snippet, como aquellos extractos de texto que son devueltos por los
buscadores web, y que contienen las palabras introducidas en la búsqueda.
De los extractos devueltos, se obtendrá la respuesta clasificando por extractos
más frecuentes y asignado distintos pesos según los casos. Se verá con más
detalle la manera de extraer respuestas en los puntos siguientes.
Como ejemplo de reformulaciones generadas por el sistema, para la pregunta
“¿Cuál es la capital de España?”, se generarían:
- Es la capital de España
- “La capital” “de España”
- “De España” “la capital”
- “la capital de España es”
La respuesta se podría encontrar en un texto que podría ser “la capital de
España es”, siendo esta una de las reformulaciones generadas, solamente
combinando palabras o partes de la oración tratada. Se verán ejemplos de
otros tipos de reformulaciones en el punto dedicado exclusivamente a este
respecto.
Para una oración con 3 partículas preposicionales o conjunciones, y para el
caso de la reformulación “Constituyentes”, se obtendrían un total de 6
54
reformulaciones que lanzaría el sistema como queries en el conjunto de
documentos de referencia, en nuestro caso el Google.
En algunos los casos, las reformulaciones obtenidas no producen resultados, o
lo que se obtiene no resulta útil para nuestros propósitos. Por ejemplo: “…es
capital para España…”, “…España jugará en la capital de…”. Por esto, será
necesario que para determinar la respuesta habrá que establecer criterios (a
nivel léxico) tanto para la manipulación de las palabras de la pregunta como
para seleccionar los mejores fragmentos a partir de los cuales se calculará la
respuesta. Por supuesto, mientras más grande sea la colección que se tiene
una mayor probabilidad de encontrar la respuesta correcta, mientras más
fragmentos tengamos más confiable será la respuesta calculada, ya que este
cálculo está en función de la palabra o palabras más frecuentemente
observados en estos fragmentos. De ahí la importancia de la redundancia
(múltiples ocurrencias de cierta información) existente en la web, y de por qué
es el escenario perfecto para este tipo experimental de sistemas que estamos
introduciendo. Es aquí donde se usa la explosión de información existente en
Internet, haciendo muy probable que haya varios fragmentos con la respuesta.
Cabe mencionar que esta idea también ha sido explorada por otros sistemas
de BR [Buchholz et al. 2001 ; Kwok et al. 2001] con pequeñas variantes y
siempre para el idioma inglés.
El presente trabajo final de carrera se basa en el enfoque de Brill, pero con una
salvedad, las reformulaciones de la pregunta. En el enfoque de Brill se usa un
lexicón para determinar las partes de la oración y las variantes morfológicas de
palabras claves. En el sistema INAOE, las reformulaciones no dependen de un
lexicón y se basan solamente en la manipulación de las palabras de la
pregunta, sin tener casi ningún conocimiento previo acerca de dichas palabras.
A diferencia del trabajo de Brill, no se hace uso de ningún conjunto de patrones
léxicos por tipo de pregunta, para extender las reformulaciones con palabras no
contenidas en la pregunta original. En nuestro sistema no se hace uso de
conocimiento externo, específico del idioma, sino que se manipulan
directamente las palabras de la pregunta, aplicando un método puramente
estadístico para la selección de las respuestas.
55
Para adaptar el sistema a otros idiomas será necesario realizar algunos
cambios, que se comentarán brevemente en el punto 3.3 (Adaptación del
sistema INAOE a otros idiomas).
Dada la cantidad de información que está disponible en la Web, no debe
sorprender que sea una fuente ideal de respuestas a una amplia gama de
preguntas. En esto consiste la redundancia que hemos mencionado. Un
suceso, acontecimiento o noticia aparece descrito en la Web en diferentes
formas y estilos.
Los párrafos siguientes describen cada uno de los módulos del sistema de BR
propuesto (Figura 3.1). Nuestro enfoque incluye los siguientes módulos:
Análisis o tratamiento de la pregunta, la recuperación de los documentos y el
módulo de extracción de respuestas.
Figura 3.1
56
3.2.1 Reformulaciones
Este módulo genera el conjunto de reformulaciones a partir de una
pregunta dada. Se introducen 5 tipos de reformulaciones, que son el resultado
de muchas pruebas en torno a definir qué combinaciones entre palabras de
una pregunta generarían mejores resultados.
Por tanto, podríamos definir reformulación como la expresión que, es
construida a partir de las palabras de la pregunta, y que con cierta
probabilidad es usada para escribir la respuesta buscada. La expresión
obtenida, es producto de la combinación de las palabras de la expresión en la
pregunta original, exceptuando la partícula interrogativa que es eliminada antes
del proceso de reformulación. Se definen 5 tipos de combinaciones,
correspondiendo cada una de ellas a un tipo de reformulación.
Así, para la pregunta: “¿Quién descubrió la penicilina?”, las siguientes podrían
ser algunas reformulaciones de la pregunta:
“descubrió la penicilina”
“la penicilina descubrió”
“la descubrió penicilina”
En los puntos siguientes veremos a través de un ejemplo los tipos de
reformulaciones empleadas y como se obtienen a partir de la pregunta.
Durante una primera etapa de experimentación en el equipo de
experimentación del INAOE probaron con todas las posibles reformulaciones
de las preguntas, es decir, todas las combinaciones de sus palabras.
Estos experimentos demostraron dos cosas:
(i) que el esquema no es funcional para analizar preguntas con más de
5 palabras;
(ii) que la gran mayoría de las reformulaciones construidas son
inadecuadas.
57
A partir de estos resultados iniciales se seleccionó un conjunto de
reformulaciones, aquellas con mejores resultados. Las mejores reformulaciones
correspondieron a aquellas que presentaban una estructura sintáctica correcta.
En los siguientes puntos se presentan ejemplos de reformulaciones. En
todos ellos se muestran resultados a partir de la pregunta:
“¿Quién ganó el campeonato de fútbol español en 2004?”
En los algoritmos que se describen mas adelante, usamos la siguiente
notación:
Se representa la pregunta Q como un conjunto de palabras:
Q = { W0, W1 , .., Wn-1},
donde W0 representa la palabra del tipo Cuándo, Dónde, Quién, etc. y n
representa el número de palabras en la pregunta.
Para cada pregunta se representan las reformulaciones de ésta, R, como una
cadena (string).
Esta cadena está formada por palabras, espacios y dobles comillas (“”), y
además satisface el formato de consulta de los motores de búsqueda
tradicionales.
Así, la reformulación R = W1 W2 corresponde a la consulta W1 AND W2 y la
reformulación R = “W1 W2 ” corresponde a la consulta “W1 W2” .
3.2.1.1 Reformulación: “Bolsa de palabras”
Básicamente con esta reformulación obtenemos los mismos resultados
que con un sistema de RI, así la búsqueda de extractos usa todas las palabras
de la pregunta excluyendo las palabras vacías: (“ganó”, “campeonato”, “fútbol”,
“España”, “2004”).
58
Las palabras vacías son el conjunto de palabras de uso muy frecuentes y que
carecen de poder de discriminación para determinar el contenido de un
documento ya que aparecen en la mayoría de los documentos, ejemplos de
dichas palabras son: a, el, de.
El algoritmo de esta reformulación (Tabla 3.1) considera todas las palabras de
la pregunta, sin incluir palabras vacías (preposiciones, conjunciones, artículos).
3.2.1.2 Reformulación: “Manipulación del verbo”
Entre las primeras observaciones al examinar una lista de preguntas
factuales, el equipo investigador del INAOE se percató de que, con frecuencia,
inmediatamente después del pronombre o adverbio interrogativo se encuentra
el núcleo verbal. Al colocar el verbo en posición final (o eliminarlo) es posible
transformar la frase interrogativa a su forma declarativa. Es de suponer que
dicha forma declarativa será abundante en los documentos analizados.
Dado que no se desea utilizar ningún recurso lingüístico para determinar el
verbo, se generan una serie de reformulaciones manipulando la primera
palabra de la pregunta (después de eliminar la partícula interrogativa) La Tabla
3.2 muestra el algoritmo utilizado.
Tabla 3.1 Algoritmo Reformulación Bolsa de palabras
1. PARA CADA Wi Є Q | i ≥1
2. SI Wi no es palabra vacía ENTONCES
3. R0 ← R0 U Wi
4. FIN SI
5. FIN PARA
6. GUARDAR R0
59
Para la pregunta ejemplo y con esta reformulación obtendríamos las siguientes
reformulaciones:
“ganó el campeonato de fútbol español en 2004”
“el campeonato de fútbol español en 2004””
“el campeonato de fútbol español en 2004 ganó”
“campeonato de fútbol español en 2004”
“campeonato de fútbol español en 2004 ganó el”
Y como en ciertas ocasiones es posible encontrar verbos auxiliares también se
generarán reformulaciones manipulando la segunda palabra.
Tabla 3.2 Algoritmo Reformulación Movimiento del verbo
1. W1=””
2. R0=”W1 W2….Wn”
3. GUARDAR R0
4. PARA i desde 1 a 2
5. RtE=”Wi+1 Wi+2.......Wn-1”
6. GUARDAR
7. RtM=”Wi+1 Wi+2...Wn-1 Wi-1 Wi”
8. GUARDAR RtM
9. FIN PARA
Notación Rn representa todas las palabras de la pregunta (sin la partícula interrogativa) Rt
E como R0 pero eliminando la primera palabra(i-1) o, eliminando la primera palabra (i-2) Rt
M como R0 pero moviendo a primera palabra (i-1) o, moviendo la primera y segunda palabra (i-2)
60
3.2.1.3 Reformulación: “Componentes”
En este caso, la pregunta es segmentada en componentes. Un
componente es interpretado aquí como una expresión delimitada por
preposiciones. A partir de combinaciones de estos componentes se construirán
nuevas reformulaciones.
Es evidente que en algunos casos la reformulación no tiene sentido ("en 2004
español campeonato ") y no habrá extractos resultantes, sin embargo en otros
casos ("en 2004 ganó el campeonato de fútbol español"), la reformulación
probablemente producirá la recolección de extractos relevantes.
Una pregunta que tiene m preposiciones se representa por un conjunto de
componentes C = { C1 , C2 . . . Cm+1 }. Cada componente Ci es una subcadena
de la consulta original.
A continuación se muestra las reformulaciones producidas por el tipo
componentes:
“ganó el campeonato” “de fútbol español” “en 2004”
“ganó el campeonato de fútbol español en 2004”
“ganó el campeonato en 2004 de fútbol español”
“de fútbol español ganó el campeonato en 2004”
“de fútbol español en 2004 ganó el campeonato”
“en 2004 ganó el campeonato de fútbol español”
“en 2004 de fútbol español ganó el campeonato”
Tabla 3.3 Algoritmo Reformulación componentes
1. Determinar conjunto de componentes C de Q
2. RQ= “C1” “C2”....”Cn-1”
3. GUARDAR
4. PARA cada permutación C’ de C
5. RQ=”C’1 C’2 ...C’n-1”
6. GUARDAR
7. FIN PARA
61
donde las 3 componentes de partida son:
1) ganó el campeonato español
2) de fútbol
3) en 2004
3.2.1.4 Reformulación: “Componentes excluyendo la primera palabra”
Este tipo de reformulación es una combinación de las dos anteriores.
Como vimos en la segunda reformulación, generalmente la primera palabra es
un verbo. En este caso repetimos la tercera reformulación pero eliminando la
primera palabra.
Las reformulaciones por componentes excluyendo la 1ª palabra resultantes con
el ejemplo son:
“el campeonato” “de fútbol español” “en 2004”
“el campeonato de fútbol español en 2004”
“ el campeonato en 2004 de fútbol español”
“de fútbol español el campeonato en 2004”
“de fútbol español en 2004 el campeonato”
“en 2004 el campeonato de fútbol español”
“en 2004 de fútbol español el campeonato”
donde las 3 componentes de partida son:
1) el campeonato español
2) de fútbol
3) en 2004
62
3.2.1.5 Reformulación: “componentes excluyendo las dos primeras palabras”
En este caso, se supone la presencia de un verbo auxiliar, por esa razón
se eliminan las dos primeras palabras. Como puede observarse, las
reformulaciones son sencillas manipulaciones de los términos de la pregunta,
que finalmente tratan de aprovechar cierta estructura sintáctica presente en las
preguntas factuales. Por supuesto, estas reformulaciones son ciegas y se
aplican de manera indiscriminada. Esto provoca que muchas reformulaciones
no tengan sentido, en cuyo caso es poco probable la recopilación de extractos
de interés. Sin embargo, en otros casos la reformulación coincidirá con alguno
o varios documentos con la consecuente recopilación de extractos apropiados.
Las reformulaciones por componentes excluyendo la 1ª y 2ª palabra:
“campeonato” “de fútbol español” “en 2004”
“campeonato de fútbol español en 2004”
“campeonato en 2004 de fútbol español”
“de fútbol español campeonato en 2004”
“de fútbol español en 2004 campeonato”
“en 2004 campeonato de fútbol español”
“en 2004 de fútbol español campeonato”
donde las 3 componentes de partida son:
1) campeonato español
2) de fútbol
3) en 2004
3.2.2 Recolección de Snippets
Este módulo toma las reformulaciones anteriores y lanza las búsquedas
sobre la Web apoyándose en algún motor de búsqueda ya existente. En
63
nuestro caso, está recopilación de extractos se realiza mediante un programa
que hace uso de las especificaciones de las API (Application Programming
Interface) de Google©10.
Para nuestros experimentos se ha escogido Google como motor de búsqueda
porque tiene una gran de cantidad de documentos indexados, es muy rápido,
soporta expresiones booleanas y permite la extracción de snippets con co-
ocurrencias. El sistema almacena un conjunto de snippets, los primeros
devueltos por Google.
Google fue fundado en 1997 por Serge Brin y Larry Page en la Universidad de
Stanford. Su arquitectura está optimizada para un rendimiento de alta velocidad
y una búsqueda a gran escala [Brin et al., 1998].
Una de las características más importantes de Google es su algoritmo de
ordenamiento de páginas Web llamado PageRank© [Brin et al., 1998] el cual
hace uso intensivo de la estructura de grafo hipertexto de la Web.
PageRank© clasifica las páginas de acuerdo al número y a la autoridad de los
links que hacen referencia a ellas. La estructura hipertexto también es
explotada considerando el texto de los links. Cuando un documento de texto es
indexado, el texto de los links en otras páginas que apuntan a ese documento
también son considerados como parte del documento mismo.
Cuando el algoritmo investiga por documentos relevantes en una consulta,
toma en cuenta la frecuencia y la posición de los términos de la consulta, así
como su fuente y su capitalización. Además, las páginas donde los términos de
la consulta aparecen más cercanos son consideradas más relevantes. Google
prefiere extraer snippets donde la co-ocurrencia toma lugar ignorando pasajes
donde solo una palabra clave (keyword) aparece.
Veamos un ejemplo ilustrativo de cómo Google devuelve una respuesta
correcta ante una petición en forma de un ejemplo de reformulación mediante
la interfaz Web habitual del Google.
Ante la pregunta “¿Quién descubrió la penicilina?”, una de las reformulaciones
sería “descubrió la penicilina” que obtendría el siguiente resultado:
64
Como podemos observar en el resultado experimental, en los primeros
snnipets devueltos se repiten varias palabras: “descubrió”, “penicilina”, palabras
vacias como artículos, preposiciones y adverbios y Fleming. Sin entrar en
consideraciones estadísticas (que se abordarán en el punto 3.2.3) de cómo se
calcula la respuesta, el sistema desecharía como posibles respuestas las
palabras vacías y las que formen parte de la pregunta.
En este caso nos quedaría como candidata perfecta Fleming, que casualmente
correspondería con la respuesta correcta.
3.2.3 Cálculo de la respuesta
Después de obtener, para el conjunto de las cinco reformulaciones
presentadas anteriormente, un conjunto de extractos, se calculan las
frecuencias de los términos contenidos en cada uno de ellos. Para ello se
Figura 3.2 Ejemplo de sninpets devueltos por el Google
65
calculan los primeros 5 n-gramas considerando los signos de puntuación como
límites de frase y eliminando las palabras vacías.
Posteriormente se obtiene una lista con cinco respuestas candidatas
ordenadas en función de su frecuencia, es decir, el término o términos con
mayor presencia será el primero en considerarse como la respuesta correcta.
Por supuesto, es necesario aplicar una serie de criterios para determinar con
mayor precisión la respuesta correcta. Con este fin se han desarrollado tres
métodos diferentes: frecuencia relativa, expresiones regulares, y frecuencia
compensada con expresiones regulares.
Antes de explicar los diferentes métodos de extracción de la respuesta se
muestra la notación utilizada para los algoritmos de dichos métodos:
x(i) representa al i-grma x
x*j(k) representa al j-esimo k-grama contenido en x
Gi representa al conjunto de todos los i-gramas en la colección
Fx(i) representa la frecuencia del i-grama x
Fxj(k) representa la frecuencia del j-esimo k-grama contenido en x
Px(n) representa la frecuencia relativa del n-grama x
Para clarificar el concepto de n-grama, sirva de muestra el siguiente ejemplo:
66
3.2.3.1 Método de frecuencias relativas
El método de frecuencias relativas consiste en extraer los veinte uni-
gramas más frecuentes obtenidos de la colección de snippets, y a partir de
ellos se obtienen los penta-gramas, cuatri-gramas, tri-gramas y bi-gramas que
los contengan.
La razón principal para considerar sólo veinte uni-gramas es que al analizar, las
respuestas de las preguntas, en los experimentos preliminares, se encontró
que, de existir la respuesta correcta, las palabras que conformaban dicha
respuesta siempre se encontraban dentro de ese rango. Este conjunto de n-
gramas se ordena de acuerdo a su frecuencia relativa. Para observar el
comportamiento del método mostramos los cinco mejores n-gramas para
nuestra pregunta ejemplo.
Este método favorece las expresiones cortas.
Lo anterior provoca algunos problemas cuando se trata de obtener como
respuesta n-gramas más largos; por ejemplo, al momento de obtener la
respuesta a la pregunta “¿Cuándo fue lanzado el Apolo 11?”, las mejores
Tabla 3.4 Algoritmo extracción frecuencias relativas
1. Extraer los veinte unigramas más frecuentes 2. Calcular la frecuencia relativa de cada unigrama x(1)G1
Px(1)=∑ ∈ )1()1(
)1()1(
Gyfy
fx
3. Determinar todos los n-gramas, desde los bigramas hasta los pentagramas ,
que contengan exclusivamente los unigramas más frecuentes 4. Ordenar los n-gramas en forma decreciente basados en su frecuencia
relativa. Calcular la frecuencia relativa de cada n-grama x(n), donde n>1, así:
∑=
∞=
N
iixn
nPx1
)1(1)(
5. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas
67
respuestas son “luna”, “espacio” y “hombre”. Ocupando la cuarta y quinta
posición aparecen las respuestas “julio” y “1969”. Lo anterior motivó a
desarrollar otro tipo de método de extracción que al filtrar (mediante ciertos
criterios tipográficos) los n-gramas más frecuentes resolviera la problemática
mencionada.
3.2.3.2 Método de expresiones regulares
Este método también filtra los 20 uni-gramas más frecuentes pero bajo
criterios tipográficos (mes del año, palabras con mayúscula inicial, números,
etc.). A partir de estos uni-gramas se obtienen todos los posibles n-gramas. Los
n-gramas son ordenados por número de palabras en orden descendente
obteniéndose de aquí las respuestas. La Tabla 3.10 muestra el algoritmo usado
en este método:
El método favorece las expresiones largas ya que después de extraer los
unigramas más frecuentes se buscarán los pentagramas que contengan dichos
unigramas, posteriormente los cuatrigramas y así sucesivamente.
Tabla 3.5 Algoritmo extracción expresiones regulares
1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que inician con mayúscula, números y nombres de meses)
2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas, que contengan, exclusivamente los unigramas más frecuentes
3. Se ordenan los n-gramas en forma decreciente basados en su número de palabras
4. Se muestran al usuario los primeros cinco n-gramas como posibles respuestas
68
3.2.3.3 Método de frecuencia compensada con expresiones regulares
El método de frecuencia compensada utiliza las ideas de expresiones
regulares y de frecuencia relativa. Este será el método utilizado en los
experimentos del Capítulo 5 dedicado a mostrar los resultados experimentales
del sistema y sus adaptaciones a los idiomas valenciano e inglés.
Este método extiende el cálculo de la frecuencia relativa a los bi, tri y tetra-
gramas de los cuales se compone una expresión. De esta manera, a una
expresión de cinco términos que claramente por su longitud tendrá una
frecuencia relativa pobre se verá mejorada al compensarla con las frecuencias
relativas de los bi, tri y tetra-gramas que la conforman. Este método es el que
mejores resultados proporcionó en los diferentes experimentos realizados.
El método de frecuencia compensada con expresiones regulares filtra los 20
unigramas más frecuentes bajo criterios tipográficos (mes del año, palabras
con mayúscula inicial, números, etc.) usando expresiones regulares. A partir de
estos uni-gramas se obtienen todos los n-gramas, con n={2..5}, compuestos de
estos unigramas.
Posteriormente las frecuencias de los n-gramas se suman.
Tabla 3.6 Algoritmo de extracción frecuencia compensada con expresiones regulares
1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que empiezan por mayúscula, números y nombres de meses)
2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas que contengan exclusivamente los unigramas más frecuentes
3. Se ordenan los n-gramas en forma decreciente basados en su frecuencia relativa compensada. Calcular la frecuencia relativa compensada de cada n-grama x(n), donde n>1, así:
∑ ∑ ∑=
+−
=∈∀
=n
i
in
jGiy
iy
jix
ff
nnPx
1
1
1 )(
*)(1)(
4. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas
69
Un peso alto significa que se tiene una mayor presencia de dicha secuencia de
palabras, así como las subsecuencias de palabras contenidas.
De esta manera, una expresión de cinco términos que claramente por su
longitud tendrá una frecuencia relativa pobre se verá mejorada al compensarla
con las frecuencias relativas de los 2, 3 y 4-gramas que la conforman.
3.3 Adaptación del sistema INAOE BR a otros idiomas
El sistema de BR INAOE, originalmente, estaba configurado para la
búsqueda de respuestas en castellano en la web utilizando como recolector de
información el buscador Web Google.
En la fase de adaptación a otros idiomas (en nuestros experimentos
utilizaremos inglés y valenciano) se debe considerar lo siguiente:
• En plena ejecución de la aplicación, no cambiaremos el modo en que el
Google busca en la web, es decir, las búsquedas se realizarán en toda
la web. Esto es relevante, porque como veremos en los experimentos,
hay ocasiones en las que la información devuelta por le Google quizá
esté en otro idioma distinto al de la búsqueda lanzada. Esto se debe a
que hay palabras que coinciden en distintos idiomas. Como ejemplo
mencionar que durante la fase de experimentación se obtuvieron
snippets en castellano de queries lanzadas en valenciano. Veremos con
más detalle esta cuestión en el punto de experimentación.
• Se deben cambiar las palabras de paro dependiendo del idioma que
estemos utilizando.
• Es necesario sustituir las palabras empleadas por los módulos en java
para realizar las distintas reformulaciones. Estas palabras serán
preposiciones, conjunciones y artículos.
• Sustituir las partículas interrogativas por la traducción al idioma
empleado en los experimentos.
70
Por tanto, en la fase de adaptación del sistema original, se obtendrán dos
sistemas derivados adaptados al valenciano y al inglés, que realizarán las
mismas acciones que el sistema INAOE de partida.
71
72
Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción
Los experimentos realizados han demostrado que la recuperación
translingüe es perfectamente realizable y con un nivel de eficiencia cercano a
una búsqueda monolingüe.
La tarea de obtener una lista de documentos en un mismo idioma ordenada
según la relevancia que tengan para una consulta escrita en un idioma
diferente, ya ha sido ampliamente resuelta, aunque la eficiencia de los sistemas
depende de la pareja de idiomas que se considere.
Sin embargo esto sólo es un componente de la tecnología completa, aún
quedan diversos problemas que no han sido completamente resueltos. Algunos
de ellos se mencionaron en el Workshop “CLIR: a research roadmap" en el
ámbito del SIGIR13 2002:
! Dominio: la mayoría de las técnicas empleadas han sido probadas sólo
sobre noticias de periódicos (en las colecciones TREC, CLEF y NTCIR)
y no se sabe si serían efectivas fuera de él.
! Eficiencia: el coste computacional que supone una traducción adecuada
de las consultas puede resultar excesivo para un entorno real de
búsqueda, aparte que la calidad de las traducciones aún no es óptima.
! Unificación: actualmente los sistemas de recuperación translingüe de
información presentan dos claras separaciones:
o Traducción y búsqueda: los procesos de traducción y búsqueda
se realizan, normalmente, por separado. De esta forma la
incertidumbre de las traducciones no influye en el proceso de
búsqueda.
o Diferentes idiomas: cuando se realiza una búsqueda multilingüe,
el problema de fusionar los resultados de cada una de las
búsquedas monolingües en una única lista ordenada aún no ha
sido resuelto. Algunos autores proponen la integración de estas
diferencias en un único modelo de manera que se pueda abordar
13 Special Interest Group on Information Retrieval
73
la recuperación multilingüe de información de una manera similar
a la recuperación monolingüe.
! Interacción: los usuarios reales de los sistemas de búsqueda están
interesados en la información contenida en los documentos, no en la
lista ordenada que proporcionan los sistemas. La presentación de la
información contenida en documentos que están en un idioma que no es
el del usuario es algo sobre lo que apenas se ha investigado, y es una
posible razón para la escasa existencia de motores de búsqueda
translingües en la red. De igual manera, tampoco se han estudiado los
procesos interactivos de formulación y refinamiento de las consultas en
un entorno multilingüe.
4.1 Introducción
El auge de Internet en la llamada Sociedad de la Información, supone la
disponibilidad de cantidades prácticamente ilimitadas de información accesible,
principalmente, a través de la World Wide Web. Para que toda esa información
sea realmente accesible y útil, los motores de búsqueda o sistemas de
recuperación de información juegan un papel fundamental.
Tradicionalmente, la recuperación de información se ha entendido como el
proceso, totalmente automático, en el que, dada una consulta (expresando las
necesidades de información del usuario) y una colección de documentos, se
devuelve una lista ordenada de documentos supuestamente relevantes para la
consulta. Un motor de búsqueda ideal recuperará todos los documentos
relevantes (lo que implica una cobertura completa) y sólo aquellos documentos
que son relevantes (precisión perfecta).
Este modelo tradicional lleva consigo muchas restricciones implícitas; entre
ellas, la suposición de que la consulta y el documento están escritos en el
mismo idioma.
Algunos motores de búsqueda incorporan sistemas de traducción automática,
que sólo resultan útiles cuando los documentos ya han sido localizados, pero
74
no facilitan un medio efectivo para salvar la barrera del idioma en el proceso de
búsqueda.
Por este motivo, la información a la que facilitan el acceso estos motores de
búsqueda queda limitada a la escrita en idiomas en los que el usuario sea
capaz de expresar sus consultas. Esto puede suponer un problema más o
menos grave según el idioma del que se trate, en general, cualquier usuario de
Internet que no pueda formular consultas en inglés con fluidez tendrá
dificultades a menudo para realizar sus búsquedas. Incluso para hablantes
nativos de inglés, el volumen de datos inaccesible por causa de las barreras
idiomáticas crece cada año, si no porcentualmente, si en términos absolutos.
En la siguientes tablas se muestra la evolución de la utilización de idiomas en
Internet :
Utilización de Internet según el idioma
1999 2001 2003 2005
Usuarios de habla
inglesa
(porcentaje)
91.969.151
54%
108.282.662
51%
124.265.453
46%
147.545.824
43%
Usuarios de habla no
inglesa
(porcentaje)
79.094.449
46%
104.480.528
49%
143.733.527
54%
198.008.511
57%
Total en el mundo
171. 168.600 212.889.190 268.150.180 345.735.835
Fuente: Computer Economics
Tabla 4.1 Evolución de la utilización de idiomas en Internet
Por los datos reflejados en la Tabla 4.1 se observa el gran crecimiento
de usuarios en términos globales que utilizan Internet y por otro lado que en los
últimos años el crecimiento de usuarios de habla distinta a la inglesa es mayor
que el de usuarios de habla inglesa.
75
En la Tabla 4.2 se muestran la clasificación de los 10 lenguajes más
utilizados en la Web:
TOP TEN LANGUAGES IN THE INTERNET
Internet Users, by Language
Penetration (% Population)
Estimate for Language World Population
Language as % of Total Internet Users
Inglés 296,439,411 26.8 % 1,107,807,851 31.6 %
Chino 124,014,713 9.3 % 1,329,801,131 13.2 %
Japonés 78,050,000 60.9 % 128,137,485 8.3 %
Español 60,471,125 15.5 % 389,587,559 6.4 %
Alemán 55,129,733 57.3 % 96,141,368 5.9 %
Francés 38,295,745 10.2 % 374,555,140 4.1 %
Coreano 31,600,000 43.3 % 73,044,495 3.4 %
Italiano 28,610,000 48.8 % 58,608,565 3.0 %
Portugués 28,575,400 12.6 % 227,628,673 3.0 %
Holandés 14,655,328 60.5 % 24,224,721 1.6 %
TOP TEN LANGUAGES 755,841,455 19.8 % 3,809,536,987 80.5 %
Rest of the
Languages 182,869,474 7.0 % 2,610,565,735 19.5 %
WORLD TOTAL 938,710,929 14.6 % 6,420,102,722 100.0 %
Fuente: Computer Economics Tabla 4.2 Clasificación de los 10 lenguajes más utilizados en Internet año 2004
El término acceso multilingüe a la información hace referencia a un
concepto más amplio, aunque más adaptado a la realidad de Internet, que el
concepto clásico de recuperación de información: ayudar al usuario a buscar
información (no ya documentos) procedente de fuentes heterogéneas
76
(textuales o de contenido multimedia) por encima de las barreras idiomáticas.
Diversas líneas de investigación abordan los distintos aspectos que se
engloban en este concepto incluso dentro del mismo marco del procesamiento
del lenguaje natural: recuperación multilingüe de información, recuperación de
información multimedia (ya sea sobre video, audio o imágenes digitales),
recuperación interactiva de información, sistemas de pregunta y respuesta...
etc.
En este documento se plantean las dificultades que se plantean para el acceso
a información escrita en idiomas desconocidos para el usuario.
La recuperación multilingüe de información engloba, a su vez, varios
escenarios diferentes:
! Recuperación translingüe de información (también llamada Bilingüe),
que estudia la recuperación de documentos escritos en un único idioma
diferente del utilizado para expresar la consulta. Un turista buscando
información local, por ejemplo, realizará una búsqueda translingüe de su
idioma nativo al del país que visita.
! Recuperación multilingüe de información, que estudia la recuperación
de documentos escritos en varios idiomas a partir de una consulta
expresada en un idioma determinado. Por ejemplo, el caso de un
periodista que quiere conocer el enfoque de un cierto tema en variaos
idiomas pertenece a este escenario.
En este sentido existen dos problemas que apenas han sido estudiados desde
la perspectiva de la recuperación multilingüe:
1. ¿Cómo reconocer la información realmente relevante para nuestra
necesidad de información de entre toda la información ofrecida por un motor de
búsqueda?
2. ¿Cómo podemos refinar nuestra consulta teniendo en cuenta los resultados
obtenidos?
La razón de que no se hayan estudiado a fondo es la presunción implícita de
que:
1. Los sistemas comerciales de traducción automática pueden ser utilizados
para traducir los documentos al idioma nativo del usuario.
77
2. Las tareas de selección documental translingüe y de refinamiento de la
consulta pueden ser realizadas empleando estas traducciones.
Sin embargo, estas suposiciones están lejos de ser verificadas
experimentalmente, y de hecho hay razones para cuestionarlas. Por un lado,
las traducciones automáticas distan mucho de ser perfectas, como se mostrará
en los distintos experimentos de BR translingüe del Capítulo 5.
Se incluyen como anexos (Anexo I y Anexo II) dos artículos que muestran
experimentos de búsqueda de respuestas en modo translingüe.
4.2 RI multilingüe
En 1969 Salton planteó por primera vez el problema de encontrar
documentos escritos en un idioma diferente al de la consulta y propuso una
aproximación consistente en la utilización de un tesauro bilingüe (creado
manualmente) entre alemán e inglés [Salton, 1970]. Los resultados obtenidos
fueron prácticamente iguales a los realizados con una búsqueda monolingüe,
debido a que el tesauro utilizado era manual y la correspondencia entre los
términos de indexación entre ambos idiomas era perfecta.
Pero no fue hasta 1996 cuando, con la creación de las primeras campañas de
evaluación comparada sistemática de este tipo de sistemas, se inicia como un
área de investigación propia. Este año se organizó un workshop
específicamente dedicado a la recuperación translingüe de información en el
SIGIR. A partir de este evento se organizan con carácter regular las siguientes
actividades internacionales:
! Desde 1997 se creó un “track" especial en el marco del TREC para la
evaluación de este tipo de sistemas.
Inicialmente la evaluación se limitó a un sistema bilingüe (involucrando
dos idiomas de entre inglés, francés o italiano) para, posteriormente ser
extendida a una evaluación en un entorno totalmente multilingüe. El
resultado de los tracks de recuperación de información translingüe del
78
TREC es la primera gran colección para la evaluación de sistemas de
recuperación translingüe de información.
! En 1998 se crea el workshop NTCIR14, donde se evalúan sistemas
translingües entre el inglés y el chino, japonés o coreano, adoptando
muchas de las ideas en las que el TREC fue pionero.
! En el año 2000 el track de recuperación translingüe se separó del TREC
creándose el CLEF, donde se realiza el estudio de sistemas
translingües de recuperación de información que utilicen idiomas
europeos, mientras que en el TREC se mantuvo un pequeño track de
recuperación de información translingüe específicamente dedicado a
idiomas asiáticos.
En este capítulo vamos a analizar las diversas técnicas que han venido
utilizándose para contrarrestar la dificultad del idioma en una búsqueda
translingüe de información.
Comenzaremos viendo diversas técnicas que son utilizadas para mejorar la
recuperación de información monolingüe en idiomas que no presentan las
características del inglés.
En el siguiente punto se verán los diferentes enfoques que se han
utilizado para traducir las consultas introducidas por el usuario a los diferentes
idiomas en los que están escritos los documentos (esta es la aproximación más
utilizada, ya que traducir la consulta es mucho más eficiente que traducir los
documentos). Estos enfoques dependen, sobre todo, de los recursos que se
utilicen (aisladamente o en combinación): diccionarios bilingües, corpora,
programas de traducción automática, tesauros...
A continuación, veremos los principales enfoques alternativos a la traducción
de la consulta: traducción de los documentos, traducción bidireccional e
indexación conceptual.
14 Text Collection for IR Systems
79
4.2.1 Aspectos monolingües
A lo largo de la investigación en recuperación de información se han
aplicado con éxito diversos modelos (como el modelo de espacio vectorial, la
Realimentación mediante Pseudo-Relevancia o la Indexación mediante
semántica latente) a búsquedas realizadas sobre consultas y documentos
escritos en inglés.
Al enfrentarnos a idiomas que presentan características distintas al inglés
(idiomas más flexivos, idiomas aglutinativos o incluso idiomas que no marcan
una separación explícita entre las palabras) es necesario mejorar la búsqueda
monolingüe sobre esos idiomas para poder realizar una búsqueda translingüe
efectiva.
Veamos diferentes técnicas que son utilizadas en el momento de la indexación
de los documentos para mejorar las búsquedas:
4.2.1.1 Stemming
Una de las técnicas que ha demostrado ser de gran ayuda en la
recuperación de información monolingüe es el stemming. Consiste en la
obtención de la raíz de las palabras, de forma que el proceso de indexación se
lleve a cabo sobre ellas en lugar de sobre las palabras originales. Asumiendo
que dos palabras que tengan la misma raíz representan el mismo concepto,
esta técnica permite a un sistema de recuperación de información relacionar
términos presentes en la consulta y en los documentos que pueden aparecer
bajo diferentes variantes morfológicas.
Existen diversos stemmers para inglés basados en la eliminación de sufijos
derivacionales. También existen stemmers para otros idiomas. Estos algoritmos
no llevan a cabo ningún análisis morfológico, sino que se basan en un conjunto
sencillo de reglas que truncan las palabras hasta obtener su raíz.
Una alternativa es el aprendizaje de las reglas de truncamiento a partir de
grandes corpora. Un ejemplo en este sentido es [Bacchin et al., 2002] donde se
80
evalúa SPLIT: un algoritmo de stemming independiente del idioma basado en
métodos estadísticos.
Analizando un conjunto de palabras, que forman parte del idioma, SPLIT
detecta los sufijos y prefijos que las forman y selecciona como raíz de cada
palabra el prefijo más probable.
Para realizar la evaluación del algoritmo, se aplicó a un conjunto de
documentos en italiano y se comparó la precisión de la búsqueda utilizando
SPLIT y un stemmer específicamente diseñado para este idioma disponible en
la página web de Snowball [Porter,2001]. Los resultados mostraron que la
eficiencia de SPLIT era comparable a la del stemmer de italiano.
4.2.1.2 Segmentación de compuestos
En los idiomas aglutinativos, como alemán y holandés, se unen palabras
para formar otras más largas. Por ejemplo la palabra holandesa
“wereldbevolkingsconferentie" está compuesta por “wereld" (mundo),
“bevolking" (población) y “conferentie" (conferencia), y se traduce como
“Conferencia sobre la población mundial".
Diversos estudios muestran que la descomposición de estas palabras produce
un significativo aumento de la eficiencia de las búsquedas en este tipo de
idiomas.
Una alternativa a la descomposición empleando métodos lingüísticos (que
exigen disponer de herramientas adecuadas en precisión, cobertura y
eficiencia) es el uso de métodos estadísticos. En [McNamee and Mayeld, 2001]
se presenta una aproximación a la recuperación multilingüe de información
utilizando recursos independientes del idioma. Los documentos de cada uno de
los idiomas son indexados utilizando 6-gramas.
Las consultas son traducidas al idioma de los documentos y se realizan dos
búsquedas, una empleando los 6-gramas y otra con palabras (sin ningún tipo
de procesamiento adicional), cuyos resultados se combinan para ofrecer una
única lista de documentos.
Los resultados obtenidos fueron los mejores sobre idiomas aglutinativos en el
81
CLEF2000, quedando incluso por delante de otros sistemas que utilizaban
algoritmos específicos para descomponer las palabras.
Esta estrategia que mezcla ambas indexaciones también ha sido probada con
otros idiomas como el árabe [Mayeld et al., 2001], llegando a alcanzar una
eficiencia superior al 90% de la búsqueda monolingüe equivalente utilizando 4-
gramas.
4.2.1.3 Segmentación de palabras
En los idiomas asiáticos, como japonés, coreano y chino, los límites de
las palabras no se marcan de manera explícita en el texto escrito. Por ello es
necesario identificar las palabras individuales para mejorar el proceso de
búsqueda.
A la hora de indexar los textos escritos en estos idiomas existen dos
aproximaciones principales:
! Indexación basada en texto segmentado: que incluye la indexación de
palabras y/o de sintagmas.
! Indexación de caracteres: basada en n-gramas. Fundamentalmente se
utilizan bigramas, ya que en japonés, chino y coreano, la longitud media
de las palabras es de, aproximadamente, dos caracteres al ser,
fundamentalmente, idiomas silábicos.
Algunos estudios han mostrado que las búsquedas textuales en chino y
coreano basadas en la indexación mediante bigramas obtienen resultados
comparables (y, en ocasiones, incluso mejores) a las basadas en indexación
mediante.
En [Ozawa et al., 1999] se argumenta que los bigramas son insuficientes
cuando se indexan documentos conteniendo lenguaje técnico, donde la
longitud de las palabras es superior a la media. Se comprueba que un método
adaptativo de segmentación que produce n-gramas de varias longitudes,
supone una mejora substancial con respecto a la utilización de bigramas.
A pesar de los resultados anteriores no parece existir un claro consenso acerca
de cual de las dos aproximaciones (n-gramas o palabras) es mejor para la
82
indexación de textos en este tipo de idiomas. En muchas ocasiones la
combinación de ambas demuestra una clara mejora sobre ambas.
4.2.2 Enfoques basados en la traducción de la consulta
A la hora de realizar una búsqueda translingüe de información, nos
enfrentamos a la siguiente situación: la consulta y los documentos no están
escritos en el mismo idioma.
Es, por tanto, necesario realizar una traducción para poder realizar una
búsqueda en la que tanto consulta como documentos se encuentren en el
mismo idioma.
La traducción de la consulta es la opción más frecuente. Por ejemplo los 9
participantes que realizaron experimentos en recuperación translingüe en el
TREC-10 emplearon esta técnica [Gey and Oard, 2001]. Esto es debido,
principalmente, a que la consulta es sensiblemente más pequeña que los
documentos y, por ello, el coste computacional de su traducción es mucho
menor [Hull and Grefenstette, 1996].
Los tres problemas principales a los que se enfrenta un sistema de búsqueda
translingüe de información al traducir la consulta:
1. Saber cómo un término escrito en un idioma puede ser expresado en
otro idioma.
2. Decidir cuales de las posibles traducciones de cada término son las
adecuadas en ese contexto.
3. Saber cómo pesar la importancia de las diferentes traducciones que
son consideradas adecuadas.
Los dos primeros retos son compartidos por los sistemas de traducción
automática.
Sin embargo, un sistema de traducción automática debe dar una única
traducción para cada término, mientras que un sistema de recuperación
translingüe de información puede asignar varios y asignarles distintos pesos.
83
En esta sección veremos diferentes recursos que se utilizan a la hora de
traducir las consultas. Estos recursos no son utilizados por separado, cada uno
puede aportar información complementaria al problema de la traducción.
4.2.2.1 Diccionarios
La utilización de versiones electrónicas de diccionarios bilingües como
recurso de traducción palabra por palabra, ha sido ampliamente estudiada en la
literatura. Sin embargo su uso directo no resuelve por completo el problema de
encontrar las traducciones de los términos, debido a las siguientes razones:
! La cobertura del diccionario puede no ser completa, por lo que algunos
términos no son traducidos. Esto sucede frecuentemente con los
términos técnicos que no son de uso común. La terminología específica
de un determinado dominio del conocimiento no suele estar
contemplado en los diccionarios de uso común.
! No contemplan todas las posibles variantes morfológicas de una
palabra. Por ejemplo un diccionario puede contener el término
“asintótico" pero quizá no contenga “asintóticamente". Este problema
puede ser mitigado empleando la técnica de stemming comentada en la
sección anterior.
! En ocasiones es necesario traducir los nombres propios de personas (el
nombre “Yeltsin" se escribe “Eltsine" en francés) o localizaciones
(“Letonia" se escribe “Latvia" en inglés) y estas traducciones pueden no
estar contempladas en el diccionario. Este problema se conoce con el
nombre de “reconocimiento de entidades".
! Para cada contexto, sólo algunas traducciones son apropiadas. Por
ejemplo la palabra inglesa “spring" tiene diversas traducciones en
castellano con significados muy distintos entre sí: “muelle", “primavera",
“manantial"... La polisemia de las palabras dificulta la traducción y no se
cuenta con métodos automáticos que puedan resolverla.
! La traducción errónea de los términos es particularmente perjudicial en
los conceptos representados por expresiones multipalabra. Por ejemplo
84
la palabra castellana “banco" se traduce frecuentemente por “bank" en
inglés. Sin embargo la expresión ”banco de peces" ha de traducirse por
“school of fish".
Por todas estas razones la utilización de un diccionario como único recurso de
traducción reduce drásticamente la efectividad de las búsquedas translingües.
Diversos estudios comprueban que substituyendo cada término por todas las
traducciones ofrecidas por el diccionario se reduce la efectividad entre un 40 y
un 60% respecto de la misma búsqueda realizada en un contexto monolingüe.
Con respecto a la polisemia [Davis, 1997] propone utilizar la categoría
gramatical de las palabras de la consulta para elegir entre las posibles
traducciones de los términos: por ejemplo la palabra inglesa “object" puede
actuar como nombre y ser traducida al castellano como “objeto", “objetivo" o
“complemento", mientras que si actúa como verbo puede traducirse por
“objetar" u “oponerse". Utilizando un diccionario bilingüe con información sobre
la categoría gramatical para traducir las consultas, Davis comprobó que esta
estrategia incrementaba en un 37% la precisión con respecto a la estrategia de
sustituir cada término por todas las traducciones ofrecidas por el diccionario.
[Pirkola, 1998] estudia los efectos de diferentes factores:
! Tipo de consulta: comparó consultas en lenguaje natural con consultas
formadas únicamente por las palabras y sintagmas más relevantes de la
consulta. La precisión de las búsquedas fue mayor con las consultas
expresadas en lenguaje natural.
! Proceso de traducción: utilizó dos diccionarios bilingües para realizar la
traducción: uno de propósito general y otro con información específica
sobre el dominio de la medicina y la salud. Probó varias formas de
combinar estos diccionarios, comprobando que la que mejores
resultados daba era la de utilizar las suma de todas las traducciones
proporcionadas por ambos diccionarios (eliminando traducciones
duplicadas).
! Estructura de la consulta tras la traducción: comparó la utilización de
consultas sin ningún tipo de estructura (una simple lista de todas las
traducciones) con el uso de consultas estructuradas mediante los
operadores proporcionados por el motor de búsqueda Inquery [Callan et
al., 1992]. Las traducciones provenientes de un mismo término se
85
agruparon mediante un operador de sinonimia y los términos
multipalabra se identificaron con un operador de proximidad.
La estructuración de la consulta resultó ser el factor que incrementó en
mayor medida la precisión de las búsquedas, superando en algunos casos el
50% de incremento.
Otras tendencias, proponen la utilización de un diccionario bilingüe
estructurado en el que las traducciones de cada término se encuentran
agrupadas en conjuntos con un significado claramente similar. No existen
muchos diccionarios bilingües que presenten esta estructura, por lo que los
autores desarrollan, además, un método que permite dotar de esta estructura a
cualquier diccionario bilingüe empleando criterios lingüísticos (similaridad entre
las palabras según WordNet), morfológicos (agrupar las palabras que
comparten la misma raíz) y ortográficos (agrupar las palabras que se
diferencien en un único carácter).
Compararon la estructuración de la consulta propuesta por [Pirkola, 1998] con
otras alternativas, empleando para ello diferentes operadores del lenguaje de
consulta de Inquery y los conjuntos de traducciones agrupadas. Los resultados
mostraron que la traducción de las consultas con la estructuración propuesta
por Pirkola obtenía una mayor precisión que la traducción utilizando los
diccionarios estructurados.
Otro método, es el que propone utilizar dos idiomas pivote para realizar la
traducción cuando no se dispone de un diccionario directo.
Los resultados demuestran que utilizar un idioma pivote para traducir entre dos
idiomas provoca una mayor pérdida de eficiencia que la utilización de un
diccionario directo.
Otro enfoque, es la realización de una selección de las traducciones
empleando las traducciones inversas: sólo aquellas traducciones que pueden
volver a traducirse al término de partida son seleccionadas. Los resultados
muestran que esta simple estrategia puede ser más efectiva que otras más
complejas como la desambiguación de traducciones empleando corpora
paralelo.
86
4.2.2.2 Programas de traducción automática
Otro recurso ampliamente utilizado para la traducción son los programas
comerciales de traducción automática, siempre que exista uno disponible para
el par de idiomas considerados. En la octava edición del TREC, al menos la
mitad de los grupos participantes emplearon el sistema de traducción
automática Systran de alguna forma en sus experimentos. Sin embargo otros
métodos basados en la combinación de corpus y diccionarios obtuvieron
mejores resultados.
Los experimentos acerca de la efectividad de estos programas a la hora de
traducir la consulta no aportaron datos concluyentes. Se extrajeron las suientes
conclusiones:
o La efectividad puede depender de la longitud de las consultas: para
consultas cortas (entre 1 y 3 términos) no parece haber diferencia entre
esta aproximación y la utilización de diccionarios para la traducción.
Para consultas largas (formadas por varias frases) se aprecia
diferencia.
o Para las consultas basadas en frases, la traducción mediante Systran da
mejores resultados en las búsquedas que otros métodos de traducción
basados en diccionarios o corpus.
Esto es debido a que los sistemas de traducción automática hacen uso de la
estructura sintáctica del texto. Si las consultas están formadas por frases, los
sistemas de traducción consiguen una traducción mejor que si la consulta está
formada por términos independientes sin estructura.
Aparte de este problema, el uso de sistemas de traducción automática depende
de la existencia de un traductor entre los idiomas considerados. La creación de
estos traductores es costosa, y por eso sólo existen para los pares de idiomas
más demandados por el mercado.
Algunos participantes utilizaron un sistema comercial para la traducción de
consultas en francés, alemán, italiano, castellano, chino y japonés al inglés.
Vieron que las diferencias entre la búsqueda monolingüe y las translingües
87
dependían bastante del idioma de partida oscilando entre un 2.3% de pérdida
en el caso del francés y un 29.5% para el chino.
Se realizó una comparación sistemática de tres tipos de recursos para la
traducción de las consultas en una búsqueda translingüe: diccionarios, corpora
paralelo (obtenido de la web utilizando el sistema PTMiner) y traducción
automática (utilizando Babelfish15). Los resultados mostraron que los tres
métodos alcanzaron, al menos, el 90% de la eficiencia de una búsqueda
monolingüe. Además encontraron que la diferencia de eficiencia dependía
bastante del par de idiomas considerados.
4.2.2.3 Tesauros
Un tesauro está formado por la colección de términos o palabras clave
que se utilizan para realizar la indexación de los documentos (ya sea ésta
manual o automática), así como las relaciones semánticas que los unen.
La utilización de tesauros en el campo de la recuperación de información se
centra en el enriquecimiento de la consulta con términos relacionados que
aparecen realmente en los documentos, aunque hay otros muchos aspectos en
los que pueden ser utilizados [Soergel, 1997]:
! Proporcionan un vocabulario controlado para expresar las consultas, por
lo que se elimina el problema del desconocimiento por parte del usuario
de los términos que aparecen realmente en los documentos.
! Permiten dar una mejor estructuración a los resultados. Por ejemplo la
construcción de un resumen temático estructurado del documento,
describiendo los temas principales del mismo así como los diferentes
subtemas tratados, empleando para ello conjuntos de términos
semánticamente relacionados.
! Su estructuración jerárquica hacen posible su utilización en un entorno
de búsqueda interactivo. Los usuarios pueden identificar los diferentes
conceptos navegando por la jerarquía y, de esta forma, precisar su
búsqueda.
15 http://babelfish.altavista.com
88
! Un tesauro multilingüe sobre un dominio determinado permite la
traducción de términos específicos de ese dominio que quizá no puedan
encontrarse en un diccionario bilingüe. Un ejemplo de tesauro
multilingüe sobre el dominio médico es el metatesauro de UMLS 16.
Los tesauros construidos para la indexación manual de los documentos
describen un idioma artificial (basado en uno real) sobre un dominio específico,
incluyendo información adicional con anotaciones para los indexadores sobre
los términos que lo componen. Estos tesauros no resultan apropiados para ser
utilizados en un entorno automático de indexación, al carecer de la información
necesaria que aporta el sentido común de las personas que realizan la
indexación manual.
Los tesauros multilingües fueron el primer tipo de recursos específicamente
diseñados para la recuperación de información translingüe. Los requisitos que
han de tenerse en cuenta a la hora de desarrollar estos tesauros para el
procesado automático de documentos textuales pueden ser:
! Describir de forma precisa las diferentes variantes de un mismo
concepto en diferentes idiomas. Algunos conceptos se describen con
una palabra en un idioma, mientras que en otros son necesarias varias
(por ejemplo la palabra rusa “dissident" es equivalente a “political
“dissident" en inglés).
! Describir extensos conjuntos de sinónimos para cada concepto
analizado en cada uno de los idiomas considerados.
! Detallar la mayor cantidad posible de términos multipalabra que definan
un concepto determinado. De esta forma se podrían utilizar como base
para realizar una desambiguación léxica.
Otro tipo de tesauros son los llamados “tesauros de similaridad",
construidos de forma automática a partir del vocabulario de la colección a
indexar.
De esta manera se identifica conocimiento específico del dominio de la
colección, basándose en las similitudes de los términos que la componen. La
16 Unified Medical Language System
89
utilización de estos tesauros para realizar expansiones de la consulta puede
suponer una mejora sustancial en la eficiencia de las búsquedas monolingües.
Esta técnica, por tanto, basa su funcionamiento en el análisis del corpus que
forman los documentos.
La utilización de tesauros en la recuperación de información translingüe
queda supeditada a disponer de un tesauro multilingüe que cubra el dominio de
las colecciones documentales que van a ser utilizadas. En el caso de los
tesauros de similitud es necesario disponer de corpora paralelo (o comparable)
para poder construir uno multilingüe.
4.2.3 Otros enfoques: Traducción bidireccional
La traducción de los documentos al idioma de la consulta y la traducción
de la consulta al idioma (o idiomas) de los documentos, representan dos
enfoques opuestos de combinar las técnicas de recuperación de información
con las de traducción automática.
Según [McCarley, 1999] estos dos enfoques no tienen por qué ser mutuamente
exclusivos.
Para comprobarlo realizaron dos experimentos de recuperación translingüe
entre francés e inglés (uno en cada sentido).
Se compararon los resultados obtenidos con la traducción de las consultas, la
traducción de los documentos y un sistema híbrido que combinó los resultados
producidos por ambas aproximaciones de la siguiente forma: la relevancia de
un documento es la media de la relevancia obtenida con la traducción de la
consulta y la relevancia obtenida con la traducción de los documentos (previa
normalización de ambas).
Se observó lo siguiente:
! Las búsquedas que involucraban una traducción en el sentido francés-
inglés obtuvieron mejores resultados con independencia de si se
realizaba la traducción de los documentos o la de las consultas. Esto
nos indica que aunque la traducción de los documentos presente
90
ventajas teóricas, éstas van a depender de la calidad de la traducción
entre el par de idiomas considerados.
! Los resultados del sistema híbrido fueron superiores a los de las dos
aproximaciones individuales, no influyendo el sentido en el que se
realizan las traducciones.
4.3 Arquitectura del sistema INAOE multilingüe
El interés de un sistema de búsqueda en la Web es encontrar las
respuestas en una gran colección de documentos. Debido a que no existe sólo
un lenguaje en la Web, los sistemas de BR multilingüe, son de gran relevancia.
Un sistema de BR multilingüe, es aquel sistema donde el lenguaje de la
pregunta es diferente al lenguaje del documento en el que se encuentra la
respuesta.
En la actualidad los trabajos desarrollados en este contexto, usan
diferentes recursos lingüísticos, como etiquetadores POS, extracción de
entidades, relaciones semánticas, analizadores sintácticos, diccionarios, etc.;
para, de este modo, entender la pregunta y las secciones concordantes en los
documentos.
Esta propuesta se basa en un sistema prototipo de búsqueda de respuestas
monolingüe para la Web, desarrollado en el laboratorio de Tecnologías del
Lenguaje de la Coordinación de Ciencias Computacionales del INAOE [Castillo
et al., 2004]. Este sistema únicamente procesa preguntas formuladas en
español, y la búsqueda se realiza en documentos en español. El sistema sólo
se fundamenta en la redundancia de información en la Web [Brill et al., 2001].
La idea básica es adecuar este prototipo, para poder realizar búsquedas
multilingües.
La arquitectura del sistema sería muy parecida a la del sistema INAOE original,
pero a diferencia de este, se introduce un módulo de traducción. Ésta consiste
en cuatro módulos principales:
1. Traducción de las preguntas
2. Búsqueda en la Web
91
3. Cálculo de respuestas candidatas
4. Selección de la respuesta correcta.
Traducc ión
Reformulac ión
Recoleccion Snippets
Calculo derespuestas
respuestascandidatas
Web
Buscador
Sistemade BR
Preguntasfac tuales
Traducción
Figura 4.1 Esquema de un sistema de BR translingüe
4.4 Tareas translingües
En el punto de experimentación (Capítulo 5) se presentan los resultados
de los experimentos realizados. Estos, en cuanto a la tarea translingüe (no
multilingüe), se pueden describir brevemente mediante los siguientes pasos:
1. Adaptación del sistema a la búsqueda translingüe .
2. Se traducen las preguntas al idioma sobre el que queremos realizar
búsquedas.
3. Se lanza el sistema y se recuperan los snippets.
4. Cálculo de respuestas.
92
Los idiomas empleados para tales experimentos serán el valenciano, el
castellano y el inglés. Aunque el presente trabajo se centra en los idiomas
castellano y valenciano, se mencionan otros resultados experimentales
obtenidos con preguntas en inglés.
Se incluyen como anexos (Anexo I y Anexo II), los artículos publicados
en diferentes foros de investigación referentes a tareas translingües realizadas
durante la fase de experimentación del trabajo que aquí se presenta.
Veremos la influencia que tiene la presencia de estos idiomas en la web
para encontrar respuestas.
Otra conclusión sobre la que podremos indagar será el error derivado
que puede introducir un traductor para obtener una respuesta correcta.
93
94
Capítulo 5. Experimentos Multilingües
El principal objetivo es demostrar que el sistema INAOE es funcional,
obteniendo respuestas con mínimos recursos lingüísticos. Además, se
pretenden conseguir distintas implementaciones del sistema en distintos
idiomas para demostrar que la presencia de un idioma en Web es importante a
la hora de encontrar respuestas. Se realizarán varias tareas translingües con el
castellano y valenciano, comentando los resultados obtenidos. Durante el
proceso de experimentación para los idiomas valenciano-castellano surgió la
necesidad de incluir otra prueba con el idioma inglés. Se incluyen como
Anexos (Anexo I y Anexo II) los artículos publicados durante la realización del
PFC, y que presentan experimentos de BR translingües.
5.1 Introducción
En los apartados 2 y 3 de este capítulo se expondrán los resultados de
los experimentos realizados con el sistema INAOE de BR en la web (con las
características ya detalladas en el Capítulo 3) y poniendo en funcionamiento el
mismo con las preguntas del CLEF 2003 y 2005. Esto nos facilitará la
comparación con los sistemas participantes (sólo para el CLEF 2005). Estas
pruebas nos conducirán a demostrar la viabilidad de este tipo de sistemas que
se basan en de la redundancia web. Además se demostrará que dependiendo
de la presencia en este medio de un determinado idioma, se obtendrán mejores
o peores resultados. La cantidad de documentos de un idioma hará que la
redundancia sea mayor. Sobre esta premisa se apoyan los experimentos
realizados con el sistema INAOE. La principal novedad introducida en este
texto es la consecución de sistemas derivados preparados para funcionar en
valenciano y en inglés a partir del sistema de BR INAOE original. Esta
adaptación a otros idiomas y la comparación de resultados entre idiomas con
las mismas preguntas y entre los resultados obtenidos por el sistema y otros
sistemas en el CLEF será otro punto de resultados a analizar.
95
En los experimentos realizados con el sistema INAOE y sus
adaptaciones (5.2 y 5.3) se recolectarán 50 snippets por petición lanzada (cada
pregunta puede devolver cientos de resultados, se tomarán los 50 primeros),
para cada reformulación y pregunta. Para el ranking de las posibles respuestas
se ejecutará el programa Extract_Pesado_Compensado.pl para cada
reformulación y pregunta. La tarea final será la de lanzar el programa
Extrae_Respuesta. En la evaluación de resultados, tomaremos en cuenta que
la respuesta esté entre las 5 con coeficiente más alto.
Los resultados se presentan con el cálculo de tres medidas distintas: el número
de respuestas correctas, la precisión y el MMR (Mean Reciprocal Rank).
La precisión es el número de respuestas correctas en porcentaje.
El MMR se calcula con la siguiente formula:
n
rMRR
n
ii∑
== 1
Donde n es el número total de preguntas y ri es el recíproco del rango de la
primera respuesta correcta en el conjunto ordenado de repuestas candidatas
para la pregunta i.
5.2 Corpus del CLEF 2003
En el CLEF 2003, se sigue con línea de investigación de años
anteriores, introduciendo algunas novedades y dificultades adicionales al
proceso de búsqueda.
Solo admitiremos respuestas correctas o incorrectas, por lo que
eliminaremos las cuestiones que en el CLEF se introdujeron y debían obtener
como respuestas nulo. Lo hacemos por facilitar el trabajo, en cuanto a que
deberíamos buscar estas respuestas no proporcionadas por los organizadores
96
del CLEF para poder lanzar el sistema con las 200 preguntas iniciales, un
trabajo adicional que no se estimó necesario al tener un corpus de preguntas y
respuestas suficiente de 180.
En los comentarios que se hacen a cada tabla de resultados, se utilizará
la siguiente notación para referirnos a las reformulaciones:
Bolsa de palabras: ANDS
Componentes: CONS
Componentes sin la 1ª palabra: CONS1
Componentes sin la 1ª y 2ª palabra: CONS2
Movimiento del verbo: VERBO
5.2.1 Tarea monolingüe Castellano-Castellano
En esta tarea monolingüe se lanza el sistema sobre el corpus CLEF2003
para la recolección de snippes en castellano. Las preguntas también están en
castellano. A continuación se presentan los resultados obtenidos. Los
clasificaremos por reformulación.
ANDS CONS CONS1 CONS2 VERB
Correctas 71 21 43 57 58
Precisión 39.45% 11.67% 23.89% 31.67% 32.22%
MMR 0.27 0.0935 0.1883 0.2261 0.2187
Tabla 5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con
preguntas del CLEF 2003
97
5.2.1.1 Discusión sobre los resultados
Los mejores resultados se han obtenido con la reformulación ANDS con
un porcentaje de respuestas correctas de un 39.45% y un MMR de 0.27. Las
reformulaciones CONS2 y los VERB obtienen unos resultados casi idénticos
con un porcentaje del 31.67% y un 32.22%.
Es interesante mencionar que de las 180 preguntas que componen
nuestro corpus, 91 obtuvieron respuesta en una o varias reformulaciones. Por
lo tanto el porcentaje final de obtención de respuestas del sistema será del
50.55%.
5.2.2 Tarea translingüe Castellano-Valenciano
Se traducen las preguntas al valenciano utilizando el traductor de
valenciano SALT17 y se lanza el sistema. El sistema ha sido adaptado para la
ejecución de búsquedas con las preguntas en valenciano. Aclarar antes de
nada, que la búsqueda en Google se realiza en toda la web (no se selecciona
ningún idioma). Esto es necesario mencionarlo porque el valenciano y el
castellano tienen muchas palabras en común, por tanto, habrá ocasiones en las
que haya snippets coincidentes.
ANDS CONS CONS1 CONS2 VERB
Correctas 15 8 20 31 33
Precisión 8.33% 4.44% 11.11% 17.22% 18.33%
MMR 0.0564 0.0368 0.0762 0.1112 0.1342
Tabla 5.2 Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con
preguntas del CLEF 2003
17 http://www.cult.gva.es/salt/
98
5.2.2.1 Discusión sobre los resultados
En este experimento, todas las reformulaciones reducen sus
porcentajes. A primera vista, este resultado sería lógico, en cuanto a que se
reduce la obtención de respuestas con la utilización del lenguaje valenciano
con respecto al castellano. Era de esperar, ya que es menor la presencia del
valenciano en la Web, y por tanto habrá menos redundancia.
Decir también, que en los resultados obtenidos, todas las respuestas correctas
se deben a la descarga de snippets en castellano, debido a la similitud de
muchas palabras entre ambos idiomas.
Llama la atención el descenso de rendimiento de la reformulación ANDS.
Todas las reformulaciones se ven penalizadas por la utilización del valenciano
en la búsqueda. Las preguntas que obtienen respuestas, son aquellas que más
semejanza guardan con el castellano y que obtuvieron respuesta en el
experimento con preguntas en castellano. Entre el 90-95% de los snippets
descargados son en idioma castellano, el resto en valenciano. El sistema
devolvió en tres casos la respuesta en valenciano, y en los tres casos erró.
En cuanto al número total de preguntas con respuesta encontrada en
alguna reformulación, es de 39. El porcentaje se queda en el 21.66%.
5.2.3 Tarea monolingüe Valenciano-Valenciano
En este caso, las preguntas no se han traducido con el traductor SALT,
sino que se traducen por una persona de habla valenciana. Con esta variación,
se quiere eliminar los posibles fallos en la traducción automática.
99
ANDS CONS CONS1 CONS2 VERB
Correctas 17 8 19 29 30
Precisión 9.44% 4.44% 10.55% 16.11% 16.66%
MMR 0.056 0.0342 0.0642 0.1091 0.1217
Tabla 5.3 Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con
preguntas del CLEF 2003
5.2.3.1 Discusión sobre los resultados
Los resultados obtenidos son casi idénticos al caso de castellano-
valenciano utilizando traductor. La conclusión que sacamos tras el examen de
los snippets y respuestas devueltas en los casos de búsqueda en valenciano,
es que las respuestas encontradas se deben a la redundancia del castellano, o
dicho de otra manera, no existe suficiente redundancia del valenciano para
producir respuestas a partir de los snippets descargados, que como ya dijimos
en el punto anterior son en castellano.
Con respecto a la tarea translingüe y el traductor, podemos decir que
no ha introducido grandes errores en la traducción, que hayan llevado a un
descenso en los porcentajes. De todas maneras, visto que los resultados se
deben a la redundancia del castellano a partir de preguntas en valenciano con
similitud entre muchas palabras, es difícil precisar la bondad del traductor.
Sobre el dato total de preguntas que encuentran respuesta en alguna
reformulación, obtenemos 40 preguntas sobre el total de 180, o lo que es lo
mismo un 22.22%
100
5.2.4 Tarea translingüe Valenciano-Castellano
Se traduce con el SALT las preguntas del valenciano del punto 5.2.3 al
castellano , se lanza el sistema de BR y se obtienen los siguientes resultados:
ANDS CONS CONS1 CONS2 VERB
Correctas 53 6 15 30 28
Precisión 29.44% 3.33% 8.33% 16.67% 15.55%
MMR 0.2074 0.014 0.0655 0.1286 0.102
Tabla 5.4 Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas
del CLEF 2003
5.2.4.1 Discusión sobre los resultados
En este apartado, el proceso translingüe nos muestra una perdida de
efectividad en los resultados con las preguntas obtenidas como resultado de la
traducción al castellano con el SALT. Una de las causas podría ser debido al
SALT. También podría deberse a que al provenir las preguntas de origen del
valenciano de una persona y no de un traductor automático, este haya hecho la
traducción de forma coloquial, perdiendo rigurosidad en la traducción. En
resumen, después de haber traducido manualmente las preguntas originales en
castellano al valenciano, y haciendo automáticamente el proceso inverso con
estas preguntas obtenidas, al lanzar el sistema de BR se obtienen pérdidas de
efectividad del sistema en todas las reformulaciones del orden de entre el 40-
70%.
El proceso de traducción penaliza el funcionamiento del sistema. Hacen
falta herramientas adecuadas para habilitar el uso de sistemas de BR
101
translingües con resultados factibles. En el Capítulo 4 se vieron algunas de
estas herramientas o subsistemas.
Con respecto al uso de traductores en el proceso de BR, también se
hicieron pruebas experimentales con una serie de preguntas en ingles, y las
mismas obtenidas desde el idioma origen árabe a través de un traductor árabe-
inglés. Los resultados que en este anexo se muestran, prueban la perdida de
prestaciones del sistema en su conjunto. Los resultados se muestran en el
Anexo II.
A continuación analizaremos los experimentos llevados a cabo con el
corpus del CELF 2003 para extraer unas primeras conclusiones.
Los mejores resultados se obtienen para el castellano y con la
reformulación “Bolsa de palabras”. Como primera conclusión podríamos decir
que una pregunta cuya búsqueda se realiza en castellano (de origen o con el
traductor) obtiene mejores resultados que una pregunta lanzada en valenciano
(de origen o traductor). Por tanto, la redundancia de la web, mayor para el
castellano que para el valenciano, se traduce en mejores resultados para
búsqueda de respuestas. Es necesario aquí mencionar la ganancia que
obtendría un usuario que no hablara castellano y que utilizara el sistema
lanzando una petición en su idioma original (valenciano), obteniendo la
respuesta a través del sistema realizando la búsqueda en castellano. También
se podría traducir la respuesta al idioma original de la petición.
Sería necesario desarrollar una interfaz de aplicación y preparar el sistema
para la ejecución por parte de usuarios no especializados.
5.3 Clasificación de resultados atendiendo a la tipología de la pregunta
Durante la evaluación del sistema, se observó que ciertos tipos de
pregunta obtenían mejores resultados. Los tipos de preguntas que se
comparan son “Qué”, “Cómo”, “Dónde”,”Cuándo”, “Cuántos” y “Cuál”. Se
engloban dentro de cada tipo las variantes de género y número.
102
El análisis se realizó para las preguntas del CLEF 2003 en castellano.
Es importante mencionar que las preguntas cortas nos llevaron a mejores
resultados. Las preguntas que obtuvieron peores resultados fueron las que la
respuesta esperada era del tipo numérico o fecha, las del tipo cuántos y
cuando.
Las preguntas del tipo “¿Cuál es la capital…?” obtuvieron los mejores
resultados, encontrando las tres preguntas introducida en el CLEF 2003
respuesta. En general, las preguntas “Cuál” y “Cómo” obtuvieron los mejores
porcentajes. En la tabla que se muestra a continuación se comparan los tipos
de preguntas y sus porcentajes de respuestas obtenidos para el CLEF 2003.
Cual/
Cuales Qué Donde Cuando
Cuanto/s
Cuanta/s Quién Por qué Cómo
Correctas 10 4 3 2 0 10 0 2
Total 13 15 8 6 15 17 1 4
Precisión 77% 27% 37% 33% 0% 59% 0% 50%
Tabla 5.5 Porcentaje de resultados según tipos de preguntas del CLEF 2003.
En la tabla no se incluye las 21 preguntas sobre las 100 del CLEF que no
utilizan las partículas interrogativas cual, que, donde, cuanto, quien, por qué, y
cómo.
El mejor porcentaje se obtuvo con las preguntas del tipo cual, seguido por las
del tipo quién y cómo.
El sistema, en su conjunto, sufrió una penalización por las preguntas del tipo
cuanto, ya que en los resultados examinados sobre un total de 100 preguntas
de las cuales 15 eran de este tipo, no se consiguió respuesta válida alguna.
Por lo tanto, hay que mejorar los resultados de los sistemas de BR. Es
necesario mejorar los resultados, sobre todo para los tipos de preguntas en los
que se obtienen peores resultados.
103
En el Capítulo 6, se presenta un sistema de RP para la BR. Se mostrarán los
resultados obtenidos en una serie de casos de estudio, para ver si podemos
obtener mejores resultados con los tipos de preguntas con peores porcentajes
mostrados en los experimentos anteriores.
5.4 El corpus del CLEF 2005
En el CLEF 2005, se sigue con línea de investigación de años
anteriores, introduciendo algunas novedades y dificultades adicionales al
proceso de búsqueda.
Lógicamente, en cada CLEF se introducen nuevos retos. En el
CLEF2005 se introdujeron una serie de cambios en cuanto a la complejidad de
la pregunta y a la respuesta requerida. Por ejemplo, en el CLEF2003 se
tomaba como buena una respuesta que estuviera entre las tres primeras de las
devueltas. Por contrario, en el CLEF2005, sólo se admite la primera. En
nuestros experimentos hemos tomado como buena hasta la quinta, aunque
bien es verdad que en la mayoría de los casos la respuesta se devolvía en
primer o segundo lugar.
En este caso, tenemos un corpus de 200 preguntas de las cuales 18 no tenían
respuesta en el contexto del CLEF. Por tanto, eliminamos estas 18 sin
respuesta y obtuvimos los siguientes resultados:
ANDS CONS CONS1 CONS2 VERB
Correctas 49 6 29 35 39
Precisión 26.92% 3.29% 15.83% 19.23% 21.42%
MMR 0.179 0.0258 0.1065 0.12 0.1201
Tabla 5.6 Resultados del sistema de BR INAOE Castellano con preguntas del CLEF 2005
104
Resultado de combinar reformulaciones. De las 182 preguntas efectuadas, 58 obtuvieron respuesta correcta al menos
en un tipo de reformulación, o sea un porcentaje de 31.86%.
A la vista de los resultados obtenidos, al igual que en los experimentos con el
CLEF 2003, la reformulación ANDS es la que obtiene mejores resultados.
5.4.1 Comparativa entre el sistema UPV y el sistema INAOE en el CLEF 2005
En la Tabla 5.6 se muestra la comparativa entre los resultados obtenidos
por el sistema INAOE y los resultados obtenidos por el sistema que
representaba a la UPV (sistema QUASAR) en el CLEF de ese año que se
describirá brevemente en el Capítulo 6:
ANDS CONS CONS1 CONS2 VERB UPV
(1ª-5ª resp)
Precisión 26.92% 3.29% 15.83% 19.23% 21.42%
33.518
Tabla 5.7 Comparación con los resultados de la UPV con la 1ª-5ª respuesta
ANDS CONS CONS1 CONS2 VERB UPV
(1ª resp)
Precisión 11.53% 2.19% 7.14% 7.14% 7.14%
33.5
Tabla 5.8 Comparación con los resultados de la UPV con la 1ª respuesta
18 Los resultados del CLEF2005 no recogen porcentajes de devolución de respuesta entre las cinco primeras. Por tanto, en la casilla de la Tabla5.7 de resultado global, tomamos como dato el obtenido en la evaluación del sistema de la Tabla 5.8 de resultados obtenidos en devolución por primera respuesta.
105
En las Tablas 5.6 y 5.7 se han comparado los resultados obtenidos en
nuestros experimentos con las distintas reformulaciones (columnas ANDS,
CONS, CONS1,CONS2 y VERB) y los obtenidos por el sistema QUASAR
implementado en la UPV para el CLEF2005 (columna UPV). Fusionando los
resultados de todas las reformulaciones se obtiene un 31.86% de respuestas.
Los resultados obtenidos por el QUASAR [Gomez et al., 2005] fueron de un
33.5%. Estos resultados tienen mucho más valor al tratarse como respuestas
correctas las devueltas en primer lugar.
Es probable que los mejores resultados obtenidos por el QUASAR se deban
principalmente al módulo del sistema de recuperación de pasajes que, al igual
que los mejores sistemas de BR en la tarea monolingüe del castellano en el
CLEF 2005 (véase Tabla 5.8) están basados en el sistema de BP JIRS que se
describirá en el Capítulo 6.
Tabla 5.9 Resultados de los sistemas en tarea monolingüe en el CLEF 2005
La Tabla 5.9 muestra también recoge los resultados del sistema TOVA. Este
es un sistema INAOE-UPV basado en la integración de los dos. Los detalles
del sistema se detallan en [Montes et al., 2006].
Conclusión preliminar después de los experimentos.
Con un módulo de recuperación de pasajes como JIRS, se deberían obtener
mejores resultados en la tarea monolingüe del valenciano. Esta conclusión nos
sitúa en la necesidad de estudiar las prestaciones del JIRS.
Spanish ----------------------------------> Spanish
inao051eses 42.00% tova051eses 41.00% upv051eses 33.50% alia051eses 33.00%
106
107
Capítulo 6. El componente de búsqueda de pasajes
Los sistemas más recientes de búsqueda de respuestas están
normalmente implementados sobre sistemas de recuperación de pasajes.
El primer sistema de Recuperación de Pasajes (RP) que aquí se presenta
(JIRS) se basa en la suposición de que las palabras que forman la pregunta
también lo harán en la respuesta. Esta es la misma suposición que utiliza el
sistema de búsqueda de respuestas implementado por el INAOE y ya
analizado en el Capítulo 3 de este documento.
El segundo (sistema QUASAR) se basa en la redundancia y en RP,
suponiendo que en una cantidad suficiente de documentos encontraremos la
respuesta buscada en diferentes formas.
En el primer sistema que presentamos en este capítulo se utiliza el concepto de
n-gramas para la búsqueda de los pasajes como posibles respuestas. Veremos
los módulos del sistema que utilizan este modelo. Antes de esto se definirá
propiamente el JIRS. Los buenos resultados obtenidos en el CLEF 2005, en
sistemas de recuperación de pasajes orientados a búsqueda de respuestas,
fueron determinantes para incluirlo en este trabajo. Se realizarán experimentos
simples para comprobar si se obtienen mejores resultados que los obtenidos
anteriormente, sobre todo en los tipos de cuestiones en los que se obtuvieron
peores porcentajes.
6.1 Introducción
Una línea de investigación dentro de la recuperación de información (RI)
son los llamados sistemas de Recuperación de Pasajes (RP). Estos sistemas
miden la relevancia de un documento con respecto a una pregunta en función
de fragmentos contiguos de texto. Estos fragmentos de texto son los llamados
pasajes. De esta forma, se facilita la detección de extractos que pueden ser
relevantes para el usuario y que en el supuesto de estar presentes en
documento grandes no serían localizados y catalogados como relevantes
porque la aportación total de relevancia del documento donde aparecen.
108
Estos sistemas resultan computacionalmente más costosos que los sistemas
de RI tradicionales, pero los resultados obtenidos justifican esta mayor
complejidad. En este capítulo presentamos dos sistemas implementados en la
UPV, el sistema JIRS y el sistema QUASAR, definiendo en cada caso su
arquitectura y mostrando los conceptos en los que se apoyan.
Los sistemas de BR, se pueden dividir en los siguientes componentes:
análisis de la pregunta, recuperación de documentos relevantes, extracción de
pasajes relevantes y extracción de respuestas.
Para poder extraer la respuesta correctamente, es muy importante trabajar
sobre un conjunto de fragmentos de texto lo más reducido posible que incluyan
la respuesta. Debido a esto, las últimas implementaciones de sistemas BR
están basados directamente en sistemas de RP en lugar de sistemas de RI.
El componente de RP tiene una importancia vital porque reduce la colección
original de documentos a un conjunto de pasajes en los cuales la respuesta
debe ser buscada. Por lo tanto, si el componente RP no es capaz de recuperar
pasajes relevantes, el proceso fallará y no se encontrará respuesta alguna.
Llegados a este punto, debemos subraya una diferencia importante entre la RI
tradicional y los sistemas RP orientados a BR. En el primer caso, la etapa de
recuperación de documentos tiene el mayor coste computacional. Mientras que
en el segundo caso, la clave y el mayor esfuerzo se realiza en la etapa de
recuperación de los segmentos de texto (pasajes) que deben contener la
respuesta.
Métodos para medir la relevancia
Existen diferentes métodos para determinar la similitud entre el pasaje del
espacio de búsqueda y la pregunta efectuada.
Los métodos más representativos se caracterizan por lo siguiente:
1) La relevancia depende del acople pasaje con la pregunta.
2) La relevancia depende de la densidad de los términos de la pregunta en
el pasaje.
109
La comparación de resultados obtenidos por sistemas de RP usados en el
TREC hecho por [Tellex S.,2003] demuestran que los mejores sistemas de RP
están basados en densidad de términos presentes en el pasaje.
6.2 El sistema de búsqueda de pasajes JIRS
En los siguientes apartados se describirá el sistema de BP JIRS y su
arquitectura. Esta información ha sido consultada en los trabajos de [Gómez et
al., 2005].
6.2.1 Definición de JIRS
El Sistema de Recuperación de Información basado en JAVA (JIRS), es
un sistema de RP orientado a BR que utiliza el método de densidad para el
cálculo de la similitud entre el pasaje y la pregunta. JIRS busca similitud entre
el pasaje y la pregunta. JIRS busca estructuras que contienen términos de la
pregunta para así extraer los pasajes que son más relevantes en función de la
densidad de términos con respecto a la pregunta.
JIRS se basa en la misma hipótesis de partida que el sistema BR INAOE: “Los
términos que componen la pregunta, formarán parte o estarán cerca de la
respuesta”
JIRS utiliza el concepto de n-grama durante el proceso. Una sola palabra
coincidente en pregunta y respuesta es un 1-grama. Dos palabras de la
pregunta que aparecen en pregunta y respuesta consecutivas forman un bi-
grama. Y así sucesivamente. En este sentido esta es otra similitud en cuanto al
procedimiento de operación del sistema JIRS con respecto al sistema INAOE.
Para evaluar la importancia de cada n-grama, se desarrollaron tres
modelos. Cada modelo se usa para obtener el peso del n-grama a partir del
110
número de palabras que lo componen, el peso de los palabras y la distribución
de los distintos n-gramas en el pasaje.
Otra característica importante de JIRS es su independencia del idioma. Se
puede adaptar fácilmente para la RP orientado a BR en otros idiomas. De
hecho, en este capítulo se dedica una parte a la explicación de cómo adaptar
JIRS a otro idioma (valenciano) y se realizan algunos experimentos sobre un
corpus en este idioma.
6.2.2 Arquitectura del sistema JIRS
JIRS es un sistema de IR que se adaptó específicamente para recoger
pasajes. El resultado es un sistema RP que se basa en buscar estructuras de
la pregunta en lugar de buscar palabras clave. JIRS es capaz de encontrar
estructuras de la pregunta en una colección de documentos rápida y
eficientemente utilizando diferentes modelos basados todos ellos en n-gramas.
JIRS utiliza un sistema de RP tradicional como primer paso y entonces busca
todos los posibles n-gramas de la pregunta entre los pasajes recuperados. Con
estos pasajes realiza la clasificación dependiendo del número y el peso de los
n-gramas aparecidos en estos pasajes.
La pregunta del usuario, finalmente, es pasada a un motor de búsqueda que
devuelve una lista de sus pasajes con las palabras a las que se les ha
asignado un valor según su peso. La estructura del sistema JIRS se muestra
en la figura siguiente:
111
Figura 6.1 Arquitectura JIRS
Por otra parte, mencionar que las estructuras de n-gramas de la
pregunta, sin la partícula interrogativa, son extraídos por el módulo de
extracción de n-gramas.
En el siguiente ejemplo, se muestra el proceso de extracción de los n-gramas
de la pregunta. Utilizaremos para el ejemplo la siguiente pregunta: “¿Cuál es la
capital de España?”
¿Cuál es la capital de España? 1 5-grama
2 cuatri-gramas
3 tri-gramas
es la capital de
la capital de España
es la capital
la capital de
capital de España
112
4 bi-gramas
5 uni-gramas
Una vez finalizada la obtención de los n-gramas de la pregunta,
hacemos lo mismo para cada pasaje devuelto por el módulo motor de
búsqueda. En este paso sólo se tienen en cuenta los términos que forman la
pregunta. Finalmente, con los n-gramas de la pregunta y los n-gramas de los
pasajes obtenidos se hace una comparación para calcular la similitud entre
ambos.
En el siguiente ejemplo se muestran los n-gramas que se extraerían de dos
pasajes devueltos por el motor de búsqueda. Estos ejemplos serán los mismos
que utilizaremos para introducir los diferentes modelos de calcular la similitud
entre pasaje y pregunta.
Pasaje1 Pasaje2
1 4-gramas
2 3-gramas 1 3-gramas
es la
la capital
capital de
de España
es
la
capital
de
España
Ayer, la delegación visitó Madrid, la capital de España, y después estuvo en Valencia hasta que se desplazó a Barcelona
Chirac invitó a Rajoy a la capital de Francia para encontrar una solución política a los conflictos de España en el País Vasco
la capital de España
la capital de
capital de España
la capital de
113
3 2-gramas 2 2-gramas
4 1-gramas 4 1-gramas
A continuación se presentan los tres modelos estudiados para averiguar la
similitud entre pregunta y pasajes. Tanto el modelo n-grama de densidad de
distancias como el n-grama peso de términos se basan en el modelo n-grama
simple [Gómez et al., 2005a].
El modelo n-grama simple Con este modelo la similitud entre la pregunta y el pasaje devuelto se
calcula con la siguiente fórmula:
expresión (1)
Donde Sim(p,q) es la función que mide la similitud de los conjuntos de n-
gramas de la pregunta q con los conjuntos de n-gramas del pasaje p. Qj es un
conjunto de j-gramas que son generados de la pregunta q. Pj es un conjunto de
j-gramas generados del pasaje p para compararlos con los generados a partir
de la pregunta.
la capital de
capital de
de España
la
capital
de
España
la capital
capital de
la
capital
de
España
114
El modelo n-grama de peso de términos El modelo n-grama simple tiene el problema de que todos los n-gramas
tienen el mismo peso. Esto puede causar que pasajes con n-gramas
irrelevantes pueden ser más relevantes que otros con n-gramas más
importantes. Para solventar esta carencia se desarrolló el modelo n-grama de
peso de términos. Con este modelo el peso dado de los n-gramas está
determinado como la suma de los pesos de los términos que contiene.
La expresión de cálculo que determina este valor es la misma que la del
modelo n-grama simple con la diferencia de que la función h(x,Pj) se cambia po
la siguiente:
expresión (2)
El modelo n-grama de densidad de distancias En los anteriores métodos de n-gramas más largos continúan siendo
más relevantes que los cortos, independientemente de los términos que
contenga. Esto se debe a que el peso de los pasajes está calculada sumando
todos los n-gramas que contiene.
El modelo n-grama de densidad de distancias se basa en la búsqueda de los n-
gramas con un valor más alto. El resto de los n-gramas recuperados se
multiplicará por un factor de distancia el cual tiene en cuenta la distancia con
respecto al n-grama con el valor más alto. El peso de cada n-grama se obtiene
de la expresión (2) pero sus pesos se modifican por la siguiente expresión:
expresión (3)
si no
115
Donde L es el número de términos entre el n-grama xmax (xmax es el n-grama
con el peso más alto calculado con la expresión (2) y el n-grama x del pasaje.
El valor de similitud viene determinado por la siguiente expresión:
expresión (4)
Donde D es el conjunto de los n-gramas con valor más alto con respecto a la
pregunta q, los cuales corresponden con el pasaje p, y cuyos términos no están
repetidos. wi es el peso del término enésimo de la pregunta y n es el número
de términos de la pregunta. h(x,D) es la función definida por la expresión (2)
6.3 El sistema de búsqueda de respuestas QUASAR
El sistema de búsqueda de pasajes JIRS ha sido desarrollado para
posteriormente poderlo integrar en el sistema de recuperación de respuestas
QUASAR realizado por el Laboratorio de Ingeniería del Lenguaje Natural de la
UPV. A continuación se describen las principales características de dicho
sistema, tal y como han sido detalladas en [Gomez et al., 2006].
Como idea de partida, suponemos que en una colección de documentos lo
suficientemente extensa, encontraremos la respuesta a una pregunta dada.
Además esta pregunta se encontrará expresada de distintas formas.
El sistema emplea Máquinas de Vectores Soportados y Ajuste de Patrones
para identificar el tipo de respuesta y posteriormente extraerla, una vez que el
sistema JIRS devuelve los pasajes relevantes.
116
6.3.1 Introducción
Dentro de las funciones globales de un sistema BR podríamos
mencionar: clasificación de la pregunta, recuperación de documentos o
pasajes relevantes y extracción de respuestas. Estas tres funciones marcan la
división en módulos del sistema.
La Clasificación de la Pregunta se define como la tarea de asignar un tipo (de
entre unos tipos predefinidos) a cada pregunta enviada al sistema. El sentido
de esta clasificación, viene del hecho de que a distinto tipo de preguntas se les
aplicarán distintas estrategias. Por ejemplo, a la pregunta “¿Quién descubrió
América?”, se espera una respuesta en forma de nombre propio y la forma de
obtenerla será distinta de la pregunta “¿Qué es la Goma-2 eco?”. En este
segundo caso, la respuesta esperada debe ser una definición.
La clasificación de la pregunta, es importante como veremos más adelante, ya
que focaliza la búsqueda y reduce el error en la respuesta obtenida. Esto
queda patente por numeroso estudios, entre los cuales destacamos el de
Moldovan en el año 2003 en el que cuantifica en más de un 36% los errores
producidos directamente por la clasificación errónea de la pregunta en el CP
[Moldovan, et al., 2003].
6.3.2 Arquitectura del sistema
En la Figura 6.2 se muestra la arquitectura del sistema Quasar.
117
Figura 6.2 Arquitectura del sistema QUASAR
A partir de una pregunta dada, esta se pasará a los módulos de “Análisis
de la pregunta” y “Recuperación de pasajes”. Después, el módulo “Extracción
de la respuesta” permitirá obtener la respuesta.
6.4 Casos de estudio con el valenciano
Aunque el corpus sobre el que realizamos la búsqueda proviene de la
colección CLiC-TALP versión 3.0, de la Universidad Politécnica de Cataluña en
idioma catalán, y las preguntas utilizadas en los casos de estudio han sido
construidas en valenciano, las diferencias entre ambos (considerando que hoy
en día, existe una gran polémica entre si son o no el mismo idioma) a nivel
léxico-sintáctico no son muy apreciables. Por tanto, a partir de ahora, nos
referiremos al idioma empleado para los casos de estudio como valenciano.
JIRS es un sistema altamente configurable y adaptable para distintos
idiomas. Una de las tareas realizadas en este PFC ha sido la de adaptar JIRS
para la BP en documentos en valenciano. La búsqueda se realizará sobre un
118
documento en valenciano-catalán de 100.000 palabras. La adaptación conlleva
la inclusión de una lista de stopwords en valenciano. Para tener una primera
idea de sus prestaciones, se probará el sistema JIRS para cuatro cuestiones,
dos del tipo “Cuántos” y otras dos del tipo “Quién”. Se espera mejorar los
resultados en comparación con los obtenidos en los experimentos del Capítulo
5 con las preguntas del tipo “Cuántos”.
Los pasos para la instalación, configuración y ejecución del sistema
están explicados en el manual descargable junto con la aplicación desde la
pagina Web del JIRS. Por tanto, solo se exponen los resultados obtenidos junto
con las preguntas de prueba de dos tipos ¿Quién…? y ¿Cuántos…?
(traducidas al valenciano Qui… y Quatns…?).
Las preguntas de prueba serán:
1. Qui és el president de la Generalitat?
2. Qui és el secretary general d'ERC?
3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana
de Barcelona?
4. Quants millions de tones tin de transit el port de Tarragona en l'any
1999?
5. 5.Qui ha presentat una proposició no de llei en el Parlament on s'insta al
Govern de la Generalitat a obrir una oficina del departament d'agricultura
ganaderia i pesca?
6. Quantes activitats ha acollit el Palau Firal els primers cinc mesos en
l'any 1999?
7. Que va proposar ERC en relació al Pla Hidrologico Nacional PHN?
8. Qui és el sotsdirector de la entitad bancària Deutsche Bank a Espanya?
Tras lanzar el sistema, se obtuvieron los siguientes resultados (se muestran
gráficamente algunos de los resultados obtenidos):
1. Qui és el president de la Generalitat?
119
2. Qui és el secretary general d'ERC?
120
3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana
de Barcelona?
4. Quants millions de tones tin de transit el port de Tarragona en l'any
1999?
121
6.4.1 Discusión sobre los resultados
Las ocho preguntas de prueba han obtenido respuesta dentro de las
primeras cinco devueltas por el sistema. Los resultados de este
experimento y los realizados en el Capítulo 5, tanto en la tarea monolingüe
como en la translingüe no son directamente comprables, dado que se han
realizado sobre corpus totalmente distintos. Pero si podemos sacar algunas
conclusiones, salvando las distancias entre los corpora de búsqueda e
incidiendo sobre la metodología de búsqueda:
• El sistema de RP JIRS, ha devuelto los pasajes donde se encuentra
la respuesta buscada en el 100% de los casos, si se toman como
buenos los 5 primeros pasajes devueltos.
• Si se toman como válidas sólo las ocasiones en las que el sistema
devuelve el pasaje donde se encuentra la respuesta en primer lugar,
el porcentaje bajaría al 50%.
• Sobre los tipos de preguntas empleados, solo habiendo
experimentado con los ”Quién” y “Cuántos”, si comparamos los
resultados obtenidos por el sistema de BR del INAOE,
independientemente del idioma empleado, se obtenía 0% de
respuestas correctas para las preguntas del tipo “Cuántos”. Con
JIRS, en las tres cuestiones de este tipo hemos obtenido, para el
caso de tomar como válidos los primeros 5 pasajes un 100%, y un
66.6% si se toma como válido solo el devuelto en primer lugar.
Por tanto, después de los experimentos realizados, podemos justificar la
utilización del sistema de RP JIRS, aprovechando la eficacia demostrada en los
pocos experimentos realizados. Se podría plantear la integración del sistema
JIRS en el sistema de BR como un módulo aparte que facilitaría la clasificación
y extracción de la respuesta, así como se hizo por el sistema Quasar.
122
123
Capítulo 7. Conclusiones
Después de la realización de estudios con los sistemas presentados y el
análisis de los resultados hemos llegado a las siguientes conclusiones:
I. Los sistemas de búsquedas de respuestas implementados,
independientemente del idioma empleado, son capaces de obtener respuestas
a preguntas factuales utilizando la Web con recursos lingüísticos simples.
II. El idioma empleado en la búsqueda, tendrá gran relevancia a la hora de
cuantificar resultados sobre el mismo conjunto de preguntas traducido a los
distintos idiomas empleados. Se obtienen mejores resultados sobre el conjunto
de preguntas en castellano que sobre el conjunto de preguntas en valenciano,
debido a la redundancia del documento en Castellano con respecto al
Valenciano.
III. En cuanto a los tipos de reformulaciones empleadas en el sistema INAOE y
sus derivados, podemos decir que “Bolsa de palabras” y “Verbos” son las que
mejores resultados obtienen.
IV. Las cuestiones con respuesta de tipo numérico, tienen una dificultad
adicional no resuelta en los experimentos expuestos. De ahí que los
porcentajes finales de respuestas correctas bajen. Será esta una de las tareas
de mejora del sistema.
V. Las cuestiones más cortas se respondieron con un mayor porcentaje de
acierto.
VI. En los casos de preguntas largas, con ambigüedades o mal formuladas, no
se devolvió la respuesta correcta.
VII. Probar otros modelos para evaluar la similitud de términos y pasajes
124
VIII. Conclusión final sobre sistema INAOE y adaptaciones: con muy pocos
recursos lingüísticos, es posible desarrollar sistemas de BR utilizando la Web y
su redundancia. Los resultados obtenidos, dependerán en gran medida del
idioma empleado. Para idiomas con más presencia en la Web será más
probable encontrar respuestas correctas.
125
126
Bibliografía
[Allan J. ,Connel M., Croft W., Feng F., Fisher D. and Li X. (2000)]. INQUERY
and TREC-9. In Proceedings of the Ninth Text REtrieval Conference (TREC
2000, Gaithersburg, Maryland, 13-16 November).
[Bacchin, M., Ferro, N., and Melucci, M. (2002)]. Experiments to evaluate a
statistical stemming algorithm. In Proceedings of CLEF 2002.
[Baeza-Yates, R. and Ribeiro-Neto, B. (1999)]. Modern information retrieval.
New York:ACM Press; Harlow: Addison-Wesley, 1999.
[Ballesteros, L. and Croft, W. B. (1997)]. Phrasal Translation and Query
Expansion Techniques for Cross-language Information Retrieval. In Research
and Development in Information Retrieval, pages 84-91.
[Bourdil Guillaume, Elkateb Faza, Grau Brigitte, Illouz Gabriel, Monceaux Laura,
Robba Isabelle and Vilnat Anne. (2004)]. How to Answer in English to
Questions Asked in French: by Exploiting Results from Several Sources of
Information. In Proceedings of Cross Language Evaluation Forum, (CLEF 2004,
Workshop, Bath, UK, 15-17 September 2004).
[Brill E., Lin J., Banko M., Dumais S. and Ng A. (2001)]. Data-intensive question
answering. In Proceedings of the Tenth Text REtrieval Conference, (TREC
2001. Gaithersburg, Maryland, 13-16 November 2001. Pages 393-400).
[Brin S. and Page, L (1998)]. The anatomy of a Large-Scale Hypertextual Web-
Search Engine. In Proceedings of the Seventh International World wide Web
Conference, (Brisbane, Australia, 1998. Pages 107-117).
[Buchholz S. (2001)]. Using grammatical relations, answer frequencies and the
World Wide Web for TREC Question Answering. In Proceedings of the Tenth
127
Text REtrieval Conference, (TREC 2001. Gaithersburg, Maryland, 13-16
November 2001).
[Burger John, Cardie Claire, Chaudhri Vinay, Gaizauskas Robert, Harabagiu
Sanda, Israel David, Jacquemin Christian, Lin Chin-Yew, Maiorano Steve, Miller
George, Moldovan Dan, Ogden Bill, Prager John, Riloff Ellen, Singhal Amit,
Shrihari Rohini, Strzalkowski Tomek, Voorhees Ellen, Weishedel Ralph.
(2003)]. Issues, Tasks, and Program Structures to Roadmap Research in
Question Answering (Q&A). In Proceedings of Cross Language Evaluation
Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).
[Callan, J., Croft, W., and Harding, S. (1992)]. The Inquery Retrieval System. In
Proceedings of the Third International Conference on Database and Expert
Systems Applications, pages 78-83. Springer-Verlag.
[Chang, G. (2001)]. Mining the World Wide Web: an information search
approach. Norwell, Massachusetts: Kluwer Academic Publishers, 2001.
[Clarke C., Cormarck G. and Lynam T. (2001)]. Exploting redundancy in
question answering. Proceedings of the Special Interest Group on Information
Retrieval. (SIGIR 2001, New Orleans, LA, 9-13 September 2001).
[Cormack G., Clarke C., Palmer C. and Kisman D. (1999)]. Fast Automatic
Pasaje Ranking (MultiText Experiments for TREC-8). In Proceedings of the
Eighth Text REtrieval Conference (TREC 1999, Gaithersburg, Maryland, 17-19
November 1999).
[Costa Luís (2004)]. First Evaluation of Esfinge - a Question Answering
System for Portuguese. In Proceedings of Cross Language Evaluation Forum
(CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).
[Davis, M. (1997)]. New Experiments in Cross-Language Text Retrieval at
NMSU's Computing Research Lab. In Proceedings of the 5th Text Retrieval
Conference (TREC 5, Gaithesburg, pages 447-454).
128
[Del Castillo Escobedo, A. (2005)]. Búsqueda de Respuestas mediante
redundancia en la Web. Tesis para la obtención del título de “Maestro en
Ciencias Computacionales” en el Instituto Nacional de Astrofísica, Óptica y
Electrónica. México (2005).
[De Pablo C. , Martínez-Fernández J.L. , Martínez P. , Villena J. , García-
Serrano A.M. , Goñi J.M. and González J.C. (2004)]. miraQA: Inicial
Experiments in Question Answering. In Proceedings of Cross Language
Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).
[Echihabi Abdessamad, Oard Douglas W. ,Marcu Daniel and Hermjakob Ulf
(2003)]. Cross-Language Question Answering at the USC Information Sciences
Institute. In Proceedings of Cross Language Evaluation Forum (CLEF 2003
Workshop, Trondheim, Norway, 21-22 August 2003).
[Gey, F. C. and Oard, D. W. (2001)]. The TREC-2001 Cross-Language
Information Retrieval Track: Searching Arabic using English, French or Arabic
Queries. In Proceedings of the 10th Text Retrieval Conference (TREC10).
National Institute of Standards and Technology (NIST), Gaithesburg, MD.
[Gómez J.M., Montes M., Sanchis E., Rosso P. (2005)]. JIRS: Un Sistema de
Recuperación de Pasajes Orientado a Búsqueda de Respuestas. In Proc.
Avances en la Ciencia de la Computación, VI ENCuentro Int. de Computación
(ENC05, Puebla, Mexico, pp. 143-144).
[Gómez J., Buscaldi D., Bisbal E., Rosso P., Sanchís E. (2006)]. QUASAR: The
Question Answering System of the Universidad Politécnica de Valencia. In
Accessing Multilingual Information Repositories, Revised Selected Papers
(CLEF 2005, Springer-Verlag, LNCS(4022), Vienna, Austria).
[Harabagiu S., Moldovan D., Pasca M., Mihalcea R., Surdeanu M., Bunescu R.,
Girju R., Rus V. and Morarescu P. (2000)]. FALCON : Boosting knowledge for
129
Question Answering. In Proceedings of the Tenth Text Retrieval Conference.
(TREC 2001, Gaithersburg, Maryland, 13-16 November, 2001).
[Harabagiu S. M. and Pasca M. A. (2001)]. High performance QUESTION
answering. In Proceedings of the Special Interest Group on Information
Retrieval. (SIGIR 2001, New Orleans, LA, 9-13 September 2001).
[Hovy E., Gerber L., Hermajakob U., Junk M. and Lin C. (2000)]. Question
answering in Webclopedia . In Proceedings of the Ninth Text Retrieval
Conference. Proceedings of the Tenth Text REtrieval Conference. (TREC 2000,
Gaithersburg, Maryland, 13-16 November, 2000).
[Hovy E., Hermajakob U. and Lin C. (2001)]. The use of external knowledge in
factoid QA. In Proceedings of the Tenth Text Retrieval Conference (TREC
2001, Gaithersburg, Maryland, 13-16 November, 2001).
[Hull, D. A. and Grefenstette, G. (1996)]. Querying across languages: A
dictionarybased approach to multilingual information retrieval. In Proceedings of
the 19th International Conference on Research and Development in Information
Retrieval, pages 49-57.
[Jijkoun Valentin, Mishne Gilad and de Rijke Maarten. (2004). The University of
Amsterdam at QA@CLEF2004. In Proceedings of Cross Language Evaluation
Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).
[Kwok et al., 2001] Kwok C. K. , Etzioni O. and Weld D. (2001). Scaling
Question answering to the Web. Tenth International World Wide Web
Conference (May 2001).
[Larosa S., Peñarrubia J., Rosso P., Montes M. (2005)]. Cross-language
Question Answering: The Key Role of Translation. In Proc. Avances en la
Ciencia de la Computación, VI ENCuentro Int. de Computación (ENC05),
Puebla, Mexico, pp. 131-135.
130
[Mayeld, J., McNamee, P., Costello, C., Piatko, C., and Banerjee, A. (2001)].
JHU/APL at TREC 2001: Experiments in Filtering and in Arabic, Video, and
Web Retrieval. In Proceedings of the 10th Text Retrieval Conference
(TREC10). National Institute of Standards and Technology (NIST), Gaithesburg,
MD.
[McCarley, J. S. (1999)]. Should we Translate the Documents or the Queries in
Crosslanguage Information Retrieval? In Proceedings of the 37th Annual
Meeting of the Association for Computational Linguistics, pages 208-214.
Association for Computational Linguistics.
[McNamee,P. and Mayeld, J. (2001)]. A Language-Independent Approach to
EuropeanText Retrieval. In Peters, C., editor, Cross-Language Information
Retrievaland Evaluation, Workshop of Cross-Language Evaluation Forum,
CLEF2000, Lisboa, Portugal, September 21-22, 2000, Revised Papers, volume
2069 of Lecture Notes in Computer Science, pages 129-139. Springer.
[Meadow, C. T. (1992)].Text information retrieval systems. San Diego: Acdemic
Press, 1993.
[Montes M., Villaseñor L., Pérez M., Gómez J., Sanchís E., Rosso P. (2006)].
A Full Data-Driven System for Multiple Language Question Answering. In
Accessing Multilingual Information Repositories, Revised Selected Papers
(CLEF05, Springer-Verlag, LNCS(4022), Vienna, Austria).
[Negri Matteo, Tanev Hristo and Magnini Bernardo (2003)]. Bridging Languages
for Question Answering: DIOGENE at CLEF 2003. In Proceedings of Cross
Language Evaluation Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22
August 2003).
[Neumann Günter and Sacaleanu Bogdan (2004)]. Experiments on Robust NL
Question Interpretation and Multi-layered Document Annotation for a Cross-
Language Question/Answering-System. In Proceedings of Cross Language
Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17, September 2004).
131
[Nie,J.-Y.(2002)].Towards a Unified Approach to CLIR and Multilingual IR. In
Proceedings of Workshop on Cross-Language Information Retrieval: A
ResearchRoadMap. (SIGIR 2002).
[Osenova Petya, Simov Alexander, Simov Kiril, Tanev Hristo and Kouylekov
Milen. (2004)]. Bulgarian-English Question Answering: Adaptation of Language
Resources. In Proceedings of Cross Language Evaluation Forum (CLEF 2004
Workshop, Bath, UK, 15-17 September 2004).
[Ozawa, T., Yamamoto, M., Umemura, K., and Church, K. (1999)]. Japanese
word segmentation using similarity measure for IR. In Proceedings of the First
NTCIR Workshop on Research in Japanese Text Retrieval and Term
Recognition, pages 89-96.
[Pérez-Coutiño Manuel, Solorio T., Montes-y-Gómez Manuel, López-López
Aurelio, Villaseñor-Pineda Luis. (2004)]. The Use of Lexical Context in Question
Answering for Spanish. In Proceedings of Cross Language Evaluation Forum
(CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).
[Pirkola, A. (1998)].The Efects of Query Structure and Dictionary Setups in
Dictionary-Based Cross-Language Information Retrieval. In Proceedings of
SIGIR 98, 21st ACM International Conference on Research and Development in
Information Retrieval, pages 55-63.
[Porter, M. (2001)]. Snowball: A language for stemming algorithms.
http://snowball.sourceforge.net.
[Prager J., Brown E., Coden A. and Radev D. (2000)]. Question answering by
predictive annotation. In Proceedings of the Special Interest Group on
Information Retrieval. (SIGIR 2001, Athens, Greece, 24-28 July 2000).
[Rijsbergen, C. V. (1979)]. Information Retrieval (second edition). Butterworths.
132
[Salton, G. (1970)]. Automatic Processing of Foreign Language Documents. In
Journal of American Society for Information Sciences, 21:187-194.
[Soergel, D. (1997)]. Multilingual thesauri in cross-languate text and speech
retrieval. In Hull, D. and Oard, D., editors, AAAI Symposium on Cross-
Language Text and Speech Retrieval.
[Sperer, R. and Oard, D. W. (2000)]. Structured Translation for Cross-Language
Information Retrieval. In Proceedings of SIGIR 2000, 23rd ACM International
Conference on Research and Development in Information Retrieval, pages 120-
127.
[Rosso P., Lyhyaoui A., Peñarrubia J., Montes y Gómez M., Benajiba Y.,
Raissouni N. (2005)]. Arabic-English Question Answering. In Proc. Conf.
Information Communication Technologies Int. Symposium (ICTIS-05), Tetuan,
Morroco, pp. 36-41.
[Solorio, T. and López López A. (2004)] Learning Named Entity Classifiers
using Support Vector Machines, Lecture Notes in Computer Science. In
Computational Linguistics and Intelligent Text Processing, pages 158-166,
Springer-Verlag, 2004.
[Soubbotin M. and Soubbotin S. (2001)]. Patterns of Potential Answer
Expresions as Clues to the Right Answers. In TREC-10 2001. (TREC 2001,
Gaithersburg, Maryland, 13-16 November, 2001).
[Tellex S., B. Katz, J. J. Lin, A. Fernandes, G. Marton (2003)]. Quantitative
evaluation of passage retrieval algorithms for question answering. In SIGIR,
2003.
[José Luis Vicedo González (2002)]. SEMQA: Un Modelo Semántico aplicado a
los Sistemas de Búsqueda de Respuestas. Tesis Doctoral, Universidad de
Alicante, España, 2002.
133
[Vicedo. J.L., Izquierdo R., Llopis F., and Muñoz R. (2003)]. Question
Answering in Spanish. In Proceedings of Cross Language Evaluation Forum
(CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).
[Vicedo. J.L., Saiz M. and Izquierdo R. (2004)]. Does English help Question
Answering in Spanish?. In Proceedings of Cross Language Evaluation Forum
(CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).
[Villaseñor-Pineda L., Montes-y-Gómez M. and Del-Castillo A. (2004)].
Búsqueda de respuestas basada en redundancia : un estudio para el
Español y el Portugués. In 9th Ibero-American Conference on Artificial
Intelligence. (IBERAMIA 2004, Workshop Herramientas y recursos lingüísticos
para el español y el portugués, p. 188-195)
[Villena Román, J. (1999)]. Sistemas de Recuperación de Información.
Departamento Ingeniería y Sistemas Telemáticos. Universidad de Valladolid.
España.
134
Cross-language Question Answering: The Key Role of Translation
S. Larosa1, J. Peñarrubia2, P. Rosso3, M. Montes-y-Gomez4 1Dipartimento di Informatica e Scienze dell’informazione
Università degli Studi di Genova, Italy 2000s036@educ.disi.unige.it
2Facultad de Informática, Universidad Politécnica Valencia, Spain jlpenarr@upvnet.upv.es
3Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Spain
prosso@dsic.upv.es 4Laboratorio de Tecnologias de Lenguaje
Instituto Nacional de Astrofisica, Óptica y Electrónica, Mexico mmontesg@inaoep.mx
Abstract
The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them for writing a query in natural language and obtaining a concise answer. Cross-language QA systems allow the user for querying in a language different than the language in which documents are written. In this paper, we illustrate a case study to understand how much the translation of the questions may reduce the accuracy of a QA system. The main goal is to investigate whether more machine translators could be used in order not to rely just on one translation and to choose the best one on a statistical basis. 1. Introduction
Nowadays, the Web has become our main information repository: nearly all kind of information (digital libraries, newspapers collections, etc.) is available in electronic format. These documents may satisfy almost every information need. Therefore, rather than Question Answering (QA) systems which are based on sophisticated linguistic analyses of both questions and candidate answers, it makes sense to use a language-independent approach, which is supported by the data redundancy of the Web [1]. The main idea is that questions and answers are commonly expressed using the same words, and that the probability of finding a simple (lexical) matching between them increases with the redundancy of the Web [2, 3, 4].
In recent years, the combination of the Web growth and the explosive demand for better information access
has motivated the interest in developing QA systems. Many are the efforts made both by academic institutions as well as well known research companies like IBM, which recently developed the prototype of the Piquant (Practical Intelligent Question Answering Technology) search engine [5].
Documents on the web are written in more than 1,500 languages. Therefore, it is useful to provide an inexperienced user with a flexible access to the information allowing for writing a question in her mother tongue, and obtaining a concise answer [6].
In this paper, we illustrate a study for a Cross-Language Question Answering in which the questions are made in a certain language whereas the documents are written in a different one. In order to tackle the problem of the translation of the questions, a combination of translators should be used. The paper is structured as follow. Section 2 describes the Cross-language Web-based QA system and the experiments we carried out. Section 3 illustrates the language-independent approach we have been investigating and the section 4 shows some preliminary results. Finally, some conclusions are drawn in the section 5. 2. Cross-Language Web-Based QA System
The system we used was developed at the Language Technologies laboratory of the INAOE at Mexico [7]. Given a question, the QA system makes combinations of its words, searching for these new queries on the Web through a search engine’s browser (e.g. Google). For each of the new query reformulations (obtained manipulating the order of the words of the question), the system collects a certain number of snippets (the
snippet is the part of a relevant document that the browser retrieves which contains almost all the words of the query). Finally, possible answers are extracted on a statistical basis, and a final ranking of candidates is returned. Therefore, the main steps of the QA system are: query reformulation (verb movement, bag of words, components [7]), snippets recollection, and answer extraction. In case of Cross-language QA, a translation preprocess is needed in order to translate the questions from the source language into the target language of the documents. In order to extract the most frequent n-grams (sequences of n words) from the snippets (each n-gram is defined as a possible answer to the given question), we used a statistical criterion which ranks them by decreasing likelihood of being the correct answer. The method which is used for the n-gram extraction and ranking is based on regular expressions. A compensation factor is applied in order to avoid favoring short n-grams with respect to large ones. The method extracts the twenty most frequent unigrams which satisfy a given typographic criteria (i.e., words starting with an uppercase letter, numbers and names of months), determines all the n-grams (from bigrams to pentagrams, built from the set frequent unigrams), ranks the n-grams based on their compensated relative frequency, and finally selects the top five n-grams (candidates as possible answers).
The compensated relative frequency of a n-gram g(n) = (w1…wn) is computed as follows [7]:
∑∑ ∑=
−
=∈∀
=n
i
in
jGx
ix
ijng
i
ff
P1 1 )(
)()(
where Gi is the set of n-grams of size i, |Gi| indicates the cardinality of this set, j(i) is the n-gram j of size i contained in g(n), and fj(i) is the frequency of occurrence of this n-gram. The QA system has been tested in monolingual (Spanish, Portuguese and Italian) [7,8] as well as in Cross-language (Catalan-Spanish and Arabic-English) tasks [9]. For the Catalan-Spanish and Arabic-English QA Cross-language experiments, the original corpus of the Cross-Language Evaluation Forum (CLEF)-2003 [10] (mainly focused on answering factual queries, i.e., those having a simple named entity as the answer) was manually translated into Catalan and Arabic. Thereafter, the translation of the questions was made using the SALT Valencian-Spanish translator [11] and the TARJIM Arabic-English translator [12], respectively. The precision of correct answers obtained with the questions translated from Catalan into Spanish was
approximately half of that obtained directly with the Spanish questions. It has to be mentioned that both languages have many similar words, and in some cases even searching on the Web with the question in Catalan, the retrieved snippet was in Spanish. In the Arabic-English Cross-language experiments, we compared the results obtained querying the QA system with the original corpus in English and with that one obtained automatically after the Arabic-English translation. In Table 1 it is possible to appreciate that the number of questions correctly answered decreased of more than one third (in the best case of the verb movement reformulation). The table gives an idea of how much the accuracy of the results may decrease due to the translation process of the questions.
Table 1. Precision and MRR measures
Questions Bag words Comp.
Comp no 1st word
Comp no 1st
and 2nd words
Verb mov.
English (original)
17.1% 0.12
24.4% 0.19
26.7% 0.20
22.0% 0.16
39.5%0.31
English (from Arabic)
6.0% 0.04
2.4% 0.02
7.4% 0.06
8.4% 0.06
10.7% 0.08
The Mean Reciprocal Rank (MRR) measure was also used to fully evaluate the performance of the system:
∑=
=n
iirn
MRR1
1
The MRR measure takes into account what is the
ranking of the extracted answer (the contribution of a question, which is not obtained an answer for, is 0): n is the total number of test questions and ri is the reciprocal of the rank (position in the answer list) of the first correct answer. For instance, if the correct answer is in the second position, ri = 0.5, whereas if it is in the third then ri = 0.33. In the case the correct answer does not occur in the list of the top five n-grams, then ri =0.
At the moment of writing this paper, some other Cross-language experiments have been carrying out (Urdu-English, Persian-English, and Italian-Spanish) in order to study how much the translation pre-process of the questions may decrease the performance of the QA system for other language combinations. No matter how much exactly the accuracy decreases in each Cross-language task: it is no doubt that the translation has a key role in the final performance of the system. Therefore, the way to improve the quality
of the translation of the questions needs to be investigated. In the next section a first statistical attempt is described. 3. Combining Translations
A very important step for a Cross-language QA system is the translation of a question from a language source to a destination one. Generally, majority of QA systems use online translators, but the quality of their translations is often not very good and this has a negative impact on the QA system efficiency. We suggest an approach which uses more than one translator and selects the best translation. Two methods were implemented: Word-Count and Double Translation. Word-Count exploits the redundancy of terms in all the translations, and the translation with the highest number words in common (in other words the most similar) will be chosen. To establish the number of common words and calculate the similarity among the translations, two formulae have been chosen: the Dice and the Cosine formulae. With Word-Count and the Dice formula we make an intersection of the translations to find the number of common words.
In order to illustrate the two language-independent approaches, we describe them using the following examples of translated question from Italian into Spanish with four different translators [13]: “Che cosa significa la sigla CEE?” (“What does the acronym EEC mean?”)
1. ¿Qué significa la sigla CEE? 2. ¿Qué cosa significa siglas el EEC? 3. ¿Qué significa la CEE de la abreviación? 4. ¿Qué cosa significa la pone la sigla CEE?
Therefore, the Dice formula is used to establish the degree of similarity among the translations in order to rank them:
( )( ) ( )ji
jiji tlentlen
ttlenttsim
+×
=I2
),(
where: - ti and tj are the two different translations; - len(ti∩tj) indicates the number of common words of both translations; - len(tk) represents the number of words of translation tk. To get a corresponding similarity value for every translation, the similarity between a translation and the others has to be calculated using the previous formula (the partial results will be added together in order to
obtain its similarity value). For instance, to get the similarity of the first translation we do: sim(t1,t2)+ sim(t1,t3) + sim(t1,t4). The translation with the highest value is chosen. To increase the accuracy of the choice of the best translation, n-grams are used (an n-gram is a sequence of n words). If for instance there are two translations which have the same identical words but with a different order, n-grams allows for calculating their similarity values. Examples of 2-grams of the sentence below are: “Qué significa la sigla CEE?” (“What does the acronym EEC mean?”) “Qué significa” “significa la” “la sigla” “sigla CEE” The Word-Count method was implemented also using the cosine formula to calculate the similarity degree. In this model, translations are represented as vectors in a t-dimensional space (t is the general number of index terms or keywords). The keywords weights are calculated using a scheme-like Term Frequency – Inverse Document Frequency (tf-idf) [14]. Examples of translated question with four different translators are: “Qual’ è la capitale della Repubblica del Sud Africa?” (“What is the capital of the Republic of South Africa?”) 1. ¿Cuál es la capital de la República de la Sur África? 2. ¿Cuál es entendido ellos de la república de la África del sur? 3. ¿Cuál es la capital de la República del Sur una Africa? 4. ¿Cuál es el capital de la república del sur Africa? The list of keywords is: “cuál”, “es”, “la”, “capital”, “de”, “república”, “sur”, “áfrica”, “entendido”, “ellos”, “del”, “una”, “africa”,“el” We get the list of keywords of all translations (in order to define the dimensionality of the vector space), and then measure the weight of every keyword for every translation using the following formula:
)1log(Nnft i
ijij +×=
where: - tij indicates the weight of word i at translation j; - fij is the normalized frequency of word i in the translation j; - N is the total number of translations;
- ni is the number of translations containing the word i. Once the vectors have been found, the next step is the calculation of the similarity degree among all the translations by using the following formula:
( ) ( )∑∑
∑∀∀
∀
×
×=
k jkk ik
jkk ikji
tt
ttttsim
22,
In the formula tik and tjk represent two generic vector weights. The translation with the highest value is chosen. The final calculation is done as follows: Translation1 = sim(t1,t2) + sim(t1,t3) + sim(t1,t4) Translation2 = sim(t2,t1)+ sim(t2,t3) + sim(t2,t4) Translation3 = sim(t3,t1)+ sim(t3,t2) + Sim(t3,t4) Translation4 = sim(t4,t1)+ sim(t4,t2) + Sim(t4,t3) With the Double Translation method, every question in Italian is translated into Spanish and then retranslated back into Italian. Four translators are used and the translation whose results are more similar to the original question will be chosen. The Dice and the Cosine formulae are used in this case as well. The algorithms used are those previously illustrated. Example of original question and double translations are: “Che cosa significa la sigla CEE?” (“What does the abbreviation EEC mean?”) 1. ¿Che cosa significa la sigla CEE? 2. ¿Che cosa significa le abbreviazioni il EEC? 3. ¿Che significa il CEE dell'abbreviazione? 4. ¿Che cosa ha importanza la mette la sigla di CEE? As we already mentioned, the methods are totally statistical, and therefore language-independent. At the moment of writing this paper, the application of the methods to other pairs of language other than Italian-Spanish is under investigation (e.g. Catalan-Spanish and Arabic-English [9]). The only limitation to these methods derives from the availability of translators in the source language. 4. Experiments In the experiments we carried out, we translated 450 factual question derived from the CLEF 2003 competition. Four different translators were used (only two of these allow a direct translation from Italian to Spanish). The following tables show the percentage of success and the number of question which were properly translated in every experiment.
Table 2. Word-count, Dice formula
Table 3. Double-Translation, Dice formula
Table 4. Word-count, Cosine formula
Table 5. Double-Translation, Cosine formula
From these experiments we have observed that some translators made bad translations (in particular those that not allow a direct translation from the source language into the target one). The machine translator which obtained the best results is PowerTranslationPro (55.33%). This baseline was better than our best results (51.55%) which were obtained with the Word-Count method. Nevertheless, the preliminary results we obtained seem to be promising. In fact, an optimal combination among the Word-count and Double Translation methods could increase the percentage of success. We estimate that it should be possible to obtain approximately an increase of up to 20% of the system’s performance. This is due to the fact that the choices obtained from two methods are not the same. Finally, we carried out another experiment in order to investigate how to combine the methods. In this last experiment we make a comparison between the methods and the baseline. The questions were separated into the following categories: Date, Person, Organisation, Location, and Measure. The table 6 shows the best results obtained by the methods, in comparison with the baseline machine translator (PowerTranslationPro). For every method appear only the best percentage among the methods. The numbers in bold means that a method was capable to reach a better performance then a baseline. For the Person category, our approach obtains the same results of the baseline, whereas for the Organisation and the Measure categories, the percentage of the correctly translated questions is higher. Probably, with the help of these results, we can make a good combination
1-Gram 2-Grams 3-Grams
51.33% 51.11% 51.55% 231/450 230/450 232/450
1-Gram 2-Grams 3-Grams
46.66% 49.11% 50.22% 210/450 221/450 226/450
1-Gram 2-Grams 3-Grams
48.66% 49.33% 50.00% 219/450 222/450 225/450
1-Gram 2-Grams 3-Grams
45.77% 48.44% 49.11% 206/450 218/450 221/450
between Word-Count and Double Translation and improve the percentage of success.
Table 6. Questions separated for categories
5. Conclusions In this paper we investigated the possibility of improving the question translation preprocess of a Cross-language QA system. Two totally statistical and language-independent methods were described. The preliminary results seem to be promising an for some of the studied categories were better than those obtained by the baseline. Further experiments are needed to find an optimal combination among the methods and, therefore, increase the percentage of success. As further work, it would be also interesting to use the JIRS passage retrieval system [15] in order to fully take advantage of the redundancy of the Web during the validation of the translations. Acknowledgments The work was partially supported by the R2D2 (CICYT TIC2003-07158-C04-03), ICT EU-India (ALA/95/23/2003/077-054) research projects and CONACYT 43990. References [1] E. Brill, J. Lin, M. Banko, and S. Dumais, “Data-intensive question answering”, Proc. TREC-10, 2001.
[2] E. Hovy, L. Gerber, U. Hermajakob, M. Junk, and C. Lin, “Question answering in Webclopedia”, Proc. TREC-9, 2000. [3] C. Kwok, O. Etzioni, and D. Weld, “Scaling question answering to the Web”, Proc. of the WWW Conference, 2001. [4] J. Lin, J., “The Web as a resource for question answering: perspectives and challenges”, Proc. of the 3r
d Int. Conf. on
Language Resources and Evaluation (LREC), 2002. [5] IBM Piquant Question Answering system, at: http://www.research.ibm.com/compsci/spotlight/nlp/ [6] J. Vicedo, “Los Sistemas de Búsqueda de Respuestas desde una Perspectiva Actual”, Revista Iberoamericana de Inteligencia Artificial, 2004. [7] M. Del Castillo, M. Montes y Gómez, and L. Villaseñor, “QA on the web: A preliminary study for Spanish language”, Proc. of the 5
th Mexican Int. Conf. on Computer Science
(ENC), Colima, Mexico, 2004.
[8] L. Villaseñor-Pineda, M. Montes-y-Gómez and A. del Castillo, “Búsqueda de respuestas basada en redundancia: un estudio para el Español y el Portugués”, Proc. Taller de Herramientas y Recursos Lingüísticos para el Español y el Portugués, IX Ibero-American Conf. on Artificial Intelligence IBERAMIA 2004, Puebla, Mexico, November, 2004.
[9] P. Rosso, A. Lyhyaoui, J. Peñarrubia, M. Montes y Gómez , Y. Benajiba, and N. Raissouni, “Arabic-English Question Answering”, Proc. of Information Communication Technologies Int. Symposium (ICTIS), Tetuan, Morocco, June 2005. [10] Cross-Language Evaluation Forum (CLEF) European consortium: http://www.clef-campaign.org [11] SALT Valencian-Spanish Translator, available at: http:// www.cult.gva.es/salt/salt_programes_salt2.htm [12] TARJIM Arabic-English Translator, available at: http://tarjim.ajeeb.com/ajeeb/default.asp [13] S. Larosa, M. Montes y Gómez, P. Rosso and S. Rovetta, “Best Translation for an Italian-Spanish Question Answering System”,Proc. Of Information Communication Technologies Int. Symposium (ICTIS), Tetuan, Morocco, June 2005. [14] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley, 1999. [15] J. Gómez, M. Montes y Gómez, E. Sanchis and P.Rosso, “A Passage Retrieval System for Multilingual Question Answering Answering”, LNCS, Springer Verlag, TSD Int. Conf, Brno, Check Republic, September 2005 (accepted; to be published).
Date Person Organization Location Measure
Number of Questions 44 71 26 61 77
WordCount Dice and 1-gram
-- -- 46% 59% 58%
WordCount Dice and 2-gram
-- -- -- -- 58%
Double Trans
Dice and 2-gram
61% -- -- -- --
Double Trans
Dice and 3-gram
61% 64% -- -- --
Double Trans
Cosine and 3-gram
61% -- -- -- --
Baseline 70% 64% 42% 72% 40%
Arabic-English Question Answering
P. Rosso1, A. Lyhyaoui2, J. Peñarrubia3, M. Montes y Gómez4 , Y. Benajiba2, and N. Raissouni2
1 Dpto. Sistemas Informáticos y Computación, Universidad Politécnica Valencia, Spain
2 Abdelmalek Essaadi University, Ecole Nationales de Sciences Appliquées de Tanger, Morocco
3 Facultad de Informática, Universidad Politécnica Valencia, Spain 4 Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y
Electrónica, Mexico
Emails: prosso@dsic.upv.es; abdel@tsc.uc3m.es; jlpenarr@upvnet.upv.es; mmontesg@inaoep.mx; benajibayassine@yahoo.fr; raissouni@ensat.ac.ma
ABSTRACT - The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them for writing a query in natural language and obtaining a concise answer. QA systems are mainly suited to English as the target language. In this paper we will investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of the QA task.
1. INTRODUCTION
Nowadays, the Web has become our main information repository: nearly all kind of information (digital libraries, newspapers collections, etc.) in more than 1,500 languages is available on the Web in electronic format. These documents may satisfy almost every information need. Nevertheless, without suitable tools which could help the user, the great amount of retrieved information is nearly useless.
In Information Retrieval (IR) the user is interested in finding the most relevant documents which partially match a certain request (Baeza, 1999). Therefore, IR addresses the problems associated with the retrieval of documents from a collection in response to a user query and its goal is to search into a text collection (e.g. the Web) in order to return as result a subset of documents ordered by decreasing likelihood of being relevant to the given query. The most popular IR systems are the search engines for the Web (e.g. Google, Altavista and Yahoo). The aim of Cross-Language Information Retrieval is instead to retrieve documents written in a certain language (e.g. English) when the user query is written in another specific language (e.g. Arabic) (Y. Benajiba, 2004). In fact, if for instance the user is interested in investigating documents which are written in English, it would be nearly impossible to translate all of them into Arabic.
The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them
for writing a query in natural language and obtaining not the documents which contain the answer, but the concise answer itself (Vicedo, 2004). In recent years, the combination of the Web growth and the explosive demand for better information access has motivated the interest in Web-based QA systems. Due to the difficulty of the task, the last developments in QA (e.g. the prototype of the Piquant1 (Practical Intelligent Question Answering Technology) IBM search engine) are mainly focused on answering factual queries (i.e., those having a simple named entity as the answer) (Del Castillo, 2004).
QA systems are often suited to English as the target language. Cross-Language Question Answering allows for querying the system in a language (e.g. Arabic) which is not the language of the documents (e.g English). In this paper we approach the challenging Arabic-English QA task. The main goal is to investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of a QA system.
2. THE QA WEB-BASED APPROACH
The language-independent approach we used is supported by data redundancy (Brill, 2001) rather than sophisticated linguistic analyses of both questions and candidate answers. The main idea of the system we used, which is primarily based
1 http://www.research.ibm.com/compsci/spotlight/nlp/
on (Del Castillo, 2004), is that the questions and their answers are commonly expressed using the same words, and that the probability of finding a simple (lexical) matching between them increases with the redundancy of the Web (Hovy, 2000), (Kwok, 2001), (Lin, 2002).
2.1. Query Reformulation
Given a question, the system first generates several query reformulations manipulating the order of the words of the question. The possible reformulations are illustrated for the question: Where is the ICTIS Conference in 2005?
• Bag of words: the set of words of the question different than prepositions, conjuntions and article (i.e., stopwords); e.g. “is ICTIS Conference 2005”
• Verb movement: in order to transform an
interrogative sentence into a declarative one is necessary to eliminate the verb, or to move it to the final position of the sentence (a second word movement to the end was also investigated to consider the cases when an auxiliar verb exists), e.g. “the ICTIS Conference in 2005 is”
• Components: the question is divided in
components (each component is an expression delimited by a preposition) and new reformulations are defined combining these components; e.g. “is the ICTIS Conference” “in 2005” “in 2005 is the ICTIS Conference”
• Componenets without the first word: in
order to construct this set of reformulations we eliminate the main verb of the question, and then we apply the method of reformulations by components; e.g. “in 2005 the ICTIS Conference” “the ICTIS Conference” “in 2005”
• Componenets without the first and the
second words: we suppose the presence of an auxiliar verb (not in the above example) and then we apply the method of reformulations by components.
Some of the above reformulations may not be syntactically correct and, therefore, not so likely to be found on the Web. On the contrary, the right ones will have a higher redundancy on the Web. 2.2. Snippets Recollection and Answer Extraction
After the query reformulation, the QA system sends each reformulation to a search engine (e.g.
Google), and collects the returned snippets (document summaries) which were retrieved from the Web. This is an example of a snippet retrieved with the reformulation “the ICTIS Conference in 2005”: MyBusinessCommunities ... 11th international Conference on Concurrent Enterprising - ICE 2005 (103 ... ICTIS’2005 (131 visitors) Tetuan - Morocco, 2005-06-03 till 2005-06-06 ... www.prolearn-online.com/events.php?sort1=1& sort2=1&offset=60&newlanguage=1 - 24k - Cached - Similar pages The right answer (Tetuan – Morocco) is in the retrieved snippet and it is only a matter to extract it. To extract the most frequent n-grams (sequences of n words) from the snippets (each n-gram is defined as a possible answer to the given question), we used a statistical criterium which ranks them by decreasing likelihood of being the correct answer. The method which is used for the n-gram extraction and ranking is based on regular expressions A compensation factor is applied in order to avoid favoring short n-grams with respect to larges ones. The method extracts the twenty most frequent unigrams which satisfy a given typografic criteria (i.e., words starting with an uppercase letter, numbers and names of months), determines all the n-grams (from bigrams to pentagrams, built from the set frequent unigrams), ranks the n-grams based on their compensated relative frequency, and finally selects the top five ngrams (candidates as possible answes).
The compensated relative frequency of a n-gram g(n) = (w1…wn) is computed as follows (Del Castilo, 2004):
∑∑ ∑=
−
=∈∀
=n
i
in
jGx
ix
ijng
i
ff
P1 1 )(
)()(
(1)
where Gi is the set of n-grams of size i, |Gi| indicates the cardinality of this set, j(i) is an –gram j of size i contained in g(n), and fj(i) is the frequency of occurrence of this n-gram.
3. PRELIMINARY EXPERIMENTS
3.1. The CLEF-2003 Query Corpus
Some preliminary experiments were carried out using the queries corpus of the CLEF2-2003 competition. The Cross-Language Evaluation Forum (CLEF) is a European consortium that
2www.clef-campaign.org
organises an international competition regarding of IR and QA systems, operating on European languages in both monolingual and cross-language contexts. In our case, we used the questions in English and compared the answers with those obtained after the translation process into English from an Arabic corpus which was manually created by a linguist. For the Arabic-English translation process, an automatic machine translator was used. 3.2. The Query Translation Process One of the nowadays challenge is writing a question in a language (e.g. Arabic) and query a collection of documents which are written in another language (e.g. English). In fact, it would be technically impossible to translate all the target documents into the query’s source language. The main aim of our preliminary experiments was to investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of the QA task. For the translation of the questions the TARJIM3 Arabic-English machine translation system was used. 3.3. Experimental Results
For each question we generated the five different kinds of query reformulations, and for each reformulation we collected, if posible, 50 snippets. Table 1 shows the precision (i.e., the proportion of the questions which were correctly answered) of the preliminary experiments we carried out comparing the performance of the QA system when the original English questions and those obtained after the Arabic-English translation were used. The best results were generally obtained with the “verb movement” reformulation. Nevertherless, a more detailed analysis of the results showed us that there are cases (e.g. questions like “What is the capital of…” or “In what year…”) in which other reformulations (e.g. the components ones) allow to obtain the right answer.
Table 1. Precision of correct answers (over 450).
In the further experiments, we took into consideration the top five better answers for each question. In order to fully evaluate the performance of the QA system, the precision measure was used together with the Mean
3http://tarjim.ajeeb.com/ajeeb/default.asp
Reciprocal Rank (MRR) of the first correct answer (see Table 2). The MRR is computed as follow:
∑=
=n
iirn
MRR1
1
(2)
where n is the total number of test questions and ri is the reciprocal of the rank (position in the answer list) of the first correct answer. For instance, if the correct answer is in the second position, ri = 0.5, whereas if it is in the third then ri = 0.33. In the case the correct answer does not occur in the list of the top five n-grams, then ri =0.
Table 2. Precision and MRR measures.
In every query reformulation, the translation process caused a decreasing of even more than 30% in the performance. Tables 3 and 4 show a couple of bad translations (in the first one the proper name “Nirvana” was also wrongly translated).
Table 3. Example in which also a proper name was badly translated.
original What was the name of the singer and head of Nirvana?
Arabic ما اسم المغني و رئيس نرفانا ؟ translation What is the name of the main singer of
Nirfana?
Table 4. Example of bad translation.
original How many European countries form part of the G7?
Arabic آم عدد الدول األوربية المكونة لمجموعة السبع؟ translation Quantity of an European country
belongs to the group of seven? On the other hand, in quite unusual cases (see Tables 5 and 6) with the translated question we obtained a right answer whereas, we did not obtain any (first case) or we obtained a wrong one (second case) with the original one.
Table 5. Example of wrong translation and right answer (California).
original Which American state has the strictest environmental laws?
Arabic ما هي الوالية األمريكية ذات القانون البيئي األآثر صرامة؟
translation What she is the American state for which the environmentallaws with more stricness?
Questions
Bag words Comp.
Compno 1st word
Comp no 1st
and 2nd words
Verb mov.
English (original)
9.1% (41)
17.1% (77)
14.9% (67)
10.4% (47)
24% (108)
English (from Arabic)
3.8% (17)
1.6% (7)
4.9% (21)
4.9% (21)
7.2% (31)
Questions
Bag words Comp.
Compno 1st word
Comp no 1st
and 2nd words
Verb mov.
English (original)
17.1% 0.12
24.4% 0.19
26.7% 0.20
22.0% 0.16
39.5%0.31
English (from Arabic)
6.0% 0.04
2.4% 0.02
7.4% 0.06
8.4% 0.06
10.7% 0.08
Table 6. Example of wrong translatrion and right answer (February)
original During what month do almond trees blossom?
Arabic متى تزهر أشجار اللوز؟ translation During any month the almonds trees
bloom ? 4. CONCLUSIONS AND FURTHER WORK
The performance of a cross-language Arabic-English QA system is very much affected by the translation process. In the experiments we carried out the QA performance decreased of more than 30%. More machine translators should be used at the same time in order not to rely just on one translation and to choose the best one on a statistical basis (Larosa, 2005). It should be also interesting to use the query reformulation technique directly to the Arabic language without the necessity to go through the Arabic-English translation process for each query.
Acknowledgments
This work was made possible “sucran” (thanks) to the R2D2 (CICYTTIC2003-07158-C04-03), ICT EU-India (ALA/95/23/2003/077-054) research projects and Conacyt (J43990-Y).
References
Baeza, R., and Ribeiro, B., 1999, Modern Information Retrieval. ACM Press, New York, Addison-Wesley.
Brill, E., Lin, J., Banko, M., and Dumais, S., 2001, Data-intensive question answering. In TREC-10 2001.
Del Castillo, M., Montes y Gómez, M., and Villaseñor, L. 2004, QA on the web: A preliminary study for Spanish languege. Proceedings of the 5th Mexican International Conference on Computer Science (ENC04), Colima, Mexico.
Hovy, E., Gerber, L., Hermajakob, U., Junk, M., and Lin, C., 2000, Question answering in Webclopedia. In TREC-9 2000.
Kwok, C., Etzioni, O., and Weld, D. 2001, Scaling question answering to the Web. Proceedings of the WWW Conference, 2001.
Larosa, D., et. al., 2005, Best Translation for an Italian-Spanish Question Answering System. Proceedings of Information Communication Technologies International Symposium - ICTIS’05, Tetuan, Morocco, 3-6 June 2005.
Lin, J., 2002, The Web as a resource for question answering: perspectives and challenges”. Proceedings of the 3rd
International Conference on Language Resources and Evaluation (LREC-2002).
Y. Benajiba, M. S. Kasttet, and A. Lyhyaoui, 2004, Bilingual Information Retrieval. Internal Report. Abdelmalek Essaadi University, Ecole nationals des sciences appliqués de Tanger, Morocco.
Vicedo, J., 2004, Los Sistemas de Búsqueda de Respuestas desde una Perspectiva Actual. In Revista Iberoamericana de Inteligencia Artificial. (in Spanish).
136
Anexo III
Preguntas CLEF2003 M SPA 0001 ¿Cuál es la capital de Croacia?
M SPA 0002 ¿Qué país invadió Kuwait en 1990?
M SPA 0003 ¿Cómo se llama el servicio de seguridad nacional de Israel?
M SPA 0004 ¿Cuántas personas murieron ahogadas al zozobrar y hundirse el
"Estonia"?
M SPA 0005 ¿Dónde está el Muro de las Lamentaciones?
M SPA 0006 ¿Cuándo decidió Naciones Unidas imponer el embargo sobre
Irak?
M SPA 0007 ¿Cuántos habitantes hay en Irak?
M SPA 0008 ¿Dónde se celebró la cumbre del G7?
M SPA 0009 ¿Qué país ganó la Copa Davis?
M SPA 0010 ¿Cuántas personas fueron rescatadas por los equipos de socorro
tras el naufragio del ferry Estonia?
M SPA 0011 ¿A qué país se dirigían las ayudas del programa Turquesa?
M SPA 0012 ¿Cuál es la capital de Haití?
M SPA 0013 ¿Cuándo se produjo la reunificación de Alemania?
M SPA 0014 ¿Cuántos habitantes tiene Suecia?
M SPA 0015 ¿Qué significan las siglas IRA?
M SPA 0016 ¿Cuánto tiempo ha estado en el poder Kim Il Sung en Corea del
Norte?
M SPA 0017 ¿Quién es el presidente de la Comisión Europea?
M SPA 0018 ¿Quién es el presidente de la Autoridad Nacional Palestina?
M SPA 0019 ¿Cuántos habitantes tiene Rusia?
M SPA 0020 ¿A qué edad murió Joseph di Mambro?
M SPA 0021 ¿Quién era conocido como el "Zorro del Desierto"?
M SPA 0022 ¿Cuántos habitantes tiene Chechenia?
M SPA 0023 ¿Cómo se llama el hijo de Kim Il Sung?
M SPA 0024 ¿Dónde está el volcán Popocatepetl?
M SPA 0025 ¿En qué país se encuentra la región de Bosnia?
145
M SPA 0026 ¿Cuántos muertos al año causan las minas antipersona en el
mundo?
M SPA 0027 ¿Cuál es el nombre técnico del mal de las vacas locas?
M SPA 0028 ¿Qué significan las siglas OMC?
M SPA 0029 ¿De qué puerto partió el ferry "Estonia"?
M SPA 0030 ¿Cuántos habitantes tiene Sidney?
M SPA 0031 ¿Dónde se hundió el Estonia?
M SPA 0032 ¿Dónde está Chiapas?
M SPA 0033 ¿Quién es el creador de "Doctor Snuggles"?
M SPA 0034 ¿Quién es el líder bosnio?
M SPA 0035 ¿Quién fue la ganadora del torneo de Wimbledon?
M SPA 0036 ¿En qué año cayó el muro de Berlín?
M SPA 0037 ¿Qué ferry se hundió en el Sudeste de la isla Utoe?
M SPA 0038 ¿Qué presidente de Corea del Norte murió a los 82 años de
edad?
M SPA 0039 ¿Por qué teoría se ha concedido el Premio Nobel de Economía?
M SPA 0040 ¿Cómo murió Ayrton Senna?
M SPA 0041 ¿A qué edad murió Thomas "Tip" O'Neill?
M SPA 0042 ¿Quién es el presidente del Parlamento Europeo?
M SPA 0043 ¿Cuál es la capital de Irlanda?
M SPA 0044 ¿Cuántos objetos de arte son robados en Europa cada año?
M SPA 0045 ¿En qué estado de Estados Unidos está San Francisco?
M SPA 0046 ¿Cuántos cantones hay en Suiza?
M SPA 0047 ¿Qué día comenzó la intifada?
M SPA 0048 ¿En qué país está la zona de los Grandes Lagos?
M SPA 0049 ¿Dónde explotó la primera bomba atómica?
M SPA 0050 ¿Qué empresa ha comprado a la fabricante de coches Rover?
M SPA 0051 ¿En qué festival se entregan los premios "León de Oro"?
M SPA 0052 ¿Quién es el líder del Sinn Fein?
M SPA 0053 ¿Cómo se llama la compañía aérea nacional de Suiza?
M SPA 0054 ¿Cuántos tripulantes murieron en el submarino Emeraude?
M SPA 0055 ¿En qué tipo de procesador se descubrió un error en la unidad
aritmética?
M SPA 0056 ¿Sobre qué continente se detectó el agujero de ozono?
146
M SPA 0057 ¿Quién es el mayor exportador europeo de aceite de oliva?
M SPA 0058 ¿Cuándo se constituyó la República de Sudáfrica?
M SPA 0059 ¿Qué porcentaje del comercio mundial de drogas está controlado
por el Cartel de Cali?
M SPA 0060 ¿Cuál es la capital de Malasia?
M SPA 0061 ¿Cuál es la capital de Irán?
M SPA 0062 ¿Cuál es la capital de Turkmenistán?
M SPA 0063 ¿Cuál es el principal país productor de petróleo en el mundo?
M SPA 0064 ¿Cuántos países son miembros de la Unión Europea?
M SPA 0065 ¿Cuándo se firmo el Acta Única Europea?
M SPA 0066 ¿Qué cargo ostentaba Rabbani al estallar la guerra civil de
Afganistán en 1992?
M SPA 0067 ¿A qué grupo pertenecía John Lennon?
M SPA 0068 ¿Quién escribió "Star Trek"?
M SPA 0069 ¿Quién es el presidente de la República de Italia?
M SPA 0070 ¿Quién ostenta el poder en Pyongyang?
M SPA 0071 ¿Qué significan las siglas ETA?
M SPA 0072 ¿En qué parte de Rusia se rompió un oleoducto?
M SPA 0073 ¿Dónde se celebraron los Juegos Olímpicos de 1996?
M SPA 0074 ¿Cuántos hijos tiene Anthony Quinn?
M SPA 0075 ¿Cuál es la profesión de Renzo Piano?
M SPA 0076 ¿En qué año se creo el Fondo Monetario Internacional?
M SPA 0077 ¿Quién dirigió "Con la muerte en los talones"?
M SPA 0078 ¿Cuántas personas murieron en el juzgado de Euskirchen?
M SPA 0079 ¿Cuándo se fundó la CEE?
M SPA 0080 ¿En qué ciudad europea está la Torre Eiffel?
M SPA 0081 ¿A qué país pertenece el agente inmobiliario Schneider?
M SPA 0082 ¿Qué submarino nuclear francés sufrió un accidente?
M SPA 0083 ¿Quién es el presidente de Rusia?
M SPA 0084 ¿Quién es el presidente italiano de Asuntos Exteriores?
M SPA 0085 ¿Cuál es el nombre de pila de la mujer de Nelson Mandela?
M SPA 0086 ¿Qué significa OLP?
M SPA 0087 ¿En qué ciudad está el Museo del Prado?
M SPA 0088 ¿Cuál es la capital de Corea del Norte?
147
M SPA 0089 ¿Dónde se celebró la asamblea anual de la Comisión Ballenera
Internacional?
M SPA 0090 ¿Quién es el entrenador del equipo nacional de fútbol noruego?
M SPA 0091 ¿Cuál es la causa más frecuente de los accidentes de coche?
M SPA 0092 ¿Qué país de África ha adoptado una nueva constitución?
M SPA 0093 ¿Cuáles son las siglas del Fondo Mundial para la Protección de la
Naturaleza?
M SPA 0094 ¿Quién es el director de la CIA?
M SPA 0095 ¿Qué premio Nobel ganó Solzhenitsin?
M SPA 0096 ¿En qué ciudad se celebraron los Juegos Olímpicos de invierno?
M SPA 0097 ¿Cuándo tomará China la posesión de Hong Kong?
M SPA 0098 ¿Qué causó el incendio en un cine en la ciudad china de
Karamai?
M SPA 0099 ¿Cuántos habitantes hay en Moscú?
M SPA 0100 ¿En qué mes se produjo el naufragio del Estonia?
M SPA 0101 ¿Cómo se llamaba el cantante y líder de Nirvana?
M SPA 0102 ¿Quién es el presidente de la república francesa?
M SPA 0103 ¿De cuántas muertes son responsables los Jemeres Rojos?
M SPA 0104 ¿Cuál es la capital de Rusia?
M SPA 0105 ¿Cómo se llama la moneda china?
M SPA 0106 ¿Qué primer ministro francés se suicidó en los años 90?
M SPA 0107 ¿Cuándo se firmó el Tratado de Maastricht?
M SPA 0108 ¿Quién es el presidente de Perú?
M SPA 0109 ¿Qué presidente ruso asistió a la reunión del G7 en Nápoles?
M SPA 0110 ¿Dónde nació Adolfo Hitler?
M SPA 0111 ¿Cuál es la distancia entre la Tierra y el Sol?
M SPA 0112 ¿Qué significa el acrónimo ONU?
M SPA 0113 ¿Cuántos pasajeros murieron en el naufragio del ferry Estonia?
M SPA 0114 ¿A que primer ministro abrió la Fiscalía de Milán un sumario por
corrupción?
M SPA 0115 ¿Cuántos países miembros hay en las Naciones Unidas?
M SPA 0116 ¿En qué conferencia se crearon el BM y el FMI?
M SPA 0117 ¿En qué año fueron prohibidas las pruebas de armas biológicas y
tóxicas?
148
M SPA 0118 ¿Cuál es la capital de la República de Sudáfrica?
M SPA 0119 ¿De qué club de fútbol es presidente Jesús Gil?
M SPA 0120 ¿Quién proyectó la construcción de la catedral de San Pedro?
M SPA 0121 ¿Cómo se llama el refresco de cola de Richard Branson?
M SPA 0122 ¿De qué país es presidente Yeltsin?
M SPA 0123 ¿Qué día entró en vigor el Tratado de Maastricht?
M SPA 0124 ¿A qué marca pertenecían los alimentos para bebés en los que se
encontraron pesticidas?
M SPA 0125 ¿Cuándo se firmó el Tratado de Roma?
M SPA 0126 ¿Cuándo comenzó el embargo sobre Irak?
M SPA 0127 ¿Cómo se llama el jefe de gobierno de Australia?
M SPA 0128 ¿A partir de qué sustancia se obtiene el tolueno?
M SPA 0129 ¿Qué espectáculo es considerado el más grande del mundo?
M SPA 0130 ¿Qué significan las siglas CEE?
M SPA 0131 ¿Cómo se llama el sucesor del GATT?
M SPA 0132 Dar el nombre de algún tratamiento contra el SIDA.
M SPA 0133 ¿Cómo se llaman las líneas aéreas de Nikki Lauda?
M SPA 0134 ¿Quién es el presidente de Yugoslavia?
M SPA 0135 ¿Qué país europeo es el mayor consumidor de alcohol?
M SPA 0136 ¿Qué organismo impuso el embargo sobre Irak?
M SPA 0137 ¿Qué ciudadano británico recibió 50 latigazos en Qatar?
M SPA 0138 ¿Quién mató a Andrés Escobar, un jugador de fútbol colombiano?
M SPA 0139 Dar el nombre de una ciudad japonesa que haya sido castigada
por un terremoto.
M SPA 0140 Dar el nombre de alguna película de Spike Lee.
M SPA 0141 ¿Quién es el líder de los serbios de Bosnia?
M SPA 0142 ¿Cuántos habitantes tiene Corea del Norte?
M SPA 0143 ¿Cuándo ocurrió la catástrofe de Chernobil?
M SPA 0144 ¿En qué ciudad está la puerta de Brandeburgo?
M SPA 0145 ¿Quién es el ministro de economía alemán?
M SPA 0146 ¿En qué año entró España en la Comunidad Europea?
M SPA 0147 ¿Quién es el líder del grupo guerrillero UNITA de Angola?
M SPA 0148 ¿Cuántos habitantes tiene Berlín?
M SPA 0149 ¿En qué ciudad está Broadway?
149
M SPA 0150 ¿Quién es el presidente de Corea del Norte?
M SPA 0151 ¿Qué primer ministro británico visitó Sudáfrica en 1960?
M SPA 0152 ¿Qué equipo ganó la Copa de Europa de Clubs de Baloncesto?
M SPA 0153 ¿Cuántas personas murieron en el accidente de un Airbus en el
aeropuerto de Nagoya?
M SPA 0154 ¿Dónde está Basora?
M SPA 0155 ¿En qué ciudad se celebró la Conferencia Mundial de Población?
M SPA 0156 ¿Qué magnitud tuvo el terremoto que sacudió el norte de Japón?
M SPA 0157 ¿Qué presidente ruso ordenó la intervención en Chechenia?
M SPA 0158 ¿Cuánto valen 10 pesos?
M SPA 0159 ¿Qué premio fue concedido a Weinberg, Salam y Glashow?
M SPA 0160 ¿Dónde está Haití?
M SPA 0161 ¿Cuál es el nombre de pila de Milosevic?
M SPA 0162 ¿Cuántos motores tiene un avión?
M SPA 0163 ¿Quién es el presidente de FIAT?
M SPA 0164 Dar el nombre de un medicamento contra la malaria.
M SPA 0165 ¿Quién ganó el Tour?
M SPA 0166 ¿Quién es el fundador de la Orden del Templo del Sol?
M SPA 0167 ¿Qué empresa británica pertenece al consorcio Airbus?
M SPA 0168 ¿En qué año se creó el Banco Mundial?
M SPA 0169 ¿Dónde está Euskirchen?
M SPA 0170 ¿Qué equipo ganó el torneo de la NBA?
M SPA 0171 Dar el nombre de una película protagonizada por Audrey
Hepburn.
M SPA 0172 ¿Quién construyó el muro de Berlín?
M SPA 0173 ¿Cuántos partidos políticos participaron en las primeras
elecciones locales de la historia en Sudáfrica?
M SPA 0174 ¿En qué ciudad se celebró la final del mundial de fútbol?
M SPA 0175 ¿Quién es el presidente de Alemania?
M SPA 0176 ¿Quién es el líder de Nación del Islam?
M SPA 0177 ¿Cuál es la población mundial?
M SPA 0178 ¿Qué significan las siglas GATT?
M SPA 0179 ¿Cuándo explotó la primera bomba atómica?
M SPA 0180 ¿Cuándo se creó el GATT?
150
M SPA 0181 ¿Cuál fue el resultado del partido Italia-Noruega del mundial de
fútbol?
M SPA 0182 ¿Cuántos pasajeros tuvieron que abandonar el "Regent Star" tras
incendiarse el barco?
M SPA 0183 ¿Cuánto mide el Everest?
M SPA 0184 ¿En qué océano se hundió el Titanic?
M SPA 0185 ¿Quién es el presidente de Corea del Sur?
M SPA 0186 ¿Cuántos países participaron en la Conferencia Mundial de
Población?
M SPA 0187 ¿Quién fue el primer presidente de Indonesia?
M SPA 0188 ¿Cuál es la capital de Canadá?
M SPA 0189 ¿Qué premio Nobel fue concedido a Willy Brandt?
M SPA 0190 ¿A qué compañía petrolera pertenece Brent Spar?
M SPA 0191 ¿En qué ciudad está el parlamento europeo?
M SPA 0192 ¿Qué ex ministro francés fue encarcelado por corrupción?
M SPA 0193 ¿Quién es el primer ministro húngaro?
M SPA 0194 ¿Qué premio Nobel consiguió Kenzaburo Oe?
M SPA 0195 ¿Qué premio ganó la película "Pulp Fiction", dirigida por Quentin
Tarantino, en el Festival de Cine de Cannes?
M SPA 0196 ¿Cuál fue el resultado de la final de la Copa de Europa de Clubs
de Baloncesto?
M SPA 0197 ¿Cómo se llama el primer ministro holandés?
M SPA 0198 ¿Qué terrorista de ETA es conocida como 'La Tigresa'?
M SPA 0199 ¿Quién es el presidente de Estados Unidos?
M SPA 0200 ¿Cuántos campeonatos del mundo de Fórmula 1 ganó el piloto
brasileño Ayrton Senna?
151
ANEXO IV Preguntas CLEF2005 ¿Qué es BMW?
¿Qué son las FARC?
¿Quién es Nelson Mandela?
¿Quién es Javier Solana?
¿Quién es Giulio Andreotti?
Nombrar un edificio envuelto por Christo.
¿A cuánto asciende el premio para la ganadora de Wimbledon?
¿Con qué grupo ha cantado Robbie Williams?
Nombrar una película en la que se hayan usado animaciones por ordenador.
¿Quién recibió el Premio Nobel de la Paz en 1989?
¿Quién hizo el personaje de Superman antes de quedar paralizado?
¿Quién es el primer ministro de Macedonia?
¿Cuándo nació Christopher Reeve?
¿En qué año se casó el Príncipe Carlos con Diana?
¿Cuándo abrió el Sony Center en la Kemperplatz en Berlín?
¿Qué es la WWF?
¿Qué es la Camorra?
¿Quién es Bettino Craxi?
¿Quién es Diego Armando Maradona?
¿A cuánto años de prisión fue sentenciado Bettino Craxi?
¿Quién es Silvio Berlusconi?
¿Qué es Sabena?
¿Cuándo murió el Premio Nobel Reinhard Selten?
¿Cuándo nació Donatella Della Corte?
¿Qué conferencia de la UE adoptó la Agenda 2000 en Berlín?
¿Qué es la FIFA?
¿Qué es el COI?
¿Qué es la OMS?
¿Qué político liberal fue ministro de Sanidad italiano entre 1989 y 1993?
¿Quién es Romano Prodi?
152
¿A cuánto dinero ascendió el premio que recibieron Selten, Nash y Harsanyi
por el Premio Nobel de Economía?
¿En qué estación de tren está el "Museo del Presente" de Berlín?
¿Dónde nació Supachai Panitchpakdi?
¿Qué deporte practica Adrian Mutu?
¿Quiénes eran los dos firmantes del tratado de paz entre Jordania e Israel?
¿Qué alfabeto tiene sólo cuatro letras "A, C, G, y T"?
¿Quién es Rolf Ekeus?
¿Quién es Willy Claes?
¿Qué iglesia ordenó mujeres sacerdote en marzo de 1994?
¿Qué es el PRI?
¿Cuántos Mundiales había ganado Zagalo como jugador antes del nacimiento
de Ronaldo en 1977?
¿Quiénes son Akihito y Michiko?
¿Quién es Juan Luis Arsuaga?
¿Quién es Eudald Carbonell?
¿Quién es Amnon Ben-Tor?
¿Quién es Franck Goddio?
¿Quién es Simon Wisenthal?
¿Quién fue Kim Il Sung?
¿Quién es Jacques Blanc?
¿Quién es Yoko Ono?
¿Quién era Yasir Arafat?
¿Quién es Manuel Cimadevilla Miguel?
¿Quién es Sadam Hussein?
¿Qué es Greenpeace?
¿Qué es el CIB?
¿Qué es el G7?
¿Qué es el IME?
¿Qué es la ESA?
¿Qué es la NASA?
¿Qué es el GIA?
¿Qué es Medicos Sin Fronteras?
¿Qué es la UNAMIR?
153
¿Qué es AI?
¿Qué es la ONU?
¿Qué es la OLP?
¿Qué es el FIS?
¿Quién encontró el galeón "San Diego"?
¿Qué presidente ruso asistió a la reunión del G7 en Nápoles?
¿Quién es el rey noruego?
¿Qué presidente francés inauguró el Eurotúnel?
¿Quién es la viuda de John Lennon?
¿Quién fue el sucesor de Kim Il Sung?
¿Quién aprobó los primeros planes de construcción del Eurotúnel?
¿Qué monarca británico asistió a la inauguración del Eurotúnel?
¿Quién descubrió la tumba de Tutankhamon?
¿Con quién estaba casada Neferet?
¿Cuándo se creó la reserva de ballenas de la Antártida?
¿En qué fecha se reunió el G7 en Nápoles?
¿En qué fecha se inauguró el Eurotúnel?
¿En qué fecha llegará la sonda espacial Ulises a su destino?
¿Qué día fue la matanza del juzgado de Euskirchen?
¿Cuándo fue el funeral de Kim Il Sung?
¿Qué día nació Kim Jong Il?
¿Cuál es la fecha de nacimiento de Yasir Arafat?
¿En qué país está Hatsor?
¿En qué provincia está Atapuerca?
¿En qué ciudad está la mezquita de Al Aqsa?
¿Con qué país es fronterizo Corea del Norte?
¿En qué pais está Euskirchen?
¿A qué país pertenece la ciudad de Aquisgrán?
¿Dónde está Bonn?
¿En qué país está Tokio?
¿En qué país está Pyongyang?
¿Dónde comenzaron las excavaciones británicas para la construcción del
Eurotúnel?
¿Dónde se subastó una camisa militar de Lennon?
154
¿Qué organismo español se encarga de informar sobre los movimientos
sísmicos?
¿De qué organismo depende el ICONA?
¿Qué grupo encabeza Franck Goddio?
¿Qué agencia espacial ha construido la sonda Ulises?
¿Cómo se llama la agencia espacial norteamericana?
¿Qué agencia espacial tiene instalaciones en Robledo de Chavela?
¿Qué plataforma estaba acampada en el Paseo de la Castellana de Madrid?
¿A qué compañía aérea pertenece el avión secuestrado por el GIA?
¿Cuál es el nombre del consorcio aeronáutico europeo?
¿Qué organización española envió ayuda humanitaria a Ruanda?
¿Qué país fue denunciado por torturas en un informe de AI presentado ante el
Comité de las Naciones Unidas contra la Tortura?
¿Quién convocó a los expertos en energías renovables para acudir a una
reunión en Almería?
¿Cuántos ejemplares de ballena "Minke" quedan en el mundo?
¿Cuál era el valor aproximado de la carga de un galeón del siglo XVI?
¿Cuántas personas formaban la tripulación del "San Diego"?
¿A qué distancia de Burgos está Atapuerca?
¿Cuántos soldados rusos había en Letonia?
¿Cuántos pasajeros cruzarán el Eurotúnel anualmente?
¿A qué distancia de la Tierra está Júpiter?
¿Cuántos días se mantuvo la acampada en favor de la Plataforma del 0,7?
¿En cuántas horas se puede realizar el viaje de Londres a París por el
Eurotúnel?
¿Qué país se opuso a la creación de la reserva de ballenas de la Antártida?
¿Qué país ha cazado ballenas en el Océano Antártico?
¿A qué enfermedad corresponden las siglas RSI?
¿Qué tipo de dolencia es característica del RSI?
¿Qué vitaminas ayudan en la lucha contra el cáncer?
¿Qué fruta tiene vitamina C?
¿Qué países une el Eurotúnel?
¿Qué empresa gestiona el Eurotúnel?
¿Cuál es la misión principal de la sonda Ulises?
155
¿Con el nombre de qué enfermedad se corresponde el acrónimo BSE?
¿Qué país ha organizado la operación "Turquesa"?
¿Quién murió el día 8 de julio de 1994?
¿En qué población de la isla de Hokkaido hubo un terremoto en 1993?
¿Cuántas ballenas cazaba anualmente Japón antes de 1987?
¿Bajo mandato de qué organización estaba la UNAMIR durante su misión de
1994?
¿Qué submarino chocó con un buque en el Canal de la Mancha el 16 de
febrero de 1995?
¿Quién era el presidente del Comité Internacional de Bioética a finales de
1994?
¿En qué isla se celebró el Consejo de la Unión Europea durante el verano de
1994?
¿En qué país lucharon Tutsis y Hutus a mediados de los años noventa?
¿Qué organización estuvo acampada en la Castellana antes del invierno de
1994?
¿Qué se celebró en Nápoles del 8 al 10 de julio de 1994?
¿Quién era primer ministro de Noruega cuando se celebró el referéndum sobre
su posible incorporación a la UE?
¿Quién era el presidente de Uganda durante la guerra de Ruanda?
¿Qué grupo terrorista disparó morteros durante el ataque al aeropuerto de
Heathrow?
¿En qué época del año desapareció Jurgen Schneider al producirse la
bancarrota de su empresa?
¿Quién es Isaac Rabin?
¿Quién es Felipe González?
¿Qué es el PSOE?
¿En qué equipo comenzó Ayrton Senna su carrera en la F1?
¿Qué empresa fabrica el Cadillac?
¿En qué año murió el presidente de Chipre, Makarios III?
¿En qué circuito de F1 se mató Ayrton Senna?
¿De qué ciudad era Ayrton Senna?
¿En qué país está el circuito de Interlagos?
¿Qué premio ganó Pulp Fiction en el Festival de Cine de Cannes?
156
¿En qué país se celebró la Eurocopa de 1996?
¿Cuántas carreras de la copa del mundo de slalom ganó Alberto Tomba entre
1994 y 1995?
¿Cuántos divorcios fueron presentados en Finlandia entre 1990 y 1993?
¿Cuál era el cargo de Erkki Liikanen antes de convertirse en comisario de la
UE?
¿En qué equipo corrió Ayrton Senna antes de ser traspasado a McLaren?
¿Qué es la PESC?
¿Quién es Boris Yeltsin?
¿Cuál es el nombre del Presidente serbio?
¿Quién es el Secretario General de la ONU?
¿Quién sucedió a Jacques Santer en la presidencia de la Comisión Europea?
¿Qué significa el acrónimo OVNI?
¿Cuántas estrellas hay en nuestra galaxia?
¿Dónde vive el hombre más alto del mundo?
¿A qué organización internacionalmente reconocida pertenece el acrónimo AI?
¿Cuándo fue construida la Torre Eiffel?
¿Qué nuevo canal de televisión gay apareció en Francia el 25 de octubre de
2004?
¿Qué equipo de Fórmula 1 ganó el Gran Premio de Hungría en 2004?
¿Qué evento especial motivó la reunión de la Asamblea General de la ONU del
22 de octubre al 24 de octubre de 1995?
¿Cuándo pondrá Francia fin a las pruebas nucleares?
¿Qué es el MIT?
¿De qué organización es secretario general Willy Claes?
¿Qué edad tenía Nick Leeson en el momento de ser condenado a la cárcel?
¿Quién es el presidente del Comité Nobel noruego?
¿Cómo se llama el sindicato alemán de los trabajadores de la metalurgia?
¿Cuántos miembros tiene el sindicato IG Metall?
¿Quién es el delantero de la selección irlandesa de fútbol?
¿Quién es Yigal Amir?
¿Cuál es la última letra del alfabeto fonético de la OTAN?
¿Cómo murió Jimi Hendrix?
¿Cómo murió Olof Palme?
157
¿Cómo murió Isaac Rabin?
¿Cuánta gente vive en Estonia?
¿Qué edad tenía Richard Holbrooke en 1995?
¿De qué país era colonia Timor Oriental antes de ser ocupada por Indonesia en
1975?
¿Qué altura tiene el Nevado del Huila?
¿Qué volcán entró en erupción en junio de 1991?
¿En qué país está Alejandría?
¿Dónde está situado el oasis de Siwa?
¿Cuántos años estuvo en prisión Nelson Mandela?
¿Cuánto pescado come una foca al día?
¿Para qué periódico trabajaba Clark Kent?
¿Con qué película Marlee Matlin ganó un Oscar?
¿Qué huracán azotó la isla de Cozumel?
¿Quién es el patriarca de Alejandría?
¿Quién es el alcalde de Lisboa?
¿Quién es el primer ministro griego?
¿Cuándo declaró Macedonia su independencia?
¿Cuándo fue asesinado Salvo Lima?
¿Cuándo nació Louis Pasteur?
158