4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

13
07/04/22 Lingüística Computacional 1 LEXICONES Y CORPUS Carlos Mario Zapata J.

Transcript of 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

Page 1: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 1

LEXICONES Y CORPUS

Carlos Mario Zapata J.

Page 2: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 2

EJEMPLOS DE LEXICONES

• Diccionario:– Merriam-Webster.

• Lexicones:– EuroWordNet– Proyecto Aries– Universidad de Maryland– CIC-IPN

Page 3: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 3

LEXICON VS. CORPUS

• La calidad de los sistemas de PLN se mide con la calidad del lexicón asociado.

• Algunas palabras suelen escapar al alcance de los diccionarios convencionales y los legibles por máquina.

• Solución: Generación de lexicones, a partir de textos en lenguaje natural.

• Se realiza un proceso de adquisición léxica que se realiza con corpus anotados.

Page 4: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 4

ADQUISICIÓN DE CONOCIMIENTO LÉXICO

• Se deben poblar los lexicones.

• Se requieren miles de entradas, con muchas características cada entrada.

• Las fuentes son relativamente limitadas: existen pocos lexicones y no son muy completos; además, suelen ser costosos.

• La información ingresada al lexicón debería ser consistente y completa.

Page 5: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 5

FORMAS DE ADQUISICIÓN DE CONOCIMIENTO LÉXICO

• Manual:– Es la más costosa.– Muy usada para poblar lexicones.– Costos iniciales bajos.– La mayoría de aplicaciones en Lingüística

Computacional son relativamente pequeñas y sólo requieren precisión en las palabras.

Page 6: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 6

FORMAS DE ADQUISICIÓN DE CONOCIMIENTO LÉXICO

• Diccionarios Legibles por Máquina:– La información requerida por los lexicones se

encuentra en los diccionarios convencionales.– No es posible simplemente “citar” un diccionario.– Los diccionarios convencionales se producen con el

usuario humano en mente (¿Sistemas de bases de datos?).

– Los diccionarios convencionales pueden tener problemas de plenitud, consistencia y coherencia.

– Se requiere una estructura para leer e incorporar la información en el lexicón (¿Se requeriría un sistema de PLN para leer el lexicón?).

Page 7: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 7

LINGÜÍSTICA DE CORPUS

• Corpus: Cuerpo de evidencia lingüística compuesta típicamente por usos probados del lenguaje.

• Ej: Conversaciones diarias, publicidad radial, escritos publicados, etc.

• Generalmente en formato legible por máquina.• Colecciones bien organizadas de datos,

recogidas mediante un marco de ejemplos diseñado para permitir la exploración de cierta característica lingüística mediante los datos recogidos

Page 8: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 8

TIPOS DE CORPUS

• Monolingüe: De un solo lenguaje.• Comparable: Varios corpus monolingües

recogidos en distintos lenguajes pero bajo ejemplificación similar.

• Paralelo: Un corpus monolingüe y sus traducciones a otros lenguajes.

• Hablados: Colecciones de grabaciones, pero que tienen mayor valor computacional cuando se acompañan de transcripciones.

Page 9: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 9

ANOTACIÓN DE CORPUS

• Mejoramiento de la información de un corpus con información de tipo lingüístico.

• Proceso manual (con analistas humanos), semiautomático o automático (haciendo uso de ciertas herramientas como lematizadores y etiquetadores de habla (part-of-speech taggers).

• La calidad de la anotación automática es inferior a la anotación manual.

Page 10: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 10

VENTAJAS DE LA ANOTACIÓN DE CORPUS

• Facilidad de explotación: Los corpus anotados tienen más utilidad que los corpus no anotados.

• Reusabilidad.• Multifuncionalidad: surge de la reusabilidad, la

cual genera nuevas formas de uso y funciones para los corpus anotados.

• Análisis explícito: se pueden analizar características lingüísticas específicas, e incluso recolectar el corpus con ellas en mente.

Page 11: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 11

CRÍTICAS A LA ANOTACIÓN DE CORPUS

• La anotación produce corpus impuros, puesto que la interpretación del analista se plasma en el corpus cuando lo anota.

• Existen diferencias apreciables en precisión y consistencia entre anotaciones automáticas y manuales. Las primeras son menos precisas pero más consistentes.

Page 12: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 12

USOS DE LOS CORPUS ANOTADOS

• Etiquetado de habla.

• Desambiguación.

• Extracción de Términos.

• Construcción de Bases de Conocimientos.

• Evaluación de Sistemas de Procesamiento del lenguaje.

• Anotación automática a partir de anotación manual.

Page 13: 4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

04/21/23 Lingüística Computacional 13

EJEMPLOS DE CORPUS• Google.

• MICASE.