12/11/09 AESLA 2009 1
AESLA 09Lingüística de Corpus, Computacional
e Ingeniería Lingüística
Comunicación: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA
Guillermo jorge-Botana, José A. León, Ricardo Olmos.Universidad Autónoma de Madrid
12/11/09 AESLA 2009 2
Palabras con distintos sentidos en distintos contextos
• Palabras con distintos sentidos– Homonimia: Sentidos sin relación
• jota letra (Contexto) • jota región (Contexto)
– Polisemia: Sentidos relacionados• hoja rosal (Contexto) • hoja tinta (Contexto)
12/11/09 AESLA 2009 3
¿Cómo explotar el contexto para desambiguar?
HOJA
TINTA
ROSAL
12/11/09 AESLA 2009 4
¿Por qué LSA puede ser eficiente?
• Técnica basada en apariciones reales• Corpus
• Representación mensurable y manipulable de las palabras y estructuras textuales
• Operaciones sobre vectores.
• Tiene una métrica clara en cuanto a funciones de similitud
• Cosenos• Distancias• Correlaciones
12/11/09 AESLA 2009 5
LSA como modelo
12/11/09 AESLA 2009 6
LSA como modelo de representación del léxico
• Landauer & Dumais (1997)
– Tarea de reconocimiento de sinónimos.
12/11/09 AESLA 2009 7
LSA como modelo de la adquisición del léxico
• Landauer & Dumais (1997)
– El aprendizaje del lenguaje parece tener lugar mucho más rápido que lo que la exposición a los términos permite.
– El concepto de “león” se aprende también en los textos en que la palabra no aparece.
12/11/09 AESLA 2009 8
Limitaciones con polisemia
• Deerwester et al. (1990)
– Una palabra es un vector.– Ese vector es un promedio de todos los significados
ponderado por la frecuencia de los contextos en donde ha aparecido.
12/11/09 AESLA 2009 9
LSA no emula el procesamiento del lenguaje.
• Es una representación estática de unidades lingüísticas.
• Es simplemente un espacio semántico-vectorial
12/11/09 AESLA 2009 10
LSA+ Algoritmos puede emular algunos procesos del lenguaje
• Sobre este espacio vectorial tenemos que implementar algún tipo de operación para dar cuenta de algunos procesos (Burgess, 2000)
– Directos: cosenos, Distancias, Longitud de vector
– Contextuales: Construcción-integración, Algoritmo de predicación. (Kintsch,2001) o Ponderación a índices de confianza en el reconocimiento.
12/11/09 AESLA 2009 11
LSA+ Algoritmos puede emular algunos procesos del lenguaje
12/11/09 AESLA 2009 12
Hoja(Tinta)
Palabra(Palabra contexto)
Hoja(Rosal)
¿Sobre que trabajamos?
12/11/09 AESLA 2009 13
Experiencia anterior:Extracción de sentidos
• Espacio semántico: Psicopatología (Jorge-Botana, León, Olmos; en prensa)
• Suma de vectores:– V de “fobia” + v de “Tormentas”
• Extracción de los vecinos al vector resultante
“Fobia a las tormentas”
“Personalidad de la pistola”
P(C)
Personalidad (Pistola)
Fobia (Tormentas)
12/11/09 AESLA 2009 14
Experiencia anterior: Problemas
• Inundación del sentido predominante La definición de “fobia a las tormentas” posee muchos términos del sentido predominante de la fobia (fobia social).
12/11/09 AESLA 2009 15
Experiencia anterior: Problemas
Fobia
Público
Social
Precipicios
Timidez
12/11/09 AESLA 2009 16
Experiencia anterior: Problemas
• Definición inexacta – Aunque la lista de términos coincida con la del
sentido predominante (fobia específica), no cubre del todo las especificidades buscadas (“a las tormentas”).
12/11/09 AESLA 2009 17
Experiencia anterior: Problemas
•
Fobia
situaciones
Miedo
Serpientes
Ansiedad
12/11/09 AESLA 2009 18
Experiencia anterior: Problemas
• Definición de bajo nivel– Los términos de la lista no son lo suficientemente
representativos para cubrir todos los aspectos de “fobia a las tormentas”
12/11/09 AESLA 2009 19
Experiencia anterior: Problemas
Ejemplo: Fobia tormentas
PuentesAviones
Serpientes
Fobia tormentas
Miedo
Ansiedad
Temor
Y quizás también queremos
Términos de poca relevancia
Que sólo concurren con el término de referencia
12/11/09 AESLA 2009 20
Experiencia anterior: ¿Qué necesitamos?
12/11/09 AESLA 2009 21
Experiencia anterior: ¿Qué empleamos?
• Algoritmo de Kintsch– El Sentido es evanescente y temporal y se
genera en línea. – Dos componentes:
• Una representación flexible de las palabras– LSA, HAL, Modelo espacio vectorial clásico
• Un mecanismo que active contenido en base a su contexto.
– Una red Construcción-Integración, etc
12/11/09 AESLA 2009 22
Experiencia anterior: ¿Qué empleamos?
• Algoritmo de Kintsch– Se buscan los n primeros vecinos del término T– Se calcula la similitud de cada uno con la palabra contexto C.– Se forma una red entre el término T, C y lo n primeros vecinos de T– Las conexiones entre los nodos son los cosenos entre los términos que representan.– Se lanza la red con conexiones excitatorias e inhibitorias.– Vector resultante: La suma de los vectores término (T), contexto (C) y los k
primeros nodos más activados.
12/11/09 AESLA 2009 23
Experiencia anterior: ¿Qué empleamos?
• Corrección en base a la longitud de vector
– Mientras los vecinos semánticos se extraen generalmente empleando el coseno, nosotros corregimos el coseno introduciendo la longitud de vector.
– Similarity = Cos(A, I). – Confidence = Cos(A, I) * log (1 + VectorLength(I)),
12/11/09 AESLA 2009 24
Experiencia anterior: ¿Qué conseguimos?
12/11/09 AESLA 2009 25
Visualización
• Visualizar las palabras junto con sus contextos.
– HOJA(TINTA, ROSAL)
12/11/09 AESLA 2009 26
Visualización
• Método:– Corpus LEXESP(Sebastián, Cuetos, Carreiras & Martí,
2000) – Se emplea Gallito- .Net-Matlab para LSA y A.
predicación (www.elsemantico.com)– Se crea un grafo con todos los vecinos extraidos
– Se emplea Pajek. (Kamada –Kawai)
12/11/09 AESLA 2009 27
Visualización
• Visualización de los 30 primeros vecinos de “Hoja”
12/11/09 AESLA 2009 28
Visualización
• Hoja(Tinta, Rosal) Suma de vectores
VEGETALPAPEL
OTROS
HOJA
12/11/09 AESLA 2009 29
Visualización
• Hoja(Tinta, Rosal) Algoritmo de predicación
PAPEL
VEGETAL
HOJA
12/11/09 AESLA 2009 30
Visualización
• Hoja(Tinta, Rosal) – Algoritmo de predicación– Corrección con longitud de vector
PAPEL
VEGETAL
HOJA
12/11/09 AESLA 2009 31
Conclusiones:
• LSA proporciona una representación objetiva y mensurable de conocimiento estático.
• LSA es una buena base para simular procesos mediante algoritmos que tengan en cuenta las constricciones del contexto.
• LSA y los algoritmos que provienen de la psicolingúística tiene muchas aplicaciones en el ámbito de la industria lingüística (buscadores, interpretadores de intenciones del usuario, reconocedores de voz, indexadores de información diagnóstica, visualización, etc) .
Top Related