Post on 20-Jul-2022
Procesamiento automático de lenguaje natural
Alexander Gelbukhwww.Gelbukh.com
CIC, IPN, México
13 nov 2006 A. Gelbukh -- MICAI-2006 2
Moscú, Rusia
13 nov 2006 A. Gelbukh -- MICAI-2006 3
Corea Corea ..
13 nov 2006 A. Gelbukh -- MICAI-2006 4
México
13 nov 2006 A. Gelbukh -- MICAI-2006 5
Centro de Investigaciónen Computación (CIC)
Procesamiento automático de lenguaje natural
Alexander Gelbukhwww.Gelbukh.com
CIC, IPN, México
13 nov 2006 A. Gelbukh -- MICAI-2006 7
ProcesamientoProcesamientode Lenguaje Naturalde Lenguaje Natural
13 nov 2006 A. Gelbukh -- MICAI-2006 8
Convertir textos en estructuras
13 nov 2006 A. Gelbukh -- MICAI-2006 9
Que es lenguaje
Linguistic
module
Sentido
This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an
Texto
Lengu- aje
Sistema experto Lingu
istic modul
Voz,OCR
Len-guaje
13 nov 2006 A. Gelbukh -- MICAI-2006 10
La fuente de complejidad: una dimensión
This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the
i h i h i h f h
Language
Text (speech)
Meaning Meaning
........Text Text.......
Brain
1 Brain 2
13 nov 2006 A. Gelbukh -- MICAI-2006 11
ConocimientoConocimiento
Len-guaje
Len-guaje
This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of the
Texto
La fuente de complejidad: una dimensión
13 nov 2006 A. Gelbukh -- MICAI-2006 12
Procesador lingüístico como traductor
Linguisticmodule
Meanings
This is an example of the output text ofthe system. This is an example of theoutput text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is an
Texts
Linguisticmodule
Appliedsystem
13 nov 2006 A. Gelbukh -- MICAI-2006 13
Niveles de lenguaje
Surface level (Text)
Deep level (Meaning)
13 nov 2006 A. Gelbukh -- MICAI-2006 14
Niveles de lenguaje
Morphologic level
Syntactic level
Text level
Semantic level
13 nov 2006 A. Gelbukh -- MICAI-2006 15
This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of the
LanguageText Meaning
Morphologicalrepresentation
Syntacticrepresentation
Morpho-logicaltrans-former
Syntac-tic
trans-former
Seman-tic
trans-former
Semanitcrepresentation
Surfacerepresentation
Niveles de lenguaje y estructura del procesador lingüístico
13 nov 2006 A. Gelbukh -- MICAI-2006 16
Niveles de lenguaje
Morphological levels:Pre-morphologicalSurfaceDeep
Syntactic levels:Pre-syntacticSurfaceDeep
Surface level
Semantic levels:Pre-semanticSurfaceDeep
13 nov 2006 A. Gelbukh -- MICAI-2006 17
Procesamiento por capas
Syntactic transformer
Pre-syn- tactic trans- former
Surface syntactic
trans- former
Deep Syntactic
trans- former
Language
13 nov 2006 A. Gelbukh -- MICAI-2006 18
Representación textualEl texto es una secuencia de letras.
L a c i e n c i L a c i e n c i a e s i m p o a e s i m p o r t a n t e p a r t a n t e p a r a n u e s t r r a n u e s t r o p a o p a íí s . E s . E l G o b i e r n l G o b i e r n o l e p o n e o l e p o n e m u c h a a t e m u c h a a t e n c i n c i óó n .n .
13 nov 2006 A. Gelbukh -- MICAI-2006 19
Procesador Lingüístico
Módulo
Morfoló-gico
Módulo
Semán-tico
Módulo
Sintác-tico
ModuloMorfológico
Modulo morfológico
13 nov 2006 A. Gelbukh -- MICAI-2006 20
Representación morfológicaRepresentación morfológica es una secuencia de estructuras de palabras.
La LA articulo determinado, femenino
ciencia CIENCIA sustantivo feminino, singular
es SER verbo presente, 3ª persona, sing.
importante IMPORTANTE adjetivo singular
para PARA preposicion ---
nuestro NOSOTROS pronombre posesivo
pais PAIS sustantivo masculino, singular
13 nov 2006 A. Gelbukh -- MICAI-2006 21
Procesador Lingüístico
Módulo
Morfoló-gico
Módulo
Semán-tico
Módulo
Sintác-tico
ModuloSintáctico
Modulo sintáctico
13 nov 2006 A. Gelbukh -- MICAI-2006 22
Representación sintáctica
Representación sintáctica es una secuencia de árboles sintácticos.
SER
CIENCIA IMPORTANTE
PAIS
NOSOTROS
de
PONER
GOBIERNO ATENCION
LE MUCHA
13 nov 2006 A. Gelbukh -- MICAI-2006 23
Procesador Lingüístico
Módulo
Morfoló-gico
Módulo
Semán-tico
Módulo
Sintác-tico
ModuloSemántico
Modulo semántico
13 nov 2006 A. Gelbukh -- MICAI-2006 24
Representación semánticaRepresentación semántica es laestructura completa del texto.
CIENCIA
IMPORTANTE
PAIS
NOSOTROS
GOBIERNO
ATENCION
es
de
da
para
depara
Presupuesto
Organizacion
Sector
Dinero
es unForma
principal
necesita
es un
da
es un implica
13 nov 2006 A. Gelbukh -- MICAI-2006 25
El sentido del texto““La ciencia es importante para nuestro La ciencia es importante para nuestro papaíís.s.El Gobierno le pone mucha atenciEl Gobierno le pone mucha atencióón.n.””
La LA articulo determinado, femenino
ciencia CIENCIA sustantivo feminino, singular
es SER verbo presente, 3ª persona, sing.
importante IMPORTANTE adjetivo singular
para PARA preposicion ---
nuestro NOSOTROS pronombre posesivo
pais PAIS sustantivo masculino, singular
SER
CIENCIA IMPORTANTE
PAIS
NOSOTROS
de
PONER
GOBIERNO ATENCION
LE MUCHA
Presupuesto
Organizacion
Sector
Dinero
es unForma
principal
nececita
es un
da
es un implica
CIENCIA
IMPORTANTE
PAIS
NOSOTROS
GOBIERNO
ATENCION
es
de
da
para
depara
““La ciencia es importante para nuestro La ciencia es importante para nuestro papaíís.s.El Gobierno le pone mucha atenciEl Gobierno le pone mucha atencióón.n.””
La ciencia en nuestro país tiene dinero para su desarrollo.
13 nov 2006 A. Gelbukh -- MICAI-2006 26
?
Morphologicallevel
Syntacticlevel
Textlevel
Semanticlevel
The Meaning,yet unreachable
Language A Language B
Directa
Transferencia
Interlingua
13 nov 2006 A. Gelbukh -- MICAI-2006 27
Ejemplo: traducción
?
Morphologicallevel
Syntacticlevel
Textlevel
Semanticlevel
The Meaning,yet unreachable
Language A Language B
13 nov 2006 A. Gelbukh -- MICAI-2006 28
Problemas y mProblemas y méétodostodos
13 nov 2006 A. Gelbukh -- MICAI-2006 29
Dos problemas principales
• Ambigüedad• Complejidad de conocimiento necesario
– conocimiento lingüístico (depende de lenguaje)– conocimiento extralingüístico (no depende)
13 nov 2006 A. Gelbukh -- MICAI-2006 30
Ambigüedad• Léxica
– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?
• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.
• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.
13 nov 2006 A. Gelbukh -- MICAI-2006 31
Resolución de ambigüedad
• Una tarea bien definida– un número fijo de variantes– criterios claros de evaluación– corpus con variantes ya marcadas
• Permite comparación cuantitativa de sistemas– criterio numérico: precisión (accuracy)
• Avance medible. Deporte. Reto.
13 nov 2006 A. Gelbukh -- MICAI-2006 32
Métodos estadísticos
• Supervisados: requieren ejemplos– Un corpus grande donde la tarea ya se resolvió– El programa aprende los criterios de decisión– Corpus marcados son muy costosos… y malos.
• No supervisados: no requiere ejemplos– Se basan en corpus grandes pero no marcados– Muchísimo más barato… ¡parece magia!– Precisión usualmente mucho peor. Pero…
13 nov 2006 A. Gelbukh -- MICAI-2006 33
Reto: métodos no supervisados• Lingüísticamente: científico
– Método supervisado es clasificación (aprendizaje automático). Nada que ver con lingüística.
– No supervisado es ¡como un niño aprende!– Descubre la naturaleza del lenguaje
• Técnicamente: mejor (en largo plazo)– Corpus no marcados cada vez más grandes, gratis– Adaptable a colecciones específicas
13 nov 2006 A. Gelbukh -- MICAI-2006 34
Ejemplo: morfología no supervisada
• Descripción del tamaño mínimo• Cada palabra = base + terminación• Usando el número menor posible de bases y
terminaciones,• Describir todas las palabras del corpus• Gelbukh et al.: algoritmo genético
– Corpus muy pequeños. Español: Don Quijote.
13 nov 2006 A. Gelbukh -- MICAI-2006 35
• ablándate-• abland-áis• abland-ó• abland-aba• abland-aban• abland-ado• abland-an• abland-ar• abland-ara• abland-arme• abland-aron• abland-arte
• abland-e• abobado-• abolengo-• aboll-é• abolla-da• abolla-do• abomin-ábamos• abomin-able• abomin-ado• abomin-o• abon-asen• abon-o
• aborrascadas-• aborrec-í• aborrec-ía• aborrec-e• aborrec-en• aborrec-ió• aborrec-ible• aborrec-ida• aborrec-ido• aborrec-idos
13 nov 2006 A. Gelbukh -- MICAI-2006 36
• abject-• abject-ly• abjectness-• abjectness-es• abjurat-ion• abjurat-ions• abjur-e• abjur-ed• abjur-er• abjur-ers• abjur-es
• abjur-ing• abla-te• abla-ted• abla-tes• abla-ting• abla-tion• ablation-s• ablativ-e• ablativ-es• ablau-t• ablaut-s
• ablaze-• ab-le• ablegate-• ablegate-s• able-r• able-s• able-st• ablings-• ablins-• abloom-• abluen-t
13 nov 2006 A. Gelbukh -- MICAI-2006 37
артиллерий+скийартиллерий+скимартиллерий+скойартиллери+стартиллери+яарти+сарти+скиарти+стартистическими+арти+стомартист+уарти+сты
• архангел+• архангел+овых• архаровец+• архитектур+ной• архитектур+ные• архитектур+ным• архитектур+ных• асбеста+• аспи+д• аспи+да• аспид+ом• ассказывайте+
• астафьев+• астафьев+а• астафьев+ские• астахов+• астраха+ни• астраха+нка• астраханск+ими• астраханск+их• астраханск+ой• астраханск+ом• астраха+нь
13 nov 2006 A. Gelbukh -- MICAI-2006 38
hablohabita
habitaciónhacer
hablandohadahadas
haciendoharina
....
13 nov 2006 A. Gelbukh -- MICAI-2006 39
hablohabita
habitaciónhacer
hablandohadahadas
haciendoharina
....
habl-habit-hac-had-harin-
-o-a
-er-as
-iendo
? ?
13 nov 2006 A. Gelbukh -- MICAI-2006 40
hablohabita
habitaciónhacer
hablandohadahadas
haciendoharina
....
hablo-habita-habitación-hacer-hablando-hada-hadas-haciendo-harina-....
-∅
13 nov 2006 A. Gelbukh -- MICAI-2006 41
hablohabita
habitaciónhacer
hablandohadahadas
haciendoharina
....
habl-habit-hac-had-harin-
-o-a
-er-as
-iendo
13 nov 2006 A. Gelbukh -- MICAI-2006 42
hablohabita
habitaciónhacer
hablandohadahadas
haciendoharina
....
habl-habit-hac-had-harin-
-o-a
-er-as
-iendo
¿Cómo encontrar los conjuntos mínimos?
13 nov 2006 A. Gelbukh -- MICAI-2006 43
hablohabita
habitaciónhacer
hablandohadahadas
haciendoharina
....
habl-habit-hac-had-harin-
-o-a
-er-as
-iendo
¿Cómo encontrar los conjuntos mínimos?
100,000 palabras... 2100,000 conjuntos100000000000...000000000 variantes!
30,000 ceros
13 nov 2006 A. Gelbukh -- MICAI-2006 44
Algoritmos genéticos
13 nov 2006 A. Gelbukh -- MICAI-2006 45
Evolución natural
• Selección
• Herencia
• VariaciónDarwin
13 nov 2006 A. Gelbukh -- MICAI-2006 46
Codificación
• Las propiedades se codifican en una cadena:0010110011101110110101011011
• Cada elemento se refleja en una propiedad:1 = rubio, 0 = negro
• Herencia: el hijo herede la misma cadena• Variación: se cambia aleatoriamente un bit
(en la naturaleza: por rayos X cósmicos)
13 nov 2006 A. Gelbukh -- MICAI-2006 47
• 00101100111011101101010110110101111011011110111101100001
• 00101100110111101111011000010101111011101110110101011011
Qué es el sexo
13 nov 2006 A. Gelbukh -- MICAI-2006 48
• 00101100111011101101010110110101111011011110111101100001
• 00101100110111101111011000010101111011101110110101011011
Fuerte
Débil
Feo
GuapaFuerte Guapo
Débil Feo
13 nov 2006 A. Gelbukh -- MICAI-2006 49
¿Por qué el sexoes bueno?
• Rápidamente encuentracombinaciones de buenascualidades
• (También combinacionesde las malas, pero éstosmueren pronto: selección)
Hay muchos tiposde los algoritmos genéticos
13 nov 2006 A. Gelbukh -- MICAI-2006 50
Algoritmo evolutivo
0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111
13 nov 2006 A. Gelbukh -- MICAI-2006 51
Algoritmo evolutivo
0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111
13 nov 2006 A. Gelbukh -- MICAI-2006 52
Algoritmo evolutivo
0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111
13 nov 2006 A. Gelbukh -- MICAI-2006 53
Algoritmo evolutivo
0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111
13 nov 2006 A. Gelbukh -- MICAI-2006 54
Algoritmo evolutivo
0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111
13 nov 2006 A. Gelbukh -- MICAI-2006 55
Saturación del algoritmo genético
0
20
40
60
80
100
120
140
0 50 100 150 200Generation
Fitn
ess
Best in population
Worst in population
Maximum Lesk
Average Lesk
All zeroes
Random
13 nov 2006 A. Gelbukh -- MICAI-2006 56
El algoritmo genético
• Todas las posiblessubcadenas (inicio y fin)
• Cromosoma:100,000 + 100,000 bit1 si la cadena se incluye
• Función de adecuación:1) que cubre más palabras2) que sea de menor tamaño
0 h-0 ha-1 habl-1 habit-0 hac-1 had-1 harin-1 -o1 -a0 -as1 -er1 -iendo0 -endo0 -ndo
13 nov 2006 A. Gelbukh -- MICAI-2006 57
habl+ohabit+a
habitaciónhacer
hablandohad+ahadas
haciendoharin+a
....
0 h-0 ha-1 habl-1 habit-0 hac-1 had-1 harin-1 -o1 -a0 -as1 -er1 -iendo0 -endo0 -ndo
13 nov 2006 A. Gelbukh -- MICAI-2006 58
habl+ohabita
habitaciónhac+er
hablandohada
had+ashac+iendo
harina....
0 h-0 ha-1 habl-1 habit-1 hac-1 had-1 harin-1 -o0 -a1 -as1 -er1 -iendo0 -endo1 -ndo
13 nov 2006 A. Gelbukh -- MICAI-2006 59
habl+ohabit+a
habitaciónhac+er
hablandohad+ahad+as
hac+iendoharin+a
....
0 h-0 ha-1 habl-1 habit-1 hac-1 had-1 harin-1 -o1 -a1 -as1 -er1 -iendo0 -endo0 -ndo
13 nov 2006 A. Gelbukh -- MICAI-2006 60
• ablándate-• abland-áis• abland-ó• abland-aba• abland-aban• abland-ado• abland-an• abland-ar• abland-ara• abland-arme• abland-aron• abland-arte
• abland-e• abobado-• abolengo-• aboll-é• abolla-da• abolla-do• abomin-ábamos• abomin-able• abomin-ado• abomin-o• abon-asen• abon-o
• aborrascadas-• aborrec-í• aborrec-ía• aborrec-e• aborrec-en• aborrec-ió• aborrec-ible• aborrec-ida• aborrec-ido• aborrec-idos
13 nov 2006 A. Gelbukh -- MICAI-2006 61
• abject-• abject-ly• abjectness-• abjectness-es• abjurat-ion• abjurat-ions• abjur-e• abjur-ed• abjur-er• abjur-ers• abjur-es
• abjur-ing• abla-te• abla-ted• abla-tes• abla-ting• abla-tion• ablation-s• ablativ-e• ablativ-es• ablau-t• ablaut-s
• ablaze-• ab-le• ablegate-• ablegate-s• able-r• able-s• able-st• ablings-• ablins-• abloom-• abluen-t
13 nov 2006 A. Gelbukh -- MICAI-2006 62
артиллерий+скийартиллерий+скимартиллерий+скойартиллери+стартиллери+яарти+сарти+скиарти+стартистическими+арти+стомартист+уарти+сты
• архангел+• архангел+овых• архаровец+• архитектур+ной• архитектур+ные• архитектур+ным• архитектур+ных• асбеста+• аспи+д• аспи+да• аспид+ом• ассказывайте+
• астафьев+• астафьев+а• астафьев+ские• астахов+• астраха+ни• астраха+нка• астраханск+ими• астраханск+их• астраханск+ой• астраханск+ом• астраха+нь
13 nov 2006 A. Gelbukh -- MICAI-2006 63
13 nov 2006 A. Gelbukh -- MICAI-2006 64
• ablándate-• abland-áis• abland-ó• abland-aba• abland-aban• abland-ado• abland-an• abland-ar• abland-ara• abland-arme• abland-aron• abland-arte
• abland-e• abobado-• abolengo-• aboll-é• abolla-da• abolla-do• abomin-ábamos• abomin-able• abomin-ado• abomin-o• abon-asen• abon-o
• aborrascadas-• aborrec-í• aborrec-ía• aborrec-e• aborrec-en• aborrec-ió• aborrec-ible• aborrec-ida• aborrec-ido• aborrec-idos
13 nov 2006 A. Gelbukh -- MICAI-2006 65
Ambigüedad• Léxica
– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?
• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.
• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.
13 nov 2006 A. Gelbukh -- MICAI-2006 66
Analizador morfológico
• Da todas las variantes del análisis de cada palabra– habla → habla<sust,sg,f>, hablar<verbo,sg,3>
• Basado en diccionario• Heurísticas para palabras nuevas• Nosotros tenemos uno. Otro: MACO+
13 nov 2006 A. Gelbukh -- MICAI-2006 67
Etiquetador (tagger)
• Elige una sola categoría gramatical de cada palabra en el texto– Él / el habla; ayer / ahora hablamos– El habla → el<det sing fem> habla<sust sing…>
• Estadísticas– TnT tagger: modelos de Markov– Brill tagger: reglas, aprende errores de otro tagger– Tenemos sus versiones en español
13 nov 2006 A. Gelbukh -- MICAI-2006 68
TnT tagger: modelos de Markov
• Probabilidad de ocurrir cada categoríadada las categorías de 1…2…3 palabras anteriores
• Diccionario: probabilidad para una palabra tener una categoría
• Las aprende automáticamente de un corpus marcado. Supervisado.
13 nov 2006 A. Gelbukh -- MICAI-2006 69
Brill tagger: sistema experto
• Mejora el resultado de cualquier tagger• Reglas que corrigen errores:
– Si la palabra actual es art. def. sing. masc. y la siguiente es sust. fem., cambiar el género a fem.: el habla
– Pueden ser complejas• Las aprende automáticamente de un corpus
marcado. Supervisado.
13 nov 2006 A. Gelbukh -- MICAI-2006 70
Reto
¿Se puede hacer un tagger no supervisado?
13 nov 2006 A. Gelbukh -- MICAI-2006 71
Ambigüedad• Léxica
– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?
• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.
• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.
13 nov 2006 A. Gelbukh -- MICAI-2006 72
Desambiguación de sentidos de palabras (WSD)
• Cada palabra tiene ni sentidos en el diccionario. ¿Cuál sentido se usa en un contexto dado?
• Evaluación: corpus marcados estándares– SemCor para inglés. Hay para español (pequeños)
• Una tarea bien definida y muy difícil– Buen reto para los estudiantes
• Campeonato mundial: SENSEVAL
13 nov 2006 A. Gelbukh -- MICAI-2006 73
WSD: ideas
• Yarowsky:1. Un sentido por discurso: Juan tiene una cuenta
en el banco… bla bla bla bla … banco.2. Un sentido por colocación: depositar en banco
• Propagación• Método débilmente supervisado
13 nov 2006 A. Gelbukh -- MICAI-2006 74
Yarowsky
• Se marcan pocos ejemplos: Juan depositó dinero en el banco<1> en la esquina.
• Éstos dan colocaciones: depositar en banco<1>• Éstos dan más ejemplos: María depositó dinero
en el banco<1> … bla bla … Banco Mundial• Esto da más colocaciones: Banco<1> Mundial• Y se repite… Pedro trabaja en el Banco Mundial
13 nov 2006 A. Gelbukh -- MICAI-2006 75
WSD: ideas
• Lesk:1. Medida de similitud entre sentidos2. Que todos contra todos sentidos elegidos,
sean lo más similares posible• No supervisado• Enorme cantidad de cálculo
13 nov 2006 A. Gelbukh -- MICAI-2006 76
Lesk
• Cono de pino• Cono:
– Porción de helado– Fruta de cierto tipo de árbol
• Pino:– Árbol siempre verde con hojas como agujas– pl. Residencia del presidente mexicano
01
00
13 nov 2006 A. Gelbukh -- MICAI-2006 77
Lesk
Text: words
Sens
es
Sense relatedness Variant of
sense selection
13 nov 2006 A. Gelbukh -- MICAI-2006 78
Lesk
• Enorme cantidad de variantes:– Si cada palabra tiene sólo 3 sentidos– Oración de 20 palabras da 10,000,000,000
• Cowie: simulated annealing• Gelbukh et al.:
– algoritmo genético– distancia de relación limitada– heurísticas para bajar el número de variantes
Arte
13 nov 2006 A. Gelbukh -- MICAI-2006 79
Saturación del algoritmo genético
0
20
40
60
80
100
120
140
0 50 100 150 200Generation
Fitn
ess
Best in population
Worst in population
Maximum Lesk
Average Lesk
All zeroes
Random
13 nov 2006 A. Gelbukh -- MICAI-2006 80
Tamaño de populación
020406080
100120140
0 200 400 600 800 1000Pool Size
Fitn
ess
170
220
270
320
370
Num
ber
of G
ener
atio
ns
Genetic algorithmMaximum LeskAverage LeskAll zeroesRandomConvergence
13 nov 2006 A. Gelbukh -- MICAI-2006 81
Frecuencia de cruzamiento
020406080
100120140
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1Crossover Rate
Fitn
ess
250
300
350
400
450
500
Num
ber
of G
ener
atio
ns
Genetic algorithmMaximum LeskAverage LeskAll zeroesRandomConvergence
13 nov 2006 A. Gelbukh -- MICAI-2006 82
Medidas de similitud entre sentidos
• Lesk:– Cada sentido tiene definición: un pequeño texto– Similitud entre textos: # de palabras en común
• Pedersen, Gelbukh & Sidorov:– Suavizar agregando vecinos en WordNet
• Hirst, Gelbukh:– Número de pasos en WordNet
• Hay mucho más variantes
13 nov 2006 A. Gelbukh -- MICAI-2006 83
Similitud de Lesk entre textos
• Cono de pino• Cono:
– Porción de helado– Fruta de cierto tipo de árbol
• Pino:– Árbol siempre verde con hojas como agujas– pl. Residencia del presidente mexicano
01
00
13 nov 2006 A. Gelbukh -- MICAI-2006 84
Lesk simplificado
• Mucho menos complejo: sólo n x N• Usa medida de similitud entre dos textos• Da mejores resultados (¿por qué?... valor)
dineroDonde se guarda dinero
13 nov 2006 A. Gelbukh -- MICAI-2006 85
Similitud entre palabras
• Similitud de textos involucra comparación de palabras
• ¡Suavizar! Sinónimos… casi sinónimos…• ¡Descubrir sinonimia!
– De manera no supervisada– Para que los métodos que la usan sean no
supervisados
13 nov 2006 A. Gelbukh -- MICAI-2006 86
Descubrir sinónimos
• Dekang Lin:– Son sinónimos si se usan en contextos iguales– Porcentaje de colocaciones en común– (Ir al / trabajar en / privado) (banco / escuela)
• Sierra & McNaugh, Murata:– Definiciones en diferentes diccionarios– Termometro es aparato / dispositivo para…
13 nov 2006 A. Gelbukh -- MICAI-2006 87
Sentido más frecuente
• Una heurística muy poderosa• ¿Supervisada? (ejemplos para contar)• McCarthy 2004: ¡no!
– Sinónimos ponderados de Lin (banco = escuela, …)– Cada uno vota por el sentido más parecido– Medida de “parecido”: Lesk es mejor– En promedio: banco<1> (organización)
13 nov 2006 A. Gelbukh -- MICAI-2006 88
Conocimiento oculto en diccionarios
• Lesk es muy bueno• Calvo & Gelbukh
– Si en similitud de Lesk cada palabra se cambia a *, ¡da mejor resultado!
13 nov 2006 A. Gelbukh -- MICAI-2006 89
Similitud de Lesk entre textos
• Cono de pino• Cono:
– Porción de helado– Fruta de cierto tipo de árbol
• Pino:– Árbol siempre verde con hojas como agujas– pl. Residencia del presidente mexicano
01
00
13 nov 2006 A. Gelbukh -- MICAI-2006 90
Similitud de Lesk entre textos
• Cono de pino• Cono:
– **** **** *****– **** **** **** **** **** ****
• Pino:– **** **** **** **** **** **** ****– pl. **** **** **** ****
46
33
13 nov 2006 A. Gelbukh -- MICAI-2006 91
Conocimiento oculto en diccionarios
• Calvo & Gelbukh– El número de palabras en la definición
¡codifica el sentido más frecuente!– Igual, ¡el número de relaciones en WordNet!– Igual, las glosas en WordNet
• Hay más conocimiento oculto en diccionarios. Trabajamos en esto
13 nov 2006 A. Gelbukh -- MICAI-2006 92
Conocimiento:Diccionarios y gramáticas
• Para cada nivel, sus propios diccionarios(se pueden combinar en uno grande)– Morfológico– Sintácticos de varios tipos– Semanticos– Conocimiento del mundo de varios tipos
• Los diccionarios dependen de lenguaje• Son el corazón del sistema de procesamiento
de lenguaje natural
13 nov 2006 A. Gelbukh -- MICAI-2006 93
Ambigüedad• Léxica
– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?
• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.
• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.
13 nov 2006 A. Gelbukh -- MICAI-2006 94
13 nov 2006 A. Gelbukh -- MICAI-2006 95
Desambiguación sintáctica
• Gramáticas probabilísticas– Supervisado. Treebanks. Español: 3LB
• No supervisado– Yuret 1997: atracción léxica– Gelbukh et al. 1997: Aprendizaje no
supervisado de marcos de subcategorización– Ciertas palabras tienden que aparecer juntas
13 nov 2006 A. Gelbukh -- MICAI-2006 96
Constituyentes vs. Dependencias• Árbol de constituyentes (Chomsky)
– [Move [the ball] [from [the floor]] [to [the box]]]– Métodos simples y muy desarrollados– Español: treebank 3LB
• Árbol de dependencias (Tesnièr, Mel’čuk)– Conecta palabras, no agrupa– Mucho más parecido a la estructura semántica– Mucho más fácil usar las propiedades léxicas– Parser: nuestro, Connexor.
13 nov 2006 A. Gelbukh -- MICAI-2006 97
Constituyentes vs. Dependencias
[Move [the ball] [from [the floor]] [to [the box]]]• VP → V NP; NP → D N • Marcar jefe (cabeza) en cada regla
– VP → @V NP; NP → D @N– [@Move [the @ball] [@from [the @floor]] [@to
[the @box]]]
Move the ball the floor the boxMove tofrom
13 nov 2006 A. Gelbukh -- MICAI-2006 98
Move The ball The floor The Box
to
from 1.
Move The ball The floor The Box
to
from
Move The ball The floor The Box
to
from2.
Move The ball The floor The Box
to
from
Move The ball The floor The Box
to
from3. Move The ball The floor The Box
to
from
Move The ball The floor The Box
tofrom 4. Move The ball The floor The Box
tofrom
Move The ball The floor The Box
tofrom5.
Move The ball The floor The Box
tofrom
13 nov 2006 A. Gelbukh -- MICAI-2006 99
Source S +
(true variants)
Source S –
(noise)
Recei-ver
Features fi:Package V
Variant Vj
13 nov 2006 A. Gelbukh -- MICAI-2006 100
( )[ ] ( )
( )
p w S
p w V S
w C p p w
i j
i j
j i i k
+
−
+ −
=
= − + −
= × =
∑∑
∏ ∑
,
,
, ,
1
1
λ
13 nov 2006 A. Gelbukh -- MICAI-2006 101
13 nov 2006 A. Gelbukh -- MICAI-2006 102
Ambigüedad• Léxica
– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?
• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.
• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.
13 nov 2006 A. Gelbukh -- MICAI-2006 103
Resolución de anáfora
• Mitkov: método pobre en conocimiento– Patrones simples– Heurísticas simples: “no más que 5 palabras”– Robusto
• Gelbukh & Sidorov; Murata: anáfora indirecta– Juan compró una casa. La cocina es grande.– Juan estaba comiendo. La comida era deliciosa.– Escenarios: casa – cocina; comer – comida
13 nov 2006 A. Gelbukh -- MICAI-2006 104
Dos problemas principales
• Ambigüedad• Complejidad de conocimiento necesario
– conocimiento lingüístico (depende de lenguaje)– conocimiento extralingüístico (no depende)
13 nov 2006 A. Gelbukh -- MICAI-2006 105
Diccionarios
• Los que se usan• Los que hay que compilar• De preferencia automáticamente• De preferencia no supervisadamente
13 nov 2006 A. Gelbukh -- MICAI-2006 106
Diccionario Morfológico
Ser soy, somos,eres, sois,es, sonera, éramos...
• 15 000+ verbos• 30 000++ sustantivos• Tablas de conjugación y declinación
13 nov 2006 A. Gelbukh -- MICAI-2006 107
Diccionario de Combinaciones de Palabrasponer atención,prestar atención,pagar atención,
dar ayuda,prestar ayuda,mostrar ayuda.
En ingles En ruso
• 500 000+ combinaciones• Generación de combinaciones nuevas• Ya discutimos un método para
compilar de modo no supervisado
13 nov 2006 A. Gelbukh -- MICAI-2006 108
Diccionario de Patrones Sintácticos
GOBIERNO deldel paísHABLAR sobresobre Maria concon PedroCASARSE concon Maria
aa Mariasobresobre Maria
En ingles
En ruso
• 10 000 verbos• Sentido de cada combinación
13 nov 2006 A. Gelbukh -- MICAI-2006 109
Complejidaddel conocimiento lingüístico
• Diccionario morfológico• Gramática sintáctica• Diccionario del uso de preposiciones (de
valencias)• Diccionario de combinaciones de palabras
(funciones léxicas)• Cantidad enorme de palabras y combinaciones
13 nov 2006 A. Gelbukh -- MICAI-2006 110
Conocimiento extralingüístico• Linea punteada• «Del Angel vas por Reforma dos paradas en
la dirección opuesta a la Diana, bajas en el Caballito y das vuelta a la derecha»
• Un extranjero no entiende nada– ¿qué angel? ¿reforma de qué? ¿paradas de qué?
• Las computadoras son extranjeras en nuestro mundo
• Ezfuerzo enorme para darles esta información
13 nov 2006 A. Gelbukh -- MICAI-2006 111
Tesauro del sentido comúnpais tiene gobiernogobierno es un organizaciónorganización da presupuestosector necesita dinerodinero es un presupuestociencia es un sectorciencia parte de industria
• 10 000 000+ combinaciones• Multirelacional• Multijerárquico
13 nov 2006 A. Gelbukh -- MICAI-2006 112
¿De dónde viene el conocimiento?
• Especificar a mano– El modo tradicional– Buena calidad– MUY caro, lento, ... – ¿Incompleto? Cambios del lenguaje, del tema...
• Aprender automáticamente– De muy, pero muy grandes volúmenes del texto
13 nov 2006 A. Gelbukh -- MICAI-2006 113
Lingüística del corpus...
• Megas... gigas... ¡teras de textos! (Google)• Métodos estadísticos muy fuertes• Aplicación de los métodos del aprendizaje
automático al análisis de los textos• Más estable y flexible (que hacerlo a la mano)
• Mucho más barato ⇒ más recursos se crean• La tendencia prevaleciente ahora
13 nov 2006 A. Gelbukh -- MICAI-2006 114
...Lingüística del corpus
• Aprenda diccionarios:– Qué palabras ocurren con qué: colocaciones– Con qué preposición ocurre qué palabra, ...
• Aprenda gramáticas– Miles y millones de reglas
• Aprenda estadísticas:– Qué reglas gramaticales son más probables
13 nov 2006 A. Gelbukh -- MICAI-2006 115
Internet: ¡sabe de todo!
• En lugar de crear diccionarios... ¡haga búsquedas!
• ¿Pienso de que ... o pienso que ...? Google: – Pienso de que: 55 veces– Pienso que: 170,000 veces– ¡Sin ningún diccionario!
• gato con la cola: 31; gato con un telescopio: 2 ver con la cola: 7; ver con un telescopio: 77
13 nov 2006 A. Gelbukh -- MICAI-2006 116
Internet: ¡sabe de todo!
• En lugar de crear diccionarios... ¡haga búsquedas!
• ¿Pienso de que ... o pienso que ...? Google: – Pienso de que: 55 veces– Pienso que: 170,000 veces– ¡Sin ningún diccionario!
• gato con la cola: 31; gato con un telescopio: 2 ver con la cola: 7; ver con un telescopio: 77
Con Internet¡se pueden hacer maravillas!
13 nov 2006 A. Gelbukh -- MICAI-2006 117
Problemas de corpus
• Ley de Zipf– Casi todo el corpus son
repeticiones de las mismaspalabras
– Casi todas las palabrasno aparecen en el corpus
• Estadísticas insuficientes
13 nov 2006 A. Gelbukh -- MICAI-2006 118
Inútil
Insuficiente
13 nov 2006 A. Gelbukh -- MICAI-2006 119
Web como corpus
• Es un corpus enorme– Mucho mejores estadísticas
• Búsqueda bastante rápida• Mucha investigación en eso
13 nov 2006 A. Gelbukh -- MICAI-2006 120
Ejemplo: concordancia
• “Comer * con tenedor”• Google da snippets
– Descripciones cortas donde se contiene la petición
• Estadísticas (de snippets)– carne, espagueti, ensalada, …
• Problema: morfología. Comer, comen, como, comimos, …
13 nov 2006 A. Gelbukh -- MICAI-2006 121
Problemas de Web
• Lento• No se puede marcar
– No sabe de las estructuras sintácticas– Ni siquiera de morfología– ¿Generar variantes? Muchísimos– Google no da más de 1000 accesos al día
• Cambia con tiempo, no reproducible
13 nov 2006 A. Gelbukh -- MICAI-2006 122
Otros recursos
• Otros diccionarios• Algoritmos• Programas• Investigaciones teóricas• ... y mucho
muchomás.
13 nov 2006 A. Gelbukh -- MICAI-2006 123
Corpus colectado de web
• Más rápido• Sólo ejemplos necesarios• Se puede marcar• Reproducible, estable• 200 MB (50 ocurrencias de cada palabra)• ¿Y si tuviéramos suficiente disco?
– ¿Más vale guardar todo Google localmente?– Kilgarriff: hacer un Buscador Lingüístico
13 nov 2006 A. Gelbukh -- MICAI-2006 124
El esquema general del método
Corpus inicial
Análisis léxico
Agenda
Módulo de control Interfaz de búsqueda
Buscador de Internet
Documentos
Analizador de respuesta
Interfaz de documentos
Analizador de documento
Filtro depalabras
Filtro decontextos
Resultado
URLsvisitados
Generador de formas
Módulo de ponderación
Analizador morfológico
I n t e r n e t
13 nov 2006 A. Gelbukh -- MICAI-2006 125
Corpus colectado de web
• Más rápido• Sólo ejemplos necesarios• Se puede marcar• Reproducible, estable• 200 MB (50 ocurrencias de cada palabra)• ¿Y si tuviéramos suficiente disco?
– ¿Más vale guardar todo Google localmente?– Kilgarriff: hacer un Buscador Lingüístico
13 nov 2006 A. Gelbukh -- MICAI-2006 126
13 nov 2006 A. Gelbukh -- MICAI-2006 127
Recursos
• WordNet en español. Tenemos copia• Corpus: Nuestro; 3LB, LexEsp• Analizador morfológico. Nuestro, MACO+• Analizador sintáctico. Nuestro, Connexor• Analizador semántico… ?• Paquete estadístico: Ted Pedersen• Similitud (inglés): Dekang Lin• Paquete ARIES ?
13 nov 2006 A. Gelbukh -- MICAI-2006 128
AplicacionesAplicaciones
13 nov 2006 A. Gelbukh -- MICAI-2006 129
Interfaces en Lenguaje Natural
0101011101010001101010111o101001011
VS.
Las personas son más productivas cuando hablan en su propio lenguaje
13 nov 2006 A. Gelbukh -- MICAI-2006 130
Interfaces en lenguaje natural
vs.
Es más fácil enseñar a las computadoras cómo entender a las personas que enseñar a toda la gente cómo entender a las computadoras
13 nov 2006 A. Gelbukh -- MICAI-2006 131
Recuperación de información
vs.
Las computadoras encuentran la información de una manera mucho más rápida que la gente
13 nov 2006 A. Gelbukh -- MICAI-2006 132
Tipos de búsqueda• Búsqueda de documentos : pensar en el futuro
– pensador, pensamiento– pensar en el futuro desarrollo– pensar siempre en el futuro
• Responder preguntas– ¿Cómo se llama la reina de España?
• Extracción de información– a partir de los periódicos, compilar una base de
datos de las compras y ventas de compañías
13 nov 2006 A. Gelbukh -- MICAI-2006 133
13 nov 2006 A. Gelbukh -- MICAI-2006 134
Minería de texto• A partir de cantidades de texto grandes• Descubrir, el conocimiento que no está escrito en
cualquiera de éstos• Buscar:
– tendencias, promedios, desviaciones, dependencias– En los periódicos, ¿es la opinión sobre las acciones
del gobierno en Chiapas positiva o negativa?– ¿Hay diferencias en éste en diferentes regiones?– ¿Cómo se cambió desde el mes pasado?– Los periódicos que opinan positivo, ¿sobre qué
también opinan positivo?
13 nov 2006 A. Gelbukh -- MICAI-2006 135
13 nov 2006 A. Gelbukh -- MICAI-2006 136
13 nov 2006 A. Gelbukh -- MICAI-2006 137
Traducción
?
Morphologicallevel
Syntacticlevel
Textlevel
Semanticlevel
The Meaning,yet unreachable
Language A Language B
13 nov 2006 A. Gelbukh -- MICAI-2006 138
Métodos de traducción
• Tradicional: simbólico– Morfología, sintaxis, semántica, transferencia– Funciones léxicas– UNL
• Example-based (Nagao)– Corpus paralelos– Estadísticas– Prevaleciente en práctica
13 nov 2006 A. Gelbukh -- MICAI-2006 139
Traducción directa
(C) www.geocities.com/SiliconValley/Bay/1268
13 nov 2006 A. Gelbukh -- MICAI-2006 140
Mejor idea: Interlingua
(C) www.geocities.com/SiliconValley/Bay/1268
13 nov 2006 A. Gelbukh -- MICAI-2006 141
Funciones léxicas
• El tesista tomó la decisión definitiva para concluir satisfactoriamente su tesis.
• tesista → ?• tomar → take? drink?• definitiva → definite?• concluir → conclude? deduce? • satisfactoriamente → satisfactorily?
13 nov 2006 A. Gelbukh -- MICAI-2006 142
tomar
decisióntesista
concluir
tesis
satisfactoriamente
el que hace tesis
definitiva
13 nov 2006 A. Gelbukh -- MICAI-2006 143
tomar
decisiónS1(x)
concluir
tesis = x
satisfactoriamente
definitiva
13 nov 2006 A. Gelbukh -- MICAI-2006 144
Oper1(y)
decisión = yS1(x)
concluir
tesis = x
satisfactoriamente
definitiva
13 nov 2006 A. Gelbukh -- MICAI-2006 145
Oper1(y)
decisión = yS1(x)
concluir
tesis = x
satisfactoriamente
Magn(y)
13 nov 2006 A. Gelbukh -- MICAI-2006 146
Oper1(y)
decisión = yS1(x)
Perf(x)
tesis = x
satisfactoriamente
Magn(y)
13 nov 2006 A. Gelbukh -- MICAI-2006 147
Oper1(y)
decisión = yS1(x)
Perf(x) = z
tesis = x
Ver(z)
Magn(y)
13 nov 2006 A. Gelbukh -- MICAI-2006 148
Oper1(y)
decisión = yS1(x)
Perf(x) = z
tesis = x
Ver(z)
Magn(y)
13 nov 2006 A. Gelbukh -- MICAI-2006 149
S1(x)
Perf(x) = z
Ver(z)
Oper1(y)
decision = y
thesis = x
Magn(y)
• desición → desision• tesis → thesis
13 nov 2006 A. Gelbukh -- MICAI-2006 150
Funciones léxicas en inglés
• S1(thesis) = student• Perf(thesis) = finish• Oper1(desision) = make• Magn(desision) = flat• Ver(finish) = successfully
• Magn(tea) = strong (no loaded)• Magn(voice) = loud (no high)• Magn(soup) = thick
13 nov 2006 A. Gelbukh -- MICAI-2006 151
student
finish
successfully
make
decision
thesis
flat
13 nov 2006 A. Gelbukh -- MICAI-2006 152
Funciones léxicas
• En casi cualquier texto constituyen mayoría de palabras
• La ambigüedad léxica en su gran parte se debe a ellas. Entonces, ayudan mucho a resolverla
• Repertorio: (casi) no depende de lenguaje• Valores: muy específicos para cada lenguaje• Problema: aprendizaje automático de textos
(¿su tesis?)
13 nov 2006 A. Gelbukh -- MICAI-2006 153
CrossLexica• Diccionario de tipo combinado
– Propósito principal: colocaciones– Datos auxiliares:
• Relaciones semánticas• Traducción a inglés
• Relaciones principales:– Colocaciones (voz – alta, prestar – atención)– tipo WordNet (pequeño – chico, motor – carro)– Paronimicons (histérico – histórico,
sensible – sensual)
13 nov 2006 A. Gelbukh -- MICAI-2006 154
13 nov 2006 A. Gelbukh -- MICAI-2006 155
13 nov 2006 A. Gelbukh -- MICAI-2006 156
13 nov 2006 A. Gelbukh -- MICAI-2006 157
13 nov 2006 A. Gelbukh -- MICAI-2006 158
13 nov 2006 A. Gelbukh -- MICAI-2006 159
13 nov 2006 A. Gelbukh -- MICAI-2006 160
13 nov 2006 A. Gelbukh -- MICAI-2006 161
13 nov 2006 A. Gelbukh -- MICAI-2006 162
Aplicaciones de CrossLexica:Coherencia del texto
• Enseñanza de lenguaje• Ayuda en composición de
texto• Generación y traducción
de texto• Evaluación de estilo y
cohesión
• Análisis sintáctico• Desambiguación de
sentidos de palabras• Segmentación• Detección y corrección de
errores semánticos• Paráfrasis y esteganografía
13 nov 2006 A. Gelbukh -- MICAI-2006 163
Evaluación y corrección de estilo
• Muchas palabras relacionadas entre sí: buena coherencia = buen estilo
• Si – una palabra no se relaciona con otras en el
contexto– pero su sinónimo sí relaciona mejor¡entonces ofrecer al usuario este sinónimo!
13 nov 2006 A. Gelbukh -- MICAI-2006 164
Desambiguación sintáctica
Participantes de la acción (I, II y III)
María toma jugo de mango recién hecho
María
toma
jugo de mango
recién hecho
I II III
13 nov 2006 A. Gelbukh -- MICAI-2006 165
Desambiguación sintáctica
María
toma
jugo de mango
recién hecho
I II III
María toma jugo de mango recién hecho
13 nov 2006 A. Gelbukh -- MICAI-2006 166
Desambiguación sintáctica
María
toma
jugo
de mango
recién hecho
I II
María toma jugo de mango recién hecho
13 nov 2006 A. Gelbukh -- MICAI-2006 167
Desambiguación sintáctica
María
toma
jugo de mango
recién hecho
I II III
María
toma
jugo
de mango
recién hecho
I II
María
toma
jugo
de mango recién hecho
I II
13 nov 2006 A. Gelbukh -- MICAI-2006 168
Desambiguación sintáctica
María
toma
jugo de mango
recién hecho
I II III
María
toma
jugo
de mango
recién hecho
I II
María
toma
jugo
de mango recién hecho
I II
María toma jugo de mango recién hecho
Un jugo de mango recién hecho toma María
Toma María un jugo recién hecho de mango
13 nov 2006 A. Gelbukh -- MICAI-2006 169
• Las palabras se combinan bien con algunas y no con otras
– toma jugo– toma de mango– toma recién hecho– jugo de mango– jugo recién hecho– mango recién hecho
Desambiguación sintáctica
María
toma
jugo
de mango recién hecho
I II
13 nov 2006 A. Gelbukh -- MICAI-2006 170
Desambiguación desentidos de palabras
• Sentidos de palabras: – gato1 = animal– gato2 = herramienta– Uso el gato neumático para reparar mi carro– Alimento mi gato siamés
• Combinaciones en el diccionario– alimentar al gato1 usar gato2
– gato1 siamés gato2 neumático
13 nov 2006 A. Gelbukh -- MICAI-2006 171
Segmentación de texto en párrafos.Recuperación de fragmentos
(passage retrieval)• Función de coherencia
– Número de colocaciones que forma cada palabra con sus vecinas
– Suavizada• Buenos puntos de división
– Cambio del tema– Puntos de la coherencia pobre– Buena coherencia a la izquierda, a la derecha,
pero no a través de este punto
13 nov 2006 A. Gelbukh -- MICAI-2006 172
Punto de cambio del tema
13 nov 2006 A. Gelbukh -- MICAI-2006 173
Detección y corrección de errores semánticos
• Similar al cómo sugiere sinónimos• Pero en vez de sinónimos, parónimos• Parónimos: palabras
– parecidas en forma – pero diferentes en sentido– histórico / histérico
13 nov 2006 A. Gelbukh -- MICAI-2006 174
…Detección y corrección de errores semánticos
• Detección: pérdida de coherencia– La palabra no forma colocaciones con sus
vecinas– centro histérico de la ciudad– Pero: no cualquier pérdida de coherencia– Gelbukh imparta una plática
13 nov 2006 A. Gelbukh -- MICAI-2006 175
…Detección y corrección de errores semánticos
• Si existe un parónimo que da mucho mejor coherencia– parónimos: histérico / histórico– colocaciones: centro histórico
• Entonces señalar un posible error y sugerir esta nueva palabra– centro histórico de la ciudad
13 nov 2006 A. Gelbukh -- MICAI-2006 176
Traducción de colocaciones
• Entrada por la traducción a inglés• Un montón de traducciones de la primera
palabra• Y un montón de la segunda• ¿Cuáles se combinan?
13 nov 2006 A. Gelbukh -- MICAI-2006 177
13 nov 2006 A. Gelbukh -- MICAI-2006 178
13 nov 2006 A. Gelbukh -- MICAI-2006 179
13 nov 2006 A. Gelbukh -- MICAI-2006 180
Generación y traducción de texto
• Selección de palabra– Una traducción de varias– Un sinónimo de variós
• (sinónimos son traducciones de la misma idea)
• En contexto– Cualquier variante es correcto– Cuál es mejor / usable en este contexto?
• Ya sea automático o manual
13 nov 2006 A. Gelbukh -- MICAI-2006 181
Composición o traducción de texto
• Seleccionar palabras en contexto– Expresar una idea: conocimiento… ¿bueno?
¿rico? ¿grande? ¡amplio! ¡profundo!• Se puede generar cadenas completas
partiendo de una palabra conocida• También en los programas de generación y
traducción)
13 nov 2006 A. Gelbukh -- MICAI-2006 182
Generación de texto
• Se necesita saber las reglas de gramática• ¿Qué decir primero, qué después?• Funciones léxicas
– té: cargado,– voz: alta,– borracho: como cuba,– trabajar: duro
13 nov 2006 A. Gelbukh -- MICAI-2006 183
Ejemplo de composición o traducción
¿Cómo decir en el ruso perfecto algo como
–Deciditivamente detener las intenciones del agresor
sin siquiera saber las letras rusas?
13 nov 2006 A. Gelbukh -- MICAI-2006 184
13 nov 2006 A. Gelbukh -- MICAI-2006 185
13 nov 2006 A. Gelbukh -- MICAI-2006 186
13 nov 2006 A. Gelbukh -- MICAI-2006 187
13 nov 2006 A. Gelbukh -- MICAI-2006 188
13 nov 2006 A. Gelbukh -- MICAI-2006 189
13 nov 2006 A. Gelbukh -- MICAI-2006 190
13 nov 2006 A. Gelbukh -- MICAI-2006 191
Resultado de traducción o composición
13 nov 2006 A. Gelbukh -- MICAI-2006 192
Métodos para ocultar la información secreta en un medio de comunicación de tal manera que no se note que hay
algo oculto allá
Esteganografía
13 nov 2006 A. Gelbukh -- MICAI-2006 193
Tipos de esteganografía• En video, sonido
– Usando pixeles de una foto– Usando elementos de un sonido– ≈ marcas de agua
• En spam, listas de precios, ...• Esteganografía lingüística
– Usando un texto– Que no se note, que sea un texto normal– Generar pequeños cambios, conservar sentido
13 nov 2006 A. Gelbukh -- MICAI-2006 194
Spam: spammimic.com• Dear Professional , This letter was specially selected to be sent to you
. If you no longer wish to receive our publications simply reply with a Subject: of "REMOVE" and you will immediately be removed from our mailing list . This mail is being sent in compliance with Senate bill 1621 ; Title 1 , Section 302 ! This is not a get rich scheme . Why work for somebody else when you can become rich in 39 days ! Have you ever noticed how long the line-ups are at bank machines & how many people you know are on the Internet ! Well, now is your chance to capitalize on this ! We will help you decrease perceived waiting time by 190% and deliver goods right to the customer's doorstep ! The best thing about our system is that it is absolutely risk free for you ! But don't believe us . Mrs Simpson of Maryland tried us and says "I was skeptical but it worked for me" . We assure you that we operate within all applicable laws ! We implore you - act now ! Sign up a friend and you get half off . Thanks .
13 nov 2006 A. Gelbukh -- MICAI-2006 195
Spam: spammimic.com• Dear Business person , We know you are interested in receiving
amazing intelligence . This is a one time mailing there is no need to request removal if you won't want any more . This mail is being sent in compliance with Senate bill 2516 ; Title 3 , Section 301 ! This is not a get rich scheme ! Why work for somebody else when you can become rich as few as 98 DAYS . Have you ever noticed most everyone has a cellphone and more people than ever are surfing the web . Well, now is your chance to capitalize on this ! WE will help YOU decrease perceived waiting time by 200% and turn your business into an E-BUSINESS ! The best thing about our system is that it is absolutely risk free for you ! But don't believe us . Mr Amesof Massachusetts tried us and says "My only problem now is whereto park all my cars" ! We are licensed to operate in all states ! We beseech you - act now . Sign up a friend and your friend will be rich too ! Thank-you for your serious consideration of our offer !
13 nov 2006 A. Gelbukh -- MICAI-2006 196
Tipos de esteganografía• En video, sonido
– Usando pixeles de una foto– Usando elementos de un sonido– ≈ marcas de agua
• En spam, listas de precios, ...•• EsteganografEsteganografííaa linglingüíüísticastica
– Usando un texto– Que no se note, que sea un texto normal– Generar pequeños cambios, conservar sentido
13 nov 2006 A. Gelbukh -- MICAI-2006 197
Esteganografía lingüística¡Paráfrasis! Con diccionario de sinónimos.
Manuel está leyendo una obra de un escritor francés que le está gustando mucho. Sin embargo, escaso tiempo disponible tiene para consagrarse a esa tarea.
⇒ 1010010110110100101101
Manuel está leyendo un libro de un autor galoque le está agradando bastante. No obstante, poco tiempolibre dispone para dedicarse a esa faena.
⇒ 0101101001001011010010
13 nov 2006 A. Gelbukh -- MICAI-2006 198
Compatibilidad de palabras
leer obraleer libroescritor galoescritor francéstiempo libretiempo disponiblededicarse a tareadedicarse a faenaconsagrarse a tareaconsagrarse a faena
leer laborleer productocreador galoescritor célticotiempo independientelapso librededicarse a atajocultivarse a tareabendecir a tareacoronar a tarea
OK ?
¡Que sea correcto! = coherente.
Asegurar coherencia (hay mucho más cosas aquí…)
13 nov 2006 A. Gelbukh -- MICAI-2006 199
Conclusiones
• LC convierte a la lingüística en una ciencia• Le aporta herramientas y descubrimiento autom.• Reto: métodos estadísticos no supervisados• Reto: métodos pobres en conocimiento• Reto: combinar con el conocimiento lingüístico• Internet: el corpus más grande del mundo• Aplicaciones: traducción, búsqueda, interfaces• Estado actual: ya hay maravillas; más por hacer
13 nov 2006 A. Gelbukh -- MICAI-2006 200
Más información• Escribimos un libro educativo.
– Los imágenes son de éste– Contactennos a gelbukh.@.gelbukh.com
• Tenemos maestría. ¡Bienvenidos!• Tenemos doctorado ¡Bienvenidos!• Requisitos:
– Motivación propia– Disposición a trabajo
13 nov 2006 A. Gelbukh -- MICAI-2006 201
13 nov 2006 A. Gelbukh -- MICAI-2006 202
13 nov 2006 A. Gelbukh -- MICAI-2006 203
www.CICLing.org
13 nov 2006 A. Gelbukh -- MICAI-2006 204
Centro de Investigación en Computación
13 nov 2006 A. Gelbukh -- MICAI-2006 205
¡Gracias!
www.GGelbukh.com