Azerhitz Sepln 08

49
Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle Fundación Elhuyar I+D SEPLN 2008, Leganés 12/09/2008 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

Transcript of Azerhitz Sepln 08

Page 1: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Extracción de Traducciones de Términos a partir deCorpus Comparables pertenecientes a áreas

específicas

Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle

Fundación ElhuyarI+D

SEPLN 2008, Leganés12/09/2008

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 2: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Indice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 3: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 4: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Marco y Contexto del Trabajo

Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?

El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos

Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):

Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 5: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Marco y Contexto del Trabajo

Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?

El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos

Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):

Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 6: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Marco y Contexto del Trabajo

Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?

El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos

Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):

Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 7: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Marco y Contexto del Trabajo

Proyecto Azerhitz:Objetivo: crear una herramienta para la extracción de terminologíabilingüePar de lenguas euskera-castellano/inglés/francés/. . .Dominio científicoCorpus comparables como fuente. ¿Por qué?

El euskera es una lengua de recursos limitados,gran dificultad para obtener corpus paralelos

Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,2008):

Técnicas de extracción de terminología bilingüe eu-en partir decorpus comparablesEstudio sobre el grado de comparabilidad y su efecto en la calidadde la extracción

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 8: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 9: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Métodos para la Extracción de Terminología Bilingüe

ParadigmasSimilitud entre contextos (Fung, 1995), (Rapp, 1999): “Lastraducciones equivalentes ocurren dentro de contextos similares”Similitud ortográfica-fonética: detección de cognados

Objetivos del trabajoMejorar el cálculo de similitud entre contextos:

Tratamiento de ambigüedad y falta de cobertura en la traducción decontextosModelos probabilísticos para el cálculo de similitud

Diseño de un método de extracción híbrido: Combinación de losdos paradigmas

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 10: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Marco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

Métodos para la Extracción de Terminología Bilingüe

ParadigmasSimilitud entre contextos (Fung, 1995), (Rapp, 1999): “Lastraducciones equivalentes ocurren dentro de contextos similares”Similitud ortográfica-fonética: detección de cognados

Objetivos del trabajoMejorar el cálculo de similitud entre contextos:

Tratamiento de ambigüedad y falta de cobertura en la traducción decontextosModelos probabilísticos para el cálculo de similitud

Diseño de un método de extracción híbrido: Combinación de losdos paradigmas

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 11: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 12: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Algoritmo de extracción

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 13: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 14: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Construcción de Contextos

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 15: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Construcción de Contextos I

Preproceso:Corpus lematizado y etiquetado mediante Eustagger (euskera) yTreetagger (castellano)Palabras clave: nombres comunes, adjetivos, verbos

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 16: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Construcción de Contextos II

Representación de contextos:Básado en el paradigma ”bag-of-words”Contextos delimitados mediante ventanas y/o marcas de puntuación.Tamaños de ventana diferentes para cada lengua:

Euskera→ 10 (±5)Castellano→ 14 (±7)

Ejemplo

“ Las [ pilas de combustible funcionan de forma similar a las

baterías pero éstas sólo almacenan energía y las pilas la generan a

través de la combustión de hidrógeno de forma limpia, eficiente ] y

sostenible.”

Palabras ponderadas dentro del contexto mediante Log LikelihoodRatio (Baseline)

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 17: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Construcción de Contextos: Modelos Probabilísticos

Representación (implícita en el ranking) mediante modelosprobabilísticos para IR (Terrier1 )

Okapi (BM25)PL2: instancia del framework Divergence From Randomess

Por cada término candidato se indexa un documentoEse documento está formado por las palabras que aparecen enlos contextos del término candidato en el corpus

1http://http://ir.dcs.gla.ac.uk/terrier/Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 18: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 19: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Traducción de los Contextos

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 20: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Traducción de los Contextos

Para calcular el grado de semejanza entre contextos estos hande ser traducidos en una dirección

Traducción guiada por diccionarios electrónicos (MRD)Problemas inherentes a la traducción guiada por diccionarios:

Ambigüedad en la traducción→ Estrategias de selecciónFalta de cobertura→ Tratamiento de palabras OOV

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 21: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Traducción de los Contextos

Para calcular el grado de semejanza entre contextos estos hande ser traducidos en una dirección

Traducción guiada por diccionarios electrónicos (MRD)Problemas inherentes a la traducción guiada por diccionarios:

Ambigüedad en la traducción→ Estrategias de selecciónFalta de cobertura→ Tratamiento de palabras OOV

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 22: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Selección de Traducción

Primera traducción: la primera es normalmente la más probable

Algoritmo basado en concurrencias (Gao et al., 2001)

Las traducciones correctas de las diferentes palabras queconforman un contexto tienen un grado de asociación mayor quela traducciones erróneas

El algoritmo busca la combinación de traducciones que maximizael grado de asociación global o cohesión

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 23: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Selección de Traducción

Primera traducción: la primera es normalmente la más probable

Algoritmo basado en concurrencias (Gao et al., 2001)

Las traducciones correctas de las diferentes palabras queconforman un contexto tienen un grado de asociación mayor quela traducciones erróneas

El algoritmo busca la combinación de traducciones que maximizael grado de asociación global o cohesión

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 24: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Algoritmo Basado en Concurrencias (Gao et al., 2001)

(1) Given a Basque (source language) querye = {e1,e2, ...,en}, for each query term e, wedefine a set of m distinct Spanish translationsaccording to a bilingual dictionaryD : D(ei) = {ci,1,ci,2, ...,ci,m}.

(2) For each set D(ei):

(a) For each translation ci,j ∈ D(ei), definethe similarity score between the translation ci,j anda set D(ek )(k 6= i) as the sum of the similaritiesbetween ci,j and each translation in the set D(ek )according to Eq. (1)

am(ci,j ,D(ek )) = ∑ck ,l∈D(ek )

am(ci,j ,ck ,l) (1)

(b) Compute the cohesion score for ci,j as

cohesion(ci,j | e,D) = log ∑D(ek )

am(ci,j ,D(ek ))

(2)(c) Select the translation c ∈ D(ei) with the

highest cohesion score

c = argmaxce,j∈D(ei )cohesion(ce,j | e,D) (3)

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 25: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Tratamiento de Palabras OOV

Cobertura del MRD→' 55 %Incremento de la cobertura de la traducción del contextomediante el uso de cognados

Reglas de transformación:c→ k acta=akta normalizar n-gramas fonológicos equivalentes-ción→ -zio, acción=akzio transformaciones regulares-ción→ -zio, acción=akzio transformaciones regulares

Similitud ortográfica: Cálculo de LCSR entre término a traducir ycandidatos a traducción (LCSR > 0.8→ traducción correcta)

Ejemplo

Chimpancé - Txinpantze:chimpancé (é→ e) = chimpance (ch-→ tx) = tximpance (mp→ np) = txinpance (ce→ ze) =txinpanzeLCSR(txinpantze, txinpanze) = 0,9

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 26: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 27: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Búsqueda de Equivalentes

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 28: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Ranking de Equivalentes I

El contexto traducido del término a traducir (euskera) escomparado con los contextos de los candidatos en el idioma dedestino (castellano).

Ranking en base a la similitud entre contextos

Restricción: Los candidatos a traducción comparten la categoríagramatical con la palabra de origen

Vectores de contexto (Baseline):Ranking de acuerdo a medidas de similitud: Jaccard, Dice,Cosine, . . .

Modelos probabilísticos:Ranking de acuerdo a modelos probabilísticos: Okapi, DFR

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 29: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Ranking de Equivalentes I

El contexto traducido del término a traducir (euskera) escomparado con los contextos de los candidatos en el idioma dedestino (castellano).

Ranking en base a la similitud entre contextos

Restricción: Los candidatos a traducción comparten la categoríagramatical con la palabra de origen

Vectores de contexto (Baseline):Ranking de acuerdo a medidas de similitud: Jaccard, Dice,Cosine, . . .

Modelos probabilísticos:Ranking de acuerdo a modelos probabilísticos: Okapi, DFR

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 30: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Ranking de Equivalentes I

El contexto traducido del término a traducir (euskera) escomparado con los contextos de los candidatos en el idioma dedestino (castellano).

Ranking en base a la similitud entre contextos

Restricción: Los candidatos a traducción comparten la categoríagramatical con la palabra de origen

Vectores de contexto (Baseline):Ranking de acuerdo a medidas de similitud: Jaccard, Dice,Cosine, . . .

Modelos probabilísticos:Ranking de acuerdo a modelos probabilísticos: Okapi, DFR

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 31: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Esquema General del procesoConstrucción de ContextosTraducción de los ContextosRanking de Equivalentes

Ranking de Equivalentes II

Mejora de la precisión obtenida en el ranking:

La detección de cognados se aplica entre los 100 primeroscandidatos, tal y como se ha explicado en la sección 3

LCSR > 0,834. Si más de un candidato supera el umbral aquelcon el valor LCSR mas alto es elegidoLos traducciones obtenidas con este método son promocionadasa la 1a posición del ranking

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 32: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 33: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Creación del Corpus I

Corpus en euskera = noticias de www.zientzia.netCorpus en castellano = noticias de www.madrimasd.orgComparabilidad:

Periodo: 2000-2007Ambas webs ofrecen noticias científicas, del género divulgativo.Distribución temática de los documentos del corpus:

Tema Madri+d Zientzia.netBiología, Alimentación, Agricultura yPesca

36,59 % 24,31 %

Salud 9,73 % 16,26 %Ciencias de la Tierra 6,12 % 10,44 %Física, Química y Matemáticas 6,65 % 7,18 %Tecnología e Industria 29,45 % 24,15 %Energía y Medio Ambiente 11,45 % 7,35 %

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 34: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Creación del Corpus I

Corpus en euskera = noticias de www.zientzia.netCorpus en castellano = noticias de www.madrimasd.orgComparabilidad:

Periodo: 2000-2007Ambas webs ofrecen noticias científicas, del género divulgativo.Distribución temática de los documentos del corpus:

Tema Madri+d Zientzia.netBiología, Alimentación, Agricultura yPesca

36,59 % 24,31 %

Salud 9,73 % 16,26 %Ciencias de la Tierra 6,12 % 10,44 %Física, Química y Matemáticas 6,65 % 7,18 %Tecnología e Industria 29,45 % 24,15 %Energía y Medio Ambiente 11,45 % 7,35 %

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 35: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Creación del Corpus II

Características del corpus:

Corpus #palabras #doceu es eu es

Test Corpus 1.092K 1.107K 2521 1242

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 36: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Índice

1 IntroducciónMarco y Contexto del TrabajoMétodos para la Extracción de Terminología Bilingüe

2 Extracción de equivalencias terminológicasEsquema General del ProcesoConstrucción de ContextosTraducción de los ContextosBúsqueda de Equivalentes

3 Experimentos Diseñados y ResultadosCreación del CorpusEvaluación del Método de Extracción

4 Conclusiones y Perspectivas para el Futuro

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 37: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Test Set

Términos equivalentes euskera-castellano:Pares de términos que aparecen en los corpus y no estánrepresentados en el diccionario utilizado para traducir loscontextos

Equivalencia verificada automáticamente→ Diccionariosespecializados(Euskalterm, ZThiztegia)

Ambos términos tienen una frequencia mínima determinadaDos listas de términos (100 pares de términos por lista)

10≤ frecuencia del término ≤ 30frecuencia del término > 50

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 38: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Aspectos Evaluados

Representación de contextos y cálculo de similitud:LLR y cosenomodelos probabilísticos: Okapi (b=0,75) / Pl2 (c=1)

Métodos de Traducción:Selección de la primera traducciónAlgoritmo de selección de máxima coherencia

Detección de cognados para el tratamiento de palabrasdesconocidas (OOV)

Ranking de candidatos a traducciones:Similitud entre contextosHibridación similitud de contextos + cognados

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 39: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Representación de Contextos y Cálculo de Similitud

Precisión mediaTop1

Top5

Top10

Top15

Top20

LLR +cos

0,27 0,52 0,62 0,65 0,65

Okapi 0,34 0,47 0,60 0,65 0,69PL2 0,37 0,50 0,61 0,68 0,73

Cuadro: Precisión obtenida para lostérminos de frecuencia alta (> 50).Comparativa del baseline (LLR+cos) conlos modelos probabilísticos Okapi y PL2.

Precisión mediaTop1

Top5

Top10

Top15

Top20

LLR +cos

0,07 0,15 0,17 0,18 0,23

Okapi 0,05 0,12 0,17 0,21 0,23PL2 0,06 0,16 0,21 0,23 0,24

Cuadro: Precisión obtenida para lostérminos de frecuencia media-baja([10..30]). Comparativa del baseline(LLR+cos) con los modelos probabilísticosOkapi y PL2.

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 40: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Influencia de los Métodos de Selección / Detección deCognados

Precisión mediaTop1

Top5

Top10

Top15

Top20

PL2+First 0,37 0,50 0,61 0,68 0,73PL2+Coo 0,37 0,50 0,64 0,68 0,72PL2+First+Cog

0,30 0,54 0,59 0,72 0,74

PL2+Coo+Cog

0,32 0,55 0,67 0,71 0,74

PL2+Coo+Cog+Cog-re

0,38 0,61 0,72 0,75 0,78

Cuadro: Precisión obtenida para lostérminos de frecuencia alta (> 50)combinando el modelo PL2 con las distintastécnicas implementadas.

Precisión mediaTop1

Top5

Top10

Top15

Top20

PL2+First 0,06 0,16 0,21 0,23 0,24PL2+Coo 0,07 0,13 0,19 0,22 0,22PL2+First+Cog

0,05 0,16 0,23 0,25 0,26

PL2+Coo+Cog

0,06 0,18 0,19 0,25 0,26

PL2+Coo+Cog+Cog-re

0,28 0,39 0,40 0,45 0,46

Cuadro: Precisión obtenida para lostérminos de frecuencia media-baja ([10..30])combinando el modelo PL2 con las distintastécnicas implementadas.

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 41: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Creación del CorpusEvaluación del Método de Extracción

Resultados

Efecto de los cognados:Proceso de traducción de contextos: precisión '↑Aplicado entre los candidatos incluidos en el ranking:precisión ↑↑

Modelos probabilísticos superan LLR + coseno.PL2 > Okapi > LLR+cos

Términos de frecuencia alta: precisión ↑

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 42: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

ConclusionesPerspectivas para el Futuro

Conclusiones

Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.

Análisis de los resultadosAfinado del algoritmo

}+Experimentación

Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 43: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

ConclusionesPerspectivas para el Futuro

Conclusiones

Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.

Análisis de los resultadosAfinado del algoritmo

}+Experimentación

Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 44: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

ConclusionesPerspectivas para el Futuro

Conclusiones

Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.

Análisis de los resultadosAfinado del algoritmo

}+Experimentación

Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 45: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

ConclusionesPerspectivas para el Futuro

Conclusiones

Integración de diferentes técnicas existentes y su adaptación aun nuevo par de lenguasLa detección de cognados ayuda a mejorar los resultados,utilizada tanto en el proceso de traducción de contextos comosobre el ranking final→ adecuado para corpus del área científica(alta presencia de cognados)El algoritmo de selección basado en concurrencias obtienepeores resultados que el método de la 1a traducción.

Análisis de los resultadosAfinado del algoritmo

}+Experimentación

Corpus de pequeño tamaño (sólo el %18 de las palabras enEuskera alcanzan una frequencia de 10)→ cobertura ↓ ↓

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 46: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

ConclusionesPerspectivas para el Futuro

Perpectivas para el Futuro

Creación de corpus de mayor tamañoProfundizar en los experimentos

Algoritmos de selección de traduccionesModelos probabilísticos

Expandir trabajo a otras lenguas (Francés, Alemán, . . . )

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 47: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Referencias I

Fung, Pascale. 1995. Compiling bilingual lexicon entries from anon-parallel English-Chinese corpus. In David Yarovsky and KennethChurch, editors, Proceedings of the Third Workshop on Very LargeCorpora, pages 173–183, Somerset, New Jersey. Association forComputational Linguistics.

Gao, Jianfeng, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou,and Changning Huang. 2001. Improving query translation forcross-language information retrieval using statistical models. In SIGIR’01: Proceedings of the 24th annual international ACM SIGIRconference on Research and development in information retrieval,pages 96–104. ACM.

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 48: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Referencias II

Rapp, Reinhard. 1999. Automatic identification of word translationsfrom unrelated english and german corpora. In ACL37, pages519–512, University of Maryland.

Saralegi, Xabier, Iñaki San Vicente, and Antton Gurrutxaga. 2008.Similitud entre documentos multilingües de carácter técnico en unentorno web. In Proceedings of "Building and Using ComparableCorpora"workshop (LREC 2008), Marrakech, May.

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas

Page 49: Azerhitz Sepln 08

IntroducciónExtracción de equivalencias terminológicas

Experimentos Diseñados y ResultadosConclusiones y Perspectivas para el Futuro

Referencias

Extracción de Traducciones de Términos a partir deCorpus Comparables pertenecientes a áreas

específicas

Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle

Fundación ElhuyarI+D

SEPLN 2008, Leganés12/09/2008

Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas