Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf ·...

Post on 16-Mar-2020

11 views 0 download

Transcript of Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf ·...

Simbiosisde lasTécnicasEvolutivasy el Procesamiento

Estadísticodel LenguajeNaturalLourdes Araujo

lurdes@sip.ucm.es

Dpto. Sistemas Informaticos y Programacion

Universidad Complutense de Madrid

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.1/37

Esquema General de Aplicación de TécnicasEvolutivas al Procesamiento del LenguajeNatural (PLN)

Aplicación al Etiquetado Léxico de textos.

Aplicación al Análisis Sintáctico.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.2/37

Moti vación

PLN incluye una gran cantidad de procesoscomplejos:

etiquetado léxico,análisis sintáctico,determinación de los antecedentes depronombres y cláusulas de relativo, etc.

Muchos de estos procesos pueden versecomo una búsqueda de la estructuracorrecta.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.3/37

Los métodos estadísticos han conseguidoavances importantes en muchos de estosproblemas.

Estos métodos permiten considerar elproblema lingüístico a tratar como unaoptimización.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.4/37

Alg. Evolutivosy técnicasestadísticas

Las medidas estadísticas usadas en losenfoques estadísticos a PLN proporcionanuna función de evaluación natural.

Los textos de entrenamiento permiten elajuste automático de los parámetros delalgoritmo evolutivo.

Los algoritmos evolutivos aportan su robusteza la búsqueda y optimización involucrados enlos problemas de PLN.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.5/37

EsquemadeAplicación

Individuos: dependientes del problema.

Función de Adaptación: modelosestadísticas.

Operados genéticos: dependientes delproblema.

Parámetros del algoritmo: ajustadosmediante corpus de entrenamiento.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.6/37

DosAplicaciones

Etiquetado Léxico

Análisis Sintáctico

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.7/37

Etiquetado Léxico

� Muchas palabras son ambiguas (pertenecena distintas categorías léxicas):

Rice: NOMBREflies: NOMBRE, VERBOlike: PREP, VERBOsand: NOMBRE

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.8/37

Etiquetado Léxico Evolutivo

� La asignación depende del contexto de lapalabra: etiquetas de las palabrascircundantes.

� La evaluación de los individuos se basa enlos datos extraídos de un corpus etiquetadomanualmente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.9/37

Etiquetado Léxico Evolutivo

� La tabla de entrenamiento se construye apartir del corpus de entrenamiento.

� Registra los distintos contextos para cadaetiqueta y sus frecuencias.

� Los cromosomas se evalúan en función de latabla de entrenamiento: maximización de laprobabilidad total del etiquetado.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.9/37

Etiquetado Léxico Evolutivo

� Ajuste automático de parámetros:

Texto de entren.

Tabla de entren. Genetico

AlgoritmoPrueba

Texto de

TextoEtiquet.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.9/37

Representaciónde los Indi viduos

� Los cromosomas son una secuencia deetiquetas de cada palabra de la sentencia.

Poblaci on Inicial

� Selección aleatoria, proporcional a lafrecuencia, en un diccionario de una de lasetiquetas válidas de cada palabra.

� A las palabras ausentes se les asigna laetiqueta que aparece más frecuentemente enel contexto correspondiente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.10/37

Aptitud de los Indi viduos

� Probabilidad total de la secuencia deetiquetas de la sentencia.�: número de palabras de la sentencia��� palabra en la posición

�(gen �� ).� �� �

aptitud del gen �� .

� �� ��

��� �� �� �

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

Aptitud de los Indi viduos

Se consideran los contextos:

� �� � � � � � � � ��� �� � � � � � � � � � � � ��� ��

� : etiqueta asignada a ��� .: conjunto de etiquetas posibles de ��� .

LC: Parte izq. del contexto (longitud

"! #)RC: Parte derecha (longitud

%$ #)

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

Aptitud de los Indi viduos

Evaluación de cada gen:

� �� � � '& � � & ( (�) � * �

& ( (� : número de apariciones del contexto enla tabla.

) � * � : suma

+ , � de apariciones decontextos:

� �� � � � � � � � � � � � , � � � � � � � � � �� � �

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

Aptitud de los Indi viduos

Si no hay entradas en la tabla para esecontexto se reduce su tamaño.

Si incluso el contexto más corto no apareceen la tabla:

� �� � � '& � en cualquier contexto

-.0/ 1 ,en cualquier contexto

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

OperadoresGenéticos:Cruce

� Se seleccionan dos individuos conprobabilidad proporcional a su aptitud.

� Se elige aleatoriamente un punto de cruce.

� La primera parte de un padre se combina conla segunda del otro produciendo dos hijos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.12/37

OperadoresGenéticos:Mutación

� Se aplica a los genes de los individuosprocedentes del cruce, con probabilidad 2.

� La etiqueta del punto de mutación sereemplaza por otra de las etiquetas válidasde esa palabra.

� La nueva etiqueta se selecciona conprobabilidad proporcional a su frecuencia.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.13/37

ResultadosExperimentales

� Tabla de entrenamiento obtenida a partir delcorpus de Brown:- Tamaño apropiado del conjunto de

etiquetas.

� Estudio de factores influyentes en la precisióndel etiquetado:- Tamaño y forma de los contextos.- Tamaño del corpus de entrenamiento.- Parámetros Evolutivos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.14/37

Influencia de losContextos

1−0 2−0 3−0 1−1 2−1 2−2Tipo de contexto

380

82

84

86

88

90

92

94

96

98

100E

tique

tado

cor

rect

o (%

)

4Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.15/37

Influencia de losContextos

� Mejor rendimiento para contextos pequeñoscomo 1-1.

� Contextos mayores producen entradas pocosignificativas en la tabla de entrenamiento.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.15/37

Tamañodel texto deentrenamiento

05

2e+056 4e+056 6e+056 8e+056 1e+066

Tamaño del corpus

793

93.5

94

94.5

95

95.5E

tique

tado

cor

rect

o (%

)

4Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.16/37

Tamañodel texto deentrenamiento

� El incremento de la precisión con el tamañodel corpus alcanza saturación (alrededor de200,000 palabras).

� Resultados comparables a los obtenidos conotros enfoques probabilísticos.

� Los algoritmos evolutivos son más robustos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.16/37

Parámetrosdel Algoritmo

05

20 40 60 80 100

5

Numero de iteraciones

93.5

93.7

93.9

94.1

94.3

94.5

94.7

94.9

95.1

95.3

95.5E

tique

tado

cor

rect

o (%

)

4

PS=56, %X=50, %M=5PS=36, %X=50, %M=5PS=16, %X=50, %M=5PS=56, %X=60, %M=5

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.17/37

Parámetrosdel Algoritmo

� Pequeñas poblaciones son suficiente:algoritmo eficiente.

� Los porcentajes de cruce y mutación debenestar en correspondencia con el tamaño de lapoblación.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.17/37

Conclusiones

� La programación evolutiva es suficientementerobusta para tratar el etiquetado léxico.

� Los experimentos indican la importancia de lalongitud de los contextos.

� Los resultados muestran la importancia deltamaño de los textos de entrenamiento.

� Sin embargo, hay un límite en la mejoraobtenida.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.18/37

Estudio deetiquetadoserróneos

- Los resultados mejoran con la longitud de lasentencia.

- Palabras que requieren una etiqueta pocofrecuente o que aparece en un contexto rarotienden a etiquetarse erróneamente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.19/37

Estudio deetiquetadoserróneos

- El incremento del tamaño del texto deentrenamiento mejora los resultados depalabras que requieren una de sus etiquetasmás comunes y que aparecen en contextosfrecuentes.

- El etiquetado de palabras que requieren unaetiqueta poco frecuente puede empeorar conel tamaño del corpus.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.19/37

Análisis gramatical

� La búsqueda del significado de una sentenciarequiere extraer su estructura gramatical:análisis sintáctico.

� Ambigüedad gramatical:

Rice flies like

sandRice flies

like

sand

N N

NP VP

S

V NP

NN

NP

S

VP

V PP

P NP

N

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.20/37

Análisis gramatical

� El análisis es un proceso de búsqueda de lasestructuras correctas.

� Las gramáticas probabilísticas permitenestablecer preferencias entre estasestructuras: optimización �

programación evolutiva.

� El problema es aún muy complejo �

Paralelización

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.20/37

Gramáticasprobabilísticas

� Asignan una probabilidad a cada regla de lagramática.

� La probabilidades de las reglas de unamisma categoría sintáctica suman uno.

� La probabilidad de un análisis es el productode las probabilidades de las reglas usadas ensu construcción.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.21/37

Análisis Evolutivo: Indi viduos

� Los cromosomas son posibles análisis parala sentencia y gramáticas dadas.

� El conjunto de categorías léxicas de cadapalabra de la sentencia de entrada se buscanen un diccionario (lexicón)

� Un cromosoma contiene una lista de genesque son análisis de secuencias de palabrasde la sentencia.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.22/37

Análisis Evolutivo: Indi viduos

Cada gen contiene:

- Secuencia de palabras que le correspondeanalizar.

- Regla gramatical usada.

- Si el lado derecho de la regla tiene símbolosno terminales, lista de referencias a los genesque realizan los análisis de esos símbolos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.22/37

Estructura dedatos

(n. of genes): 4 "the man sings a song"

(n. gen) (regla) (descomposición):

(primera pal., n pal, gen):

(1)

8:9 ;<>= ?<

NP:(1, 2, 2)

VP:(3, 3, 3)

(2)

;< 9 @�A B= ;�CD E Det:

F GA

Noun: HI E

(3)

? < 9 ?AJ K= ;<

Verb: L M EN L

NP:(4, 2, 4)

(4)

;< 9 @�A B= ;�CD E Det: I

Noun: L C EN

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.23/37

Cromosomasejemplo

S

NP VP

Adj NP Verb NP

Det NP

Noun

NounNoun

NP

NP

Det

S

VP

Verb NP

NP AP

AdjNoun

The

man

sings

a song

The

man

sings

a

song

Cromosoma 1 Cromosoma 2

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.24/37

Población Inicial

Generación aleatoria con condiciones:

- El conjunto de palabras de la sentencia sedivide aleatoriamente, dejando al menos unverbo en la segunda parte (VP principal).

- Las palabras asignadas al se analizaneligiendo aleatoriamente una regla . Laspalabras del se analizan con una regla

elegida aleatoriamente.

- Se da preferencia a las reglas capaces deanalizar el número correcto de palabras delgen.

- El proceso continúa para las reglas consímbolos no terminales en su lado derecho.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.25/37

Función deevaluación

� �O ) ) � �QPR SUTV PR SUTV �XW V R Y W V R Y

� Z[ \^] � mide la capacidad del cromosoma paraanalizar la sentencia objetivo.

� _ � [ ` mide la probabilidad de las reglasempleadas en el análisis.

_ � [ ` ��

��� �acb d e � �� �

dondeacb d e � �� �

es la probabilidad de la regladel gen �� . Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.26/37

Función deevaluación

Z[ \^] � se basa en el número relativo de genescoherentes. Un gen es coherente si

a) corresponde a una regla cuyo lado derechosólo tiene terminales, y estos secorresponden con la categorías de laspalabras que analizan.

b) si corresponde a una regla con no-terminalesy cada uno de ellos se analiza por un gencoherente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.26/37

Operadoresgenéticos:Cruce

El cruce intercambia los subárboles máspequeños de dos padres que contienen unapalabra seleccionada aleatoriamente y cumplen:

� Los subárboles (genes) intercambiadoscorresponden a la misma categoría sintáctica(NP, VP, etc).

� Los intercambios no produceninconsistencias en las secuencia de palabrasde la sentencia.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.27/37

Cruce de loscromosomasejemplo

S

NP

Adj NP

Noun

NP

Det NP

Noun

VP

Verb

Noun

NPDet

NP

S

Verb

VP

NP

NP

AP

Adja

a

man

singsThe

song

The

man

sings

songNoun

Hijo 1 Hijo 2

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.28/37

OperadoresGenéticos:Mutación

Genera un nuevo análisis para un genseleccionado aleatoriamente.Mutación en el cromosoma 1

Noun

NP

NP

Det

S

VP

Verb

Det

NP

NP

Noun

sings

a

song

man

The

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.29/37

Modelo Paralelo de Islas

Componentes del sistema:

Analizadores Cooperativos (AC)

Selector principal (SP)

Política de Migración:ACACSP AC AC

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.30/37

Modelo Paralelo de Islas

� Modelo Asíncrono

� Política de convergencia: Un analizadorcooperativo que alcanza convergencia envíasu mejor individuo al selector principal.

� Selección de los individuos a migrar: elegidosaleatoriamente con probabilidad proporcionala la aptitud.

� Selección de los individuos a reemplazar porlos ‘inmigrantes’: aleatoriamente con igualprobabilidad.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.30/37

ResultadosExperimentales

Implementado en C++ con PVM sobre unSGI-Cray ORIGIN 2000.Sentencias usadas en los experimentos:1 Jack(noun) regretted(verb) that(wh) he(pro) ate(verb)

the(det) whole(adj) thing(noun)2 The(det) man(noun) who(wh) gave(verb) Bill(noun)

the(det) money(noun) drives(verb) a(det) big(adj)car(noun)

3 The(det) man(noun) who(wh) lives(verb) in(prep)the(det) red(adj) house(noun) saw(verb) the(det)thieves(noun) in(prep) the(det) bank(noun)

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.31/37

Ejecuciónsecuencial

100 300 500 700 900Tamano de Poblacion

0

100

200

300

400

500

Gen

erac

ione

s

Sentencia 1Sentencia 2Sentencia 3

Porcentaje de cruce: 50%, de mutación: 20%.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.32/37

Ejecuciónparalela

Sec. Paralela

Sent 2 P. 4 P. 6 P. 8 P. 10 P.

sent1 16.55 10.48 3.08 3.09 2.09 2.09

sent2 50.03 19.12 15.02 10.64 3.48 3.49

sent3 52.70 25.40 22.71 19.34 14.93 14.79

Tiempo en segundos. Población de 200. %C = 50%. %M =

20%. Población emigrante de 40. Intervalo de 15 generaciones

entre migraciones.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.33/37

Ejecuciónparalela

� La ejecución paralela consigue una mejoraimportante incluso con solo 2 procesadores.

� Se alcanza saturación para cierto número deprocesadores.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.33/37

Tamañosde la poblaciónemigrante

2 4 6 8Numero de Analizadores

0.7

0.8

0.9

1A

ptitu

d

%E = 30%E = 40%E = 50

Sentencia 2. 50 individuos por proc. %C = 40%. %M =20%. Intervalo entre migraciones de 10 generaciones.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.34/37

Inter valosdemigración

2 4 6 8Numero de Analizadores

0.4

0.5

0.6

0.7

0.8

0.9

1A

ptitu

d

I = 5I = 10I = 15I = 20

Sentencia 2. Población de 50 individuos porprocesador, %C = 40%, %M = 20%, poblaciónemigrante del 50%.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.35/37

Comparacióndepolíticasdemigración

Round-Robin: cada analizador envía lapoblación emigrante al siguiente en unasecuencia anular.

Todos-a-todos (All-to-all): Cada analizarenvía la población emigrante a todos losdemás.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.36/37

Comparacióndepolíticasdemigración

2 4 6 8Numero de Analizadores

0.8

0.85

0.9

0.95

1A

ptitu

d

%E = 30, I = 5 (RR)%E = 30, I = 5 (AA)%E = 50, I = 15 (RR)%E = 50, I = 15 (AA)

Round-robin (RR) and all-to-all (AA). 50 individuos por

procesador. Limite de 100 generaciones. %C = 40%. %M =

20%. E representa el porcentanje de intercambio. I el intervalo

de migración.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.36/37

Comparacióndepolíticasdemigración

� Los resultados de ambas políticas sonsimilares, aunque la round-robin esligeramente mejor.

� Se adopta esta política, que obteniendoresultados similares reduce lascomunicaciones.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.36/37

Conclusiones

La programación evolutiva es válida paratratar el problema del análisis sintáctico.

El problema tiene suficiente granularidad paraser paralelizado en forma de modelo de islas.

Los intercambios de población con unapolítica round-robin son tan efectivos comocon una política todos-a-todos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.37/37