Treebanks : estado de la cuestión y desarrollo del treebank CLiC-TALP

47
4-6 febrero 2002 IWCL02 1 Treebanks: estado de la cuestión y desarrollo del treebank CLiC-TALP Montserrat Civit Núria Bufí Mª Antònia Martí

description

Treebanks : estado de la cuestión y desarrollo del treebank CLiC-TALP. Montserrat Civit Núria Bufí Mª Antònia Martí. Esquema de la presentación:. Qué es un treebank? Utilidades de un treebank? Metodologías de desarrollo Estado de la cuestión Dos ejemplos paradigmáticos - PowerPoint PPT Presentation

Transcript of Treebanks : estado de la cuestión y desarrollo del treebank CLiC-TALP

Page 1: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 1

Treebanks: estado de la cuestión

y desarrollo del treebank CLiC-TALP

Montserrat CivitNúria Bufí

Mª Antònia Martí

Page 2: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 2

Esquema de la presentación:

• Qué es un treebank?• Utilidades de un treebank?• Metodologías de desarrollo• Estado de la cuestión• Dos ejemplos paradigmáticos• Propuesta para el español: problemas concretos

Page 3: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 3

Definición y utilidades de un treebank

1. inferencia / extracción de conocimiento lingüístico2. aplicaciones PLN:

inferencia de gramáticasaprendizaje para la desambiguación automática

Utilidades

corpus anotado con información de estructura de frase(McEnery)

Definición

Page 4: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 4

Metodología

Anotación manualAnotación semi-automática:

Gramática etiquetación corrección / validaciónmanual

Gramática aetiquetación

corrección / validaciónmanual

Gramática b

Page 5: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 5

Estado de la cuestión (1): Treebanks existentes

(principales treebanks: listado no exhaustivo)

1. NEGRA / TIGER (alemán; 350.000 tokens)2. PDT: Prague Dependency Treebank (checo; 450.000 tok.)3. Corpus Le Monde (francés; 1.000.000 tokens)4. TUT: Turin University Treebank (italiano; 1.000 oraciones)5. Spanish Treebank (UAM) (1.500 oraciones)6. ISST: Italian Syntactic-Semantic Treebank (300.000 tok.)7. Penn Treebank (inglés; 3mill. / 2 mill)8. Susanne Corpus (inglés; 120.000 tokens)

Page 6: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 6

Estado del Arte (2): conceptos básicos

Nivel de anotación:morfología / sintaxis / (semántica)

Sintaxis: Constit. Funcio. Depend. Mixto

NEGRA (+) (+) +

PDT + + +

Le Monde + +

TUT +

Spanish +

ISST (+) (+) (+) +

Penn + +

Susanne + +

Page 7: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 7

Dos ejemplos paradigmáticos

PDT: dependencias

NEGRA / Le Monde: constituyentes y funciones

3 niveles de anotación

-morfológico-ATS (analytical tree structure)-TGTS (tectogrammatical tree structure)

3 niveles de anotación-morfológico-constituyentes-funciones sintácticas

Page 8: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 8

PDT (1)

morfología: 3030 etiquetas 187 clases de ambigüedad

ATS:• relaciones de dependencia superficiales• 60 etiquetas básicas (x 3: coord / apos. / parent.)• 25 funciones analíticas• funciones para nodos auxiliares• estructura head -- modificador

• problemas de la coordinación• se admiten dobles funciones (casos dudosos)

Page 9: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 9

PDT (2)

ATS: representación

• palabra / signo puntuación nodo• # nodos = [ # palabras / signos + 1 (root)]• no hay cruce de ramas• TAGs de cada nodo:

• forma• etiqueta morfológica• etiqueta sintáctica

Page 10: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 10

PDT (3)

Ejemplo de anotación ATS:Emilio perdió la titularidad en el Real_Madrid .

AuxS

PERDIÓ(pred)

EMILIO(sujeto) TITULARIDAD

(objeto)

EN(AuxP)

REAL_MADRID(adv)

EL(atrib)

.(AuxK)

LA(atrib)

Page 11: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 11

PDT (4)

TGTS:

• representaciones subyacentes de la oración• sólo los nodos autosemánticos reciben tag• TAGs para cada nodo:

• lema de la palabra autosemántica• gramatemas morfológicos (sgdo. categorías morfológicas)• functores: funciones tectogramaticales (actor, patient, etc.)

Conversión ATS > TGTS: fase automática + fase manual

Page 12: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 12

PDT (5) ATS > TGTS:

Proceso automático:a) asignación de atributos

• modalidad oracional• sujeto verbos activos = ACTOR• símbolos gráficos > valores borrado

b) cambios en la estructura del árbol• fusión formas verbales analíticas > lema autosemántico• fusión nodos preposiciones y conjunciones complejas• borrado nodos preps/conj previa conversión a gramatemas• cambio dirección algunas dependencias• borrado nodos auxiliares

Proceso manual

Page 13: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 13

AuxS

PERDIÓ(pred)

EMILIO(sujeto) TITULARIDAD

(objeto)

EN(AuxP)

REAL_MADRID(adv)

.(AuxK)

EL(atrib)

PDT (6)

ATS:AuxS

PERDIÓ(pred)

EMILIO(sujeto) TITULARIDAD

(objeto)

EN(AuxP)

REAL_MADRID(adv)

EL(atrib)

.(AuxK)

LA(atrib)

Page 14: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 14

PERDER

EMILIOactor TITULARIDAD

patient

REAL_MADRIDlocative

PDT (6)

REAL_MADRIDprep= endet=elADV

PERDIÓtiempo=paspers=3núm=sg

TGTS:

Page 15: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 15

Page 16: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 16

NEGRA (1)

Anotación sintáctica de:

• estructura sintáctica (parentización)• categorías sintácticas (etiquetas para constituyentes)• funciones gramaticales

No hay categorías vacías

Estructuras totalmente planas (X’’ y X0)

Se permite el cruce de ramas

Page 17: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 17

Page 18: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 18

Le Monde

chunker clustering léxicoparser marcaje constituyentes no recursivostagger funcional asignación funciones sintácticas

<NP> Marie </NP> <VN> aime </VN> <NP> les fraises </NP> <COORD> et

<NP> Paul </NP> <NP> les bananes </NP>

</COORD>

Marcaje de constituyentes:

Page 19: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 19

El corpus CLiC-TALP:

• etiquetación morfológica(MACO + RELAX)• chunking sintáctico(TACAT + gramática chunks)

Punto de partida:

Anotación sintáctica manual

Page 20: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 20

(algunos) Problemas concretos (1):

1. Sistema teóricamente neutro?Sí: NEGRA / Le MondeNo: PDT, PennTB

2. Niveles de anotacióna) constituyentesb) constituyentes y funciones (NEGRA, Le Monde)c) dependencias (PDT, ISST)

3. Contenido de la anotación de funcionesa) complementos nominales y verbales?b) distinción argumentos / adjuntos?c) sujeto = argumento?

Page 21: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 21

(algunos) Problemas concretos (2):

4. Subespecificación de funciones?

5. Categorías vacías y elipsis:a) qué casos?b) coindización?c) tipos de coindizaciónd) alcance de la recuperabilidad de la categoría elíptica?

6. Categoría predicado o sintagma verbal?

7. Alteración del orden superficial de las oraciones?

8. Elementos discontinuos?

Page 22: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 22

9. Algunas subordinadas adverbiales:a) estructuras paralelas?b) estructuras de tipo ADJUNTO?

(algunos) Problemas concretos (3):

10. Tratamiento de dobles funciones sintácticas?

11. Tratamiento de las formas no personales del verbo

12. Distinción distintos tipos de sujeto?

13. Argumentos no realizados sintácticamente (caso particular de elipsis)

14. La coordinación y los sintagmas sin núcleo

Page 23: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 23

15. Las ambigüedades en el attach:a) hacer una por defecto (la más alta)?b) (además) marcar

b1- el otro posible attach?b2- que es ambiguo?

(algunos) Problemas concretos (4):

16. Establecer distintos tipos de oración(a nivel sintáctico)

Page 24: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 24

17. Elementos textuales

(algunos) Problemas concretos (5):

18. C. Predicativo:

marcaje de la relación con el sujeto / OD ?

19. Modalidades oracionales

20. etc.

Page 25: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 25

Jerarquía de funciones (complementos verbales)

Complementos

Argumentos Adjuntos

C.Ag

CD

CI

Sujeto

CPred

CReg

Atributo

Tiempo Modo

Lugar

Page 26: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 26

Jerarquía de funciones (complementos verbales)

Complementos

Argumentos Adjuntos

C.Ag

CD

CI

Sujeto

CPred

CReg

Atributo

Tiempo Finalidad

Lugar Causa

Modo

Page 27: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 27

Jerarquía de funciones (complementos verbales)

Complementos

Argumentos Adjuntos

C.Ag

CD

CI

Sujeto

CPred

CReg

Atributo

TiempoFinalidad

Lugar CausaModo

Compañía

CantidadInstrumento

Page 28: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 28

Jerarquía de oraciones

S

Principal Subordinada

Finita No-finita

Relativa

Completiva

Adverbial

S Sfr Sfc SfaSnf

Page 29: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 29

Jerarquía de oraciones

S

Principal Subordinada

Finita No-finita

S Sfr

Sfq

SfaSnf

Sfi

Relativa

Completiva

Adverbial

que Interrog

Page 30: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 30

Jerarquía de funciones (complementos verbales)

Complementos

Argumentos Adjuntos

C.Ag

CD

CI

Sujeto

CPred

CReg

Atributo

TiempoFinalidad

Lugar CausaModo

Compañía

CantidadInstrumento

Page 31: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 31

[[ Mi marido lesi había hecho un gran favor a aquella pobre gente i ]y [ Ø i querían agradecérselo]]

[[ Mi marido les había hecho un gran favor a aquella pobre gente i ]y [ Ø i querían agradecérselo]]

referente más cercano?:

-¿ Øm Quieresm un refresco?

[[ Mi marido les había hecho un gran favor a aquella pobre gente i ]y [ Øi/m querían m agradecérselo]]

sujeto elíptico:

Page 32: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 32

-¿Quieres un refresco?- He tomado tres en casa- ¿Un helado, entonces?

-¿ Øi Quieresj un refresco?- He tomado tres en casa- ¿ Øi Øj Un helado, entonces?

Se rebasa el límite oracionalen la búsqueda del referente?

NO se rebasa el límite oracionalen la búsqueda del referente?

-¿ Quieres un refresco?- He tomado tres en casa- ¿Un helado, entonces?

Page 33: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 33

Me gusta la cultura del pelotazo porque sacrifica la búsqueda de lo útil en favor del cultivo de lo admirable

Sintagma verbal o Predicado:[verbo > argumentos > adjuntos]

alteración orden superficial

[la cultura del pelotazo]i

Me gusta []i porque sacrifica la búsqueda de lo útil en favor del cultivo de lo admirable

... y que se crease [ algo parecido a un ataque interior] para equilibrar las cosas con Sabas

Page 34: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 34

Pero el Real_Madrid de anoche era tan terrenal, tan rural incluso, que despertaba ese sucedáneo de la piedad que llamamos simpatía.

Oraciones condicionales, concesivas, comparativas, consecutivas.

S

S1 S2

Pero el Real_Madrid de anoche eratan terrenal, tan rural incluso,

que despertaba ese sucedáneode la piedad que llamamossimpatía

Page 35: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 35

S

Pero el Real_Madrid de anoche eratan terrenal, tan rural incluso,

que despertaba ese sucedáneode la piedad que llamamossimpatía

Page 36: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 36

Si la señora Aguirre quiere castigar la suciedad de Madrid en generalseñora Aguirre

Sujeto

¿Qué te gustaría ser cuando seas mayor?te

OI

Sujeto

Page 37: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 37

Tengo que ganar dinero para mantener a mis hijos

mantener a mis hijos

Snf

S

Tengo que ganar dinero para

grup-verb sn-OD grup-sp-ADJFIN

prep

v-nofin sp-OI

Øi

Page 38: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 38

Tengo que ganar dinero para mantener a mis hijos

S

Tengo que ganar dinero para

grup-verb sn-OD grup-sp- ADJFIN

prep

a mis hijos

sn-inf

mantener

infinitiu sp-OI

Page 39: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 39

Eran cuatro hermanas y todas fueron separadas

Los actuales 20.000 cascos azules habrán de ser sustituidos por fuerzas armadas

para señalar que se dan, mundo adelante, excesos folletinescos en las informaciones

se les hizo una sola pregunta

La entrometida decencia impediría hacer esos regalos

El problema está en que el presupuesto del común de los mortales no admite grandes despilfarros

Page 40: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 40

el que la derriba ha ido de la insatisfacción a la violencia

a veces un peón va a caballo a ver a la novia

aturdida por el miedo de la oportunidad que se le iba

el cuerpo de Clanton iba en el primer coche

a) argumentos / adjuntosb) realización argumentos

ir de a a b en cde a a b en c a b en c ir

Page 41: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 41

antes de nada, amo, admiro y respeto a Cayetana_de_Alba

Sintagma con núcleo: (Le Monde)

grup-verb

verbo

verbo

grup-verb-coord

verbocoord

grup-verb-coord

amo admiro respetoy,

Page 42: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 42

antes de nada, amo, admiro y respeto a Cayetana_de_Alba

Sintagma sin núcleo: (PDT)

grup-verb

verbo verbo verbocoord

amo admiro y respeto

Page 43: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 43

Hace años, antes de que subieran allí arriba, en diciembre no Ø llovía

-¿ Øm Quieresm un refresco?

Impersonales

Sujeto elíptico sin referente oracional

Sujeto elíptico con referente oracional (indización doble???)

[[ Mi marido les había hecho un gran favor a aquella pobre gente i ]y [ Øi/m querían m agradecérselo]]

Page 44: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 44

Inesperadamente, los límites de su vida se habían reducido a la mínima expresión

Pero esto, con ser mucho, no fue todo.

Es que, doña Laurita, no sabe qué penalidades nos van cercando

Sin_embargo, ahora te vemos distinto

Etiqueta especial: E(lementos) T(extuales)

Page 45: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 45

Page 46: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 46

Page 47: Treebanks :  estado de la cuestión  y desarrollo del treebank CLiC-TALP

4-6 febrero 2002 IWCL02 47

La facultad de aprender y reaccionar ante nuevas situaciones

Vi al hombre con el telescopio

Dada la coordinación, generalizar no implica error ni pérdida de información

Hacer el attach al nodo más alto puede implicar error

La misma decisión tiene efectos distintos:

(reaccionar)(aprender y reaccionar)

(al hombre)(Vi) al hombre