Anotación Habla Corpus de Vídeo, Alcántara

La anotacion del habla en corpus de vdeo

Manuel Alcantara PlaDFKI GmbHSaarbrucken

[email protected]

Resumen: La anotacion lingustica del habla en corpus multimodales es una labortan nueva como costosa, pero tambien es prometedora para tareas como la extracciony el resumen de contenido, as como para abrir nuevos caminos en el analisis delhabla espontanea. El presente artculo repasa el estado de la cuestion en los distintosniveles de analisis con ejemplos de proyectos internacionales y nacionales, resaltandola importancia de encontrar una base comun a pesar de la actual falta de estandares.Palabras clave: anotacion lingustica, corpus multimodal, estandarizacion

Abstract: The linguistic tagging of spoken language in multimodal corpora is a newand complex task. However, its possibilities for other tasks such as content extrac-tion/summarization and for further linguistic analysis are promising. This articlereports on the state-of-the-art in the dierent analysis levels including experiencesfrom international projects and stressing the importance of a common ground inspite of the current lack of standards.Keywords: linguistic tagging, multimodal corpora, standardization

1. Introduccion

El analisis lingustico de las transcripcio-nes del habla extradas de corpus de vdeo esun campo de investigacion muy reciente den-tro de la lingustica computacional. La canti-dad de colecciones de habla es tambien muylimitada y aun mas si solo tenemos en con-sideracion los corpus que incluyen algun ti-po de anotacion lingustica. La aplicacion enlos corpus orales de los etiquetados disenadospara la lengua escrita requiere de una adap-tacion costosa que empieza incluso en las ba-ses teoricas gramaticales, solo probadas hastaahora -en el mejor de los casos- sobre textosescritos.

La necesidad de corpus anotados de es-tas caractersticas es cada vez mas obvia yacuciante tanto en la lingustica como en lasaplicaciones enmarcadas dentro de la inteli-gencia articial. Por este motivo, el numerode corpus de habla espontanea ha crecido demanera importante durante los ultimos anosy su desarrollo ha suscitado un buen nume-ro de cuestiones que se estan multiplicandoahora al incluir las relaciones entre el habla yel resto de elementos presentes en un corpusmultimodal.

Este artculo describe cuales son los pro-blemas mas graves encontrados en este nuevoreto de la lingustica de corpus as como al-gunas de las medidas que han sido adoptadashasta el momento para resolverlos. Dado que

muchos de los proyectos mencionados estanaun desarrollandose, he optado por citar apie de pagina el respectivo sitio de interneten cada primera mencion para facilitar el ac-ceso a su estado actual. En las conclusionesnales, se resaltara la necesidad de una ba-se de trabajo comun para el etiquetado delhabla.

2. La transcripcion del habla

La anotacion del habla depende en prime-ra instancia de las caractersticas de la trans-cripcion. La mayora de las transcripcionesse realizan o generan siguiendo las convencio-nes ortogracas de la lengua que se trate taly como recomiendan, entre otros, el Corpusde Habla Holandes (CGN)1, el Corpus Nacio-nal Britanico (BNC)2 y el Corpus de JaponesEspontaneo (CSJ)3. Debido a que la trans-cripcion fonetica se considera aun demasiadocompleja para el habla espontanea, los cor-pus que incluyen transcripciones de este tipoen lugar -o ademas- de ortogracas se basanen alfabetos fonemicos en lugar de foneticos.Con este n, se utiliza el AFI en la ultimaversion del UAM-C-Oral-Rom (Moreno et al.,2005) y en el Corpus Taiwanes de Lengua In-fantil (TAICORP) (Tsay, 2005), el sistema

1http://lands.let.kun.nl/cgn/ehome.htm2http://www-dev.natcorp.ox.ac.uk/3http://www2.kokken.go.jp/ csj/public/

ISSN: 1135-5948 Sociedad Espaola para el Procesamiento del Lenguaje Natural

SAMPA4 en el CGN y las slabas Kana enel CSJ. Precisamente este ultimo es un buenejemplo de intento de realizar transcripcionesfoneticas con el objetivo de etiquetar fenome-nos como la palatalizacion. Sus conclusionesno son, sin embargo, muy alentadoras pues-to que no fueron capaces de etiquetar todoslos rasgos foneticos que pretendan original-mente por el bajo nivel de acuerdo que seencontraron entre los anotadores.

La transcripcion, aun siendo ortograca,implica un buen numero de decisiones ar-bitrarias tales como el tratamiento de lasmayusculas, los acronimos y los smbolos, lapuntuacion, las marcas diacrticas, los nume-ros, los prestamos lingusticos y las palabrasque no aparecen normalmente en fuentes es-critas. Entre estas ultimas, son especialmenteimportantes por su frecuencia las decisionescon respecto a los rasgos dialectales, las in-terjecciones y los marcadores discursivos. Aeste respecto, es importante senalar la exis-tencia de guas como el Estandar de Codica-cion de Corpus (XCES) del grupo EAGLES5,que desgraciadamente solo cubren los aspec-tos mas generales.

Las convenciones ortogracas han proba-do ser problematicas por dos razones curiosa-mente opuestas. Por un lado, hay casos en losque son excesivamente ambiguas y necesitanser restringidas. Un ejemplo es el CSJ, quehace un uso del Kanji (pictogramas chinos)y del Kana (silabario japones) mucho masestricto que el propuesto por las normas or-togracas del japones estandar de modo quea cada forma solo le corresponda una cadenafonica.

Por otro lado, las convenciones pueden serexcesivamente restrictivas como para reejarla creatividad del habla. El TAICORP es unejemplo en el que se usa la ortografa chinacomo base, pero se la acompana del sistemade romanizacion Taiwan Southern Min paralas palabras que no se pueden encontrar enlos diccionarios tradicionales.

Otro aspecto importante a tener en cuen-ta a la hora de analizar un corpus de habla esel modo en que se ha realizado la transcrip-cion: de forma manual o automatica. El esta-do actual de los sistemas de reconocimientoautomatico de habla (ASR) no permite obte-ner aun unos resultados ables para el anali-sis lingustico (Alcantara y Declerck, 2007).

4http://www.phon.ucl.ac.uk/home/sampa/home.htm5http://www.cs.vassar.edu/XCES/

Los sistemas mas avanzados logran alrededordel 90% de palabras correctas, pero solo enlas mejores condiciones (lo que signica ha-bla con guion producida en un laboratorio).Si el corpus incluye diferentes hablantes y lasgrabaciones han sido realizadas en contextosnaturales, el porcentaje baja a bastante me-nos de la mitad.

3. Elementos no lingusticos

Las transcripciones de habla suelen incluirla anotacion de rasgos no lingusticos queayudan a su posterior analisis. Estos datos,generalmente en la cabecera del documento oen un documento externo, estan relacionadostanto con la transcripcion como con la fuenteoriginal del vdeo. Con respecto a los docu-mentos, datos tpicos son su tamano, su cali-dad acustica, los formatos, las fuentes, los ha-blantes que aparecen (generalmente con algu-nas caractersticas como su edad, nivel educa-tivo y genero), los responsables de las trans-cripciones y los enlaces a otros archivos o do-cumentos relacionados. La informacion sobrela calidad acustica suele acompanarse de de-talles de la grabacion tales como el tipo demicrofonos, la frecuencia o si el tratamientoes digital o analogico. La informacion sobre lafuente es especialmente importante si los tex-tos han sido tomados de corpus preexistentes.En cuanto a los enlaces a otros documentos,es recomendable realizarlos a traves de un do-cumento externo de modo que sea mas senci-lla su gestion y la posibilidad de compartir oreutilizar los contenidos del corpus. El marcoeuropeo Isle Meta Data Initiative 6 esta pro-poniendo un estandar para este tipo de ges-tion de corpus multimodales/multimedia.

En algunos casos, es fundamental la inclu-sion de informacion sobre el contexto y sobrelos rasgos sociolingusticos de la interaccioncontenida en el documento (como, por ejem-plo, en CHILDES7 o C-Oral-Rom). Etiquetastpicas sobre el contexto son las condicionesen las que se produjo la grabacion (incluyen-do el papel que tuvo el grabador y el nivelde espontaneidad), la fecha y el lugar en quese produjo. Las anotaciones sociolingusticasinforman sobre los participantes de la interac-cion (nombres, edades y lugares de nacimien-to, generos, papel en la conversacion, niveleducativo, etc.) y son un criterio comun para

6http://www.mpi.nl/IMDI/7http://childes.psy.cmu.edu/

Manuel Alcntara Pla

132

el diseno de los corpus (p.ej. CGN, CHIL-DES o C-Oral-Rom). Si el discurso esta divi-dido en turnos, un identicador unico se re-laciona con cada participante para permitirreferencias en el dialogo a la informacion delhablante. Otros rasgos sociolingusticos comoel dialecto o el registro son, aunque tambienfrecuentes, mas dependientes del objetivo delcorpus. El CSJ, por ejemplo, incluye datosespeccos sobre el nivel de uidez, de expre-sividad y de claridad articulatoria de los ha-blantes.

Por ultimo, algunas anotaciones legalespueden ser obligatorias dependiendo de la le-gislacion vigente. El consentimiento de loshablantes a ser grabados y los derechos dela propiedad intelectual tienen que aparecerexplcitos en los corpus de la Union Europea.Los consentimientos deben explicitar si el so-nido puede ser transcrito, usado para la inves-tigacion y publicado. Aunque los derechos depropiedad intelectual son mas tpicos de losdocumentos escritos, tambien son relevantesen grabaciones literarias o con valor cientco(por ejemplo, conferencias) as como en docu-mentos tomados de medios de comunicacion.Este aspecto puede repercutir en el valor delcorpus de dos maneras diferentes. Por un la-do, las ventajas de un corpus que cuenta contodos los permisos para su utilizacion y publi-cacion son evidentes para una investigacionexitosa. Por otro lado, estos requisitos lega-les pueden comprometer la espontaneidad delo grabado puesto que es difcil lograr una in-teraccion natural despues de haber advertidoa los interlocutores de que sus palabras novan a ser solo grabadas, sino tambien minu-ciosamente analizadas y probablemente pu-blicadas.

Como ocurre tambien con los demas ni-veles de anotacion en el corpus, las etiquetaselegidas para los elementos no lingusticos di-eren completamente entre los distintos pro-yectos. Por este motivo, son de gran impor-tancia iniciativas como la citada IMDI, quenos facilitaran en el futuro tanto el diseno denuevos corpus como la utilizacion de los yaexistentes.

4. Los lmites prosodicos

La falta de una puntuacion ortograca enla lengua oral le da una especial relevanciaa otros criterios mas lingusticos, en especiallos lmites prosodicos (p.ej. las proferencias) ypragmaticos (p.ej. los actos de habla). Debe-

mos senalar, no obstante, que existen corpus,generalmente no entre los mas recientes, ques se guan por la puntuacion (p.ej. el COR-LEC8). El analisis de este ultimo muestra quela puntuacion normativa inuye a veces en laabilidad de la transcripcion. El transcriptortiende a adaptar lo que escucha a las formasnormativamente correctas ya que en muchasocasiones no es posible de otro modo ponerlepuntos y comas al habla espontanea.

Como consecuencia en parte de que losestudios se hayan centrado tradicionalmen-te en la lengua escrita, las unidades deanalisis prosodicas son todava controverti-das en cuanto a su denicion y nomenclatu-ra. La proferencia (utterance) es el terminomas comun (Cresti y Moneglia, 2005; Mi-ller y Weinert, 1998), pero no hay acuerdoen cuanto a su denicion. Para algunos cor-pus como el CIAIR-Corpus de Dialogos enCoches (Kawaguchi et al., 2005) o el CSJ,los silencios son las pistas determinantes,pero la mayora de corpus combinan crite-rios de otros niveles lingusticos, sobre todopragmaticos y sintacticos. Estos criterios son,no obstante, tambien discutidos con frecuen-cia. Mientras que los pragmaticos se criticanpor basarse en los actos de habla de Aus-tin, considerados a menudo demasiado subje-tivos para una anotacion extensa y coheren-te, los sintacticos se critican por la dicultadde aplicar reglas fundamentadas en la lenguaescrita sobre textos que tienen caractersti-cas diferentes como, por poner un ejemplo,un tercio de oraciones no verbales (Cresti yMoneglia, 2005).

Algunos proyectos proponen criterios mix-tos para evitar estos problemas. El corpusTRAINS93, por ejemplo, se basa en dos cla-ves para establecer los lmites prosodicos: porun lado, se da una ruptura en el discurso delhablante y otro hablante interviene; por otrolado, se produce una ruptura en la entona-cion, en la sintaxis (coincidencia con un lmitede categora sintactica) o hay una respiracion(Heeman y Allen, 1995). En C-Oral-Rom, sedistingue entre proferencias simples y com-plejas (con una o mas de una unidad tonal) yse comparan las proferencias con los actos dehabla de Austin (Austin, 1962) y las unida-des tonales con las unidades informativas deHalliday (Halliday, 1976), pero siempre consi-derando los cambios entonativos la pista mas

8ftp://ftp.lllf.uam.es/pub/corpus/oral/

La notacin del habla en corpus de vdeo

133

determinante a la hora de anotar lmites, conun fuerte protagonismo de los perles termi-nales (Crystal, 1975). Cabe senalar que esteultimo ejemplo lo es de una experiencia exito-sa puesto que el proyecto conto con un 95%de acuerdo ent re los anotadores.

Otras unidades han sido utilizadas enotros proyectos dependiendo del objetivo desus analisis. Por poner dos ejemplos distintos,el CGN tiene anotadas las slabas prominen-tes, los lmites prosodicos entre palabras y losalargamientos segmentales (Hoekstra et al.,2002) mientras que el sistema de MultilevelAnnotation Tools Engineering (MATE9) eti-queta grupos de acentos, pies, slabas y mo-ras.

Entre las aproximaciones mas acusticas, elsistema TOBI10 (Tone and Break-Index) seha utilizado como estandar para la transcrip-cion de entonacion y estructuras prosodicas almenos para el ingles, el aleman, el japones, elcoreano y el griego, con las adaptaciones per-tinentes en cada caso. Junto con el contornode la frecuencia fundamental y la transcrip-cion ortograca, el TOBI incluye un nivel pa-ra los tonos y otro para los ndices de los dis-tintos lmites. Las etiquetas transcriben lasvariaciones de tono como secuencias de to-nos altos (H) y bajos (L) e incluyen marcasdiacrticas con su funcion (el inventario deeventos tonales esta basado en analisis au-tosegmentales). Los lmites marcan los gru-pos prosodicos en una proferencia etiquetan-do el nal de cada palabra sobre una escaladel 0 (la union perceptible mas fuerte con lasiguiente palabra) al 4 (la mayor separacion).

Un ejemplo de adaptacion del sistema es elX-JTOBI, version del TOBI de japones ledopara el habla espontanea11. Las etiquetas pa-ra los tonos y los lmites fueron extendidasen el X-JTOBI para poder representar rasgosparalingusticos propios de la entonacion es-pontanea, incluyendo fenomenos de disuen-cia tales como las pausas largas, las palabrasfragmentadas y las pausas dentro de una pa-labra.

Los diferentes sistemas existentes no sediferencian solo en el modo en que se de-nen los conceptos que manejan, sino tambienen como estos son anotados. Una convencionmuy extendida es la de Gross (Gross, Allen, y

9http://mate.nis.sdu.dk/10http://www.ling.ohio-state.edu/ tobi/11http://www.ling.ohio-

state.edu/research/phonetics/J ToBI/

Traum, 1993) con las proferencias separadasen distintas lneas o incluso cheros, nume-radas segun el numero de turno y el nume-ro de proferencia dentro de ese turno (comodescriben Nakatani y Traum sobre su corpus(Nakatani y Traum, 1999)). Otra convencionfrecuentemente utilizada es la del asterisco(*) junto a un codigo que identique al ha-blante para marcar el inicio de un turno yla de las dobles barras (//) para marcar loslmites prosodicos (p.ej. en CHILDES y enC-Oral-Rom).

Ademas de los lmites prosodicos, la len-gua hablada incluye otros fenomenos quetambien suelen etiquetarse dentro de laanotacion prosodica a pesar de que, dadassus peculiaridades, afectan a practicamentetodos los niveles (Gonzalez et al., 2004). Elcitado artculo los clasica en dos grupos: ras-gos de produccion y rasgos de la interaccion.Los primeros incluyen, entre otros, las pa-labras fragmentadas, los apoyos vocalicos ylos reinicios. Los segundos son los cambios deturnos y los solapamientos.

5. Unidades morfosintacticas

La anotacion morfosintactica de la lenguahablada es diferente a la de la escrita y nopuede llevarse a cabo con los sistemas de eti-quetado preexistentes. La morfosintaxis de lalengua oral es aun controvertida incluso enlos aspectos mas fundamentales. Por ponerun ejemplo basico, algunos corpus utilizan losblancos para delimitar palabras (lo hacen as,p.ej., el BNC y el CGN) mientras que otrospreeren considerar palabras aquellos gruposmnimos de sonidos que tienen un signica-do propio (p.ej. el UAM C-Oral-Rom o elUSAS12). Esta ultima decision, aunque arbi-traria en muchos casos, evita circunstanciascomo la descrita en las especicaciones delBNC, con etiquetados diferentes para formasdistintas de una misma palabra (p.ej. fox-hole o fox hole).

En el habla se encuentran muchas partesdifcilmente categorizables dentro de las ti-pologas morfologicas tradicionales. Un usocomun es no transcribirlas como palabras,sino a traves de smbolos (o simplemente notranscribirlas en absoluto, lo que merma con-siderablemente la riqueza del corpus). Estaultima solucion fue la adoptada por los pri-meros corpus tales como el CORLEC, carac-

12http://www.comp.lancs.ac.uk/ucrel/usas/

Manuel Alcntara Pla

134

terizados, como hemos visto antes, por seguiruna transcripcion ortograca normativa. Loscorpus mas modernos estan intentando am-pliar la tipologa para dar cabida a estas pa-labras, con lo que estan ganando prominenciacategoras que antes eran marginales como esla de los marcadores discursivos.

Como era de esperar, las caractersticas decada lengua inuyen directamente en las de-cisiones tomadas con respecto al analisis mor-fologico de modo que la anotacion de corpuscomo el CGN y el CSJ es claramente distin-ta. El ultimo, por ejemplo, distingue entrepalabras cortas (de uno o dos morfemas) ylargas (compuestas de varias cortas y partcu-las), algo que no sera pertinente en un corpusde una lengua romance o germanica. Es im-portante senalar que esta inuencia provienefrecuentemente mas de la tradicion lingusti-ca que de la lengua en s. Un ejemplo claroes la imposibilidad de acuerdo para las cla-ses de palabras entre los cuatro grupos deC-Oral-Rom, cuyas respectivas lenguas (por-tugues, italiano, frances y espanol) eran enteora muy parecidas.

Precisamente las clases de palabras sonla informacion morfosintactica mas basica yfrecuente en los corpus, casi siempre acom-panada de los lemas de las palabras. Los sis-temas de etiquetado automatico basados enmetodos estadsticos como el TnT (Brants,2000) o el de E. Brill (Brill, 1993) han demos-trado resultados satisfactorios (p.ej. en lossistemas CLAWS4 (Leech, Garside, y Bryant,1994) y GRAMPAL (Moreno, 1991)), perosiempre despues de su adaptacion a la lenguahablada. As la ultima version de GRAMPALincorpora marcadores discursivos y elementosenfaticos mientras que el BNC utiliza el men-cionado sistema CLAWS4 adaptandolo a al-gunos fenomenos propios de la oralidad comoson las repeticiones. La calidad de la anota-cion depende tambien de la adaptacion de lascategoras que son frecuentes en la escritu-ra puesto que sus posiciones y frecuencias nosuelen coincidir con las del habla. Los mar-cadores discursivos y las interjecciones, porejemplo, son en general palabras utilizadascon otras funciones al escribir, lo que di-culta su desambiguacion categorial hasta elpunto de haber sido obviadas hasta ahora enla mayora de los corpus (como los menciona-dos CGN, EAGLES, BNC y XCES). En loscorpus en los que se ha optado por adaptar laanotacion, la redenicion de las categoras se

ha realizado desde criterios funcionales (p.ej.en el UAM C-Oral-Rom) o formales (p.ej. enel CGN).

Mas alla de los problemas de denicion,no podemos olvidar aquellos heredados dela transcripcion, como son la pronunciacionextrana de palabras, la alta frecuencia deprestamos lingusticos y el uso de neologis-mos (casi siempre a traves de morfemas deri-vativos), que anaden gran cantidad de ruidoa los analisis morfosintacticos. Por regla ge-neral, las normas de etiquetado suelen incluirun protocolo describiendo las decisiones quese han tomado para anotar estos fenomenosorales.

En cuanto a la anotacion puramentesintactica, muy pocos corpus orales la in-cluyen por la dicultad de distinguir au-tomaticamente unidades complejas (sintag-mas y oraciones) en el habla. Algunos ejem-plos de estas experiencias son el CGN y elCSJ. Un 10% del primero fue etiquetadosemi-automaticamente con el programa AN-NOTATE siguiendo un analisis de dependen-cias disenado con la maxima sencillez paraminimizar los costes (Hoekstra et al., 2002).El mismo criterio llevo a elegir las proposi-ciones como unidad de anotacion de un sub-corpus del CSJ de 500.000 palabras tomadasde monologos. Las proposiciones son mas sen-cillas de segmentar que las oraciones porquelos verbos conjugados y las conjunciones secolocan al nal de ellas en japones.

6. La semantica

La anotacion semantica se realiza habi-tualmente desde dos perspectivas en principiodiferentes: la conceptual y la estructural. Lossistemas conceptuales etiquetan documentoso palabras segun el campo al que pertene-cen y se distinguen entre s por el numero decategoras y los criterios involucrados en susontologas. Por ejemplo, cada noticia graba-da de los telediarios en la Digital Video Li-brary13 se etiqueta automaticamente dentrode una de sus 3178 categoras tematicas gra-cias a un algoritmo de cercana K. Un ejemplode etiquetado de palabras para lengua escritay hablada -en ingles- es el USAS utilizado enel software UCREL para analisis semanticosautomaticos. Incluye 232 categoras divididasen 21 campos (como educacion o comi-da) y sus reglas de desambiguacion depen-

13http://www.open-video.org/


135

den de la categora morfologica de la palabra,de sus apariciones en el mismo texto, del con-texto y del dominio en el que se encuadra eldiscurso.

Otro caso tpico de etiquetado conceptuales el del reconocimiento de entidades propias(NE). En el Corpus Japones de Dialogos pa-ra Analisis de Enfermera (itoh Ozaku et al.,2005), se utilizo la herramienta NExT paraextraer nombres propios, medicamentos y en-fermedades de modo que se pudieran inferirfacilmente las situaciones que aparecan encada grabacion. Gracias al caracter multimo-dal del corpus, la desambiguacion se llevaba acabo teniendo en cuenta datos extralingusti-cos como la localizacion en la que se encontra-ba la enfermera cuando pronunciaba las pa-labras (las enfermeras llevaban unos sensoresde posicion, lo que tambien permita saberquien participaba en cada interaccion).

La anotacion estructural diere mas de lalengua escrita que la conceptual y es, por lotanto, uno de los grandes retos en los nuevoscorpus. Su atractivo es grande debido a las yamencionadas dicultades que plantea la es-tructuracion sintactica del habla espontaneay aun mas si se utiliza conjuntamente conla informacion ontologica. Uno de los escasosejemplos ya nalizados es SESCO (Alcanta-ra, 2005), donde las estructuras eventivas fue-ron utilizadas en un etiquetado que buscaba,de nuevo, la mayor simplicidad para ser e-xible en el analisis de un corpus de habla es-pontanea sin restricciones. La anotacion sebaso en la estructuracion composicional detres unicos tipos eventivos (estados, procesosy acciones) que podan ser subdivididos segunlos argumentos que requisieran. El resultadoes un ejemplo claro de la potencialidad deeste tipo de etiquetados puesto que sus es-tructuras se estan utilizando en la actualidadcomo base para el analisis de otros niveleslingusticos.

Otro ejemplo es el Spanish Framenet, ac-tualmente en desarrollo. Aunque el corpusque se utiliza en este proyecto es basicamen-te de lengua escrita, incluye tambien un 12%de habla espontanea (alrededor de 35 millo-nes de palabras segun los datos expuestos enla pagina del proyecto14). El etiquetado es-tructura la lengua en marcos relacionando loslexemas con situaciones prototpicas que in-cluyen diferentes tipos de participantes. Al

14http://gemini.uab.es:9080/SFNsite

contrario que en SESCO, aqu el proceso nocomienza en el corpus, sino en la identica-cion de los marcos. Una vez que el marcoesta denido, se buscan oraciones en el cor-pus que ejempliquen su tipo, anotando lasdistintas partes con las etiquetas apropiadas.El primer lexicon derivado de este trabajoesta anunciado para principios del 2008.

7. La pragmatica

La codicacion de elementos pragmaticosha tenido un gran avance en las ultimas deca-das gracias al desarrollo de sistemas aplicadospara tareas especcas. Un ejemplo conocidoes el Corpus de Tareas con Mapas (MTC)de la Universidad de Edimburgo (Andersonet al., 1991), que cuenta con tres niveles deanotacion discursiva. En la superior, el dialo-go se divide en transacciones en las que secompletan los pasos de la tareas. Esas tareasse subdividen a su vez en juegos conversacio-nales similares a lo que Grosz y Sidner de-nominan segmentos discursivos (Grosz y Sid-ner, 1986). Por ultimo, estos juegos se compo-nen de inicios y respuestas clasicados seguntipos de movimientos conversacionales.

Tambien relacionado con el modelo deGrosz y Sidner, el CSJ ha sido anotado conun sistema basado en el IAD de Nakatani(Nakatani et al., 1995). El anotador tiene quedividir manualmente el discurso en segmen-tos asignandoles su nalidad. El manual delproyecto aclara que esta es una labor muycostosa que requiere trabajo en equipo y de-cisiones complejas. Sin embargo, han sido ca-paces de etiquetar un pequeno subcorpus demonologos con patrones de cohesion (es de-cir, oraciones que tienen una relacion localentre ellas) y subhistorias (la nalidad deuna parte completa del discurso).

Un ejemplo diferente, mas conectado conlos aspectos morfosintacticos, es el esquemapropuesto por Marco de Rocha para el anali-sis de expresiones anaforicas en la lengua ha-blada (de Rocha, 1997). Cada discurso se eti-queta con un tema que esta formado por seg-mentos, los cuales son anotados segun susfunciones discursivas (p.ej. introduccion deun tema). Por ultimo, las expresiones anafori-cas son etiquetadas junto a su tipo, el tipomorfosintactico del antecedente, el estatus detopicalidad del antecedente y el tipo de cono-cimiento necesario para procesarla.

Nakatani y Traum ofrecen un ejemplode etiquetado mas centrado en los hablan-

Manuel Alcntara Pla

136

tes. Anotan unidades de elementos comunes(CGU) que marcan el acuerdo entre los ha-blantes sobre su entendimiento de lo que sedice (Nakatani y Traum, 1999). Cada CGUcontiene las oraciones necesarias para funda-mentar un contenido, mientras que varias deestas unidades son anotadas juntas como uni-dades intencionales o informativas.

Otro de los corpus mencionados anterior-mente, el CIAR, tambien incluye la anotacionde actos de habla con unas etiquetas denomi-nadas marcas de intencion (LIT), que indi-can la intencion que tienen las oraciones pa-ra el hablante. Cada LIT esta formado porcuatro niveles: acto discursivo, accion, obje-to y argumento, y se asume que la oracion-vinculada al LIT- es la unidad fundamentaldel dialogo. Varias oraciones forman una par-te del discurso (PoD) que aparece etiquetadacon la tarea principal que este llevando a ca-bo el hablante.

8. El alineamiento del texto conel sonido y la imagen

La anotacion prosodica esta estrechamen-te relacionada con el alineamiento del sonidoy el texto ya que se suelen tomar unidadesde la prosodia para realizar el proceso. Lasaplicaciones automaticas para el alineamien-to se basan en rasgos acusticos (fsicamentereconocibles) que generalmente se correspon-den con perles terminales, pero sus resulta-dos son aun muy limitados. Algunos proyec-tos han utilizado unidades de denicion mascompleja, pero realizando la tarea manual-mente (C-ORAL-ROM), mientras que otroshan sacricado esta complejidad para faci-litar su automatizacion, tomando unidadescomo las pausas mayores de tres segundos(p.ej. el CGN) o los fonemas (realizado conun sistema HMM para el CSJ y siendo revi-sado despues manualmente).

El alineamiento del habla con las image-nes en corpus multimodales es un campo enel que apenas contamos con experiencias, pe-ro los primeros intentos ya han evidencia-do la dicultad de sus retos, centrados espe-cialmente en la conciliacion entre los rasgoslingusticos y los puramente audiovisuales. Lasegmentacion del documento en unidades quesean relevantes tanto desde un punto de vistavisual como lingustico es el primer problemaa solucionar. Las divisiones para el analisisaudiovisual se basan en rasgos acusticos y dela imagen detectados automaticamente, como

pueden ser el cambio de camara o el movi-miento de la imagen. Estas unidades (deno-minadas shots) raramente coinciden con loslmites lingusticos. Aunque sera lo ideal pa-ra el analisis del contenido, parece que la re-levancia de la segmentacion visual para laanotacion lingustica es escasa (Alcantara yDeclerck, 2007).

9. Conclusiones para el futuro

La multimodalidad supone un paso masen la evolucion que se ha venido produciendoen la lingustica de corpus durante las ulti-mas dos decadas (Moreno, 2002). Esta nuevageneracion de corpus ofrece un gran poten-cial para el analisis lingustico y el desarrollode aplicaciones de inteligencia articial den-tro de un contexto en el que la dependenciade los corpus y de los avances tecnologicosesta resultando ser claramente bidireccional.No obstante, las caractersticas de estas colec-ciones hacen que requieran de un esfuerzo im-portante en la anotacion tanto si se parte dela reutilizacion de sistemas como si se creanotros nuevos.

El mayor problema que afrontamos al de-sarrollar corpus multimodales es, como se de-duce de lo descrito en las secciones previas,la falta de una estandarizacion eciente, unproblema que en parte viene heredado de labrevsima tradicion en el trabajo con corpusde habla (Llisterri, 1997). Como hemos des-crito en este artculo, cada nivel de analisiscuenta en la actualidad con experiencias taninteresantes como dispares y la discrepanciano se da unicamente en el plano teorico, sinotambien en la forma en que se codican lasinformaciones. El uso cada vez mas extendi-do del XML (lo que incluye tambien la tra-duccion de formatos antiguos a este formato)nos permite a este respecto compartir recur-sos con mayor facilidad ahora que en el pa-sado, pero compatibilizar las diferentes infor-maciones sigue resultando una tarea ardua.

El contar con sistemas compatibles entres nos ayudara a reutilizar y mejorar recur-sos ya existentes. Ademas, es un requisito in-dispensable para poder realizar investigacio-nes que impliquen mas de un nivel lingusti-co. Este ultimo paso facilitara la resolucionde muchos de los problemas aqu planteados.Un ejemplo claro es la mencionada segmenta-cion del documento en unidades pertinenteslingusticamente. Las experiencias con hablaespontanea demuestran que no es una tarea


137

facil en ningun nivel, pero el uso combina-do de la informacion obtenida en varios deellos nos esta dando resultados prometedores(Alcantara, 2007).

Un problema relacionado es el de la ex-cesiva especicidad de muchas anotaciones.Por poner un ejemplo, pocos proyectos de losmencionados en este artculo estan disenadospara etiquetar mas de una lengua. De hecho,en la mayora de los casos ni tan siquierase pretende cubrir una lengua completa, sinouna pequena parte estrictamente delimitadapor rasgos como el dominio o el tipo de ha-blantes, dados por los objetivos inmediatosde cada proyecto. Esta especicidad dicultatambien el intercambio de informacion y, loque es aun mas grave, impide la escalabilidadde los sistemas. Como es logico, los estudioslingusticos que estos corpus permiten tam-poco se pueden extrapolar a las caractersti-cas generales de la lengua.

Nos encontramos en un momento positivoporque contamos, por primera vez, con cor-pus multimodales y las posibilidades tecnicasnecesarias para etiquetarlos incluyendo infor-macion lingustica. Sin embargo, la escasez deexperiencias comunes y la necesidad de con-seguir objetivos en cada caso diferentes nossituan en una posicion en la que los avan-ces no son tan importantes como cabra es-perar por el interes y el trabajo dedicados.El progreso en la anotacion del habla necesi-ta que nos esforcemos en encontrar una basecomun tanto en lo que se etiqueta como encomo se etiqueta. En otras ocasiones, comoocurrio con los corpus de lengua escrita, losestandares se han ido imponiendo de formanatural por sistemas de etiquetado que pordiversos motivos han gozado de una acep-tacion mayoritaria, pero parece que la ra-pidez de los desarrollos actuales recomiendala puesta en marcha de propuestas como lade, por ejemplo, la red europea de excelen-cia K-Space15, dirigidas a acelerar ese proce-so de convergencia. Esfuerzos de estandari-zacion como el ya mencionado de Eagles (yotros como el de la Text Encoding Initiati-ve16 o el de la Red de Corpus Europeos deReferencia-NERC (Teubert, 1993)) son unabase de gran interes para este n que deberatenerse en cuenta para los futuros desarrollos.

15http://kspace.qmul.net/16http://www.tei-c.org/

10. Agradecimientos

El autor quiere mostrar aqu su agradeci-miento a la citada red europea de excelenciaK-Space (Knowledge Space of semantic in-ference for automatic annotation and retrie-val of multimedia content, FP6-027026) de laque forma parte y, especialmente, a los otrosmiembros del equipo del DFKI que partici-pan en dicha red, Thierry Declerck y PaulBuitelaar. El trabajo de este artculo ha si-do nanciado con una beca posdoctoral delMinisterio de Educacion y Ciencia.

Bibliografa

Alcantara, Manuel. 2005. Anotacion y recu-peracion de informacion semantica even-tiva en corpus. Ph.D. tesis, UniversidadAutonoma de Madrid.

Alcantara, Manuel. 2007. Merging semanticsand prosody to structure spoken language.En Proceedings of the IWCS-7.

Alcantara, Manuel y Thierry Declerck. 2007.Shallow semantic analysis of asr trans-cripts associated with video shots. EnProceedings of the IWCS-7.

Anderson, A., M. Bader, E. Bard, E. Boy-le, G.M. Doherty, S. Garrod, S. Isard,J. Kowtko, J. McAllister, J. Miller, C. So-tillo, H.S. Thompson, y R. Weinert. 1991.The hcrc map task corpus. Language andSpeech, 34.

Austin, J.L. 1962. How to do Things WithWords. Harvard University Press.

Brants, Thorsten. 2000. Tnt - a statisticalpart-of-speech tagger. En Proceedings ofthe Sixth Applied Natural Language Pro-cessing Conference ANLP-2000.

Brill, E. 1993. A Corpus-Based Approachto Language Learning. Ph.D. tesis, Phila-delphia.

Cresti, Emanuela y Massimo Moneglia, edito-res. 2005. C-ORAL-ROM. Integrated Re-ference Corpora for Spoken Romance Lan-guage. Benjamins.

Crystal, David. 1975. The English tone ofvoice: essays in intonation, prosody andparalanguage. Edward Arnold.

de Rocha, Marco, 1997. Corpus-Based andComputational Approaches to DiscourseAnaphora, captulo Corpus-Based Studyof Anaphora in English and Portuguese.UCL Press.

Manuel Alcntara Pla

138

Gonzalez, Ana, Guillermo de la Madrid, Ma-nuel Alcantara, Raul de la Torre, y Anto-nio Moreno. 2004. Orality and dicultiesin the transcription of spoken corpora. EnIV International Conference on LanguageResources and Evaluation (LREC2004).

Gross, Derek, James F. Allen, y David R.Traum. 1993. The Trains 91 Dialogues.University of Rochester.

Grosz, B.J. y C.L. Sidner. 1986. Attention,intention, and the structure of discourse.Computational Linguistics, 12(3).

Halliday, M.A.K. 1976. System and Functionin Language. Oxford University Press.

Heeman, Peter A. y James F. Allen. 1995.The Trains spoken dialog corpus (CD-ROM). Linguistic Data Consortium.

Hoekstra, H., M. Moortgat, B. Renmans,M. Schouppe, I. Schuurman, y T. van derWouden. 2002. Cgn syntactische annota-tie. Informe tecnico, Radboud UniversityNijmegen.

itoh Ozaku, Hiromi, Akinori Abe, NoriakiKuwahara, Futoshi Naya, Kiyoshi Kogure,y Kaoru Sagara. 2005. Building dialoguecorpora for nursing activity analysis. EnProceedings of the LINC05.

Kawaguchi, Nobuo, Shigeki Matsubara, Ka-zuya Takeda, y Fumitada Itakura. 2005.Ciair in-car speech corpus: Inuence ofdriving status : Corpus-based speech te-chnologies. IEICE transactions on infor-mation and systems.

Leech, G., R. Garside, y M. Bryant. 1994.Claws4: The tagging of the british natio-nal corpus. En Proceedings of the 15th In-ternational Conference on ComputationalLinguistics (COLING 94).

Llisterri, Joaquim. 1997. Transcripcion, eti-quetado y codicacion de corpus orales.Seminario de Industrias de la Lengua -Fundacion Duques de Soria.

Miller, J. y R. Weinert. 1998. SpontaneousSpoken Language. Syntax and Discourse.Oxford University Press.

Moreno, Antonio. 1991. Un modelo compu-tacional basado en la unificacion para elanalisis y la generacion de la morfologadel espanol. Ph.D. tesis, UniversidadAutonoma de Madrid.

Moreno, Antonio. 2002. La evolucion de loscorpus de habla espontanea: la experien-cia del lli-uam. En Actas de las SegundasJornadas de Tecnologas del Habla.

Moreno, Antonio, Guillermo De la Ma-drid, Ana Gonzalez, Jose Mara Guirao,Raul De la Torre, y Manuel Alcantara,2005. C-ORAL-ROM: Integrated Referen-ce Corpora for Spoken Romance Langua-ges, captulo The Spanish corpus. Benja-mins.

Nakatani, C. H. y David R. Traum. 1999.Coding discourse structure in dialogue(version 1.0). Informe tecnico, Universityof Maryland.

Nakatani, Christine H., Barbara J. Grosz,David D. Ahn, y Julia Hirschberg. 1995.Instructions for annotating discourse. In-forme tecnico, Center for Research inComputing Technology.

Teubert, W. 1993. Phonetic/phonemic andprosodic annotation. nal report. Informetecnico, IDS Mannheim.

Tsay, Jane S. 2005. Taiwan child langua-ge corpus: Data collection and annotation.En Fifth Workshop on Asian LanguageResources (ALR-05).


139

Anotación Habla Corpus de Vídeo, Alcántara

Documents

Transcript of Anotación Habla Corpus de Vídeo, Alcántara