UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf ·...

41
Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona Facultad de Filosofía y Letras Colegio de Letras Hispánicas UNAM, México, 4 de noviembre de 2003 El papel de la fon El papel de la fon ética en el desarrollo tica en el desarrollo de las tecnolog de las tecnolog ías del habla as del habla Joaquim Llisterri Joaquim Llisterri Departament de Filologia Espanyola Departament de Filologia Espanyola Universitat Aut Universitat Autònoma de Barcelona noma de Barcelona [email protected] [email protected] http://liceu.uab.es/~joaquim http://liceu.uab.es/~joaquim Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona El papel de la fon El papel de la fonética en el tica en el desarrollo de las tecnolog desarrollo de las tecnologí as del as del habla habla http://liceu.uab.es/ ~joaquim/speech_technology /UNAM_03/UNAM_03.html Facultad de Filosofía y Letras Colegio de Letras Hispánicas UNAM, México, 4 de noviembre de 2003 Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona El papel de la fonética en el desarrollo de las tecnologías del habla Las tecnologías del habla La conversión de texto en habla El reconocimiento del habla Los sistemas de diálogo El papel de la fonética Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona La interacción con los ordenadores Pantalla Teclado Ratón Lápiz Tacto Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona La interacción humana Hace unos 5.000 años que escribimos pero hace unos 100.000 años que hablamos (250.000 - 50.000 años según los autores) Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona CHAPANIS, A. (1975) "Interactive Human Communication", Scientific American 232: 36-42. Medio de comunicación natural

Transcript of UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf ·...

Page 1: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas

UNAM, México, 7 de noviembre de 2003

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003

El papel de la fonEl papel de la fon éética en el desarrollotica en el desarrollode las tecnologde las tecnolog íías del hablaas del habla

Joaquim LlisterriJoaquim Llisterri

Departament de Filologia EspanyolaDepartament de Filologia EspanyolaUniversitat AutUniversitat Autòònoma de Barcelonanoma de [email protected]@uab.eshttp://liceu.uab.es/~joaquimhttp://liceu.uab.es/~joaquim

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas

UNAM, México, 7 de noviembre de 2003

El papel de la fonEl papel de la fonéética en eltica en eldesarrollo de las tecnologdesarrollo de las tecnologíías delas del

hablahablahttp://liceu.uab.es/

~joaquim/speech_technology/UNAM_03/UNAM_03.html

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El papel de la fonética en el desarrollo delas tecnologías del habla

El papel de la fonética en el desarrollo delas tecnologías del habla

�Las tecnologías del habla

�La conversión de texto en habla

�El reconocimiento del habla

�Los sistemas de diálogo

�El papel de la fonéticaJoaquim Llisterri

Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La interacción con los ordenadoresLa interacción con los ordenadores

�Pantalla�Teclado�Ratón�Lápiz�Tacto

Canal visualLengua escrita

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La interacción humanaLa interacción humana

• Hace unos 5.000 años queescribimos

… pero hace unos 100.000 añosque hablamos (250.000 -50.000 años según los autores)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

CHAPANIS, A. (1975) "InteractiveHuman Communication", ScientificAmerican 232: 36-42.

Medio de comunicación naturalMedio de comunicación natural

Page 2: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

• Visual• Micrófono y altavoz• Mecanismo de transmisión de

escritura manuscrita• Máquina de escribir e impresora

a distancia (Telex)

Canales de comunicaciónCanales de comunicación

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

• Cualquier canal en combinación con elhabla: menos de 15 minutosmenos de 15 minutos

• Únicamente el habla : 16 minutos16 minutos

• Cualquier canal, sólo o combinado conotros: más de 20 minutos

• Únicamente escritura a mano omecanografiada: mmáás de 30 minutoss de 30 minutos

Tiempo de resolución de problemasTiempo de resolución de problemas

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las nuevas necesidadesLas nuevas necesidades

• Desarrollo de la Sociedad dela Información “para todos”

• Automatización de serviciostelefónicos: información,transacciones…

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

¿Qué quisiéramos tener?¿Qué quisiéramos tener?

Un ordenador que…

� Habla� Reconoce

� El habla

� El usuario� Entiende

�Ayuda al usuario�Traduce�La lengua

escrita�La lengua oral

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

HalClarke (1950) - Kubrick (1968)

HalClarke (1950) - Kubrick (1968)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

LingWear - Interactive System Labshttp://www.is.cs.cmu.edu/LingWear/movie.html

LingWear - Interactive System Labshttp://www.is.cs.cmu.edu/LingWear/movie.html

Page 3: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

¿Qué tecnologías necesitamos?¿Qué tecnologías necesitamos?

Un ordenador que…

� Habla SSííntesis (CTH)ntesis (CTH)� Reconoce� El habla ReconocimientoReconocimiento� El usuario IdentificaciIdentificaci óónn

� “Entiende” Comprensión

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

¿Qué tecnologías necesitamos?¿Qué tecnologías necesitamos?

Un ordenador que…

� Ayuda Sistema de diSistema de di áálogologo

� Traduce El escrito TA� El habla TA oralTA oral

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

“The domain of speech technology is thedevelopment of automatic systems to allowhuman users and computers to interactdirectly through the medium of speech”

New Horizons in European Speech technology,Report of the ESPRIT Workshop on SpeechTechnology, Aarhus, Denmark, May 1987.

Tecnologías del hablaTecnologías del habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Tecnologías del hablaTecnologías del habla

• Salida vocal� Síntesis del habla

• Entrada vocal�Reconocimiento del habla

• Interacción vocal� Sistemas de diálogo

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La síntesis del hablaLa síntesis del habla

�Objetivos�Nociones generales sobre la síntesis

�Líneas de investigación actuales�Resultados conseguidos en síntesis del habla

�Aplicaciones de la síntesis del habla�Diseño de una aplicación en síntesis del habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

ObjetivosObjetivos

• El objetivo de la síntesis del habla esla producción (generación) artificialde mensajes orales

• La síntesis es una técnicacomplementaria del reconocimientoen la comunicación persona -máquina

Page 4: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La síntesis del hablaLa síntesis del habla

GeneraciGeneracióón de una sen de una seññal vocalal vocal

• Síntesis a partir de la decodificación deunidades sonoras previamente codificadas

• Síntesis a partir de un texto escrito (CTHconversión de texto en habla - TTS Text toSpeech Synthesis)

• Síntesis a partir de representacionesconceptuales

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Del texto ... … al habla

La síntesis del hablaLa síntesis del habla

GTP-UPCGTP-UPC

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La síntesis del hablaLa síntesis del habla

““CarlosCarlos””,,incorporado alincorporado alsistemasistemaoperativooperativoMacOS MacOS dedeAppleApple

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Parámetros para la caracterización de lossistemas de síntesis

Parámetros para la caracterización de lossistemas de síntesis

• La voz• Inteligibilidad• Naturalidad

• Versatilidad• Mensajes limitados• Mensajes ilimitados

• Complejidad del procesamiento

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Síntesis de palabras aisladasSíntesis de palabras aisladas

• Aplicaciones industriales• Generación de mensajes sobre el

estado de un sistema: alarmas• Aplicaciones a servicios públicos

• Generación de anuncios:transportes, lugares públicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Síntesis de palabras aisladasSíntesis de palabras aisladas

• Aplicaciones domésticas• Electrodomésticos• Juguetes• Juegos• Coches• Distribuidores de bebidas, tabaco

Page 5: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Síntesis de palabras aisladasSíntesis de palabras aisladas

• Aplicaciones a invidentes• Reloj, calculadora,

termómetro, despertador...hablantes

• Indicadores de planta,semáforos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Síntesis a partir del texto(conversión de texto en habla)

Síntesis a partir del texto(conversión de texto en habla)

• Sistemas de información telefónica• Páginas Amarillas• Información meteorológica, noticias• Información ciudadana: transportes,

farmacias, museos, cines

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Síntesis a partir del texto(conversión de texto en habla)

Síntesis a partir del texto(conversión de texto en habla)

• Acceso telefónico a textos escritos• Consulta a distancia de bases de

datos• Mensajería vocal, correo

electrónico• Portales de voz

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Acceso al ordenador mediante el teléfonoAcceso al ordenador mediante el teléfono

• Portales de voz

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de vozPortal de voz

Grabación previa

Selección por voz

Informaciónsolicitada

RestaurantesRestaurantes

Restaurantes de Ávila

Restaurantes de Ávila

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de vozPortal de voz

Restaurantesde _________

ÁvilaMadrid

SalamancaCuenca…

Page 6: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de vozPortal de voz

Sistema automático

Selección por voz

Informaciónsolicitada

Farmacias de guardia

Farmacias de guardia

Existe unafarmacia…Existe unafarmacia…

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de vozPortal de voz

ochoHe encontrado nueve

diez

Existe una farmacia de guardia

Mensajes pregrabadospara insertar palabras

procedentes de unalista

Conversión de texto escrito en habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Lectura del correo electrónicoLectura del correo electrónico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Síntesis a partir del texto(conversión de texto en habla)

Síntesis a partir del texto(conversión de texto en habla)

• Aplicaciones a los invidentes• Lectura de textos en soporte electrónico• escáner + reconocimiento óptico de caracteres +

conversión de texto en habla• Aplicaciones a los disminuidos vocales

• Prótesis vocales• Síntesis a partir de conceptos para simplificar la

tarea de teclear• Síntesis a partir de ideogramas Bliss

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Kurzweil 1000, Kurzweil Educationsl Systemshttp://www.kurzweiledu.com/products_k1000.asp

Kurzweil 1000, Kurzweil Educationsl Systemshttp://www.kurzweiledu.com/products_k1000.asp

200 palabras/segundo

400 palabras/segundo

600 palabras/segundo

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Crespeaker, Crestwood Communication Aidshttp://www.communicationaids.com/crespeaker.htm

Crespeaker, Crestwood Communication Aidshttp://www.communicationaids.com/crespeaker.htm

Page 7: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La conversión de texto en hablaLa conversión de texto en habla

Del texto… …al habla GTP-UPC

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

text-to-speech, TTS• Un sistema de conversión de texto en habla

transformatransforma cualquier texto escrito en su realizaciónsonora

• La estructura de un conversor suele ser modularmodular• Cada módulo se ocupa de un aspecto de la

transformación de la cadena de caracteres inicialhasta llegar a la señal sonora

La conversión de texto en hablaLa conversión de texto en habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Esquema general de unconversor de texto en habla

Esquema general de unconversor de texto en habla

Pre-procesado y normalización

Análisis lingüístico Transcripción fonética

Asignación de prosodia Selección de unidades

Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Un ejemplo en españolUn ejemplo en español

CASTEJÓN LAPEYRA, F.- ESCALADASARDINA, G.- MONZÓN SERRANO, L.-RODRÍGUEZ CRESPO, M.A.- SANZVELASCO, P. (1994) "Un conversor texto-vozpara el español", Comunicaciones de TelefónicaI+D, 5, 2: 114-131.http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic8/8.html

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

�Procesamiento previo del texto

�Transcripción fonética automática

�Análisis lingüístico

�Asignación de elementos prosódicos

�Conversión en parámetros acústicos

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

�Procesamiento previo del texto

�Transcripción fonética automática

�Análisis lingüístico

�Asignación de elementos prosódicos

�Conversión en parámetros acústicos

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

Page 8: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

• El módulo de procesamiento previodel texto realiza las mismasoperaciones que un hablante leyendoen voz alta

• El objetivo es preparar el texto parala transcripción fonética automática

Procesamiento previo del textoProcesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

• Elementos que se convierten en texto'deletreado'• Abreviaturas (Sr. D., Exmo., pts...)• Siglas (UE, ONU...)• Cifras y ordinales (3, 1º, 2ª...)• Fechas (13.06.1959)• Horas (15.30h...)• Medidas (m., cm., Km....)• Números romanos (Pedro IV...)• Letras aisladas• Símbolos especiales ($...)

Procesamiento previo del textoProcesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas en el preprocesado del texto• Siglas y acrónimos

OTAN [otan] *[oteaene] PP [pepe] *[pp] PSOE [pesoe] *[peeseoe] *?[psoe]

Procesamiento previo del textoProcesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas en el preprocesado deltexto• Abreviaturas

VO *[bo] versión originalCV “caballos” - “curriculumvitae”

Procesamiento previo del textoProcesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas en el preprocesado del texto• Concordancia en expresiones numéricas

* trescientos sesenta y cinco líneas* quinientos pesetas

• Formas apocopadas100 casos: cien casos10%: diez por ciento

Procesamiento previo del textoProcesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas en el preprocesado del texto• Números de teléfono

93581686: * Noventa y tres millonesquinientos ochenta y uno mil seis cientosochenta y seis

• Horas4.15: *cuatro punto quince

Procesamiento previo del textoProcesamiento previo del texto

Page 9: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas en el preprocesado del texto• Códigos postales

28002 Madrid: *veintiocho mil dosMadrid

• Fechas13-11-98: *trece once noventa y ocho

Procesamiento previo del textoProcesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas en el preprocesado del texto• Lectura del correo electrónico

• Errores mecanográficos• Errores ortográficos• Falta de signos de puntuación

• Lectura de SMS• “Abreviaturas” nuevasstoy n ksa 2# y slgo xa MAD tq

Procesamiento previo del textoProcesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo normalizador Telefónica I+D (Castejón et al., 1994)

Módulo normalizador Telefónica I+D (Castejón et al., 1994)

Texto: El Sr. JosTexto: El Sr. Joséé Luis L Luis Lóópez tiene 201 vipez tiene 201 viññas.as.

NORMALIZADORNORMALIZADOR

Frase normalizada: el Sr. josFrase normalizada: el Sr. joséé luis l luis lóópez tiene 201pez tiene 201viviññas.as.

Formato: mm abr Mm Mm Mm mm mm mm sig

Códigos: mm: palabra en minúscula, Mm: palabra coninicial mayúscula, abr: abreviatura, sig: signoortográfico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo de preproceso Telefónica I+D (Castejón et al., 1994)

Módulo de preproceso Telefónica I+D (Castejón et al., 1994)

Frase normalizada: el Sr. josé luis lópez tiene 201viñas.

Formato: mm abr Mm Mm Mm mm mm mm sig

PREPROCESOPREPROCESO

Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez tiene doscientas unaopez tiene doscientas unavi#as.vi#as.

Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez tio. pez ti’’e.ne dos.e.ne dos.cici’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Procesamiento previo del texto

�Transcripción fonética automática

�Análisis lingüístico

�Asignación de elementos prosódicos

�Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

• Creación de una cadena de unidades fonéticas -fonemas o alófonos- a partir del texto escritopreprocesado

• “Un sistema de transcripción fonéticaautomática es un algoritmo que transforma untexto de entrada representado en caracteresgrafemáticos en una representación expresadamediante símbolos fonéticos”

Ríos (1993:381)

Transcripción fonética automáticaObjetivos

Transcripción fonética automáticaObjetivos

Page 10: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Transcripción fonética automáticaTranscripción fonética automática

• Implica una decisión sobre el inventariode alófonos que condiciona el inventariode unidades de síntesis

• Decisiones ortológicas• Decisión sobre el “estándar”• Decisión sobre variedad geográfica• Decisión sobre registro

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

• Estrategias para la transcripción• Diccionario ayudado por un analizador

en lenguas con una correspondenciamuy irregular entre grafía y sonido

• Reglas complementadas por undiccionario de excepciones en lenguascon una correspondencia regular entresonido y grafía

La transcripción fonética automáticaLa transcripción fonética automática

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Tipos de reglas de transcripciónRíos (1993)

Tipos de reglas de transcripciónRíos (1993)

• Reglas de fonemización• Reglas de transcripción grafía-fonema• Reglas de silabificación• Reglas de ajuste silábico aplicadas a

extranjerismos para adaptar su estructurasilábica a la fonotaxis del español

• Reglas de acentuación• Reglas de fonetización

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Características de las reglas de transcripciónRíos (1993)

Características de las reglas de transcripciónRíos (1993)

• Reglas dependientes del contexto• Reglas de substitución de un signo en otro

• p.ej.: regla de transcripción del grafema <g>como [x] ante <e,i>

• Reglas de elisión de un elemento• p.ej.: elisión de <u> en el dígrafo <gu> ante las

vocales <e,i>• Reglas de inserción de un elemento

• p. ej.: regla de inserción de [k] después delgrafema <x>

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas de la transcripción fonéticaautomática

Problemas de la transcripción fonéticaautomática

• Nombres propios y palabras extranjeras<#g> <#j> [dZ] [Z] [j] (George, jeans, Jordi, Jaume)

<#w> [w] [gw] (whisky)<ph> [f] (Humphrey)<sh> [S] [tS] (show, squash)

<sch> [S] (Schiller)

<tg> [dZ] (Sitges)

<#sC> [#esC] (stop, squash)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Problemas de la transcripción fonéticaautomática

Problemas de la transcripción fonéticaautomática

• Nombres propios de persona en españolEsther <th>: [t]Lourdes <ou>: [u]Feijoo <oo>: [o]Desacentuación del primer elemento de los

nombres compuestos (implica detectar elnombre compuesto)

Page 11: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto

Subirats, Llisterri & Poch (1988)

Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto

Subirats, Llisterri & Poch (1988)

<c> --> [k] / #_ [a], [o], [u]casa, cosa, cuna

<c> --> [T] / # _ [e], [i]cena, cine

<c> --> [k] / V _ [a], [o], [u]oca, acoso, acuna

<c> --> [T] / V _ [e], [i]hace, fácil

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto

Subirats, Llisterri & Poch (1988)

Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto

Subirats, Llisterri & Poch (1988)

<c> --> [k] / # (c) V_# Cacción, actor

<c> --> [k] / # _ [l], [r]Vtecla, crío

<c> --> [k] / _ #coñac, vivac

<c> --> [tS] / _htecho

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)

Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)

Palab_silab: el se. #or jo. s’e luis l’o. pezti’e.ne dos. ci’en. tas ‘u. na v’i. #as.

CONVERSOR GRAFEMA-ALCONVERSOR GRAFEMA-ALÓÓFONOFONO

AlAlóófonos: el se. N~or xo. sfonos: el se. N~or xo. s’’e luis le luis l’’o. peTo. peT[sil] tj[sil] tj’’e.ne Dos. Tje.ne Dos. Tj’’en. tas en. tas ‘‘u. na Bu. na B’’i. N~asi. N~as[sil][sil]

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Procesamiento previo del texto

�Transcripción fonética automática

�Análisis lingüístico

�Asignación de elementos prosódicos

�Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Análisis lingüísticoAnálisis lingüístico

• Necesidad del análisis lingüístico en laconversión de texto a habla• Transcripción fonética

• Predicción de la representación fonética apartir de reglas morfológicas /morfofonológicas que implican elreconocimiento de morfemas en lenguascon una correspondencia irregular entregrafías y alófonos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Análisis lingüísticoAnálisis lingüístico

• Necesidad del análisis lingüístico en laconversión de texto a habla• Asignación de elementos prosódicos

• La localización de las pausas no marcadasortográficamente, la asignación de acento yla determinación de las unidades melódicasrequieren un análisis sintáctico

Page 12: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Análisis morfológicoAnálisis morfológico

• Objetivos• Segmentación del texto en

morfemas• Asignación de etiquetas

correspondientes a las partes de laoración a las palabras (POStagging)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo categorizador Telefónica I+D (Castejón et al., 1994)

Módulo categorizador Telefónica I+D (Castejón et al., 1994)

Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos.ci’en. tas ‘u. na v’i. #as.

CATEGORIZADORCATEGORIZADOR

CategorCategoríías: ART N NP NP NP V NUM NUM N SIGas: ART N NP NP NP V NUM NUM N SIGCódigos: ART: artículo, N: nombre, NP: nombre propio,V: verbo, NUM: número, SIG: signo ortográfico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Análisis sintácticoAnálisis sintáctico

• Para una asignación de elementos prosódicosque tenga como resultado una síntesis con unalto grado de naturalidad es necesario unanálisis sintáctico, semántico y pragmático deltexto

• Segmentación del texto en unidades sintácticas

• Asignación de una estructura de constituyentes(parsing)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo de análisis sintáctico Telefónica I+D (Castejón et al., 1994)

Módulo de análisis sintáctico Telefónica I+D (Castejón et al., 1994)

Palabras: el se#or jos’e luis l’opez tienedoscientas una vi#as.

Categorías: ART N NP NP NP V NUMNUM N SIG

ESTRUCTURADORESTRUCTURADOR

ÁÁrbol sintrbol sintáácticoctico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Procesamiento previo del texto

�Transcripción fonética automática

�Análisis lingüístico

�Asignación de elementos prosódicos

�Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Asignación de elementos prosódicosObjetivos

Asignación de elementos prosódicosObjetivos

Conjunto de reglas que especifican

• Duración de los segmentos

• Intensidad de los segmentos / delenunciado

• Contorno melódico del enunciado• Colocación y duración de las pausas

Page 13: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Asignación de duración

�Asignación de intensidad

�Asignación de pausas

�Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Asignación de duración

�Asignación de intensidad

�Asignación de pausas

�Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Asignación de duración segmentalAsignación de duración segmental

• Requiere un modelo de duraciónsegmental que considere

• Duración intrínseca de cadasegmento

• Modificaciones contextuales

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Factores que determinan la duraciónsegmental

Factores que determinan la duraciónsegmental

• Acento• Consonante que sigue al segmento• Vocal que sigue al segmento• Pausa después del segmento• Posición del segmento en el enunciado• Longitud de la palabra en la que se encuentra

el segmento• Velocidad de elocución

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de duración segmental para el inglésKlatt (1979)

Modelo de duración segmental para el inglésKlatt (1979)

DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR

• INDUR: duración intrínseca del segmento (enms.) calculada a partir de un corpus en el quelos segmentos se analizan en frases marco

• MINDUR: duración mínima del segmento siestá acentuado

• PRCNT: porcentaje de reducción de laduración del segmento, determinado por regla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de duración segmental para el inglésKlatt (1979)

Modelo de duración segmental para el inglésKlatt (1979)

• Elementos que determinan el porcentaje dereducción de los segmentos• Inserción de pausas• Alargamiento al final de una frase• Acortamiento de sílabas que no se

encuentran al final de una palabra• Alargamiento debido al énfasis• Modificación de la duración en función del

contexto postvocálico de las consonantes

Page 14: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de duración segmental para el inglésKlatt (1979)

Modelo de duración segmental para el inglésKlatt (1979)

• Acortamiento de sílabas pertenecientes apalabras polisilábicas

• Acortamiento de consonantes en posición noinicial de palabra

• Acortamiento de segmentos no acentuados• Acortamiento de los segmentos

pertenecientes a grupos consonánticos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de duración segmental para el inglésKlatt (1979)

Modelo de duración segmental para el inglésKlatt (1979)

• Alargamiento de vocales debido a lapresencia de una oclusiva sorda

• Acortamiento de sílabas que no seencuentran al final de una frase

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Asignación de duración

�Asignación de intensidad

�Asignación de pausas

�Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Asignación de intensidad segmentalAsignación de intensidad segmental

• Determina la intensidad de cadasegmento en función de las variablesque afectan a este parámetro

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de intensidad vocálicapara el español y el catalán

Blecua & Acín (1995)

Modelo de intensidad vocálicapara el español y el catalán

Blecua & Acín (1995)

• Basado en el análisis de intensidad vocálica enun corpus de frases leídas

• Modelo en árbol que introduce una serie defactores que modifican la intensidad vocálica• Posición prepausal o no prepausal• Aparición de la vocal en sílaba tónica o átona• Posición inicial, medial o final de la vocal en el

enunciado• Aparición de la vocal en un enunciado corto o largo

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Asignación de duración

�Asignación de intensidad

�Asignación de pausas

�Asignación de curva melódica

Page 15: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Objetivos de la asignación de pausasObjetivos de la asignación de pausas

• Inserción de las pausas marcadasortográficamente en el texto

• Inserción las pausas no marcadasortográficamente en el texto

• Determinación de la duración de lapausa

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La contribución de las pausasLa contribución de las pausas

• Texto sintetizado con pausas

• Texto sintetizado sin pausas

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Marcado ortográfico de pausas en uncorpus real

Marcado ortográfico de pausas en uncorpus real

• 1629 pausas en total

• 1260 pausas marcadas ortográficamente

•• 578 con punto; 527 con coma578 con punto; 527 con coma; 17 con punto ycoma; 51 con dos puntos; 63 con signo deinterrogación; 22 con signo de admiración; 2con puntos suspensivos

•• 369 pausas no marcadas ortogr369 pausas no marcadas ortográáficamenteficamente

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de duración y asignación de pausaspara el español

Puigví, Giménez & Fernández (1994)

Modelo de duración y asignación de pausaspara el español

Puigví, Giménez & Fernández (1994)

• Basado en al análisis de un corpus de lectura

• Determinación de la duración de las pausasmarcadas mediante signos de puntuación

• Factores fonéticos y sintácticos que determinanla aparición de pausas no marcadas por signosde puntuación

• Determinación de la duración de las pausas nomarcadas por signos de puntuación

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo pausador Telefónica I+D (Castejón et al., 1994)

Módulo pausador Telefónica I+D (Castejón et al., 1994)

• Transforma en pausas laspalabras ortográficas

• Añade pausas no marcadasortográficamente

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo pausador Telefónica I+D (Castejón et al., 1994)

Módulo pausador Telefónica I+D (Castejón et al., 1994)

Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.

Categorías: ART N NP NP NP V NUM NUM N SIG

PAUSADORPAUSADOR

Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez [pau_v] tiene doscientasopez [pau_v] tiene doscientasuna vi#as.una vi#as.

Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez [pau_v] tio. pez [pau_v] ti’’e.nee.nedos. cidos. ci’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.

Códigos: [pau_v]: pausa insertada ante el verbo

Page 16: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversiónde texto en habla

Las etapas en la conversiónde texto en habla

�Asignación de duración

�Asignación de intensidad

�Asignación de pausas

�Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La contribución de la curva melódicaLa contribución de la curva melódica

• Texto sintetizado con variaciones deF0

• Texto sintetizado sin variación de F0

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Asignación de curva melódicaAsignación de curva melódica

• En algunos sistemas laasignación de la curva melódicapuede utilizar un análisis previode la estructura entonativa de losenunciados (prosodic parsing)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de generación de patronesmelódicos para el español

Garrido (1996)

Modelo de generación de patronesmelódicos para el español

Garrido (1996)

• Desarrollado a partir del análisis de un corpus detextos leídos

• Modelo fonético por nivelesο Nivel global I: asignación de un patrón melódico al párrafo,

situación de los puntos de reset y delimitación de gruposmelódicos

ο Nivel global II: asignación de patrones a cada grupo melódicoy superposición de los movimientos locales de F0 que marcanlímites sintácticos o modalidad oracional

ο Nivel local: superposición de los movimientos de F0 asociadoscon el acento léxico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La estilización(Garrido 2001)

La estilización(Garrido 2001)

Puntos de inflexión

Puntos de inflexión

RRRRaaaa MMMMOOOONNNN lllllllleeee GGGGOOOO eeeennnn aaaa VVVVIIIIOOOONNNN

Reducción de la curvamelódica delenunciado ‘Ramónllegó en avión’,pronunciado por unlocutor masculino, auna serie de puntos deinflexión relevantes

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La declinación(Garrido 2001)

La declinación(Garrido 2001)

Tiempo

60

80

100

120

140

160

180

200

Línea superior

Línea inferior

F0

(Hz)

Contorno melódico correspondiente a la oración ‘La reina delbaile bailaba la rumba de moda.’ (locutor masculino),

representado por medio de líneas de referencia. Ejemploextraído de Garrido et al. (1995)

Page 17: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Estructura jerárquica (Garrido 2001)

Estructura jerárquica (Garrido 2001)

+

Descomposición enpatrones melódicossuperpuestos de lacurva melódica delenunciado ‘Ramónllegó en avión’,pronunciada por unlocutor masculino

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Árbol prosódico inicial(Garrido, 2001)

Árbol prosódico inicial(Garrido, 2001)

[sofocó el fuego con el extintor del vehículo.]

[La dotación policial,]

[después de forzar una de las ventanas de la planta baja de la casa,]

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Nivel global(Garrido, 2001)

Nivel global(Garrido, 2001)

100

120

140

160

180

200

220

240

260

280

300

0 1 2 3 4 5 6Tiempo (seg.)

Líneas dereferencia: líneascontinuas de trazogruesocorrespondientes alos tres gruposfónicos de laoración.Líneas desupradeclinación:líneas discontinuasde distinto grosorCurva estilizadareal: puntos unidosmediante líneasrectas

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Nivel local(Garrido, 2001)

Nivel local(Garrido, 2001)

100

120

140

160

180

200

220

240

260

280

300

0 1 2 3 4 5 6Tiempo (seg.)

P

M

V

Líneas de referencia:líneas continuasPuntos de inflexión dela curva estilizadareal: puntos de colorclaroPuntos de inflexión dela curva estilizadagenerada por elmodelo: puntos decolor oscuro

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo de generación de parámetros prosódicos Telefónica I+D (Castejón et al., 1994)

Módulo de generación de parámetros prosódicos Telefónica I+D (Castejón et al., 1994)

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]

Categorías: ART N NP NP NP V NUM NUM N SIGAlófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.

Tj’en. tas

PROSOPROSO

Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60

EntonaciEntonacióón (Hz):n (Hz):

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las etapas en la conversión de texto enhabla

Las etapas en la conversión de texto enhabla

�Procesamiento previo del texto

�Transcripción fonética automática

�Análisis lingüístico

�Asignación de elementos prosódicos

�Conversión en parámetros acústicos

Page 18: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Conversión en parámetros acústicosConversión en parámetros acústicos

• Conjunto de reglas que tiene como objetivo:• Asignar valores de parámetros acústicos a

cada segmento o a cada unidad de síntesis

• Especificar las transiciones entre segmentos

• Los valores de los parámetros acústicoscontrolan un sintetizador que produce laonda sonora correspondiente al mensaje

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Concatenación de unidades almacenadasmediante síntesis paramétrica

Concatenación de unidades almacenadasmediante síntesis paramétrica

• Creación de un diccionario de unidades dediccionario de unidades dessííntesisntesis

•• ParametrizaciParametrizacióónn de las unidades

•• Modelo del tracto vocalModelo del tracto vocal para la síntesis a partirde los parámetros utilizados�Síntesis por LPC (Linear Predictive Coding)

�Síntesis por formantes

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo de conversión en parámetros acústicos Telefónica I+D (Castejón et al., 1994)

Módulo de conversión en parámetros acústicos Telefónica I+D (Castejón et al., 1994)

• Módulo de síntesis

• Transforma la información dela secuencia de unidades desíntesis y de los parámetrosprosódicos en una onda sonora

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de conversión en parámetros acústicos para laconversión de texto a habla

Telefónica I+D (Castejón et al., 1994)

Módulos de conversión en parámetros acústicos para laconversión de texto a habla

Telefónica I+D (Castejón et al., 1994)

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Entonación (Hz):

PARLAPARLA SelecciSeleccióón de unidades de sn de unidades de sííntesis en elntesis en elinventarioinventario

GeneraciGeneracióón de tramas de sn de tramas de sííntesisntesis

SSÍÍNTESISNTESIS ConversiConversióón en una onda sonora mediante eln en una onda sonora mediante elsintetizadorsintetizador

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Esquema general de unconversor de texto en habla

Esquema general de unconversor de texto en habla

Pre-procesado y normalización

Análisis lingüístico Transcripción fonética

Asignación de prosodia Selección de unidades

Conversión en parámetros acústicos

Page 19: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Actor 5, Loquendohttp://actor.loquendo.com/actordemo/

default.asp?language=es

Actor 5, Loquendohttp://actor.loquendo.com/actordemo/

default.asp?language=es

Es, m, f

EsCh, f

EsMx, f

EsAr, m

Cat, f

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

AT&T Labs Researchhttp://www.research.att.com/projects/tts/

demo.html

AT&T Labs Researchhttp://www.research.att.com/projects/tts/

demo.html

Engl, m

Engl, f

Engl, ch

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

AT&T Labs Natural Voiceshttp://www.naturalvoices.att.com/demos/

AT&T Labs Natural Voiceshttp://www.naturalvoices.att.com/demos/

EspMx, f

EspMx, f

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=96

BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=96

Eng US, f

Eng UK, m

Es, m

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=95

BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=95

Es, f

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Bell Labs - Lucent TechnologiesBell Labs - Lucent Technologies

Eng, m

Eng, f

EsMx, m

Es, m

Page 20: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Elan Speechhttp://www.elan.fr/demos/interactive.html

Elan Speechhttp://www.elan.fr/demos/interactive.html

Eng, m

Es, f

Es, m

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Elan Speechhttp://sayso.elan.fr/interactive_vf.asp

Elan Speechhttp://sayso.elan.fr/interactive_vf.asp

Es, f

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

ETI Eloquence, ScanSoftETI Eloquence, ScanSoft

Eng

Es,m

EsMx, m

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Infovox, BaBel Technologieshttp://www.infovox.se/tdemo.htm

Infovox, BaBel Technologieshttp://www.infovox.se/tdemo.htm

AmEng, m

BrEng, m

Es, m

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

RealSpeak, ScanSofthttp://www.scansoft.com/realspeak/demo/

RealSpeak, ScanSofthttp://www.scansoft.com/realspeak/demo/

Eng, f

EsMx, f

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El reconocimiento del hablaEl reconocimiento del habla

Del habla … … al texto

Page 21: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Representación simbólica de unaseñal vocal

�Tipo de enunciados�Número de locutores�Tamaño del vocabulario�Entorno

El reconocimiento del hablaEl reconocimiento del habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Tipo de enunciadosTipo de enunciados

• Reconocimiento depalabras aisladas

• Reconocimiento depalabras conectadas

• Reconocimiento de hablacontinua+ dificultad

- dificultad

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Número de locutoresNúmero de locutores

• Sistemas dependientesdel locutor

• Sistemasindependientes dellocutor

+ dificultad

- dificultad

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Tamaño del vocabularioTamaño del vocabulario

•Vocabulariorestringido

•Vocabulario sinrestricciones

+ dificultad

- dificultad

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

EntornoEntorno

• Entorno silencioso• Entorno con ruido

predictible• Entorno con ruido

aleatorio+ dificultad

- dificultad

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Ámbitos relacionados conel reconocimiento del hablaÁmbitos relacionados con

el reconocimiento del habla

• Identificación y verificación del locutor• Reconocimiento en entornos adversos /

ruidosos• Reconocimiento automático de la lengua• Comprensión del habla

Page 22: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Etapas en el reconocimientoEtapas en el reconocimiento

ADQUISICIÓN DE DATOS

EXTRACCIÓN DECARACTERÍSTICAS

CREACIÓN DE PLANTILLAS DEREFERENCIA

PROCEDIMIENTO DEDECISIÓN

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de palabras aisladasReconocimiento de palabras aisladas

• Aplicación de técnicas decomparación de señalescontinuas

• Comparación entre la señal y elmodelo almacenado

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de palabras aisladasReconocimiento de palabras aisladas

DIGITALIZACION DE LA SEÑAL DETECCIÓN DE PRINCIPIO Y FINAL DE PALABRA

CODIFICACIÓN EN FORMA DE PLANTILLADICCIONARIO

DE PLANTILLASDE REFERENCIA

COMPARACICOMPARACIÓÓNN

MEDIDA DE LA DISTANCIA ENTELA PLANTILLA DE REFERENCIAY LA PLANTILLA DE ENTRADA

DECISIÓN SOBRE ELRECONOCIMIENTO

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de palabras aisladasReconocimiento de palabras aisladas

• Aplicacionesofimáticas• Control de un

procesador de textos

• Entrada de datos numéricos

• Encuestas automáticas

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de palabras aisladasReconocimiento de palabras aisladas

• Aplicaciones industriales

• Procesos de control de calidad

• Inventario y mantenimiento deproductos

• Control de robots

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de palabras aisladasReconocimiento de palabras aisladas

• Aplicaciones domésticas• Control de electrodomésticos• Marcación de números de teléfono por voz

• Aplicaciones militares• Comandos vocales en la navegación aérea

Page 23: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de palabras aisladasReconocimiento de palabras aisladas

• Aplicaciones a usuarios connecesidades especiales• Control del entorno doméstico

• Control de sillas de ruedas

• Control de accesorios de cochesJoaquim Llisterri

Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de grandes vocabulariosReconocimiento de grandes vocabularios

• Requiere la definición deunidades subléxicas (menoresque la palabra)

• Requiere la clasificación previade los elementos léxicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de habla continuaReconocimiento de habla continua

• Utilización de técnicas dedecodificación acústico-fonética

• Requiere la definición de un“modelo de lenguaje”

• Utilización de unidades dereconocimiento: difonema,semisílaba

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de habla continua / hablaconectada

Reconocimiento de habla continua / hablaconectada

• Aplicaciones telefónicas• Servicios de centralita

automática• Nombres y apellidos• Número de DNI

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

ATLAS http://www.atlas-cti.com/es/demos.htm

ATLAS http://www.atlas-cti.com/es/demos.htm

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de habla continuaReconocimiento de habla continua

habla secuencia de unidades más probablessegmentación de la señal

/do/ - /os/ /Tje/-/en/ /to/-/os/ /Dje/ - /eT/

dosTjentosDjeTconversión a transcripción fonética

(Mariño, 1993)

Page 24: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de reconocimiento de habla continuaModelo de reconocimiento de habla continua

voz texto

ENTRENAMIENTO algoritmo de entrenamiento

base de datos de modelos fonéticos

diccionariofonético

COMPILACIÓN DEMODELOS LÉXICOS

generador de modelos léxicos

base de datos de modelos léxicos

RECONOCIMIENTO

algoritmo de reconocimiento

gramática

procesadoracústico

hablasecuencia de

unidades

Mariño (1993)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

elocución significado

Hz

Mariño, 1999Mariño, 1999

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

Fonema k-1 Fonema k Fonema k+1

Modelo de Markov

Mariño, 1999Mariño, 1999

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

Pr{la puerta no estaba abierta} = Pr{la}Pr{puerta/la} Pr{no/la puerta}Pr{estaba/la puerta no} Pr{abierta/lapuerta no estaba} = Pr{la} Pr{puerta/la}Pr{no/la puerta} Pr{estaba/puerta no}Pr{abierta/no estaba}

Bigrama

Mariño, 1999Mariño, 1999

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

elocución significado

textovozBASE DE DATOS

Modeladofonético

Procesadoracústico

Modeladode lenguajeENTRENA-

MIENTO

Mariño, 1999Mariño, 1999

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Dictado automático“máquina de escribir vocal”

Dictado automático“máquina de escribir vocal”

• Usuarios específicos• Dictado de informes médicos: radiólogos,

dentistas• Dictado de informes legales• Dictado de cartas comerciales

• Usuarios generales• Periodistas• Dictado de traducciones

Page 25: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Dictado automáticoDictado automático

ScanSoft Dragon Naturally Speaking

• 250.000 palabras• Vocabulario legal

• Vocabulario médico• Vocabulario de la seguridad

• Versión en español

http://www.lhsl.com/naturallyspeaking/

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Dictado automáticoDictado automático

IBM Via Voice

• 100.000 palabras de vocabulario básico• 475.000 palabras de vocabulario “de respaldo”

• Vocabulario legal• Vocabulario médico

• Versión en español

http://www-3.ibm.com/software/voice/viavoice/

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Dictado automáticoDictado automático

Philips FreeSpeech 2000• Vocabulario legal• Vocabulario médico• Vocabulario de seguros• Versión en español (Peninsular,

América Central y del Norte, Sudamérica) y encatalán

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Corrección fonética en lengua extranjeraCorrección fonética en lengua extranjera

• Comparación entre el modeloalmacenado en el sistema y elenunciado producido por elestudiante

• Puntuación• Detección de errores

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Corrección fonética en lengua extranjera http://www.auralog.com/en/talktome.htmlCorrección fonética en lengua extranjera http://www.auralog.com/en/talktome.html

Talk to Me™Auralog

Puntuación

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Corrección fonética en lengua extranjera http://www.auralog.com/en/talktome.htmlCorrección fonética en lengua extranjera http://www.auralog.com/en/talktome.html

Texto

Onda sonora

Page 26: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Corrección fonética en lengua extranjera http://www-speech.sri.com/people/julia/webgrader.htmlCorrección fonética en lengua extranjera

http://www-speech.sri.com/people/julia/webgrader.html

• Integración en la web�WebGrader™ (SRI International)

�Práctica interactiva con frases�Puntuación para cada palabra ypara toda la frase

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Objetivos de un sistema de diálogoObjetivos de un sistema de diálogo

• Sistema de diálogo, Sistemaconversacional

• SLS, Spoken Language System

� Programa diseñado para facilitar lainteracción natural mediante el hablaentre una persona y un sistemainformático

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El sistema de diálogo idealEl sistema de diálogo ideal

�Reconoce el habla espontánea�Comprende enunciados sin restricciones de

contenido�Proporciona respuestas con sentido,

gramaticalmente bien formadas ypragmáticamente adecuadas

�Responde con voz completamente natural�Es multimodal

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Los sistemas de diálogo actualesLos sistemas de diálogo actuales

• Sujetos a las limitaciones delreconocimiento

• Comprensión y respuesta restringidas adominios específicos

• Condicionados por la naturalidad delhabla sintetizada

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

BASURDE (1998-2001)Sistema de diálogo oral en dominios restringidos

http://gps-tsc.upc.es/veu/basurde/Home.htm

BASURDE (1998-2001)Sistema de diálogo oral en dominios restringidos

http://gps-tsc.upc.es/veu/basurde/Home.htm

• Reconocimiento• “Para conseguir una tasa de reconocimiento

aceptable es deseable que la frase se pronuncieevitando ruidos y a una velocidad de locuciónnormal”

• Comprensión• Información telefónica de horarios y precios de

trenes regionales y de grandes líneas

• Salida vocal

Page 27: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Tareas de un sistema de diálogoTareas de un sistema de diálogo

� Reconocimiento de los enunciados del usuario� Gestión del diálogo� Análisis lingüístico (morfológico, sintáctico,

semántico, pragmático) de los enunciados� Creación de una representación interna� Tratamiento de la representación interna en

función de la tarea� Generación de secuencias de respuesta� Síntesis del habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

• Estructura modular

• Cada módulo está especializado en una tarea• Reconocimiento del habla

• Comprensión del lenguaje• Gestión del diálogo

• Generación del lenguaje• Conversión de texto en habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

ROE, D.B. - WILPON, J.G. (Eds.) (1994) Voice Communication BetweenHumans and Machines. Washington: The National Academies Press. p. 374http://www.nap.edu/books/0309049881/html/374.html

ROE, D.B. - WILPON, J.G. (Eds.) (1994) Voice Communication BetweenHumans and Machines. Washington: The National Academies Press. p. 374http://www.nap.edu/books/0309049881/html/374.html

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

MINKER, W.- BENNACEF, S. (2001) Parole et dialogue homme-machine. Paris: Éditions Eyrolles - CNRS Éditions. p. 11

MINKER, W.- BENNACEF, S. (2001) Parole et dialogue homme-machine. Paris: Éditions Eyrolles - CNRS Éditions. p. 11

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

LÓPEZ-CÓZAR, R. (2003) “Análisis y gestión del diálogo”, Curso deIndustrias de la Lengua “Conversar con el ordenador: el procesamiento del

lenguaje y del habla en los sistemas de diálogo”, Fundación Duques de Soria,Soria, 21-15 de julio de 2003.

LÓPEZ-CÓZAR, R. (2003) “Análisis y gestión del diálogo”, Curso deIndustrias de la Lengua “Conversar con el ordenador: el procesamiento del

lenguaje y del habla en los sistemas de diálogo”, Fundación Duques de Soria,Soria, 21-15 de julio de 2003.

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Page 28: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Módulo de reconocimiento del habla

• Convierte la señal sonora de entrada -continua- en una representación escrita -discreta - de las palabras reconocidas

� Tecnologías del habla

• Reconocimiento automático del habla(ASR, Automatic Speech Recognition)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Módulo de interpretación semántica

• Determina el “significado” (contenido) dela secuencia de palabras reconocida

� Procesamiento del lenguaje natural

• Comprensión del lenguaje (NLU,Natural Language Understanding)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Comprensión del contenido� Comprensión del lenguaje natural (NLU)Eh, pues mire, quería saber a qué horasale la… el último tren, eh… haciaBarcelona, desde Madrid, el sábado

PETICIÓN, DESTINO=“Barcelona”, ORIGEN=“Madrid”, FECHA:DÍA=“28”, HORA=“Último”

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Módulo de gestión del diálogo

• Gestiona la interacción entre la persona yel sistema para la realización de la tareadeseada

• Módulo central de control en un sistemade diálogo

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Control del diálogo�coherencia entre la pregunta del

usuario y el sistema�resolución de anáforas y elipsis�predicción de las reacciones del

usuario�...

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Módulo de generación de lenguaje

• Crea un enunciado bien formado a partirde la representación internaproporcionada por el sistema

� Procesamiento del lenguaje natural

• Generación del lenguaje (NLG, NaturalLanguage Generation)

Page 29: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Creación de respuestas� Generación de lenguaje natural (NLG)

PETICIÓN, DESTINO=“Barcelona”,ORIGEN=“Madrid”, Fecha: DÍA=“28”,HORA=“Último”

El último tren sale a las 11 y 53minutos de la noche

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogoMódulos de un sistema de diálogo

Módulo de conversión de texto en habla

• Transforma en una señal sonoracontinua- el texto creado por el módulode generación de respuestas -discreto-

� Tecnologías del habla

• Conversión de texto en habla (TTS,Tex-to-Speech Synthesis)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Los sistemas de diálogoLos sistemas de diálogo

�Problemas de los sistemas de diálogo• Errores derivados del reconocimiento• Necesidad de estrategias de verificación• Problemas del diálogo espontáneo

• Elipsis• Anáfora• Deícticos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño de un sistema de diálogoDiseño de un sistema de diálogo

�Modelo del entorno�Modelo de la tarea�Modelo del usuario�Bases de conocimiento�Técnicas de diseño

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo del entornoModelo del entorno

• Modo de comunicación entre el usuario yel sistema� Modo de comunicación: vocal, visual,

auditiva, táctil� Características específicas de cada

modo: tiempo de procesamiento,disponibilidad, modalidad de entrada ysalida

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo del entornoModelo del entorno

• Sistemas multimodales�Integración del habla con otras

modalidades�Locutores virtuales

• Animación de movimientosfaciales

• Sincronizada con hablasintetizada

Page 30: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Locutor virtual en catalánhttp://www.salleurl.edu/~jmelen/rvsdemo.html

Locutor virtual en catalánhttp://www.salleurl.edu/~jmelen/rvsdemo.html

Secció de Teoria delSenyal, EnginyeriaLa Salle, UniversitatRamon Llull

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de la tareaModelo de la tarea

• Especificación del objetivo de la tarea yde sus características específicas� Obtención de información� Transacciones� Negociación

• Discriminación de sub-diálogos nopertenecienes a la tarea

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo del usuarioModelo del usuario

• Tipología de usuarios� Características personales: edad,

sexo, estado físico, nivel cultural,estatus social� Experiencia del usuario con

sistemas de comunicación persona-máquina

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Bases de conocimientoBases de conocimiento

• Uso de la información prosódica� Desambiguación de oraciones� Identificación del cambio de tema� Detección de la intencionalidad o el

énfasis del hablante� Identificación de los cambios de turno

de palabra

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Técnicas de diseñoTécnicas de diseño

�Diseño a partir de la intuición

�Diseño a partir de la observación de diálogosnaturales entre hablantes humanos

�Diseño por simulación de la interacciónpersona-máquina

�Diseño mediante la interacción con un sistemade diálogo real

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño a partir de la intuiciónDiseño a partir de la intuición

• Determinación por parte del investigador detodas las posibles respuestas a una pregunta

• Problemas� Variabilidad de las respuestas� Limitación de la clase de estructuras

lingüísticas utilizadas por el usuario

Page 31: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño a partir de la intuiciónDiseño a partir de la intuición

• Utilizado en determinadas condiciones

� Estructuración clara de la tarea� Introducción de frases determinadas

previamente por parte del sistema

� Las preguntas del sistema presuponenuna determinada respuesta por partedel usuario

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño de un sistema de diálogoDiseño de un sistema de diálogo

• Estudio de la interacción naturalentre personas

• Perspectiva ling üística

• Pragmática

• Análisis de la conversación

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño de un sistema de diálogoDiseño de un sistema de diálogo

• Estudio de corpus con diálogoscorrespondientes a la tarea que deberealizar el sistema

• Corpus persona-persona

• Corpus persona-máquina

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño a partir de la observación de diálogosnaturales entre hablantes humanos

Diseño a partir de la observación de diálogosnaturales entre hablantes humanos

� Ayuda a la definición devocabularios y modelos lingüísticospropios de una tarea específica

� Diferencias entre la interacciónhumana natural y la interacciónpersona-máquina

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño por simulaciónde la interacción persona-máquina

Diseño por simulaciónde la interacción persona-máquina

• Protocolo del Mago de Oz(Wizard of Oz)� Simulación de la interacción

en la que el papel de lamáquina lo realiza un humanosin que lo sepa el interlocutor

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Aplicaciones de los sistemas de diálogoAplicaciones de los sistemas de diálogo

�Sistemas de información�Sistemas de transacciones

�Traducción automática del habla

Page 32: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Aplicaciones de los sistemas de diálogoAplicaciones de los sistemas de diálogo

• Obtener información

• Horarios y precios de transportes públicos• Información ciudadana

• Información turística• Información meteorológica

• Información académica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Horarios y precios de transportes públicos http://gps-tsc.upc.es/veu/basurde/Horarios y precios de transportes públicos http://gps-tsc.upc.es/veu/basurde/

Basurde 976.76.21.13

Universitat Politècnica de Catalunya

Universitat Politècnica de ValènciaUniversidad del País Vasco

Universitat Jaume IUniversidad de Zaragoza

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

ARISE, Automatic Railway Information Systems for Europe

http://www.compuleer.nl/arise.htmARISE, Automatic Railway Information Systems for Europe

http://www.compuleer.nl/arise.htm

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html

WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html

•Información de tráficomarítimo en elarchipiélago de Estocolmo

•Entrada mediantereconocimiento del habla

•Informaciónproporcionada mediantesíntesis del hablacomplementada porsíntesis visual y un interfazgráfico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html

WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

MASK, LIMSI-CNRS http://www.limsi.fr/Recherche/TLP/mask.html

MASK, LIMSI-CNRS http://www.limsi.fr/Recherche/TLP/mask.html

MASK : Le systeme MASK vousécouteUSER : Euh... je voudrais allerdemain de Paris à Bordeaux...MASK : A quelle heure voulez-vous partir?USER : Vers 12:30MASK : Il y a un train a 12:43,voulez-vous réserver?USER : Oui en première classe

Page 33: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

ATIS, SRI Internationalhttp://www.speech.sri.com/people/julia/atis.html

ATIS, SRI Internationalhttp://www.speech.sri.com/people/julia/atis.html

• Información sobre horarios y tarifas devuelos

• Incluye comprensión del lenguaje

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

ATIS, SRI InternationalATIS, SRI International

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/

AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/

• Información sobre laciudad de Estocolmo

• Agentesconversacionalespara ayudar en elproceso de obtenciónde información

• Síntesis visual

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/

AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Información meteorológica http://gps-tsc.upc.es/veu/attemps/

Información meteorológica http://gps-tsc.upc.es/veu/attemps/

aTTempsUniversitat Politècnica de

CatalunyaUniversitat Autònoma de

Barcelona906.789.987

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Información académica http://ceres.ugr.es/sacc/

Información académica http://ceres.ugr.es/sacc/

SACC/STACCUniversidad de Granada

Page 34: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Aplicaciones de los sistemas de diálogoAplicaciones de los sistemas de diálogo

• Realizar transacciones• Reserva y adquisición de billetes para

viajar en transportes públicos• Pedidos telefónicos• Venta de entradas• Banca telefónica• Atención telefónica al cliente

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Venta de entradas http://www.ydilo.com/esp/caseStudies.html

Venta de entradas http://www.ydilo.com/esp/caseStudies.html

CineEntradasYdilo Advanced Voice Solutions

902.888.902

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Banca Telefónica http://www.natvox.es/demos_bpt.html

Banca Telefónica http://www.natvox.es/demos_bpt.html

BpT, Banca por TeléfonoNatural Vox

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

TRAINS, Department of Computer Science, Rochester Universityhttp://www.cs.rochester.edu/research/trains/

TRAINS, Department of Computer Science, Rochester Universityhttp://www.cs.rochester.edu/research/trains/

• Gestión de itinerarios de trenes

� Síntesis y reconocimiento del habla� Diálogo

� Comprensión del lenguaje

� Interfaz visual� Integración en un sistema interactivo

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

TRAINS, Department of Computer Science, Rochester University http://www.cs.rochester.edu/research/trains/

TRAINS, Department of Computer Science, Rochester University http://www.cs.rochester.edu/research/trains/

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Aplicaciones de un sistema de diálogoAplicaciones de un sistema de diálogo

• Gestionar información

• Gestión del correo electrónico

• Gestión de recursos

• Centralitas telefónicasautomatizadas

Page 35: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Gestión del correo electrónico http://www.gts.tsc.uvigo.es/telcorreo/

Gestión del correo electrónico http://www.gts.tsc.uvigo.es/telcorreo/

TelCorreoUniversidade de VigoUniversidade de Santiago

de Compostela

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Servicios de atención al cliente http://www.grupovoice.com/

Servicios de atención al cliente http://www.grupovoice.com/

GRU, Unidad de Respuesta GlobalGrupo Voice Consulting

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/

Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/

• Generación dehabla sintetizadacon apoyo visual(lectura labial)para personas condificultades deaudición

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/

Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Traducción automática del hablaTraducción automática del habla

• Problemas del habla espontánea (disfluencies)

• Dudas• Pausas “llenas”

• Alargamientos vocálicos• Repeticiones

• Falsos principios• Velocidad de elocución

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Traducción automática del hablaTraducción automática del habla

• Problemas del diálogo

• Elementos anafóricos

• Elementos deícticos

• Elipsis

• Presuposiciones…

Page 36: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Traducción automática del hablahttp://nespole.itc.it/public/deliverables/D3forWeb/D3forWeb.htm

Traducción automática del hablahttp://nespole.itc.it/public/deliverables/D3forWeb/D3forWeb.htm

"... I'm available on Friday the 19th...”

"...sí sí venerdì diciannoveposso, sì perchè sai oggi

vado via per il viaggio D, laverità è che questo mese è

pieno di viaggi parto ilgiorno sei per un viaggio estarò via fino al dodici ed è

per questo che il giornodiciannove mi va proprio

bene francamente..."

“...yes yes on fridaynineteen can, yes

because know I go me oftrip today, the truth such is

that this month is verytraveller I go me the day six

of trip and I am until thetwelve as soon as the daynineteen comes me very

well outspokenly”

=

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Traducción automática del hablahttp://www.is.cs.cmu.edu/papers/speech/1996/COMPUTER-alex.ps.gz

Traducción automática del hablahttp://www.is.cs.cmu.edu/papers/speech/1996/COMPUTER-alex.ps.gz

“...sí sí el viernes diecinueve puedo sí porque sabes mevoy de viaje d hoy la verdad así esque este mes es muy viajero me voy el día seis de viajey estoy hasta el doce así que el díadiecinueve me viene muy bien francamente...”yes yes on friday nineteen can yes because know I gome of trip D today the truth such isthat this month is very traveler I go me the day six of tripand I am until the twelve as soonas the day nineteen comes me very well outspokenly

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento del habla

Gestión del diálogo

Traducción automática de textos

Conversión de texto en habla

Traducción automática del habla(Spoken Language Translation)

Traducción automática del habla(Spoken Language Translation)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Verbmobilhttp://verbmobil.dfki.de/overview-us.html

Verbmobilhttp://verbmobil.dfki.de/overview-us.html

• Sistema móvil de traducción de diálogosespontáneos

• Dominios restringidos: citas, preparaciónde viajes, reservas de hotel

• Lenguas: alemán, inglés y japonés

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

WAHLSTER, W. (2000) "Mobile Speech-to-Speech Translation of Spontaneous Dialogs: AnOverview of the Final Verbmobil System", in WAHLSTER, W. (Ed.) Verbmobil: Foundations ofSpeech-to-Speech Translation. Heidelberg - New York: Springer Verlag (Artificial Intelligence).http://verbmobil.dfki.de/ww.html

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Verbmobilhttp://verbmobil.dfki.de/overview-us.html

Verbmobilhttp://verbmobil.dfki.de/overview-us.html

• Independiente del locutor• Bidireccional• Teléfono móvil GSM• Más de 10.000 palabras• 75% de reconocimiento de palabras• 80% de traducciones correctas• 90% de éxito en tareas• Generación de resúmenes de conversaciones

Page 37: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

WAHLSTER, W. (2000) "Mobile Speech-to-Speech Translation of Spontaneous Dialogs: AnOverview of the Final Verbmobil System", in WAHLSTER, W. (Ed.) Verbmobil: Foundations ofSpeech-to-Speech Translation. Heidelberg - New York: Springer Verlag (Artificial Intelligence).http://verbmobil.dfki.de/ww.html

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Verbmobilhttp://verbmobil.dfki.de/verbmobil/2EN.MPG

Verbmobilhttp://verbmobil.dfki.de/verbmobil/2EN.MPG

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

JANUShttp://www.is.cs.cmu.edu/mie/janus.html

JANUShttp://www.is.cs.cmu.edu/mie/janus.html

• Dominios limitados: citas, reserva dehoteles, itinerarios de viajes

• Lenguas de entrada: inglés y alemán

• Lenguas de salida: inglés, alemán yjaponés

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Janus - Videoconferenciahttp://www.is.cs.cmu.edu/mie/janus2.html

Janus - Videoconferenciahttp://www.is.cs.cmu.edu/mie/janus2.html

• Reservas de viajes entre un cliente yuna agencia local

• Traducción oral y escrita de laconversación

• Interacción establecida porvideoconferencia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Page 38: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Janus - Traductor portátilhttp://www.is.cs.cmu.edu/mie/janus3.html

Janus - Traductor portátilhttp://www.is.cs.cmu.edu/mie/janus3.html

• Información y ayuda para una personaque viaja por un país extranjero

• Traducción oral y escrita y acceso a basesde datos de información turística

• Independiente del locutor• Dominio restringido• Versiones portátil y móvil

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Janus - Traductor portàtilhttp://www.is.cs.cmu.edu/mie/janus3.html

Janus - Traductor portàtilhttp://www.is.cs.cmu.edu/mie/janus3.html

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Janus - Traductor de conversacioneshttp://www.is.cs.cmu.edu/mie/janus3.html

Janus - Traductor de conversacioneshttp://www.is.cs.cmu.edu/mie/janus3.html

• Lenguas: inglés y castellano

• Seguimiento de la conversación• Traducción presentada en forma escrita

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html

LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html

• Sistema móvil de traducción,información, ayuda y navegación

• Dominio: turismo en un país extranjero• Lenguas: inglés, alemán y japonés• Multimodal: habla, texto, escritura

manuscrita, imagen y gesto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html

LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html

Integrado enel ordenadorportátilXybernautMobileAssistant IV

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

LingWearhttp://www.is.cs.cmu.edu/LingWear/tourist2.html

LingWearhttp://www.is.cs.cmu.edu/LingWear/tourist2.html

Page 39: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

SRI Internationalhttp://www.speech.sri.com/

SRI Internationalhttp://www.speech.sri.com/

• Dominio restringido: información sobrevuelos

• Lenguas: del inglés al francés

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

SRI Spoken Language Translationhttp://www.speech.sri.com/star-videos.html

SRI Spoken Language Translationhttp://www.speech.sri.com/star-videos.html

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Nespole!http://nespole.itc.it/

Nespole!http://nespole.itc.it/

• Negotiating through Spoken Language inE-Commerce

• Traducción automática del habla paracentros de videoconferencia

• Lenguas: italiano con traducción alinglés, alemán y francés

• Dominio: turismo

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Nespole!http://nespole.itc.it/public/frames/f_video.htm

Nespole!http://nespole.itc.it/public/frames/f_video.htm

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Eutranshttp://prhltdemos.iti.es/demo/spanish_demo.html

Eutranshttp://prhltdemos.iti.es/demo/spanish_demo.html

• Example Based Undestanding and TranslationSystems

• Lenguas: del castellano o del italiano al inglés

• Dominio: centralita y recepción de hoteles• Accesible por teléfonoPattern Recognition and Human Language Technology Group,

Universitat Politècnica de València

Page 40: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Eutranshttp://www.iti.upv.es/~fcn/Talks/tah/EuTransI.avi

Eutranshttp://www.iti.upv.es/~fcn/Talks/tah/EuTransI.avi

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Traducción automática del hablaTraducción automática del habla

• Dominios restringidos

• Interacción pregunta-respuesta• Accesible por teléfono

• Multimodalidad

• Complementariedad del conocimientolingüístico y del conocimiento técnico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

¿Quién desarrolla las tecnologías delhabla?

¿Quién desarrolla las tecnologías delhabla?

• Surgidas en un principio del ámbito de laingeniería de telecomunicaciones

• Desarrolladas siguiendo la evolución de lainformática

Ingenieros de telecomunicación

Informáticos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El papel del lingüistaEl papel del lingüista

• Conocimiento de la interacción oralhumana

• Conocimiento de los mecanismos dede producción y percepción delhabla

• Conocimiento del sistema lingüístico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La conversión de texto en hablaLa conversión de texto en habla

• Tratamiento previo del texto• Análisis lingüístico del texto• Transcripción fonética automática• Diccionarios de unidades de síntesis• Modelos prosódicos• Evaluación de sistemas

Page 41: UNAM 03/UNAM 03 - UAB Barcelonaliceu.uab.cat/~joaquim/speech_technology/UNAM_03/UNAM03.pdf · Nociones generales sobre la síntesis Líneas de investigación actuales Resultados

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El reconocimiento del hablaEl reconocimiento del habla

• Selección de locutores para elentrenamiento del sistema

• Segmentación y transcripción delcorpus de entrenamiento

• Diccionarios de pronunciación

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Los sistemas de diálogoLos sistemas de diálogo

• Estudio y anotación de corpus de interaccionesnaturales entre personas

• Estudio y anotación de corpus de interaccionesficticias entre personas y sistemas informáticos

• Diseño de escenarios para el desarrollo delsistema

• Diseño de estrategias de diálogo• Adecuación pragmática del diálogo• Corrección lingüística del sistema

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Algunos obstáculosAlgunos obstáculos

• “Cultura” tecnológica vs. “cultura”humanística (“aplicación” vs. “teoría”)

• El vocabulario común

• La “formación” filológica

• El lingüista como “proveedor de datos”

• El lingüista como “revisor”

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas

UNAM, México, 7 de noviembre de 2003

El papel de la fonEl papel de la fonéética en eltica en eldesarrollo de las tecnologdesarrollo de las tecnologíías delas del

hablahablahttp://liceu.uab.es/

~joaquim/speech_technology/UNAM_03/UNAM_03.html

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas

UNAM, México, 7 de noviembre de 2003

El papel de la fonEl papel de la fonéética en el desarrollo detica en el desarrollo delas tecnologlas tecnologíías del hablaas del habla

Joaquim LlisterriJoaquim Llisterri

Grup de FonGrup de FonèèticaticaDepartament de Filologia EspanyolaDepartament de Filologia EspanyolaUniversitat AutUniversitat Autòònoma de Barcelonanoma de [email protected]@uab.eshttp://liceu.uab.es/~joaquimhttp://liceu.uab.es/~joaquim

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003

Facultad de Filosofía y LetrasColegio de Letras Hispánicas

UNAM, México, 4 de noviembre de 2003