Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

18
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/D OC/ Tema4a.ppt Dpto. Señales, Sistemas Dpto. Señales, Sistemas y Radiocomunicaciones y Radiocomunicaciones

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Page 1: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4a.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Page 2: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Page 3: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Tipos de Síntesis de Voz y Aplicaciones

(A)Voz Pre-Grabada(codificación)

(B)Conversión de Texto

a VozText-to-Speech TTS

(C)Conversión de Concepto

a VozConcept-to-Speech CTS

Acceso a Inform.

Telefónica

Asistentes de Lectura

Comunicadores y Ayudas para Discapacitados

Locutores virtuales (visual – TTS)

Otros: Enseñanza (I. Cervantes), .. http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl

Page 4: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

1791

• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano

Page 5: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

1835

• Sistema parlante diseñado por Sir Charles Wheatstone

Page 6: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sprachsynthese (TTS, Vocoder)

Philipp S. Bach

1939

Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de:

• Un oscilador (controlado por un pedal) y una fuente de ruído blanco

• Diez filtros paso banda, con salida conectada a potenciómetros

• Algunos botones para generar consonantes como t, p, etc...

Historie der Sprachsynthese

Proseminar Sprachdialogsysteme

http://www.acoustics.hut.fi/~slemmett/dippa/appa.html

Page 7: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz

ProcesoLingüístico-Prosódico

Proceso de Señal

•Sonidos (pausas)•Prosodia:

o F0o Duracióno Energía

Análisis del Texto Análisis FonéticoAnálisis Prosódico

Modelos de Síntesisde Voz

SINTETIZADOR

Texto Voz

Page 8: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Componentes:

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Page 9: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Detección de la Estructura:– Segmentación de

párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura

de SMS, e-mail, página web, ...

– Identificación del Idioma, ...

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Page 10: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Normalización del Texto:– Abreviaturas (Vd. Sr. ),

acrónimos (CEE, BMW) , etc.

– Fechas, Horas, Cantidades, Números

– Corrección automática de errores o expansión de formas de escritura (SMSs)

– Identificación de palabras extranjeras, ..

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Page 11: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Análisis Lingüístico:– Análisis sintáctico y

semántico (posible)– Desambiguación de

palabras.– Estructura de la frase.– Identificación de tipo de

frase.

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Page 12: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético

Componentes: Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Page 13: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Análisis Morfológico:– Palabras de función:

pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)

– Palabras de contenido – Prefijos y sufijos,

conjugaciones, plurales, aumentativos, etc

– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)

Page 14: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Conversión Grafema-Alófono:– Soluciones basadas en

diccionario• Palabras divididas en

morfemas (para disminuir diccionario)

• Si la palabra no está: usa reglas

– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones

Page 15: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico

Componentes: Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Page 16: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Módulo Pausador:– Decisión de dónde insertar

pausas –ortográficas y no ortográficas- :

• Información gramatical: coeficientes de relación

• Número de sílabas– Asignación de la duración

adecuada a las pausas

Page 17: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Modelado Prosódico:– Modelos:

• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de

datos.– Modelado de F0 y duración:

¿independiente o conjunto?– Intensidad, generalmente

sólo normalización

Page 18: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS

Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos

Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética

Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y

luego combinar los modelos parciales.

Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,

Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:

Hispanic Institute. Guadarrama 1974.

http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf