Download - SSML

Transcript
Page 1: SSML

SSMLSpeech Synthesys markup language

Autor: Mario Rodríguez Boya

“Estado actual del estándar SSML para la síntesis del habla dentro del ‘Speech Interface Framework’ desarrollado por el

grupo de trabajo ‘Voice Browser’ del W3C”

Page 2: SSML

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 3: SSML

Introducción

• Lenguaje de marcas basado en XML

• Especificación desarrollada por el Voice Browser Working Group

• Parte del W3C Speech Interface Framework

• Método estándar para la pronunciación, tono, volumen, velocidad …

• Generación automática (XSLT) o manual

Page 4: SSML

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 5: SSML

Proceso de Síntesis del Habla

• Análisis Gramatical

• Análisis de la Estructura

• Normalización del Texto

• Conversión del Texto a Fonemas

• Análisis Prosódico

• Generación de la Forma de Onda

Page 6: SSML

Proceso de Síntesis del Habla

• Análisis Gramatical– Se extraen las etiquetas del árbol– La estructura, etiquetas y atributos extraídos

serán utilizados en las etapas posteriores

Page 7: SSML

Proceso de Síntesis del Habla

• Análisis de la Estructura– Markup Support: <p> y <s>– Non-Markup Behaviour: Procesador de

Sintesis (por defecto)

Page 8: SSML

Proceso de Síntesis del Habla• Normalización del Texto

– Construcciones especiales (1/2, 100 € …)– Ambigüedad– Markup Support: <say-as>– Non-Markup Behaviour:

• Procesador de síntesis• Múltiples posibilidades• Análisis del contexto• Errores muy probables en la transformación

Page 9: SSML

Proceso de Síntesis del Habla• Conversión del Texto a Fonemas

– Deducir la pronunciación de las palabras– Distintos tipos de lenguajes Distintos tipos

de conversiones (uno a uno, muchos a uno...)– Markup Support: <phoneme>– Non-Markup Behaviour: procesador de

síntesis (diccionario de pronunciación)

Page 10: SSML

Proceso de Síntesis del Habla• Análisis Prosódico

– Prosodia: conjunto de rasgos del habla– Buena prosodia Voz humana natural y

comprensible– Markup Support: <emphasis>, <break> y

<prosody>– Non-Markup Behaviour: procesador de

síntesis muy efectivo al establecer los rasgos

Page 11: SSML

Proceso de Síntesis del Habla• Generación de la Forma de Onda

– Llevada a cabo automáticamente por el procesador de síntesis (Non-Markup Behaviour)

– Se puede solicitar explícitamente (Markup Suport) una voz con determinadas cualidades (e.g. Voz de una mujer joven)

Page 12: SSML

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 13: SSML

Formato de un Documento SSML

• DOCTYPE<!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN" "http://www.w3.org/TR/speech-synthesis/synthesis.dtd">

• Elemento Raíz: <speak> <?xml version="1.0"?><speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis/synthesis.xsd" xml:lang="en-US">

Page 14: SSML

Formato de un Documento SSML<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis/synthesis.xsd" xml:lang="es"> <p>

<s> Tienes 4 mensajes.</s> <s> El primero es de Mario, recibido a las <break/> 3:45pm.</s>

<s> El asunto es <prosody rate="-20%">vacaciones</prosody> </s> </p></speak>

Page 15: SSML

Formato de un Documento SSML …

<p>

<voice gender="female">

La canción habla de dos personas

</voice>

</p>

<p>

<voice gender="male">

Aquí tiene una muestra

<audio src="http://www.example.com/music.wav"/>

¿Le gustaría comprar la canción?

</voice>

</p>

Page 16: SSML

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 17: SSML

Integración con otros Lenguajes

• Colabora con SMIL para descripción de aplicaciones multimedia con salida de voz

• Complementa a ACSS– Mayor funcionalidad que ACSS– ACSS controla mejor el aspecto espacial

• Junto con VoiceXML permite el desarrollo de navegadores de voz

Page 18: SSML

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 19: SSML

Implementaciones Actuales

• Loquendo TTS

• Microsoft Speeh Server: aplicaciones de telefonía por voz

• OptimTalkv

• Voice Center

• Código Abierto: FreeTTS

Page 20: SSML

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 21: SSML

Desafíos Futuros

• Normalización del texto– Homógrafos– Abreviaturas – Símbolos

• Implantación en navegadores Web

• Naturalización del habla– Prosodia– Comunicación fluida

Page 22: SSML

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 23: SSML

Conclusiones

• Estándares del W3C Voice Browser Group sirven para interacción hombre-máquina de forma natural

• SSML ofrece control de la prosodia por parte del autor o automático

• Problemas en la inferencia de significado de símbolos y abreviaturas en distintos contextos

Page 24: SSML

Fin

SSML“Estado actual del estándar SSML para la síntesis del habla dentro

del ‘Speech Interface Framework’ desarrollado por el agrupo de

trabajo ‘Voice Browser’ del W3C”

Autor: Mario Rodríguez Boya

Hola estudiantes del curso de doctorado “Tecnologías, estándares y servicios Web”, espero que les

haya gustado la presentación de Mario