Conversión de texto en habla - bips.bi.ehu.esbips.bi.ehu.es/doctorado05-06/Conversion...

47
Tecnologías del habla Conversión de texto en habla Tecnologías de la Información y Comunicaciones en Redes Móviles 2005/2006 Eduardo Lleida [email protected] Eva Navas [email protected]

Transcript of Conversión de texto en habla - bips.bi.ehu.esbips.bi.ehu.es/doctorado05-06/Conversion...

Tecnologías del habla

Conversión de texto en habla

Tecnologías de la Información y Comunicaciones en Redes Móviles

2005/2006Eduardo Lleida [email protected] Navas [email protected]

Tecnologías del habla

Índice

IntroducciónEstructura de un sistema CTHModelado prosódico. Habla emocionalTécnicas de síntesis de vozBases de datos para CTHEvaluaciónAplicaciones Perspectiva históricaLenguajes de marcado para CTH

Tecnologías del habla

Índice

Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional

Tecnologías del habla

Modelado prosódico: metodología

0

50

100

150

200

250

300

350

400

parte 1 parte 2

Obtención de la base de datos

Etiquetado de la base de datos

Estudio estadístico de los parámetros

Evaluación del modelo obtenido

calidad aceptable

base datos válida

Modelo

no

no

Edozer egingo nuke zu pozik ikusteagatik.

Edozer egingo nuke zu pozik ikusteagatik0

2000

4000

6000

8000

10000

12000

1 20 40 60 80 100 120 140 160 180 200 220

Inicio

Tecnologías del habla

Índice

Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional

Tecnologías del habla

Modelado de la entonación

Entonación básica para lograr naturalidadEvita la monotonía de la voz sintéticaGeneración de curva de entonación:

Mediante patrones melódicos almacenadosA partir de sistemas estadísticosUtilizando reglas para definir la curva a partir de símbolos

Tipos de modelosFonológicosAcústico-fonéticos

Tecnologías del habla

Modelado de la entonaciónModelos existentesModelos basados en tonos

Modelo fonológico El más conocido ToBI (Tone and Break Index)

Acento tonal*

[Tono frontera inicial]%

Acento de frase-

Tono frontera final%

Tecnologías del habla

Modelado de la entonaciónModelos existentesAsignación automática de las etiquetas

Usan información lingüística y segmentación de la señalHay que definir a priori la secuencia de tonos posible en la lengua

Construcción de la curva a partir de los parámetros

Difícil transformar etiquetas categóricas en curva numérica

Modelo muy extendido para etiquetado de la curva de entonación, pero menos utilizado para la síntesis

Tecnologías del habla

Modelado de la entonaciónModelos existentesModelos superposicionales

Se forma la curva sumando componentesEl más representativo el modelo de Fujisaki:

Basado en la fisiologíaDescompone la curva en tres componentes en escala logarítmica:

Componente de fraseComponente de acentoComponente base ln(F0)

t

línea básica

componente de frase

componente de acento

Composición de la curva sintética

Tecnologías del habla

Modelado de la entonaciónModelos existentes

ln F0min +Aa

Mecanismo de control de

frase

Mecanismo de control de

acento

curva de pitchsintética

(dominio de ln(Hz))

t

t

Ap

ln(F0)

t

línea básica

componente de frase

componente de acento

t

Composición de la curva sintética

Parámetros de la curva de entonación

∑∑==

−−−+−+=J

jjajjajaj

I

iipipimin TtGTtGATtGAFF

121

1000 )}()({)(lnln

)()exp()( 2 tutttG ipi iαα −=

[ ]{ } )(.),exp()1(1)( tuttMintG jjjaj θββ −+−=

Tecnologías del habla

Modelado de la entonaciónModelos existentesObtención automática de los parámetros

Compleja separación de las diferentes componentes de la curvaExisten algunos métodos para hacerlo

Construcción de la curva a partir de los parámetros

SencillaConstrucción de la curva sintética

Necesario darles un significado lingüístico

Tecnologías del habla

Modelado de la entonaciónModelos existentesModelos perceptuales

El más conocido es el IPO (Instituut voorPerceptie Onderzoek Instituto de Estudios de Percepción)Se estiliza la curva en dominio logarítmico con rectas manteniendo los fenómenos relevantes desde el punto de vista perceptual

log(F0)

t

Curva natural

Curva estilizada

Tecnologías del habla

Modelado de la entonaciónModelos existentesPatrones de movimientos de pitch

Se extraen estudiando características de duración y rango del movimiento de F0Se estandarizan para obtener un inventario de patronesSe define una gramática de combinación de movimientosSe describen en función de

DirecciónPosición en el tiempo en relación con los límites de las sílabasVelocidad de cambioTamaño

Tecnologías del habla

Modelado de la entonaciónModelos existentesObtención de los movimientos de pitch

Estilización de la curva manualProceso largoResultados diferentes si se estiliza en distinto momento o por distinto etiquetador

Existen métodos automáticosConstrucción de la curva sintética

Compleja porque los movimientos de F0 no tienen significado lingüístico

Tecnologías del habla

Modelado de la entonaciónModelos existentesModelos de estilización acústica

Movimientos de F0 a lo largo del tiempoEl más representativo es el Tilt, evolución del RFC (Rise/Fall/Connection Model)

Curva de F0 Secuencia de eventos

Parámetros TILT describen cada eventoOtros modelos

INTSINT (INternational Transcription System forINTonation)PBD (Prominence-Based Description)

acentos

tonos frontera

Tecnologías del habla

Modelado de la entonaciónModelos existentes

Parámetros del modelo TILT:TiltAmplitud del evento en Hz (Aevent)

Suma de la amplitud de la subida y la bajadaDuración del evento en s (Devent )F0 inicial en HzPosición en s

Inicio o pico del evento

t

F0 (Hz)

Amplitud de la bajada

Amplitud de la subida

Inicio del evento

Fin del evento

Posición del pico

Duración del evento

F0 inicial

bajadasubida

bajadasubida

AA

AAtilt

+

−=

Tecnologías del habla

Modelado de la entonaciónModelos existentesTilt parámetro adimensional relacionado con la forma del evento

bajadasubida

bajadasubida

AA

AAtilt

+

−=

0 50 100 150 200 25020

40

60

80

100

120

140

160

180

0 50 100 150 200 250100

120

140

160

180

200

220

0 50 100 150 200 250170

180

190

200

210

220

230

240

250

0 50 100 150 200 250160

180

200

220

240

260

280

300

0 50 100 150 200 250160

180

200

220

240

260

280

300

320

340

tilt = -1 tilt = -0.5 tilt = 0 tilt = 0.5 tilt = 1

Tecnologías del habla

Modelado de la entonaciónModelos existentesAnálisis

Etiquetado RFC automáticoConversión RFC TILT

60

70

80

90

100

110

120

130

1 59 117

175

233

291

349

407

465

523

581

639

697

755

813

871

929

987

1045

t (ms)

f0 (H

z) natural f0synthetic f0R

RF

F

tilt=1 tilt= -1

tilt= -0.07

Tecnologías del habla

Modelado de la entonaciónModelos existentesSíntesis

Conversión TILT RFCUso de la ecuación monomial

50

70

90

110

130

150

170

1 34 67 100

133

166

199

232

265

298

331

364

397

430

463

496

529

562

595

628

661

694

727

760

793

826

t (ms)

f0 (H

z) natural f0synthetic f0

2

0 2)( ⎟⎠⎞

⎜⎝⎛−+=

DtAAAtf abs 2

0 Dt <<

2

0 22)( ⎟⎠⎞

⎜⎝⎛−+=

DtAAAtf abs DtD

<<2

Tecnologías del habla

Modelado de la entonaciónModelos existentesObtención automática de los parámetros

SencillaConstrucción de la curva a partir de los parámetros

SencillaConstrucción de la curva sintética

ComplejaFalta de significado lingüístico de los parámetrosDifícil predecir sus valores a partir del texto

Tecnologías del habla

Modelado de la entonaciónFactores a considerarNivel de frase:

Tipo de frase: enunciativa, interrogativa, exclamativa...Número de grupos entonativos que la componenLongitud de la frase

Nivel de grupo entonativo:Tipo de grupo: central, final, continuativo...Situación en la fraseLongitudNúmero de grupos acentuales que contiene

Nivel de grupo acentual:Tipo de grupo acentualSituación en el grupo entonativo o la fraseNúmero de sílabasSituación de la palabra acentuada

grupo acentual regulargrupo acentual final5 sílabasacento en la primera palabra

continuativoprimer grupo entonativo3106 ms2 grupos acentuales

Enunciativa, 2 grupos entonativos,5223 ms

Edozer egingo nuke, zu pozik ikusteagatik.

Tecnologías del habla

Índice

Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional

Tecnologías del habla

Modelado de la duración

Estimar duración de cada sonido a partir de información presente en el textoDuración depende de:

Factores intrínsecos esfuerzo para articularloFactores extrínsecos contexto, acento…

Unidad de cálculo de duración:FonemaDifonemaSílabaPalabra

Tecnologías del habla

Modelado de la duración

Variable a predecir distribución normal

Tecnologías del habla

P: sonido del que se calcula la duraciónf: vector de factoresDinherente,P: duración inherente sonido PDminima,P: duración mínima sonido Pkfi: contribución del factor fi

( )∑∏∈ ∈

=Ti iTj

iji fSfDUR ,)(

PmínimaPmínimaPinherentenff DDDkkfPDUR ,,,1 )(...),( +−×××=Modelo por regla (Klatt, 1976)

SoP, Sumas de Productos (van Santen, 1994)

Modelos estadísticosÁrboles de regresiónRedes neuronalesSplines de adaptación múltiple…

Modelado de la duración Modelos existentes

f: vector de factoresSi,j(fi): influencia del factor fi

Tecnologías del habla

Modelado de la duraciónFactores para la predicciónIdentidad del sonido y características articulatoriasContexto fonéticoPosición del sonido en la sílaba y la palabraPertenencia a la última sílaba o palabraNivel de acento

i vocal, anterior, cerradag oclusiva, velar, sonora

Ejemplo: Edozer egingo nuke zu pozik ikusteagatik.

n, nasal, alveolar, sonora…final de sílabacentral en la palabrano finalno acentuada

Tecnologías del habla

Modelado de la duraciónEjemplo de modelo con CART

Árbol para predecir la raíz cuadrada de la duraciónutilizando un contexto de 4 sonidosconsiderando identidad del sonidosin clasificación previa de los sonidos

Tecnologías del habla

Modelado de la duraciónResultados

Medidas del error entre duraciónreal y predicha:

RMSECoeficiente de correlaciónError relativo

Tecnologías del habla

Modelado de la duraciónResultados

Idioma Método Error

Árboles de regresión RMSE = 22.72 ms

MARS RMSE = 18.79 ms

SoP RMSE = 19 ms

Chino SoP RMSE = 26 ms

Gallego Tabla de búsqueda RMSE = 19.6 ms

Holandés SoP RMSE = 26.96 ms

Inglés Redes neuronales Coef. Corr. = 0.78

Árboles de regresión %Error = 19.43%Italiano

Redes neuronales Coef. Corr. = 0.84

Redes neuronales Coef. Corr. = 0.78

Checo Árboles de regresión RMSE = 20.3 ms

Francés SoP RMSE = 25 ms

Alemán

Árboles de regresión

12.9 msRMSE

0.804Coef. Corr.

17.7%%Error

Euskera

Tecnologías del habla

Índice

Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional

Tecnologías del habla

Modelado de las pausas

Al hablar se hacen pausas:Fisiológicas para respirarLingüísticas para marcar el fin de una expresión

Pausas necesarias para lograr naturalidadNo siempre indicadas por signos de puntuaciónImportante ubicarlas bienDuración de la pausa:

Menos influyenteRelación inversa con el grado de relación entre palabras separadas

Tecnologías del habla

Modelado de las pausasIntroducciónModelos utilizados para predecir la ubicación de las pausas:

Por regla signos de puntuaciónpalabra función/contenidonúmero sílabas…

Estadísticos árboles de clasificaciónmodelos Markovprobabilísticos

Tecnologías del habla

Modelado de las pausasFactores para predecir su ubicaciónInformación morfosintáctica:

Etiqueta morfológica en contexto de 5 palabrasEtiqueta sintáctica en contexto de 3 palabrasIndicación de pertenencia a la misma cadena sintáctica que la anterior y la siguienteTipo de sintagma

Información de longitud de las cadenas:Nº de sílabas hasta siguiente signo de puntuaciónNº de sílabas desde la última pausa

sintagma verbalmisma cadena anteriordistinta cadena siguiente0 sílabas hasta el siguiente8 sílabas desde anteriorVerb. ppal sin declinar, verb. aux. sin declinar, sujeto

Ejemplo: Edozer egingo nuke, zu pozik ikusteagatik.

Pronombre, verb. ppal, verb. aux., pronombre, adjetivo

Tecnologías del habla

Modelado de las pausasExperimentos

Tipos de errores de predicción en la localización de las pausas:

InserciónOmisión

Más graves los de inserción

Tecnologías del habla

Modelado de las pausasResultados

Medida del error:Puntuación total S

Estadístico kappa

100*(%) NIONS −−=

N

NPTN

NPTS

−=

Porcentaje de fronteras bien clasificadas N nº de fronteras

O nº errores por omisión

I nº errores por inserción

N nº de fronteras

NPT nº de ‘No Pausa’

S puntuación total

Ninguna pausa introducida κ=0

Todas las pausas correctas κ=1

Tecnologías del habla

Modelado de las pausasResultados

Idioma Método S κ

Árboles de clasificación 84.9%

Probabilístico + árboles de clasificación 85.5% 0.64

Probabilístico 77% 0.56

Probabilístico 90% 0.5

Euskera Árboles de clasificación 91.7% 0.68

Italiano Analizador prosódico 97% 0.68

Modelos de Markov 91.5% 0.53Inglés

Aprendizaje basado en reglas 87% 0.54

Aprendizaje basado en memoria 90.8% 0.59

89.9%

Coreano

0.62

Japonés Probabilístico -

Tecnologías del habla

Índice

Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional

Tecnologías del habla

Modelado de la intensidad

Menos influyente en la calidad de la señal sintetizadaEn síntesis por concatenación se normaliza la intensidad de la base de datos para evitar distorsionesExisten algunos modelos: modificar la intensidad intrínseca según parámetros prosódicos y sintácticos

Tecnologías del habla

Índice

Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional

Tecnologías del habla

Habla emocional

Posibilidad de expresar emocionesProporciona gran naturalidad al CTH

Prosodia Fundamental para conseguir expresar emocionesNo suficiente

Qué se entiende por emociónDifícil de definir expresar en palabras conceptos abstractos relacionados con sentimientosMuchas veces se toma como equivalente a estado de ánimo, aunque no lo sea

Tecnologías del habla

Habla emocional

Rasgos presentes en la definición de varios autores

Son estados mentales conscientes o no, breves y de cierta intensidadPueden actuar de catalizador, inhibidor, favorecedor u obstaculizador de las relaciones humanasPueden provocar alteraciones fisiológicas

Tecnologías del habla

Habla emocional

Tecnologías del habla

Habla emocional

Estudios sobre efectos de las emociones en el comportamiento y el lenguaje

1872 – Darwin “La expresión de las emociones en el hombre y los animales”Más recientemente:

Estudios acústicosEstudios léxicosEstudios prosódicosEstudios psicológicos

Tecnologías del habla

Habla emocional

Expresión de las emocionesCambios fisiológicosDiferentes rasgos prosódicos y espectrales

Parámetros prosódicos habitualmente considerados

PitchDuraciónEnergía

Parámetros espectrales:Distribución de energía por bandas

Tecnologías del habla

Habla emocional

Datos de la base de datos en euskeraEmoción Duración media

Enfado 88.5 ± 51.4

Asco 85.0 ± 45.3

Miedo 97.7 ± 61.1

Alegría 81.5 ± 46.7

Tristeza 78.8 ± 37.6

Sorpresa 95.7 ± 61.1

Emoción RMS RMS Banda baja

RMS Banda alta

Enfado 20.5 ± 1.5 20.0 ± 1.7 15.6 ± 1.8

Asco 19.3 ± 2.1 19.0 ± 2.1 13.4 ± 2.9

Miedo 19.8 ± 1.3 19.5 ± 1.3 14.0 ± 2.4

Alegría 20.2 ± 1.3 19.6 ± 1.3 15.9 ± 1.7

Tristeza 16.0 ± 2.1 15.8 ± 2.1 8.2 ± 2.7

Sorpresa 20.1 ± 1.6 19.7 ± 1.6 15.1 ± 1.9

Emoción F0 Media Rango F0 Max. PendientePositiva F0

Enfado 256.7±51.9 282.5±79.1 12.3±5.3

Asco 206.8±33.7 201.4±59.7 9.5±3.9

Miedo 322.2±44.2 265.6±104.6 5.5±1.3

Alegría 306.6±32.1 320.0±80.0 10.9±4.4

Tristeza 175.7±21.1 144.0±44.2 2.3±0.7

Sorpresa 280.0±33.9 371.8±52.3 5.6±1.3

Tecnologías del habla

Habla emocional

EjemplosCTH de formantes con emoción por regla (UPM)

neutro enfado alegría tristeza

Tecnologías del habla

Habla emocional

Proyectos relacionados con habla emocional:HUMAINE (2004-2008)

http://emotion-research.net/NECA (2001-2003)

http://www.ofai.at/research/nlu/NECA/INTERFACE (2000-2002)

http://gps-tsc.upc.es/imatge/_Montse/INTERFACE.htmlJST/CREST ESP (2000-2005)

http://feast.atr.jp/