Evaluación del modelado acústico y prosódico del … · Resumen: La elevada calidad de los...

8
Evaluaci´on del modelado ac´ ustico y pros´odico del sistema de conversi´ontexto-vozCotov´ ıa * Francisco Campillo D´ ıaz Universidad de Vigo ETSITelecomunicaci´on [email protected] Eduardo Rodr´ ıguez Banga Universidad de Vigo ETSITelecomunicaci´on [email protected] Resumen: La elevada calidad de los sistemas de conversi´ on texto-voz basados en corpus los ha convertido en el m´ etodo de s´ ıntesis sobre el que m´ as se investiga en la actualidad. En la literatura existen m´ ultiples trabajos sobre los aspectos clave de esta tecnolog´ ıa, es decir, el dise˜ no de las funciones de coste, la caracterizaci´ on de los segmentos de voz y la estimaci´ on de la prosodia, pero hay muy poca claridad sobre las formas m´ as adecuadas para evaluar la calidad de la voz sint´ etica obtenida. En este trabajo se presentan las pruebas de evaluaci´ on, tanto subjetivas como objetivas, que se realizaron sobre nuestro conversor de voz Cotov´ ıa. Palabras clave: ıntesis de voz, evaluaci´ on Abstract: Unit selection speech synthesis has become the most researched area in speech technology, as a result of its high-quality performance. There are many approaches about the key points in this technology, that is, the cost functions design, speech parameterisation and prosody estimation, but there is very little research about suitable methods for evaluating the improvements in synthetic speech. In this work the subjective and objective tests performed on our TTS system Cotov´ ıa are presented. Keywords: Speech synthesis, evaluation 1. Introducci´ on El desarrollo de las t´ ecnicas de s´ ıntesis de voz basadas en selecci´ on de unidades ha supuesto un importante avance en la comu- nicaci´ on entre hombre y m´ aquina ((Black y Campbell, 1995), (Hunt y Black, 1996)). En este tipo de tecnolog´ ıa se renuncia a la com- prensi´ on del mecanismo humano de produc- ci´ on del habla y se genera la voz por medio de la concatenaci´ on de una serie de segmen- tos que se seleccionan de un corpus de uni- dades pregrabadas de un mismo locutor. En esta circunstancia, si se escogen unidades en contextos fon´ eticos y pros´ odicos similares a aqu´ ellos en los que se van a aplicar, la voz sint´ etica puede llegar a alcanzar una inteli- gibilidad y una naturalidad tales que en de- terminados ´ ambitos de aplicaci´ on es dif´ ıcil de distinguir del habla humana. Uno de los aspectos m´ as problem´ aticos re- lacionados con cualquier disciplina vinculada con la interacci´ on hombre-m´ aquina es el de la evaluaci´ on de la calidad del servicio ofreci- * Este trabajo ha sido financiado parcialmente por el Ministerio de Ciencia y Tecnolog´ ıa, fon- dos FEDER y la Xunta de Galicia, dentro de los proyectos TIC2002-02208, PGIDT01PXI32205PN y PGIDT02PXI32201PR do. En el caso concreto de la s´ ıntesis de voz, resulta complicado comparar el rendimiento alcanzado con las diferentes formas de mo- delar los diversos factores que intervienen en el proceso de generaci´ on de voz, tales como la estimaci´ on de los correlatos pros´ odicos o la elecci´ on de los factores empleados para carac- terizar los segmentos ac´ usticos, ante la ausen- cia de m´ etodos objetivos fiables y la propia complejidad de las pruebas de funcionamien- to subjetivas. En este trabajo se presentan las pruebas realizadas para evaluar el rendimiento de las principales partes del sistema de conversi´ on texto-voz en gallego y castellano Cotov´ ıa, de- sarrollado con la colaboraci´ on de investigado- res de las universidades de Vigo y Santiago de Compostela y del Centro Ram´ on Pi˜ neiro para la Investigaci´ on en Humanidades. Para ello, se comienza con una serie de apartados de- dicados a la descripci´ on de las caracter´ ısticas as destacadas del conversor. En la secci´ on 2 se menciona el dise˜ no de las funciones de cos- te empleadas para la selecci´ on, mientras que en la secci´ on 3 se explican los modelos de esti- maci´ on de la prosodia de la versi´ on actual del sintetizador. La secci´ on 4 describe el m´ etodo de selecci´ on combinada de unidades ac´ usticas Procesamiento del Lenguaje Natural, núm. 35 (2005), pp. 5-12 recibido 21-04-2005; aceptado 01-06-2005 ISSN: 1135-5948 © 2005 Sociedad Española para el Procesamiento del Lenguaje Natural

Transcript of Evaluación del modelado acústico y prosódico del … · Resumen: La elevada calidad de los...

Evaluacion del modelado acustico y prosodico del sistema deconversion texto-voz Cotovıa∗

Francisco Campillo DıazUniversidad de Vigo

ETSI [email protected]

Eduardo Rodrıguez BangaUniversidad de Vigo

ETSI [email protected]

Resumen: La elevada calidad de los sistemas de conversion texto-voz basados encorpus los ha convertido en el metodo de sıntesis sobre el que mas se investiga enla actualidad. En la literatura existen multiples trabajos sobre los aspectos clave deesta tecnologıa, es decir, el diseno de las funciones de coste, la caracterizacion de lossegmentos de voz y la estimacion de la prosodia, pero hay muy poca claridad sobrelas formas mas adecuadas para evaluar la calidad de la voz sintetica obtenida. Eneste trabajo se presentan las pruebas de evaluacion, tanto subjetivas como objetivas,que se realizaron sobre nuestro conversor de voz Cotovıa.Palabras clave: Sıntesis de voz, evaluacion

Abstract: Unit selection speech synthesis has become the most researched areain speech technology, as a result of its high-quality performance. There are manyapproaches about the key points in this technology, that is, the cost functions design,speech parameterisation and prosody estimation, but there is very little researchabout suitable methods for evaluating the improvements in synthetic speech. In thiswork the subjective and objective tests performed on our TTS system Cotovıa arepresented.Keywords: Speech synthesis, evaluation

1. Introduccion

El desarrollo de las tecnicas de sıntesisde voz basadas en seleccion de unidades hasupuesto un importante avance en la comu-nicacion entre hombre y maquina ((Black yCampbell, 1995), (Hunt y Black, 1996)). Eneste tipo de tecnologıa se renuncia a la com-prension del mecanismo humano de produc-cion del habla y se genera la voz por mediode la concatenacion de una serie de segmen-tos que se seleccionan de un corpus de uni-dades pregrabadas de un mismo locutor. Enesta circunstancia, si se escogen unidades encontextos foneticos y prosodicos similares aaquellos en los que se van a aplicar, la vozsintetica puede llegar a alcanzar una inteli-gibilidad y una naturalidad tales que en de-terminados ambitos de aplicacion es difıcil dedistinguir del habla humana.

Uno de los aspectos mas problematicos re-lacionados con cualquier disciplina vinculadacon la interaccion hombre-maquina es el dela evaluacion de la calidad del servicio ofreci-

∗ Este trabajo ha sido financiado parcialmentepor el Ministerio de Ciencia y Tecnologıa, fon-dos FEDER y la Xunta de Galicia, dentro de losproyectos TIC2002-02208, PGIDT01PXI32205PN yPGIDT02PXI32201PR

do. En el caso concreto de la sıntesis de voz,resulta complicado comparar el rendimientoalcanzado con las diferentes formas de mo-delar los diversos factores que intervienen enel proceso de generacion de voz, tales comola estimacion de los correlatos prosodicos o laeleccion de los factores empleados para carac-terizar los segmentos acusticos, ante la ausen-cia de metodos objetivos fiables y la propiacomplejidad de las pruebas de funcionamien-to subjetivas.

En este trabajo se presentan las pruebasrealizadas para evaluar el rendimiento de lasprincipales partes del sistema de conversiontexto-voz en gallego y castellano Cotovıa, de-sarrollado con la colaboracion de investigado-res de las universidades de Vigo y Santiago deCompostela y del Centro Ramon Pineiro parala Investigacion en Humanidades. Para ello,se comienza con una serie de apartados de-dicados a la descripcion de las caracterısticasmas destacadas del conversor. En la seccion 2se menciona el diseno de las funciones de cos-te empleadas para la seleccion, mientras queen la seccion 3 se explican los modelos de esti-macion de la prosodia de la version actual delsintetizador. La seccion 4 describe el metodode seleccion combinada de unidades acusticas

Procesamiento del Lenguaje Natural, núm. 35 (2005), pp. 5-12 recibido 21-04-2005; aceptado 01-06-2005

ISSN: 1135-5948 © 2005 Sociedad Española para el Procesamiento del Lenguaje Natural

y entonativas de Cotovıa. Posteriormente, enla seccion 5 se muestran las pruebas objeti-vas del funcionamiento de los modelos pre-sentados en los apartados anteriores, y en laseccion 6 se presentan las pruebas subjetivasrealizadas. Por ultimo, la seccion 7 se dedicaa las conclusiones extraıdas a partir de estetrabajo.

2. Las funciones de coste

El hecho de generar el habla sintetica apartir de la concatenacion de una secuenciade unidades disponibles en un corpus finitotraslada la complejidad de la sıntesis a dospuntos fundamentales: la caracterizacion delsegmento de voz, y el diseno de las funcionesde coste a partir de las cuales se efectuara laseleccion. Tradicionalmente se suelen empleardos funciones ((Black y Campbell, 1995)): elcoste de objetivo, que mide el parecido entrecada una de las unidades del corpus y aquellacuyas caracterısticas prosodicas y foneticas seextraen de la frase de entrada, y el coste deconcatenacion, que da una idea de la distor-sion potencial que se puede producir al unirdos unidades del corpus. Ambas funciones sesuelen combinar con un tıpico algoritmo deprogramacion dinamica, estilo Viterbi, paraseleccionar la secuencia de segmentos acusti-cos disponibles en el corpus mas proximosa las caracterısticas deseadas. Los siguientesapartados se dedican a la exposicion de losfactores considerados en la version actual deCotovıa.

2.1. El coste de objetivo

Aunque existen otras opciones (Black yTaylor, 1997), la funcion de coste de obje-tivo de Cotovıa se basa en una suma ponde-rada de diversas subfunciones que consideranpor separado las diferencias entre las carac-terısticas deseadas de la unidad objetivo y lasdisponibles de la candidata, para proporcio-nar un unico valor que mide el parecido entreambas. En concreto, se separan las contribu-ciones en dos partes diferenciadas (Campilloy Banga, 2003), el coste prosodico y el con-textual, tal y como refleja la ecuacion (1):

Cobj = α × Ccont + (1 − α) × Cpros (1)

Al igual que en la mayorıa de los sis-temas ((Black y Campbell, 1995), (Febrer,2001)), el coste prosodico Cpros esta consti-tuido por las diferencias de frecuencia funda-

mental, duracion y energıa. En nuestro caso,ademas, se incluyen unos umbrales con losque se modela la capacidad de detectar dife-rencias del oıdo humano: cuando las diferen-cias estan por debajo de dichos umbrales, losrespectivos subcostes adoptan un valor nulo.

Por su parte, el coste contextual Ccont en-globa todos los factores relacionados con elcontexto fonetico. En concreto, incluye lasdistancias Euclıdeas entre los vectores mel-cepstrum de la unidad objetivo y la candida-ta (ası como las de los fonemas circundantes),y los subcostes relacionados con las diferen-cias en el tipo de frase, la posicion en la frase,el caracter tonico y la posicion en la palabra.Para entrenar la influencia relativa de cadasubcoste se consideran dos modelos. En elprimero, se utiliza regresion lineal para apro-ximar la distancia espectral entre las unida-des comparadas a partir de los valores de lossubcostes (Campillo y Banga, 2003). Por suparte, en el segundo se emplea un perceptronmulticapa para aproximar igualmente dichadistancia espectral, con la diferencia de quese utilizan como entradas los valores concre-tos de los factores con los que se caracterizael segmento de voz, siendo la propia red neu-ronal la encargada de aprender los subcostesmas adecuados para cada uno de esos facto-res.

Finalmente, con el factor α de la ecua-cion (1) se regula la importancia de un sub-coste frente al otro.

2.2. El coste de concatenacion

Al igual que en la mayorıa de los siste-mas ((Hunt y Black, 1996), (Febrer, 2001)),en la version actual de Cotovıa se conside-ra la continuidad de frecuencia fundamental,energıa y envolvente espectral, modelada es-ta ultima por medio de la distancia Euclıdeaentre vectores de componentes mel-cepstrum.En este caso la mayor aportacion son losındices de continuidad espectral (Campillo yBanga, 2004). De un estudio sobre la conti-nuidad espectral en la voz natural se extrajola conclusion de que esta dependıa de las cla-ses de fonemas concatenados. Ası, por ejem-plo, en la tabla 1 se recogen las distanciasmedias de las uniones mas frecuentes entreclases en nuestro corpus, ordenadas segun suvalor para el locutor Freire y con la posicionque ocupan respectivamente en las distanciasobtenidas del corpus del locutor Paulino. Co-mo se puede observar, existe un cierto orden

F. Campillo, E. Rodríquez

6

de importancia en las voces de ambos locu-tores.

Freire Paulino

Fon izquierdo Fon derecho Dij Pos Dij Pos

Vocal media Vocal cerrada 1.44 1 1.05 1

Vocal media Aproximante 1.70 2 1.27 2

Aproximante Vocal media 1.72 3 1.34 3

Aproximante Vocal abierta 1.76 4 1.38 5

Vocal abierta Aproximante 1.80 5 1.36 4

Vibrante Vocal media 1.84 6 1.89 12

Vocal media Nasal 1.86 7 1.49 6

Vocal cerrada Nasal 1.88 8 1.50 7

Nasal Vocal media 1.90 9 1.73 11

Vibrante Vocal abierta 1.91 10 1.93 13

Vocal abierta Nasal 1.96 11 1.56 9

Nasal Oclusiva sor 2.09 12 1.55 8

Vocal media Vibrante 2.09 13 2.01 15

Nasal Vocal abierta 2.14 14 1.71 10

Vocal abierta Vibrante 2.17 15 1.93 14

Cuadro 1: Distancias medias de las uniones masfrecuentes por la zona de transicion

Para modelar esta caracterıstica de la voznatural se introdujeron los ındices de conti-nuidad de la zona estacionaria y de transi-cion (ecuaciones (2) y (3)):

Iespectrali =

mınj∈CespDj

Di

(2)

Iespectralij =

mınk,l∈CespDkl

Dij

(3)

donde Cesp representa el conjunto de las cla-ses espectrales de los fonemas y Di y Dkl de-notan las distancias por las zonas estaciona-ria y de transicion, respectivamente. El ındicede continuidad espectral se introduce comoun factor multiplicativo del subcoste de con-tinuidad espectral, de tal forma que modulala importancia que se le da a este segun lasclases de las unidades concatenadas.

3. Estimacion de la prosodia

Independientemente de la tecnologıa con-creta en la que se englobe la tecnica de con-version de voz, un punto fundamental es elde la estimacion de la prosodia, ya que afec-ta en gran medida a la naturalidad de la vozsintetica. En las siguientes secciones se descri-ben los modelos de estimacion de la duracion,la energıa y la entonacion. Dado que esta ulti-ma esta reconocida comunmente como la masinfluyente de todas ellas, se le dedica un apar-tado completo.

3.1. Duracion y energıa

El modelo de duracion de la version actualse basa en regresion lineal multivariable. Con-sidera factores como la identidad del fonema

y de los que lo rodean, el acento, el tipo defrase, la posicion en la palabra y en el grupofonico, la distribucion de sılabas tonicas y eltiempo transcurrido desde la pausa anterior.

En cuanto al modelo de energıa, incluyeparametros como la identidad del fonema, loscircundantes, la posicion dentro de la pala-bra y en el grupo fonico, el acento y el tipode proposicion. Para aproximar los valores deenergıa se consideraron dos posibilidades: re-gresion lineal y redes neuronales.

3.2. Entonacion

El modelo actual de entonacion ((Cam-pillo y Banga, 2002), (Banga et al., 2002))se basa en la concatenacion de contornos degrupos acentuales, extraıdos de un corpusprosodico. De esta forma, al igual que en laseleccion de unidades acusticas, se disponede multiples contornos para cada posicion enla frase, entre los que se escoge con un tıpi-co algoritmo de programacion dinamica y di-senando de forma adecuada las funciones decoste.

Al igual que sucede en la seleccion de uni-dades acusticas, no todo contorno de grupoacentual es valido para ocupar cualquier po-sicion en la frase. En concreto, en nuestro ca-so se realiza una clasificacion en base a lossiguientes factores:

Tipo de frase: enunciativa, interrogativa,exclamativa e inacabada.

Posicion en el grupo fonico: inicial (antesdel primer acento lexico, incluido), final(despues del ultimo acento, incluido), in-termedia e inicial y final.

Posicion del acento: agudo, llano y es-drujulo.

Analogamente, se escoge la mejor secuen-cia de grupos acentuales mediante la combi-nacion de una funcion de coste de objetivoy otra de concatenacion. En el coste de ob-jetivo se incluyen factores como el coste deposicion del grupo acentual en el grupo foni-co, el coste de tipo de proposicion (con unaclasificacion mas refinada que el tipo de frase,como grupo parentetico, entre comillas. . . ), elnumero de sılabas, la posicion del grupo foni-co en la frase, la duracion temporal, el fin delgrupo (coma, punto, puntos suspensivos, sinpausa. . . ), y la pendiente final del contorno.En cuanto al coste de concatenacion, pena-

Evaluación del modelado acústico y prosódico del sistema de conversión texto-voz Cotovía

7

liza basicamente la diferencia de frecuenciafundamental en el punto de union.

4. Seleccion combinada de

unidades acusticas y

entonativas

Una de las caracterısticas mas destacadasde la voz natural consiste en que se puedetransmitir un mismo enunciado con contor-nos entonativos diferentes, sin alterar su sig-nificado. La mayorıa de los sintetizadores ac-tuales obvian este hecho, ya que la fase degeneracion de la voz acepta los datos que lellegan de las etapas anteriores como si fueranlos unicos posibles. En el caso concreto de lasıntesis basada en seleccion esto supone queen muchos casos no se consiga la voz sinteti-ca de mayor calidad que el conjunto finito deunidades que es el corpus podrıa generar. Vis-to de otra forma, la posibilidad de considerarcontornos alternativos de frecuencia funda-mental proporciona al algoritmo de busque-da un grado mas de libertad, aumentando laprobabilidad de encontrar una secuencia deunidades acusticas mas adecuada.

En la figura 1 se muestra el esquema de laseleccion combinada de unidades acusticas yentonativas (Campillo y Banga, 2002). Comose puede observar, para cada grupo fonico dela frase de entrada se realiza una busquedade unidades entonativas, de la que se esco-gen los N mejores caminos. Este conjunto sereduce a M caminos, con el criterio de elimi-nar aquellos demasiado parecidos y efectuarla seleccion de unidades acusticas con los queofrezcan mas alternativas, a la vez que se dis-minuye la carga computacional. Finalmente,se escoge la combinacion de unidades acusti-cas y entonativas que tenga un mejor coste.Hay que destacar que la propia naturalezadel metodo aumenta la variabilidad de la vozsintetica, puesto que la entonacion no depen-de solamente de la estructura de la frase, si-no tambien de la secuencia de fonemas que lacomponen.

5. Pruebas objetivas

Evaluar un algoritmo de seleccion de uni-dades, o lo que es lo mismo, las funciones decoste disenadas, es un tema complejo. En elcaso concreto de la sıntesis por corpus, da-do que se basa en escoger unidades en loscontextos adecuados, puede resultar util unestudio acerca de en que medida dichas fun-ciones logran aproximarse a cada una de las

OraciónSiguiente

grupo fónicoCaracterización

grupos acentuales

SelecciónN caminos

M caminos

Selecciónde semifonemas

¿Últimogrupo fónico?

No

Figura 1: Seleccion combinada de grupos acentualesy semifonemas

caracterısticas buscadas como objetivo. Paraello, se realizaron una serie de pruebas sobreun fichero (denominado FrasesPrueba) de857 frases extraıdas de un periodico en len-gua gallega, con una media de 26.1 palabraspor frase y totalmente independiente del cor-pus de unidades.

En la tabla 2 se muestran los errores co-metidos en la frecuencia fundamental y la du-racion. Evidentemente, cuanto menores sean,menor sera la modificacion prosodica a la quehabra que someter finalmente a las unidadesescogidas, disminuyendo ası la distorsion in-herente a este tipo de procesos.

Frecuencia Duracion

Media (Hz) Var Media (ms) Var

FrasesPrueba 0.77 37.8 -3.57 107.10

Cuadro 2: Diferencias en frecuencia y duracion

Por otra parte, la figura 2 muestra la fre-cuencia fundamental deseada frente a la dela unidad acustica escogida1. Como se puedeobservar, se aproxima bastante al caso ideal,sobre todo si tenemos en cuenta, como se dijoen el apartado 2.1, que en el coste prosodicose incluyen unos umbrales de no percepcion.En concreto, para la frecuencia el umbral esde 5 Hz, y 60 ms para la duracion.

En cuanto a los modelos contextuales, enlas tablas 3 y 4 se muestran la varianza expli-cada y el error cuadratico medio de la regre-sion lineal y la red neuronal, respectivamente,para cada clase de fonema considerado. Comose puede observar, con las redes neuronales seobtienen mejores resultados para cualquierade las clases, lo cual es bastante logico dadala dudosa naturaleza lineal del problema, yque son las propias redes las encargadas de

1Se obtuvieron graficas similares para la duracion.

F. Campillo, E. Rodríquez

8

50 60 70 80 90 100 110 120 130 14040

60

80

100

120

140

160

180

FrasesPrueba

Frecuencia deseada (Hz)

Fre

cuen

cia

esco

gida

(H

z)

Figura 2: Frecuencia fundamental escogida frente adeseada en FrasesPrueba

aprender el mejor subcoste para cada carac-terıstica de los segmentos de voz, a diferenciadel modelo de regresion, donde se empleandirectamente los subcostes como entradas.

Clase R2 Entrenamiento Prueba

Silencio 0.229 1.12 1.08

Vocal abierta 0.238 1.27 1.23

Vocal media 0.242 1.23 1.27

Vocal cerrada 0.321 1.20 1.32

Oclusiva sorda 0.256 1.14 1.21

Oclusiva sonora 0.164 1.25 1.35

Aproximante sonora 0.528 0.92 0.94

Fricativa sorda 0.150 1.31 1.37

Lateral 0.365 0.97 0.94

Nasal 0.316 0.90 0.91

Vibrante 0.269 1.34 1.28

Cuadro 3: Resultados del modelo contextual basadoen regresion lineal

Clase R2 Entrenamiento Prueba

Silencio 0.452 0.728 0.699

Vocal abierta 0.480 0.830 0.840

Vocal media 0.398 0.914 0.897

Vocal cerrada 0.424 0.833 0.812

Oclusiva sorda 0.378 0.847 0.863

Oclusiva sonora 0.456 0.756 0.780

Aproximante sonora 0.539 0.801 0.778

Fricativa sorda 0.401 0.917 0.986

Lateral 0.531 0.642 0.650

Nasal 0.491 0.574 0.586

Vibrante 0.374 1.115 1.141

Cuadro 4: Resultados del modelo contextual basadoen redes neuronales

En lo que respecta a la seleccion de unida-des entonativas, la tabla 5 muestra la mediadel error (M), la media del valor absoluto delerror (M (abs)) y la varianza del numero desılabas, la duracion temporal, la posicion delgrupo acentual en el grupo fonico y del grupofonico en la frase. Como aparece reflejado, elerror cometido es muy pequeno en todos loscasos.

En la figura 3 se muestra la diferencia defrecuencia fundamental en el punto de con-catenacion entre dos grupos acentuales con-secutivos. La media es -0.07 Hz, mientras que

Sılabas Dur Pos grupoac Pos grupofon

M 0.17 -13.87 -0.05 0.06

M (Abs) 0.25 70.32 0.16 0.11

Var 0.31 9008 0.05 0.04

Cuadro 5: Estadısticos de las diferencias entre losparametros buscados y los escogidos en la seleccionde unidades entonativas

la varianza es 3.50.

60 70 80 90 100 110 12060

70

80

90

100

110

120

Frecuencia (Hz)

Fre

cuen

cia

(Hz)

Figura 3: Diferencia de frecuencia en el punto deunion entre dos grupos acentuales consecutivos

En la seccion 4 se mencionaba que al con-siderar diferentes contornos alternativos se ledaba un grado mas de libertad al algoritmode seleccion, lo que permitıa obtener mejoresresultados. Para comprobar que esta afirma-cion es cierta se efectuo la seleccion de uni-dades variando el numero de contornos con-siderados, y se comprobaron las diferenciasentre los valores buscados y los de las unida-des acusticas escogidas:

Ccon: coste de concatenacion.

Ccont: parte de la funcion de coste deobjetivo relacionada con el coste contex-tual.

Cpros: parte de la funcion de coste de ob-jetivo relacionada con el coste prosodico.

Cobj: coste de objetivo.

En la tabla 6 se recogen los resultados. Lacolumna Ant muestra, por comparacion, lamisma informacion con el modelo entonati-vo de la version original de Cotovıa. En lafigura 4 se muestra la evolucion del error co-metido en la frecuencia fundamental de la zo-na de transicion entre fonemas (un resultadoanalogo se obtuvo para la zona estacionariadel semifonema). Considerando que los erro-res siguen una distribucion normal, la varia-cion con el numero de contornos supone pasarde una probabilidad de no modificar prosodi-camente la unidad de un 50 % a un 64 %, con

Evaluación del modelado acústico y prosódico del sistema de conversión texto-voz Cotovía

9

el umbral de 5 Hz ya mencionado. Por com-paracion, con el modelo entonativo antiguodicha probabilidad era de un 20 %. La dife-rencia de duracion se mantiene practicamenteindependiente del numero de contornos (8 msde media del valor absoluto de la diferencia,y 110 de varianza), lo que probablemente sedebe a que se le concede una menor impor-tancia en el coste de objetivo. Otros datos quese mantienen constantes son el numero mediode semifonemas consecutivos en la grabacionoriginal que se escogen para la sıntesis (2,30),y el porcentaje de uniones entre semifonemasno consecutivos en el corpus por la zona es-tacionaria (98 %).

Numero de contornos

Ant 1 5 20

M 0.48 0.37 0.36 0.35Ccon Var 0.86 0.42 0.41 0.39

M 2.85 2.70 2.68 2.67Ccont Var 0.42 0.38 0.37 0.37

M 6.61 3.93 3.52 3.27Cpros

Var 96.12 50.60 41.36 36.04

M 3.61 2.94 2.85 2.79Cobj Var 4.06 2.29 1.91 1.70

Cuadro 6: Variacion con el numero de contornosconsiderados (modelo contextual basado en redes neu-ronales)

0 5 10 15 203.6

3.8

4

4.2

4.4

0 5 10 15 203.6

3.8

4

4.2

4.4

0 5 10 15 203.6

3.8

4

4.2

4.4

Med

ia d

el v

alor

abs

olut

o

Número de contornos0 5 10 15 20

30

35

40

45

50

Var

ianz

a

MediaVarianza

Figura 4: Evolucion del error de frecuencia funda-mental con el numero de contornos

Cabe destacar que el nuevo metodo basa-do en seleccion de unidades entonativas ob-tiene mejores resultados que el de la versionanterior del conversor, incluso cuando se con-sidera un unico contorno. Esto refrenda laidea de que emplear los grupos acentuales delpropio corpus de voz permite realizar una se-leccion de unidades acusticas mas eficiente,al mismo tiempo que se extrae mas provechode los recursos disponibles. En cuanto a lavariacion del numero de contornos, se pue-de observar como las medias y varianzas vanmejorando a medida que aumenta su nume-ro. El hecho de que las varianzas disminuyanmuestra un comportamiento mas regular delalgoritmo de seleccion, lo que ayuda a mitigar

en parte el problema de la sıntesis por cor-pus, que alterna partes de calidad muy eleva-da con pequenos fallos claramente audibles.

6. Pruebas subjetivas

Para las pruebas de calidad subjetivas serecurrio a las tıpicas comparaciones de pares,en las que se le pide al usuario que de unapuntuacion relativa a dos versiones sinteticasde una misma frase. En nuestro caso, se em-pleo la clasificacion mostrada en la tabla 7.Dado que se querıa conocer la opinion de gen-te no habituada a trabajar con conversores devoz, se decidio, por sencillez, que las pruebasfuesen de aceptacion general.

1 Version A mucho mejor que version B

2 Version A mejor que version B

3 Iguales

4 Version B mejor que version A

5 Version B mucho mejor que version A

Cuadro 7: Puntuaciones de la comparacion de pares

A continuacion se describen las pruebasrealizadas:

Prueba 1:

• Sistema A: Cotovıa con el modeloentonativo antiguo, con modelo con-textual de redes neuronales.

• Sistema B: Cotovıa con seleccioncombinada de unidades entonativasy acusticas, modelo contextual deredes neuronales y un unico contor-no de frecuencia fundamental.

Prueba 2:

• Sistema A: Cotovıa con seleccioncombinada de unidades, con las fun-ciones de coste entrenadas a mano,y un unico contorno posible para labusqueda acustica.

• Sistema B: el mismo de la prueba 1.

Prueba 3:

• Sistema A: Cotovıa con seleccioncombinada de unidades, con las fun-ciones de coste acusticas originales,en las cuales solo se consideraban lossubcostes prosodicos de frecuencia yduracion, sin ningun tipo de umbralde percepcion, ni ındices de varia-cion espectral, y con un coste de in-teligibilidad que penalizaba a aque-llas unidades cuyos fonemas por la

F. Campillo, E. Rodríquez

10

derecha e izquierda no eran exacta-mente los mismos que los de la uni-dad objetivo. Un unico contorno po-sible de frecuencia fundamental.

• Sistema B: el mismo sistema B dela prueba 1.

Prueba 4:

• Sistema A: el mismo sistema B dela prueba 1.

• Sistema B: Cotovıa con seleccioncombinada de unidades, con las fun-ciones entrenadas mediante redesneuronales. 20 contornos posibles defrecuencia fundamental.

Tambien se realizo una prueba comparan-do los modelos contextuales basados en re-gresion lineal y redes neuronales, pero no seapreciaron grandes diferencias. En las tresprimeras pruebas se utilizaron cinco frasessencillas extraıdas aleatoriamente de un tex-to periodıstico. Para comprobar la influenciade la variacion en el numero de contornos en-tonativos se recurrio a un conjunto de frasesdiferente. El efecto de considerar un mayornumero de contornos se suele apreciar en lacorreccion de pequenos errores aislados en lasfrases, ası como en un aumento de la variabili-dad entonativa que se hace patente al utilizarel sintetizador de forma continuada. Ello su-pone que las posibles mejoras no tengan porque ser apreciables en cualquier frase, ya quepodrıa darse el caso de que el contorno esco-gido fuese el mismo, o que contornos diferen-tes produjesen versiones sinteticas muy simi-lares. Por esto, los autores seleccionaron unconjunto de frases extraıdas de varios parra-fos sintetizados variando el numero de con-tornos entonativos, con el unico criterio deque hubiese diferencias claramente reconoci-bles entre ambas versiones. Evidentemente,los resultados a los que se llegue deberan serinterpretados teniendo en cuenta esta formade escoger el material de prueba.

En la tabla 8 se muestran las puntuacionesobtenidas considerando todos los evaluadoresy solo los habituados a trabajar en el ambitode las tecnologıas de voz, segun la escala de latabla 7. En total intervinieron 21 personas delambito universitario, de las cuales 9 fueronincluidas en el grupo de expertos por trabajaren sıntesis o reconocimiento de voz.

A partir de estos resultados se pueden ha-cer las siguientes consideraciones:

Evaluadores

Prueba Expertos No Expertos Todos

1 4.36 4.30 4.33

2 3.36 3.25 3.30

3 3.81 3.31 3.56

4 4.33 3.27 3.56

Cuadro 8: Resultados de las pruebas subjetivas

Prueba 1:

Queda patente la mejora que supone elnuevo modelo entonativo para la calidadglobal del habla sintetica, incluso consi-derando un unico contorno de frecuenciafundamental posible, lo cual concuerdacon los resultados objetivos recogidos enla tabla 6.

Prueba 2:

Aunque, en principio, las pruebas sub-jetivas reflejan que las funciones entre-nadas obtienen una calificacion tan solode “ligeramente mejor”, lo cual podrıaconsiderarse bastante decepcionante, nose trata de un mal resultado, dado quela comparacion se realiza con unas fun-ciones ajustadas manualmente a lo lar-go de las constantes pruebas de la fra-se de desarrollo del modulo de seleccionde unidades. Desde este punto de vista,el metodo de entrenamiento de los pesosdel coste contextual descrito en el apar-tado 2.1 proporciona un conjunto de pe-sos automaticamente en muy poco tiem-po y que genera una voz sintetica de ma-yor calidad.

Prueba 3:

Hay una clara preferencia por el conjun-to de frases sintetizadas a partir de lasfunciones de coste acusticas actuales. Es-to demuestra que la caracterizacion delcontexto fonetico mediante los centroi-des de los vectores mel-cepstrum de losfonemas circundantes es bastante masapropiada que la simple consideracion delos fonemas directamente, ademas de laadecuacion de los ındices de variacion es-pectral.

Prueba 4:

Es en este caso en el que se aprecianmas diferencias en las opiniones de losdos grupos de evaluadores. En el gru-po de expertos se observa una clarısimapreferencia (4.33) por las frases sintetiza-das considerando 20 contornos alternati-vos de frecuencia fundamental, mientras

Evaluación del modelado acústico y prosódico del sistema de conversión texto-voz Cotovía

11

que en el otro grupo la diferencia es mu-cho menos marcada (3.27). Esto se debeprobablemente a la mayor complejidadde las frases empleadas, que provoca laaparicion de fallos no presentes en laspruebas anteriores, como los del modu-lo de insercion de pausas. Mientras quelos evaluadores expertos fueron capacesde reconocer dichas fuentes de error enlas dos versiones de cada frase y, por lotanto, abstraerse de ellos para optar poruna puntuacion u otra, probablementelos no expertos acabaron realizando va-loraciones mas confusas al encontrarsecon frases que tenıan fallos en ambasversiones. De todas formas, no convieneolvidar que esta prueba se efectuo confrases especialmente seleccionadas por elautor, por lo que no pretende reflejar ladiferencia real existente al sintetizar dosfrases cualesquiera con los dos metodoscomparados. Ademas, al haberse limita-do la prueba a frases aisladas, tampocodeja evidencia de la mayor variabilidadque aporta a la conversion de voz la con-sideracion de multiples contornos.

7. Conclusiones

Este artıculo se ha dedicado a la evalua-cion, tanto objetiva como subjetiva, del siste-ma de conversion texto voz Cotovıa. Para ellose comenzo con una breve exposicion de lasprincipales caracterısticas del sistema, comoel diseno de las funciones de coste, la estima-cion de la prosodia y la seleccion combinadade unidades acusticas y entonativas.

Como el conversor se encuadra dentro delas tecnicas de sıntesis basadas en seleccion,tanto en lo referente a unidades acusticas co-mo entonativas, en las que se genera la vozmediante la aplicacion de unidades extraıdasde contextos similares, las pruebas objetivasse encaminaron hacia la comprobacion de enque medida se escogıan unidades con las ca-racterısticas deseadas. Analogamente, se es-tudio la influencia en la seleccion de conside-rar un numero mayor de contornos entonati-vos, llegando al resultado de que los errorescometidos van disminuyendo, al igual que susvarianzas.

En cuanto a las pruebas subjetivas, se re-currio a la comparacion de pares, por su ma-yor sencillez de cara a los evaluadores, y por-que aportan informacion para escoger los di-senos mas adecuados para las partes del sis-

tema estudiadas. En este caso, se realizaron5 pruebas: comparacion del modelo entonati-vo nuevo con respecto al original, validez delmetodo de entrenamiento de los pesos de lasfunciones de coste acusticas, comparacion dedos configuraciones diferentes de dichas fun-ciones de coste, comparacion de los modeloscontextuales basados en regresion lineal y re-des neuronales y, por ultimo, influencia de lavariacion del numero de contornos alternati-vos de frecuencia fundamental considerados.

En http://www.gts.tsc.uvigo.es/cotoviase puede comprobar la calidad del sintetiza-dor.

Bibliografıa

Banga, E. R., F. Campillo, E. F. Rei, yF. Mendez. 2002. Sistema de conversiontexto-voz en lengua gallega basado en se-leccion combinada de unidades acusticasy prosodicas. Procesamiento del lenguajenatural, (29):153–158.

Black, A. y N. Campbell. 1995. Optimisingselection of units from speech databasesfor concatenative synthesis. En Actas de

Eurospeech, volumen 1, paginas 581–584,Madrid, Espana.

Black, A. y P. Taylor. 1997. Automaticallyclustering similar units for unit selectionin speech synthesis. En Actas de Euros-

peech, volumen 2, paginas 601–604.

Campillo, F. y E. R. Banga. 2002. Combinedprosody and unit selections for Corpus-based text-to-speech systems. En Actas

de ICSLP, volumen 1, paginas 141–144,Denver.

Campillo, F. y E. R. Banga. 2003. On theselection of the cost functions for a unitselection speech synthesis. En Actas de

Eurospeech, volumen 1, paginas 289–292.

Campillo, F. y E. R. Banga. 2004. Disenode la funcion de coste de concatenacionen sıntesis de voz basada en Corpus. EnActas de URSI, Barcelona.

Febrer, A. 2001. Sıntesi de la parla per con-catenacio basada en la seleccio. Ph.D. te-sis, Universidad Politecnica de Calatuna.

Hunt, A. y A. Black. 1996. Unit selectionin a concatenative speech synthesis systemusing a large speech database. En Actasde ICASSP, volumen 1, paginas 373–376.

F. Campillo, E. Rodríquez

12