DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN...
-
Upload
susanita-puma -
Category
Documents
-
view
9 -
download
3
Transcript of DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN...
![Page 1: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/1.jpg)
DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN
HABLADA EN ENTORNOS INTELIGENTES
Autor: Rosario Alcázar PriorTutor: Juan Manuel Montero Martínez
![Page 2: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/2.jpg)
INTRODUCCIÓNINTRODUCCIÓN
Proyecto ROBINT:Proyecto ROBINT: Humanizar al robotHumanizar al robot Facilitar la comunicación con losFacilitar la comunicación con los
visitantes del museovisitantes del museo
Objetivo en el Módulo T2S:Objetivo en el Módulo T2S:Síntesis de habla con emocionesSíntesis de habla con emociones
Objetivos del proyecto:Objetivos del proyecto: Mejor implementación de ALEGRÍA y TRISTEZAMejor implementación de ALEGRÍA y TRISTEZA Implementación de la emoción SORPRESA Implementación de la emoción SORPRESA Implementación de la emoción ENFADO Implementación de la emoción ENFADO
![Page 3: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/3.jpg)
DEFINICIÓN DE EMOCIÓNDEFINICIÓN DE EMOCIÓN Emoción:Emoción:
Estado complejo del organismo Estado complejo del organismo Respuesta a eventos que se reciben del entornoRespuesta a eventos que se reciben del entorno Percepción de cambio Percepción de cambio Evaluación Evaluación Predispone a dar una respuesta organizada. Predispone a dar una respuesta organizada.
¿Para qué sirven las emociones?¿Para qué sirven las emociones?Función adaptativa:Función adaptativa:
Miedo, ascoMiedo, asco Función social:Función social:
Tristeza, enfadoTristeza, enfado
![Page 4: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/4.jpg)
CLASIFICACIÓN DE LAS CLASIFICACIÓN DE LAS EMOCIONES (I)EMOCIONES (I)
Modelo de RussellModelo de RussellCada emoción se sitúa en el interior de un Cada emoción se sitúa en el interior de un
círculo definido en un espacio bidimensionalcírculo definido en un espacio bidimensional Dimensión Valencia: evaluaciónDimensión Valencia: evaluación
NegativasNegativas Enfado Enfado
PositivasPositivas AlegríaAlegría
Dimensión Activación: nivel de excitaciónDimensión Activación: nivel de excitación Pasivas Pasivas
Tristeza Tristeza ActivasActivas
SorpresaSorpresa
![Page 5: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/5.jpg)
CLASIFICACIÓN DE LAS CLASIFICACIÓN DE LAS EMOCIONES (II)EMOCIONES (II)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
Euforia
SORPRESA
Asombro
ENFADO EN CALIENTE
ENFADO EN FRÍO
NEUTRO
TRISTEZA
Depresión
![Page 6: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/6.jpg)
BASE DE DATOS (S.E.S.)BASE DE DATOS (S.E.S.) Grabaciones de un actor simulando estado neutro Grabaciones de un actor simulando estado neutro
y:y: TRISTEZA: más prosódica que segmentalTRISTEZA: más prosódica que segmental ALEGRÍA: tan segmental como prosódicaALEGRÍA: tan segmental como prosódica SORPRESA: prosódicaSORPRESA: prosódica ENFADO: segmentalENFADO: segmental
Para cada emociónPara cada emoción 3 sesiones de 15 frases 3 sesiones de 15 frases Patrones más identificables Patrones más identificables 3 sesiones de 4 párrafos3 sesiones de 4 párrafos
Contenido semántico y sintáctico neutroContenido semántico y sintáctico neutro
Etiquetada manualmenteEtiquetada manualmente Ficheros .par que contienen la prosodiaFicheros .par que contienen la prosodia
![Page 7: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/7.jpg)
ESTRUCTURA DEL CONVERSORESTRUCTURA DEL CONVERSOR
TEXTOTEXTO
• Análisis de textoAnálisis de texto
• Procesado Procesado de de etiquetas etiquetas•Conversión de Conversión de texto a fonemastexto a fonemas
• Generación Generación de de prosodiaprosodia
FONEMASFONEMAS
PROSODIAPROSODIA
Sintetizador Sintetizador
dede
KlattKlatt
VOZVOZ
PROCESADO DE PROCESADO DE TEXTOTEXTO
SÍNTESIS DE VOZSÍNTESIS DE VOZ
![Page 8: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/8.jpg)
SINTETIZADOR DE KLATTSINTETIZADOR DE KLATT
![Page 9: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/9.jpg)
ESTUDIO DE LA FUENTE ESTUDIO DE LA FUENTE GLOTALGLOTAL OBJETIVOOBJETIVO: efectos segmentales enfado: efectos segmentales enfado
Señal a la salida de la fuente glotal:Señal a la salida de la fuente glotal:
¼ del periodo glotal:¼ del periodo glotal:
¾ del periodo glotal:¾ del periodo glotal:
Filtro paso bandaFiltro paso banda
Suma de ruido síncrono en pitchSuma de ruido síncrono en pitch
)_(1
xaglotAGLOTFACTORxaglotaglot
onda
0onda
![Page 10: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/10.jpg)
VARIACIONES EN EL BW (I)VARIACIONES EN EL BW (I) OBJETIVOOBJETIVO: Aumentar el BW para ALEGRÍA: Aumentar el BW para ALEGRÍA
Incrementar la frecuencia de muestreo: 10 kHz Incrementar la frecuencia de muestreo: 10 kHz 16 16 kHzkHz
Paradójica disminución del BW efectivoParadójica disminución del BW efectivo Formante de 4,5 KHz pierde ganancia al pasar a 16 KHzFormante de 4,5 KHz pierde ganancia al pasar a 16 KHz
211
)(
zCzB
AzH
Filtros adicionales en la rama serieFiltros adicionales en la rama serie Apenas percibidosApenas percibidos
Misma causaMisma causa
s
s
TBW
sresonanciaTBW
eC
TfeB
CBA
2
)2cos(2
1
![Page 11: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/11.jpg)
VARIACIONES EN EL BW (II)VARIACIONES EN EL BW (II)
Diseño de filtros Diseño de filtros para el caso de para el caso de ffmuestreo muestreo 16000 Hz16000 Hz
Filtros en paralelo Filtros en paralelo
a la rama seriea la rama serie
Filtros de 2º orden de ganancia Filtros de 2º orden de ganancia constanteconstante
![Page 12: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/12.jpg)
TRISTEZA (I)TRISTEZA (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
![Page 13: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/13.jpg)
TRISTEZA (II)TRISTEZA (II)
Modelo utilizado por el actorModelo utilizado por el actorTono bajo y homogéneoTono bajo y homogéneoMonotonía: poca varianzaMonotonía: poca varianzaBaja intensidad de la vozBaja intensidad de la voz
Disminución progresivaDisminución progresiva
Ralentización de la velocidad de Ralentización de la velocidad de locuciónlocución
Aumento del número y duración de las pausasAumento del número y duración de las pausas
Introducción de suspirosIntroducción de suspiros
![Page 14: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/14.jpg)
Contraste con el estado neutroContraste con el estado neutro PROSODIAPROSODIA
Reducción del valor medio de F0Reducción del valor medio de F0 120 Hz 120 Hz 100 Hz 100 Hz
Disminución de la velocidad de locuciónDisminución de la velocidad de locución 156 sil/min 156 sil/min 135 sil/min 135 sil/min
Alargamiento de pausasAlargamiento de pausas SEGMENTALSEGMENTAL
Reducción del BW efectivoReducción del BW efectivo 6500 Hz 6500 Hz 4500 Hz 4500 Hz
Introducción de jitter en F0 a nivel de Introducción de jitter en F0 a nivel de fonemafonema Simula voz temblorosaSimula voz temblorosa
TRISTEZA (III)TRISTEZA (III)
![Page 15: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/15.jpg)
ALEGRÍA (I)ALEGRÍA (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
![Page 16: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/16.jpg)
ALEGRÍA (II)ALEGRÍA (II) Modelo utilizado por el actorModelo utilizado por el actor
Gran variedad de patrones entonativosGran variedad de patrones entonativosAumento del valor del tono medioAumento del valor del tono medioAumento del rango de F0Aumento del rango de F0Aumento de la velocidad de locuciónAumento de la velocidad de locución
Disminución en la duración de las pausasDisminución en la duración de las pausas
Voz sonrienteVoz sonriente Más rica en altas frecuenciasMás rica en altas frecuencias
![Page 17: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/17.jpg)
ALEGRÍA (III)ALEGRÍA (III)Contraste con el estado neutroContraste con el estado neutro PROSODIAPROSODIA
Aumento del valor medio de F0Aumento del valor medio de F0 120 Hz 120 Hz 190 Hz 190 Hz
Aumento del rango de variación de F0Aumento del rango de variación de F0 20 Hz 20 Hz 60 Hz 60 Hz
Subida de F0 en el último picoSubida de F0 en el último pico Elección del patrón más identificableElección del patrón más identificable
Aumento de la velocidad de locuciónAumento de la velocidad de locución 156 sil/min 156 sil/min 165 sil/min 165 sil/min
SEGMENTALSEGMENTAL Aumento del BW efectivoAumento del BW efectivo
6500 Hz 6500 Hz 8000 Hz8000 Hz Mayor diferenciación con la sorpresaMayor diferenciación con la sorpresa
![Page 18: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/18.jpg)
SORPRESA (I)SORPRESA (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
![Page 19: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/19.jpg)
SORPRESA (II)SORPRESA (II)
Emoción transitoriaEmoción transitoriaFase inicial de evaluaciónFase inicial de evaluación
Gritos, retrocesos, movimientos bruscos,…Gritos, retrocesos, movimientos bruscos,…
Fase de confirmaciónFase de confirmación Progresiva evolución hacia otra emociónProgresiva evolución hacia otra emoción
Modelo vocal utilizado por el actorModelo vocal utilizado por el actorAumento del valor medio de F0Aumento del valor medio de F0Aumento del rango de F0Aumento del rango de F0
Tendencia ascendente a lo largo del grupo fónicoTendencia ascendente a lo largo del grupo fónico
Alargamiento de las sílabas tónicasAlargamiento de las sílabas tónicasAlargamiento de la última palabraAlargamiento de la última palabra
![Page 20: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/20.jpg)
SORPRESA (III)SORPRESA (III)
Contraste con alegríaContraste con alegría PROSODIAPROSODIA
Aumento en el valor medio de F0Aumento en el valor medio de F0 190 Hz 190 Hz 200 Hz 200 Hz
Aumento del rango de variación de F0Aumento del rango de variación de F0 60 Hz 60 Hz 140 Hz 140 Hz
Pendiente de F0 ascendentePendiente de F0 ascendente Progresión hacia una emoción positivaProgresión hacia una emoción positiva
Alargamiento de sílabas tónicas, palabra Alargamiento de sílabas tónicas, palabra final y último fonemafinal y último fonema
Patrón final que comunica a los demás la sorpresaPatrón final que comunica a los demás la sorpresa
![Page 21: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/21.jpg)
ENFADO (I)ENFADO (I)
VALENCIA
ACTIVIDAD
PositivoNegativo
Pasivo
Activo
ALEGRÍA
SORPRESA
ENFADO EN FRÍO
NEUTRO
TRISTEZA
![Page 22: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/22.jpg)
ENFADO (II)ENFADO (II)
Expresión no vocalExpresión no vocalTensión muscularTensión muscularGestos amenazantesGestos amenazantes
Manos, mirada, cara,…Manos, mirada, cara,…
Modelo vocal utilizado por el actorModelo vocal utilizado por el actor Irregularidad glotalIrregularidad glotalBaja apertura bucalBaja apertura bucalAumento del nivel de amplitudAumento del nivel de amplitud
Especial énfasis en la última palabraEspecial énfasis en la última palabra
![Page 23: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/23.jpg)
ENFADO (III)ENFADO (III)Contraste con estado neutroContraste con estado neutro PROSODIA: Progresión hacia enfado en calientePROSODIA: Progresión hacia enfado en caliente
Aumento del rango de variación de F0Aumento del rango de variación de F0 20 Hz 20 Hz 70 Hz 70 Hz
Reducción en la duración de los fonemas finalesReducción en la duración de los fonemas finales Aumento del nivel de amplitud Aumento del nivel de amplitud
Nivel de actividad medio pero con énfasis finalNivel de actividad medio pero con énfasis final Introducción de jitter en F0 a nivel de fonemaIntroducción de jitter en F0 a nivel de fonema
Irregularidad en la vozIrregularidad en la voz SEGMENTALSEGMENTAL
Introducción de ruido en la fuente glotalIntroducción de ruido en la fuente glotal Irregularidad en la fuente glotalIrregularidad en la fuente glotal
![Page 24: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/24.jpg)
Evaluación de Resultados (I)Evaluación de Resultados (I) 23 personas23 personas 5 frases semánticamente neutras x 5 emociones5 frases semánticamente neutras x 5 emociones25 grabaciones25 grabaciones Orden aleatorioOrden aleatorio Sin realimentaciónSin realimentación Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS)Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS) Precisión global: 76,7 % (>64,7% en VAESS)Precisión global: 76,7 % (>64,7% en VAESS)
EMOCIÓN EMOCIÓN IDENTIFICADAIDENTIFICADA
EMOCIÓN SINTETIZADAEMOCIÓN SINTETIZADA
GRADO DE GRADO DE PRECISIÓNPRECISIÓN
NEUTRONEUTRO TRISTEZATRISTEZA ALEGRÍAALEGRÍA SORPRESASORPRESA ENFADOENFADO
NEUTRONEUTRO 83,5 %83,5 % 10,4 % 7,8 % 0 % 3,5 % 79,3 %
TRISTEZATRISTEZA 7,8 % 87 %87 % 0 % 0 % 2,6 % 89,3 %
ALEGRÍAALEGRÍA 1,7 % 0 % 53,9 %53,9 % 17,4 % 7 % 67,4 %
SORPRESASORPRESA 2,6 % 0 % 20,9 % 79,1 %79,1 % 14,8 % 67,4 %
ENFADOENFADO 3,5 % 1,7 % 9,6 % 2,6 % 70,4 %70,4 % 80,2 %
OTRAOTRA 0,9 % 0,9 % 7,8 % 0,9 % 1,7 % ---
![Page 25: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/25.jpg)
Evaluación de Resultados (II)Evaluación de Resultados (II)TASA DE TASA DE
RECONOCIMIENTORECONOCIMIENTOEMOCIÓN SIMULADAEMOCIÓN SIMULADA
NEUTRONEUTRO TRISTEZATRISTEZA ALEGRÍAALEGRÍA SORPRESASORPRESA ENFADOENFADO
12 primeras pruebas12 primeras pruebas 82,61 %82,61 % 89,86 %89,86 % 36,96 %36,96 % 68,12 %68,12 % 69,56 %69,56 %13 últimas pruebas13 últimas pruebas 84,06 %84,06 % 82,61 %82,61 % 65,22 %65,22 % 95,65 %95,65 % 71,74 %71,74 %
TASA DE TASA DE RECONOCIMIENTORECONOCIMIENTO
EMOCIÓN SIMULADAEMOCIÓN SIMULADA
NEUTRONEUTRO TRISTEZATRISTEZA ALEGRÍAALEGRÍA SORPRESASORPRESA ENFADOENFADO
Voz NaturalVoz Natural 89,3 %89,3 % 90,3 %90,3 % 74,6 %74,6 % -------- 89,3 %89,3 %VAESSVAESS 58,6 %58,6 % 82,6 %82,6 % 46,6 %46,6 % -------- 42,6 %42,6 %
Re-síntesis + Re-síntesis + prosodia autom.prosodia autom.
72,9 %72,9 % 84,3 %84,3 % 65,7 %65,7 % 52,9 %52,9 % 95,7 %95,7 %
Resultados ActualesResultados Actuales 83.5 %83.5 % 87%87% 53,9 %53,9 % 79,1 %79,1 % 70,4 %70,4 %
![Page 26: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/26.jpg)
OTRAS MODIFICACIONESOTRAS MODIFICACIONES Introducción de grados en las emocionesIntroducción de grados en las emociones
Nueva etiquetaNueva etiqueta 30% tristeza 30% tristeza 100 % tristeza 100 % tristeza
Silabicador de fonemasSilabicador de fonemas
Estructura cliente-servidorEstructura cliente-servidor
Estudios para hacer la voz más robóticaEstudios para hacer la voz más robótica Nuevas fuentes glotalesNuevas fuentes glotales Modificación en el modelo de interpolación Modificación en el modelo de interpolación
entonativaentonativa
![Page 27: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/27.jpg)
ConclusionesConclusiones Mejora en la implementación de las emociones Mejora en la implementación de las emociones
TRISTEZA y ALEGRÍATRISTEZA y ALEGRÍA Implementación de las emociones SORPRESA Implementación de las emociones SORPRESA
y ENFADOy ENFADO Tasa de reconocimiento: 75 %Tasa de reconocimiento: 75 %
Enfado: 43% VAESS Enfado: 43% VAESS 70%70% Sorpresa: 53% en resíntesis Sorpresa: 53% en resíntesis 79%79% Alta tasa de identificación de neutra:58,6% VAESS Alta tasa de identificación de neutra:58,6% VAESS
83,5%83,5% Modificación del BW efectivoModificación del BW efectivo
alegríaalegría Estudio de la fuente glotal Estudio de la fuente glotal
enfadoenfado Incorporación de grados en las emocionesIncorporación de grados en las emociones
![Page 28: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/28.jpg)
Líneas futuras de Líneas futuras de investigacióninvestigación
Implementación de las emociones en el Implementación de las emociones en el sintetizador por concatenaciónsintetizador por concatenación
Implementación de dos nuevas emociones: Implementación de dos nuevas emociones: miedo y ascomiedo y asco
Evaluación de los grados de las emocionesEvaluación de los grados de las emociones
![Page 29: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/29.jpg)
DEMOSTRACIÓNDEMOSTRACIÓN DEMOSTRACIÓN: Estado neutro Tristeza Alegría Sorpresa Enfado
![Page 30: DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:](https://reader035.fdocuments.es/reader035/viewer/2022062511/54d4765a497959482c8b4a66/html5/thumbnails/30.jpg)
¿ Preguntas?¿ Preguntas?