Sistema comunicacion oral_personas_sordas

17
Sistema de Comunicación Oral para Personas Sordas Grupo de Tecnología del Habla – Universidad Politécnica de Madrid Fundación CNSE

Transcript of Sistema comunicacion oral_personas_sordas

Page 1: Sistema comunicacion oral_personas_sordas

Sistema de Comunicación Oral para Personas SordasGrupo de Tecnología del Habla – Universidad Politécnica de Madrid

Fundación CNSE

Page 2: Sistema comunicacion oral_personas_sordas

2

ÍNDICE

INTRODUCCIÓN ESTADO DE LA CUESTIÓN BASE DE DATOS TRADUCCIÓN DE VOZ A LENGUA DE

SIGNOS ESPAÑOLA (LSE) GENERACIÓN DE VOZ A PARTIR DE LSE EVALUACIÓN CONCLUSIONES

Page 3: Sistema comunicacion oral_personas_sordas

3

INTRODUCCIÓN 1.064.000 personas sordas en España

92% tiene dificultad para entender y expresarse en castellano escrito

Problemas en tareas de la vida cotidiana (relaciones sociales, acceso a la información, servicios públicos, etc.)

Comunidad Sorda: personas sordas que utilizan la Lengua de Signos para comunicarse

Desde 2007, la LSE es una lengua oficial en España

Plan del Gobierno para invertir en recursos en LSE

Proyecto desarrollado por el GTH en colaboración con la Fundación CNSE

Objetivo: Diseño, desarrollo y evaluación de una sistema avanzado de comunicación bidireccional entre una persona oyente y una persona sorda.

Ámbito de aplicación: servicio de atención personal de la administración renovación del permiso de conducir

Page 4: Sistema comunicacion oral_personas_sordas

4

ESTADO DEL ARTE Corpus generados en lengua de signos:

300 horas de 100 signantes grabadas en lengua de signos australiana (T. Johnston, 2008) base de datos RWTH-BOSTON-400 en lengua de signos americana (Dreuw et al., 2008) British Sign Language Corpus (Schembri, 2008) corpus desarrollado en el Institute for Language and Speech Processing en lengua de

signos griega (Efthimiou E., y Fotinea, E., 2008) …

Traducción de habla natural

España: AVIVAVOZ (http://www.avivavoz.es) Europa: C-Star, ATR, Vermobil, Eutrans, LC-Star, PF-Star y TC_STAR EEUU: programa GALE …

Traducción a lengua de signos:

basada en ejemplos (Morrissey y Way, 2005) basada en reglas (San-Segundo, 2008) Basada en frases completas (Cox et al, 2002 ) métodos estadísticos (Bungeroth y Ney, 2004; Morrissey et al, 2007; sistema SiSi de IBM ) …

Page 5: Sistema comunicacion oral_personas_sordas

5

BASE DE DATOS

Renovación del permiso de conducir (entrevistas con funcionarios)

Traducción a LSE (glosas) por parte de personas sordas

Videos de las frases en LSE

Ampliación del número de frases iniciales en el GTH (más de 2000 frases finalmente)

Base datos signos en varias notaciones: Glosas Hamnosys SEA SIGML

133294Vocabulario

2,2833,130Palabras

93389Frases diferentes

483Pares de frases

LSECastellanoUsuarios

237527Vocabulario

12,74117,113Palabras

1991,413Frases diferentes

1,641Pares de frases

LSECastellanoFuncionario

Page 6: Sistema comunicacion oral_personas_sordas

6

TRADUCCIÓN DE VOZ A LSE 3 módulos:

Reconocedor de voz Basado en HMMs Habla continua Independiente del locutor Desarrollado en el GTH-UPM

Traducción: palabras a signos

Representación de los signos agente animado Virtual Guido: proyecto europeo eSIGN

Reconocimientode voz

Traducción de palabras a

signos

Voz del funcionario Secuencia

de palabras

Modelo de traducciónModelosacústicos

Modelo del Lenguaje

Animación de signos

Descripción de signos

Secuenciade signos

Reconocimientode voz

Traducción de palabras a

signos

Voz del funcionario Secuencia

de palabras

Modelo de traducciónModelosacústicos

Modelo del Lenguaje

Animación de signos

Descripción de signos

Secuenciade signos

Page 7: Sistema comunicacion oral_personas_sordas

7

TRADUCCIÓN DE VOZ A LSE Módulo de traducción: 3 estrategias (estructura jerárquica)

Basada en ejemplos: similitud con el corpus paralelo

Basada en reglas desarrolladas por expertos costosa

Estadística menos tiempo y esfuerzo

Frase en glosas

Trad. basada en reglas

Trad. basada en ejemplos

Traducción estadística

Frase reconocida

Segundo módulo

Distancia al ejemplo más cercano ≤ Umbral

Distancia al ejemplo más cercano > Umbral

(#Glosas/#palabras) < Umbral

(#Glosas/#palabras) ≥ Umbral

Frase en glosas

Trad. basada en reglas

Trad. basada en ejemplos

Traducción estadística

Frase reconocida

Segundo módulo

Distancia al ejemplo más cercano ≤ Umbral

Distancia al ejemplo más cercano > Umbral

(#Glosas/#palabras) < Umbral

(#Glosas/#palabras) ≥ Umbral

0.80198.4510.116.76

BLEUPERSERSR-WER

Page 8: Sistema comunicacion oral_personas_sordas

8

TRADUCCIÓN DE VOZ A LSE

Page 9: Sistema comunicacion oral_personas_sordas

9

GENERACIÓN DE VOZ A PARTIR DE LSE 3 módulos:

Interfaz de especificación de signos

Traducción (análogo al del sistema voz-LSE)

Conversor texto a voz: Conversor comercial Loquendo

Traducción entre lenguas

Voznatural

Secuenciade signos

Modelo de traducción

Secuenciade palabras

Interfazavanzado de

especificaciónde signos

Conversiónde texto a

voz

Unidadesacústicas

Informaciónde la lengua

Traducción entre lenguas

Voznatural

Secuenciade signos

Modelo de traducción

Secuenciade palabras

Interfazavanzado de

especificaciónde signos

Conversiónde texto a

voz

Unidadesacústicas

Informaciónde la lengua

0.91132.252.36

BLEUPERWER

Page 10: Sistema comunicacion oral_personas_sordas

10

GENERACIÓN DE VOZ A PARTIR DE LSE

Page 11: Sistema comunicacion oral_personas_sordas

11

EVALUACIÓN Jefatura Provincial de Tráfico de

Toledo: renovación del permiso de conducir 2 funcionarios 10 usuarios sordos 6 escenarios 2 días de evaluación

Page 12: Sistema comunicacion oral_personas_sordas

12

EVALUACIÓN Sistema voz-LSE: medidas objetivas

Buena tasa reconocimiento de voz Buena tasa de traducción Trad. Ejemplos en 95% casos: fiabilidad del

corpus generado

8.4Número de turnos del funcionario

0.8%% de uso de la traducción estadística

4.3%% de uso de la traducción basada en reglas

94.9%% de uso de la traducción basada en ejemplos

4.7 secTiempo de signado

0.0013 secTiempo de traducción

3.3 secTiempo de reconocimiento

8.9%Tasa de error después de la traducción

4.8%Tasa de error de reconocimiento de habla

ValorMedidas objetivas del sistema

Page 13: Sistema comunicacion oral_personas_sordas

13

EVALUACIÓN Sistema voz-LSE: medidas subjetivas

Buena valoración funcionario Peor valoración usuarios. Problemas:

Naturalidad del agente animado Bajo nivel de estandarización de la LSE

3.5

2.2Valoración global

2.0¿Utilizaría el sistema en ausencia de un intérprete?

0.8El signado es natural

2.2Comprendo los signos

2.1Los signos son correctos

Usuarios

Valoración global

3.5¿Utilizaría el sistema en ausencia de un intérprete?

3.5Facilidad de aprendizaje

3.5Facilidad de uso

3.5Tasa de reconocimiento

4.0Rapidez del sistema

Funcionario

Valor (0-5)Medidas subjetivasAgente

Page 14: Sistema comunicacion oral_personas_sordas

14

EVALUACIÓN Sistema LSE-voz: medidas objetivas

Buena tasa de traducción Trad. Ejemplos en 92% casos: fiabilidad

del corpus

4.0Número de turnos del usuario

2.6Número de glosas por turno del usuario

8.6 clicksNúmero de clicks para añ adir una glosa

18.5 secTiempo para definir una secuencia de glosas

0.0%% de uso de la traducció n estadística

8.1%% de uso de la traducció n basada en reglas

91.9%% de uso de la traducció n basada en ejemplos

1.7 secTiempo para conversió n texto a voz

0,001 sec

Tiempo de traducció n

2.0%Tasa de error de traducció n

ValorMedidas objetivas del sistema

Page 15: Sistema comunicacion oral_personas_sordas

15

EVALUACIÓN Sistema LSE-voz: medidas subjetivas

Buena valoración funcionario Usuarios:

Buena valoración interfaz, aunque compleja. Bajo nivel de estandarización de la LSE

3.0Valoración global

2.8¿Utilizaría el sistema en ausencia de un intérprete?

2.6¿Hay suficientes glosas?

2.4Facilidad de aprendizaje

3.2Rapidez del sistema

Usuarios

4.0Valoración global

4.0¿Utilizaría el sistema en ausencia de un intérprete?

3.0Naturalidad de la voz

4.0Inteligibilidad de las frases

Funcionario

Valor (0-5)Medidas subjetivasAgente

Page 16: Sistema comunicacion oral_personas_sordas

16

CONCLUSIONES Desarrollo de un sistema de comunicación bidireccional para

personas sordas voz-LSE LSE-voz Dominio de aplicación: renovación del permiso de conducir

Generación del primer corpus paralelo entre castellano y LSE para un dominio concreto

Evaluación en un entorno real Muy buenas tasas de traducción y reconocimiento Funcionario

Buena valoración en todos los aspectos Usuarios: hay que mejorar

Naturalidad del avatar Complejidad de la interfaz Problemas relacionados con la normalización de la LSE

Page 17: Sistema comunicacion oral_personas_sordas

17

¿PREGUNTAS?