Reconocimiento de Voz

18
Reconocimiento de voz

Transcript of Reconocimiento de Voz

Page 1: Reconocimiento de Voz

Reconocimiento de voz

Page 2: Reconocimiento de Voz

Introducción

• Reconocimiento de voz: • Identificar las palabras pronunciadas.

• Ventajas:

• Comunicación rápida y agradable.• Libera otros “recursos” (manos, vista, …)• Permite movilidad (no es necesario teclado, …)• Facilita la reducción de los interfaces de control• Mejora la interacción a minusválidos

Page 3: Reconocimiento de Voz

Problemática

• Problema mucho más complejo que la síntesis de voz

• Factores que determinan la complejidad:• Variabilidad locutor: Intralocutor e interlocutor.

• Forma de hablar: Habla continua…• Coarticulación: Los sonidos (silabas, fonemas, …) pronunciados en una palabra o de forma aislada tienen espectros distintos• Segmentación: es difícil separar silabas, fonemas, …

• Vocabulario: cuanto menor sea mejor funcionará el reconocedor. (palabras parecidas, mayor proceso, …)

• El entorno: ruido de fondo.

Page 4: Reconocimiento de Voz

Clasificación

• Según el objetivo del reconocedor:• Palabras aisladas• Habla conectada• Habla continua

• Según el locutor:• Dependiente del locutor• Multilocutor• Independiente del locutor

Page 5: Reconocimiento de Voz

Clasificación

• Según el vocabulario:• Pequeño (Menos de 100 palabras)• Mediano/Intermedio (Entre 100 y 1000 palabras)• Grande (Más de 1000 palabras)

• Según el medio:• Telefónico• Microfónico

Page 6: Reconocimiento de Voz

Esquema de trabajo

• Un reconocedor tiene dos fases:

• Entrenamiento: • Se enseña al reconocedor los modelos o patrones del vocabulario

• Reconocimiento:• El reconocedor analiza el sonido recibido y lo clasifica asignándole (si es el caso) una palabra del vocabulario

Page 7: Reconocimiento de Voz

Esquema de trabajo

• Diagrama de bloques genérico:

Voz

Segmentación

Extracción característic

as

ClasificaciónVocabulari

o

Preprocesado

Resultado

Page 8: Reconocimiento de Voz

Esquema de trabajo

• Preprocesado:• Normalizar• Ecualizar• Eliminar ruido (sustracción espectral)

• Segmentación:• Dividir la señal en bloques (10-20ms)

• Extracción de características:• Transformar la información de un bloque en un conjunto reducido de parámetros (no es necesario recuperar luego la señal)• Vectores de características (feature vectors)

Page 9: Reconocimiento de Voz

Esquema de trabajo

• Extracción de características:• En general se puede emplear todas las técnicas vistas en la parametrización de la señal de voz.

• Técnicas de extracción de características:• Banco de filtros• Transformadas (FFT, DCT, …)• Predicción lineal (LPC)• MFCC: Mel Frequency Cepstral Coefficients

Page 10: Reconocimiento de Voz

Esquema de trabajo

• Diagrama de bloques genérico:

Voz

Segmentación

Extracción característic

as

ClasificaciónVocabulari

o

Preprocesado

Resultado

Page 11: Reconocimiento de Voz

Técnicas de reconocimiento

• Ajuste de plantillas o patrones:• Alineamiento temporal óptimo • DTW: Dynamic Time Warping

• Redes Neuronales• NN: Neural Networks

• Modelos Ocultos de Markov • HMM: Hidden Markov Models

Page 12: Reconocimiento de Voz

Ajuste de plantillas

• Ajuste de plantillas:• Comparar los vectores de características obtenidos con las plantillas (vectores característicos de las palabras del vocabulario)• El que menor distancia obtiene es la palabra elegida

• Problema:• Las palabras no duran siempre lo mismo• Ej: se puede hablar más despacio o más deprisa

• Solución: DTW

Page 13: Reconocimiento de Voz

Ajuste de plantillas

• DTW:• Para cada plantilla del vocabulario intenta encontrar el mejor alineamiento entre los dos patrones a comparar

• Distancia entre dos patrones:• Distancia menor de todos los caminos posibles

• Distancia de un camino:• Suma de las distancias parciales a lo largo de dicho camino

Page 14: Reconocimiento de Voz

Ajuste de plantillas

• Coste computacional:

• El coste es cuadrático con el número de segmentos de la palabra

• Además hay que calcular la distancia con todas las palabras del vocabulario: coste cúbico

• Válido para vocabularios pequeños

Page 15: Reconocimiento de Voz

Ajuste de plantillas

• Ventajas: • Algoritmo sencillo de implementar

• Inconvenientes:• Funciona con palabras aisladas• Dependiente del locutor• Vocabularios reducidos

• De cada palabra debe haber varias realizaciones para paliar la variabilidad intralocutor

Page 16: Reconocimiento de Voz

Arquitectura de un sistema de traducción voz a texto

La traducción voz a texto es un interesante campo en el que muchas empresas e instituciones están dedicando esfuerzos para lograr avances en la aplicabilidad de la técnica en los distintos dominios mencionados en la sección anterior. Reconocimiento automático del habla (ASR: Automatic Speech Recognition).  Entrada de un SST es la voz del locutor que se desea traducir. El sistema de ASR convierte la voz origen en texto usando técnicas estadísticas de modelado acústico y decodificación

Page 17: Reconocimiento de Voz
Page 18: Reconocimiento de Voz