Reconocimiento de Voz

Reconocimiento de voz

Introducción

• Reconocimiento de voz: • Identificar las palabras pronunciadas.

• Ventajas:

• Comunicación rápida y agradable.• Libera otros “recursos” (manos, vista, …)• Permite movilidad (no es necesario teclado, …)• Facilita la reducción de los interfaces de control• Mejora la interacción a minusválidos

Problemática

• Problema mucho más complejo que la síntesis de voz

• Factores que determinan la complejidad:• Variabilidad locutor: Intralocutor e interlocutor.

• Forma de hablar: Habla continua…• Coarticulación: Los sonidos (silabas, fonemas, …) pronunciados en una palabra o de forma aislada tienen espectros distintos• Segmentación: es difícil separar silabas, fonemas, …

• Vocabulario: cuanto menor sea mejor funcionará el reconocedor. (palabras parecidas, mayor proceso, …)

• El entorno: ruido de fondo.

Clasificación

• Según el objetivo del reconocedor:• Palabras aisladas• Habla conectada• Habla continua

• Según el locutor:• Dependiente del locutor• Multilocutor• Independiente del locutor

Clasificación

• Según el vocabulario:• Pequeño (Menos de 100 palabras)• Mediano/Intermedio (Entre 100 y 1000 palabras)• Grande (Más de 1000 palabras)

• Según el medio:• Telefónico• Microfónico

Esquema de trabajo

• Un reconocedor tiene dos fases:

• Entrenamiento: • Se enseña al reconocedor los modelos o patrones del vocabulario

• Reconocimiento:• El reconocedor analiza el sonido recibido y lo clasifica asignándole (si es el caso) una palabra del vocabulario

Esquema de trabajo

• Diagrama de bloques genérico:

Voz

Segmentación

Extracción característic

as

ClasificaciónVocabulari

o

Preprocesado

Resultado

Esquema de trabajo

• Preprocesado:• Normalizar• Ecualizar• Eliminar ruido (sustracción espectral)

• Segmentación:• Dividir la señal en bloques (10-20ms)

• Extracción de características:• Transformar la información de un bloque en un conjunto reducido de parámetros (no es necesario recuperar luego la señal)• Vectores de características (feature vectors)

Esquema de trabajo

• Extracción de características:• En general se puede emplear todas las técnicas vistas en la parametrización de la señal de voz.

• Técnicas de extracción de características:• Banco de filtros• Transformadas (FFT, DCT, …)• Predicción lineal (LPC)• MFCC: Mel Frequency Cepstral Coefficients

Esquema de trabajo

• Diagrama de bloques genérico:

Voz

Segmentación

Extracción característic

as

ClasificaciónVocabulari

o

Preprocesado

Resultado

Técnicas de reconocimiento

• Ajuste de plantillas o patrones:• Alineamiento temporal óptimo • DTW: Dynamic Time Warping

• Redes Neuronales• NN: Neural Networks

• Modelos Ocultos de Markov • HMM: Hidden Markov Models

Ajuste de plantillas

• Ajuste de plantillas:• Comparar los vectores de características obtenidos con las plantillas (vectores característicos de las palabras del vocabulario)• El que menor distancia obtiene es la palabra elegida

• Problema:• Las palabras no duran siempre lo mismo• Ej: se puede hablar más despacio o más deprisa

• Solución: DTW


• DTW:• Para cada plantilla del vocabulario intenta encontrar el mejor alineamiento entre los dos patrones a comparar

• Distancia entre dos patrones:• Distancia menor de todos los caminos posibles

• Distancia de un camino:• Suma de las distancias parciales a lo largo de dicho camino


• Coste computacional:

• El coste es cuadrático con el número de segmentos de la palabra

• Además hay que calcular la distancia con todas las palabras del vocabulario: coste cúbico

• Válido para vocabularios pequeños


• Ventajas: • Algoritmo sencillo de implementar

• Inconvenientes:• Funciona con palabras aisladas• Dependiente del locutor• Vocabularios reducidos

• De cada palabra debe haber varias realizaciones para paliar la variabilidad intralocutor

Arquitectura de un sistema de traducción voz a texto

La traducción voz a texto es un interesante campo en el que muchas empresas e instituciones están dedicando esfuerzos para lograr avances en la aplicabilidad de la técnica en los distintos dominios mencionados en la sección anterior. Reconocimiento automático del habla (ASR: Automatic Speech Recognition). Entrada de un SST es la voz del locutor que se desea traducir. El sistema de ASR convierte la voz origen en texto usando técnicas estadísticas de modelado acústico y decodificación

Reconocimiento de Voz

Documents

Transcript of Reconocimiento de Voz