Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme...

56

Transcript of Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme...

Page 1: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,
Page 2: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática, pues su alcance resulta prometedor. La gran mayoría de ellos usa como unidades elementales de reconocimiento a los fonemas, sin embargo, su uso aún no es del todo satisfactorio [Rabiner 2002] comunicación personal.

Page 3: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Como se observa, la señal de voz ha sido analizada desde distintos puntos de vista. Se han hecho análisis desde fonemas, hasta la palabra misma. Esto ha dado como origen una gran cantidad de resultados e implementación de algunas técnicas adyacentes. El presente trabajo se enfoca al área de la sílaba y se analiza su alta sensibilidad al contexto, tal y como se muestra en la figura.

Page 4: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Desarrollar el estudio y análisis del efecto que tiene introducir unidades silábicas en esquemas de reconocimiento de voz dentro del Español, apoyándose en la técnica de Cadenas Ocultas de Markov, con el fin de lograr incrementar los índices de reconocimiento que prevalecen en la actualidad y analizar su comportamiento.

Page 5: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

• Realizar un estudio de las características que tienen las sílabas dentro del Español, analizando su estructura interna, sus elementos y la relación que guarda con otros lenguajes, donde la sílaba resulta bastante útil en esquemas de reconocimiento ya implantados.

Demostrar la factibilidad que tiene la sílaba como elemento básico de reconocimiento, en esquemas regulados bajo la dependencia de contexto.

• Aplicar la técnica de Cadenas Ocultas de Markov para demostrar la utilidad de la sílaba en los sistemas de reconocimiento de voz dentro del Español. Realizando estrategias de caracterización basadas en esta unidad del habla.

• Crear variantes de investigación dentro del Español, con lo que el estado del arte actual en esta área se verá beneficiado y la contribución del presente trabajo, sirva como una vista alternante a los elementos actuales.

Page 6: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

La inclusión de sílabas en los esquemas de reconocimiento de voz dentro del Español puede permitir el incremento en los índices de reconocimiento que se manejan en la actualidad, sobre todo para cuestiones donde las aplicaciones son totalmente dependientes del contexto. Asimismo, el manejo de reglas como conocimiento a priori, permitirá un beneficio en el reconocimiento de voz.

Page 7: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

• Los inicios: años 50– Bell Labs .... Reconocimiento de dígitos aislados monolocutor– RCA Labs .... Reconocimiento de 10 sílabas monolocutor– University College in England .... Reconocedor fonético– MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante

• Los fundamentos: años 60– Comienzo en Japón (NEC labs)– Dynamic time warping .... Vintsyuk (Soviet Union)– CMU ... Reconocimiento del Habla Continua .... HAL 9000

• Las primeras soluciones: años 70, el mundo probabilístico– Reconocimiento de palabras aisladas

• LPC, programación dinámica– IBM: inicio el proyecto de reconocimiento de grandes vocabularios– Gran inversión en los USA: proyectos DARPA– Sistema HARPY (CMU) primer sistema con éxito

Page 8: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

• Reconocimiento del Habla Continua: años 80, expansión– Algoritmos para el habla continua y grandes vocabularios– Explosión de los métodos estadísticos: Modelos Ocultos de Markov

• utilizados inicialmente por IBM y Dragon Systems• popularizados por Bell Labs

– Introducción de las Redes Neuronales en el reconocimiento de voz– Sistema SPHINX

• Empieza el negocio: años 90, primeras aplicaciones– Ordenadores y procesadores baratos y rápidos– Sistemas de dictado– Integración entre reconocimiento de voz y procesado del lenguaje

natural.• ¿Una realidad?: años 00, integración en el S.O.

– Integración teléfono y Voice Web browsers VoiceXML estándard

Page 9: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Mono vs. Independiente del locutor

Monolocutor el sistema aprende utilizando la voz de una única persona resultados altos en tasas de reconocimiento modalidad necesaria para personas con problemas de dicción

Independiente del locutor aprendizaje con grandes bases de datos de voz de muchas personas se reduce la tasa de reconocimiento necesario para aplicaciones telefónicas

Adaptación al locutor aprendizaje inicial con multiples locutores aprendizaje posterior con el uso de una persona después de la adaptación comportamiento como monolocutor

Page 10: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Palabras Aisladas vs. Habla Continua

Reconocimiento de palabras aisladas las frases se pronuncian con pausas entre palabras pausas suficientemente largas facilidad en la localización del inicio y final de palabra se simplifican los algoritmos de reconocimiento modo no natural de comunicación

Reconocimiento de habla continua las frases se pronuncian sin ningún tipo de restricción presencia de coarticulación entre palabras no hay conocimiento a priori de las fronteras entre palabras modo natural de comunicación fenómenos de habla espontánea

Page 11: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Entrenamiento Modelo

Reconocimiento

Datos deentrenamiento

X’

W’

X W*

Esquema de funcionamiento de un Sistema deReconocimiento de Voz

ESQUEMA BÁSICO DE UN SISTEMA DE RECONOCIMIENTO DE VOZ

Page 12: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Señal de voz

División silábica

PDS

Generación del Libro Código

Generación de Observaciones

Entrenamiento Reconocimiento

Libro Código

Generación de Modelos

ReconocimientoHMM’s

Concatenación de sílabas reconocidas

PalabraReconocida

ESQUEMA DE RECONOCIMIENTO DISCONTINUO UTILIZADO EN EL PRESENTE TRABAJO

Page 13: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

El procesamiento digital es el tratamiento realizado a la señal de voz para que sea más fácil manejarla y realizar operaciones programables, además, de que es más sencillo realizar tales tareas una vez digitalizada la señal de voz, que si se realizarán desde el punto de vista analógico. Sobre la base de los vectores de autocorrelación determinados en el procesamiento digital de señales (PDS) y el libro código global obtenido en el entrenamiento, se generan los vectores de observación.

ESQUEMA DE RECONOCIMIENTO DISCONTINUO UTILIZADO EN EL PRESENTE TRABAJO

Page 14: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Existen 3 etapas críticas para un adecuado reconocimiento del sistema, la primera de ellas corresponde a la adecuación de la señal, en donde se comprende a la captura de la señal y al procesamiento digital de la misma. La siguiente etapa es la del procesamiento digital de la señal, en donde se extraen los elementos característicos de la misma, los cuales pueden ser vectores LPC (Codificación Predictiva Lineal) o bien LPC Cepstrales (CLPC). La siguiente etapa es la de la generación de los modelos de cada uno de los elementos del corpus, para el caso especial de las Cadenas Ocultas de Markov aplicadas a las sílabas, es posible generar el conjunto definido de modelos que serán un total de tantos como de sílabas existan.

ESQUEMA DE RECONOCIMIENTO DISCONTINUO UTILIZADO EN EL PRESENTE TRABAJO

Page 15: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

número esperado de transiciones del estado si al estado sj aij= _____________________________________________________ (5.18)

número esperado de transiciones del estado si

número esperado de veces que estando en j observo el símbolo vk

bj(k)= ______________________________________________________ (5.19) número esperado de veces que estoy en el estado j.

Page 16: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

InterfazDe la señal

De voz.

Extracción decaracterísticas Reconocimiento

Funciones dedensidad deprobabilidad

Probabilidadesde transición

Estadísticasde palabras

Inicialización

Entrenamientosilábico

Entrenamiento deClases de palabras

Base dedatos

Evaluaciónadecuada

Voz

X

Y W*

HMMs

Cadena de palabras: W

ESQUEMA DE RECONOCIMIENTO CONTINUO UTILIZADO EN EL PRESENTE TRABAJO

Page 17: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

PROCEDIMIENTO USADO PARA LA EXTRACCIÓN DE CARACTERÍSTICAS DE LA

SEÑAL DE VOZ [Furui 2000]

Filtro pasa-bajas

(muestreo y Cuantización)

Extracción de la Trama de análisis

Ventaneo(Hanning, etc.)

Análisis espectral

Extracción decaracterísticas

Page 18: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

PROCEDIMIENTO USADO PARA LA EXTRACCIÓN DE CARACTERÍSTICAS DE LA SEÑAL DE VOZ POR SÍLABAS ETAPA DE ENTRENAMIENTO[2004]

Filtro pasa-bajas

(muestreo y cuantización)

Ventaneo(Hanning, etc.)

Anális espectral

Extracción decaracterísticas

Determinaciónde la energía

Filtro Digital FIRpasa altas fc>4KHz

SISTEMA EXPERTO

BASE DE CONOCIMIENTOS(Corpus a analizar)

Motor de inferencia(Reglas de división

Silábica)

USO DEL CONOCIMIENTO A

PRIORI

Extracción de la Trama de análisis

Page 19: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

GRÁFICA DE TIEMPO DE DURACIÓN DE SÍLABAS

0

0.5

1

1.5

2

2.5

3

3.5

4

1 2 3 4 5 6 7 8 9 10

NÚMERO DE MUESTRAS

TIE

MP

O D

E D

UR

AC

IÓN

(s

eg

s)

sílaba te

sílaba gris

sílaba ca

sílaba sie

sílaba jo

sílaba blan

sílaba seis

sílaba o

sílaba a

GRÁFICA DE TIEMPO DE DURACIÓN DE SÍLABAS

0

0.5

1

1.5

2

2.5

3

3.5

4

1 2 3 4 5 6 7 8 9 10

NÚMERO DE MUESTRAS

TIE

MP

O D

E D

UR

AC

IÓN

(s

eg

s)

sílaba ve

sílaba no

sílaba co

sílaba tro

sílaba gro

sílaba cin

sílaba tres

sílaba fe

sílaba ce

GRÁFICA DE TIEMPO DE DURACIÓN DE SÍLABAS

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10

NÚMERO DE MUESTRAS

TIEM

PO D

E D

UR

AC

IÓN

(s

egs)

sílaba rrar

sílaba sa

sílaba brir

sílaba dos

sílaba zul

sílaba ro

sílaba de

sílaba ver

sílana nue

sílaba cho

sílaba u

sílaba ne

sílaba co

Toda la serie de experimentos relacionados a la longitud de la sílaba implican que ésta juega un papel muy importante. De los resultados anteriores, se encontró que el promedio de la sílaba resultó ser de 0.33503913 segundos, lo que explica el porque se toma en cuenta, que el tiempo promedio de duración de estos elementos es de este valor.

REPRESENTACIONES DE LA LONGITUD DE LAS SÍLABAS EN VARIOS CORPUS.

Page 20: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

La gráfica demuestra un incremento exponencial del número de sílabas como un porcentaje de aparición tanto en el habla continua como en textos del Español Mexicano, dichas características se conservan en lenguajes como el Inglés, el Francés, el Japonés, etc.

Page 21: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

En el idioma Español existen DIEZ reglas, las cuales determinan la separación de las sílabas de una palabra. Estas reglas son listadas a continuación[Díaz, 1970], [Cabral,

1978], mostrando enseguida de la regla ejemplos de la misma, así como excepciones.

REGLA 1.- En las sílabas, por lo menos, siempre tiene que haber una vocal. Sin vocal no hay sílaba.REGLA 2.- Cada elemento del grupo de consonantes inseparables, mostrado en la figura, no puede ser separado al dividir una palabra en sílabas.

REGLA 3.- Cuando una consonante se encuentra entre dos vocales, se une a la segunda vocal.

REGLA 4.- Cuando hay dos consonantes entre dos vocales, cada vocal se une a una consonante

Page 22: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

REGLA 5.- Si son tres las consonantes colocadas entre dos vocales, las dos primeras consonantes se asociarán con la primera vocal y la tercer consonante con la segunda vocal.Excepción.- Esta regla no se cumple cuando la segunda y tercera consonante forman parte del grupo de consonantes inseparables.

REGLA 6.- Las palabras que contienen una h precedida o seguida de otra consonante, se dividen separando ambas letras.

REGLA 7.- El diptongo es la unión inseparable de dos vocales. Se pueden presentar tres tipos de diptongos posibles:Son diptongos sólo las siguientes parejas de vocales: ai, au, ei, eu, io, ou, ia, ua, ie, ue, oi, uo, ui, iu, ay, ey, oy. Ejemplo

La unión de dos vocales abiertas o semiabiertas no forman diptongo, es decir, deben separarse en la segmentación silábica. Pueden quedar solas o unidas a una consonante. Ejemplo

Page 23: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

 

REGLA 8La h entre dos vocales, no destruye un diptongo. Ejemplo:

REGLA 9

La acentuación sobre la vocal cerrada de un diptongo provoca su destrucción.

REGLA 10La unión de tres vocales forma un triptongo. La única disposición posible para la formación de triptongos es la siguiente:Vocal cerrada + ( vocal abierta | vocal semiabierta ) + vocal cerradaSólo las siguientes combinaciones de vocales, forman un triptongo: iai, iei, uai, uei, uau, iau, uay, uey.

Page 24: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Para realizar la implantación del Sistema Experto se consideran los siguientes puntos:

CONJUNTOS A ANALIZAR:

CI = {br,bl,cr,cl,dr,fr,fl,gr,gl,kr,ll,pr,pl,tr,rr,ch}VD={ai,au,ei,eu,io,ou,ia,ua,ie,ue,oi,uo,ui,iu,ay,ey,oy}VA={a}VS={e,o}VC={i,u}CC={ll.rr,ch}CS={b,c,d,f,g,h,j,k,l,m,n,ñ,p,q,r,s,t,v,w,x,y,z}VT={iai, iei, uai, uei, uau, iau, uay, uey}

Donde:CI. Consonantes Inseparables. VC. Vocales Cerradas VD. Vocales Diptongo CC. Constantes CompuestasVA. Vocales Abiertas CS. Constantes SimplesVS. Vocales Semiabiertas VT. Vocales Triptongo.

Page 25: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Construcción de las Reglas del Motor de Inferencia.

1. Si se presentan CC ^ CC CI /CC/2. Si se presentan VCV /V/ /CV/3. Si se presentan VCCV /VC/ /CV/4. Si se presentan VCCCV /VCC/ /CV/5. Si se presentan C1C2 ^ C1=‘h’ o C2=‘h’ /C1/ /C2/6. Si se presentan VV VA, VS /VV/7. Si se presentan VV VA, VS /V/ /V/8. Si se presentan VCV con C=‘h’ /VCV/9. Si se presentan V1V2 cualquiera acentuada /V1/ /V2/10. Si se presentan VVV VT /VVV/

Las reglas establecidas de la forma anterior, se manifiestan como los postulados para su verificación dentro del sistema de reconocimiento. La división puede ser gestionada por el análisis de las formas del espectrograma, parámetros matemáticos (como el caso de este trabajo), o bien por medios estadísticos.

Page 26: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

ANÁLISIS DE LA RAMA VCV

ANÁLISIS DE LA RAMA VCCV

Page 27: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

ANÁLISIS DE LA RAMA VCCCV

ANÁLISIS DE LA RAMA V1V2

Page 28: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

  

En la tabla se muestran las posibles combinaciones de este caso, un ejemplo de cada combinación y el número de regla aplicada para la separación en sílabas de esa palabra.

Combinación Ejemplo Número de regla aplicada

V A 1

VC Ár + bol 4

VV Au + tomóvil 7

VVC Aun + que 7, 4

 

Inicio de sílaba: VocalNótese que se excluyeron los casos VVV y VVVC, debido a que en 9000 palabras que fueron analizadas no se encontró ninguna coincidencia[Camacho, 1978].

Page 29: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,
Page 30: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,
Page 31: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

ENTRENAMIENTO

Procedimientos de

entrenamiento

Estimación de la máxima probabilidad (MLE). Se basa en la maximización de la probabilidad de los datos de entrenamiento.

Estimación del máximo a posteriori (MAP). Las densidades a priori de los parámetros del modelo son tomados en cuenta en el proceso de maximización.

El desarrollo teórico de las fórmulas iterativas de estos algoritmos se basa en la desigualdad de Baum [Baum 67].

Las aplicaciones de ambos métodos son distintas, MLE suele usarse para entrenamiento de grandes bases de datos, mientras que MAP es útil cuando el número de datos de entrenamiento es pequeño. MAP alcanza el mismo rendimiento cuando se aplica a grandes bases de datos.

Page 32: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

MODELO DE ENTRENAMIENTO

Base de datosacústica

Modelo deentrenamiento

simple

Modelo de entrenamiento

simúltaneo

Archivo de Modelos Acústicos

reestimados

Extracción decaracterísticas

Campo de modelosacústicos anteriores

Etiquetas de fronteras

Etiquetas

muestras

El modelo de entrenamiento esta basado en el algoritmo de Baum-Welch

Page 33: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

MODELO DE ENTRENAMIENTO

Base de datosacústica

Modelo deentrenamiento

simple

Modelo de entrenamiento

simúltaneo

Archivo de Modelos Acústicos

reestimados

Extracción decaracterísticas

Campo de modelosacústicos anteriores

Etiquetas de fronteras

Etiquetas

muestras

El modelo de entrenamiento esta basado en el algoritmo de Baum-Welch

GESTIÓN DEL SISTEMA EXPERTO

Page 34: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

MODELO DE ENTRENAMIENTODos consideraciones deben de seguirse para realizar la estimación de cada modelo al hacer uso de las fórmulas de reestimación de Baum-Welch.

La primera consideración, conocida como Modelo de Entrenamiento Sencillo, cada modelo de una unidad de voz es reestimada sin afectar a las demás. Por lo que los datos de entrenamiento “segmentados” son requeridos para un entrenamiento completo. Los datos de voz son segmentados con la ayuda de las etiquetas especificadas con anterioridad, extraídas a partir de la etapa del Sistema Experto.

La segunda consideración, conocida como Modelo de Entrenamiento Simúltaneo, la reestimación se realiza de forma simúltanea para todos los modelos de las unidades de voz. Este tipo de entrenamiento es más lento y menos flexible dado que no se puede reestimar una unidad sin alterar las contiguas.

Page 35: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

EL MODELO DEL LENGUAJE.Un reconocimiento adecuado puede ser llevado a cabo por el conocimiento a priori sobre las secuencias a ser reconocidas. En el reconocimiento de voz, un conocimiento a priori puede ser obtenido de la siguiente forma:

Las palabras reconocidas deben de pertenecer a un vocabulario predefinido posiblemente pequeño. El vocabulario puede ser un sistema de reservación en líneas aéreas.

Las secuencias admisibles de las palabras reconocidas son usualmente menores a todas las secuencias posibles.

El papel del modelo del lenguaje consiste en reducir el conjunto de palabras posibles o secuencias de palabras en lo que se conoce con el nombre de espacio de búsqueda.

Los ASR’s usan de forma satisfactoria la información del lenguaje contenida dentro del modelo del lenguaje. Éste puede estar basado en diferentes principios.

Page 36: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

EL SITEMA GENERAL DE PRUEBA

Page 37: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

 La matriz de transiciones de Markov tuvo 6 estados, es decir, una matriz de 6x6.    Además de la matriz B del orden de 128x12. El libro código para el caso de LPC tuvo un tamaño de 32x12. Cada sílaba se pronunció en intervalos de 5 a 8 veces.   La ventana de Hamming fue de 256 puntos. El coeficiente del filtro de preénfasis fue de 0.98.  Traslape entre frames fue del 50%. Su uso la ecuación de Levinson-Durbin para encontrar los coeficientes LPC.

RESULTADOS OBTENIDOS EN EL HABLA DISCONTINUA

Page 38: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

REPRESENTACIONES DE LA LONGITUD DE LAS SÍLABAS EN UN CORPUS DE DÍGITOS.

Page 39: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

 La otra sílaba se encuentra en el intervalo de 87 (11136) hasta el 121 (15488), como lo muestra la siguiente figura: 

Page 40: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

A continuación se muestran gráficas y el programa usado para realizar la segmentación automática y los resultados obtenidos del reconocimiento. MATRIZ DE VALORES DE ENERGIA PARA LA PALABRA CERO.

0.1438 .01396 .01473 .01648 0.1500 0.1247 0.0936 0.0539 0.0797 0.2409

0.3254 0.2404 0.2286 0.2704 0.2291 0.1638 0.1607 0.1774 0.1698 0.1735

0.1677 0.1656 0.1740 0.1958 0.2440 0.2595 0.2228 0.2122 0.2158 0.2025

0.2056 0.6649 1.4025 3.1734 4.1051 5.5392 7.9105 8.8134 9.5190 10.247511.915

213.4525

15.0421

16.4577

17.5969

17.9182

17.2774

15.7152

13.2223

11.47079.0478 6.3210 4.4554 2.5601 1.3398 0.8280 .03524 0.3288 0.5000 0.5591

0.4745 0.3623 0.2623 0.2239 0.1999 0.1939 0.1752 0.1451 0.1867 0.2479

0.2399 0.2063 0.2065 0.1915 0.1948 0.2310 0.2146 0.1925 0.2012 0.1870

0.1747 0.1706 0.1659 0.1671 0.1765 0.1749 0.1699 0.1492 0.6112 0.7737

0.6923 1.6484 3.6975 5.3254 6.9727 9.1572 11.9152

12.3934

12.9217

13.300014.212

013.1026

11.9152

11.1012

11.4090

11.2646

8.8199 5.8689 4.0442 2.7961

2.1538 1.7145 1.1036 0.5715 0.2503 0.3454 0.3578 0.2634 0.2116 0.2157

0.2241 0.2420 0.2478 0.2285 0.2085 0.2050 0.1915 0.1869 0.1955 0.2013

0.1810 0.1616 0.1568 0.1479 0.1559 0.1767 0.1705 0.1540 0.1574 0.1762

0.1702 0.1586 0.1610 0.1540 0.1440 0.1389 0.1294 0.1305 0.1312 0.1265

0.1340 0.1372 0.1377 0.1370 0.1314 0.1331 0.1365 0.1353 0.1302 0.1243

0.1212 0.1291 0.1457 0.1457            

Page 41: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

  U No Dos Tres Cua Tro Cin Co Seis Sie Te O Cho Nue Ve Diez

U 10                              

No   10                            

Dos     10                          

Tres       10                        

Cua         10                      

Tro           10                    

Cin             10                  

Co               10                

Seis                 9             1

Sie                   9           1

Te                     10          

O                       10        

Cho                         10      

Nue                           10    

Ve                             10  

Diez                               10

Page 42: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Distribución en Regiones para la sílaba "tres"

0

10

20

30

40

50

60

70

0 1 2 3 4 5 6 7 8 9 10 11 12

Optimizaciones

Número de Vectores

D ist rib u c ió n e n R e g io n e s p a ra la s íla b a "t re s"

0

50

100

150

200

0 1 2 3 4 5 6 7

Optimizac iones

N úmero de Vec tores

Distribución de Regiones

0

200

400

600

800

1000

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125

Regiones

#Vectores

REPRESENTACIONES DE LA DISTRIBUCIÓN DE REGIONES DE UN LIBRO CÓDIGO PARA EL RHD.

Page 43: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

REPRESENTACIONES DE LA DISTRIBUCIÓN DE REGIONES DE UN LIBRO CÓDIGO PARA EL RHD.

Page 44: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

RESULTADOS OBTENIDOS HACIENDO USO DE LA ENERGÍA EN LA SEGMENTACIÓN.

Page 45: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Para poder incrementar dicha tarea de reconocimiento se recurrió a utilizar la variante del parámetro RO (parámetro que permite obtener la respuesta en frecuencia de una señal de voz por encima de los 4000 Hz., por ejemplo), que se obtiene tras la aplicación de un filtro digital a la señal.  Para fines de este trabajo se probó con un filtro digital pasabanda de 20 puntos y con una ventana de Hamming.

RESULTADOS OBTENIDOS HACIENDO USO DE LA ENERGÍA Y EL PARÁMETRO RO EN LA SEGMENTACIÓN.

Page 46: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

  

Las palabras que contienen una componente de alta energía se verán beneficiadas, pues el filtro está diseñado para dejarlas pasar, esto se puede observar en las señales de la gráfica.

Con ayuda del sistema experto se identifica el número de sílabas que conforman a las palabras del corpus, posteriormente se obtienen los parámetros de energía para ambos casos (aplicación y no del filtro), con lo cual se identifican tales elementos. Figura 5.1.

Dado que el sistema experto analiza las componentes de los elementos del corpus, se puede deducir el número de sílabas y como están conformadas. Tales tareas aún son realizadas de forma semiautomática.

El uso de estos dos parámetros conlleva a encontrar regiones de duración de las señales de voz con y sin presencia de tales elementos.

Con estos parámetros incrustados, se puede verificar que las señales de voz poseen regiones de transición energía-parámetro RO, las cuales son gestionadas por el experto.

RESULTADOS OBTENIDOS HACIENDO USO DE LA ENERGÍA Y EL PARÁMETRO RO EN LA SEGMENTACIÓN.

Page 47: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

REPRESENTACIÓN ENERGÍA-PARÁMETRO RO EN LA SEGMENTACIÓN.

Page 48: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

RESULTADOS OBTENIDOS USANDO LA ENERGÍA Y EL PARÁMETRO RO EN LA SEGMENTACIÓN.

Page 49: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

RESULTADOS OBTENIDOS USANDO LA ENERGÍA Y EL PARÁMETRO RO Y EL EXPERTO EN LA SEGMENTACIÓN.

Page 50: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

RESULTADOS OBTENIDOS USANDO LA ENERGÍA Y EL PARÁMETRO RO EN LA SEGMENTACIÓN DE UN CORPUS

MÁS GRANDE.

Page 51: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Los aportes del presente trabajo se enumeran a continuación: v     Uno de los puntos medulares de aportación del presente trabajo lo representa la inmersión del sistema experto a la tarea de entrenamiento del mismo. El estudio del paradigma de la sílaba por sí solo representa en el Español, una aportación pues el reconocimiento de voz basado en tal paradigma se encuentra en estudio para el lenguaje.  v     El sistema experto tiene su razón de aplicarse tras la investigación realizada de la sílaba, pues independientemente del punto de vista lingüístico o textual que se analice a las frases del lenguaje, las reglas silábicas existen. Al extraer estas reglas silábicas y tomarlas como referente en las etapas de entrenamiento representa un aporte derivado del aporte anterior. v     En busca de la mejora del reconocimiento obtenido con los resultados obtenidos se presenta un nuevo método para realizar la tarea de segmentación de unidades silábicas, el parámetro RO es parte esencial de la tarea de segmentación, pues permitió encontrar regiones que con la energía no fue posible, esto mejoró los resultados obtenidos en trabajos realizados para el Portugués [17] de forma significativa para el mismo caso de unidad usada. v     La incrustación de un algoritmo sencillo de ajuste de parámetro de los Modelos Ocultos de Markov estáticos y su análisis, representa otra de las aportaciones del presente trabajo. Su análisis desemboca en que se puede crear un sistema de reconocimiento del habla discontinua haciendo uso de este algoritmo, que en realidad la expresión no es nueva pero sí la forma en la que se realiza, y tras lo experimentos realizados demuestra su grado de efectividad.

APORTES DE LA INVESTIGACIÓN

Page 52: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Los aportes del presente trabajo se enumeran a continuación: v    Para trabajar con el reconocimiento orientado a la sílaba, se implementó la unidad de representación y se entrenaron los sistemas de reconocimiento basados en sílabas. Se realizaron diversos experimentos con esos sistemas individualmente y en combinación para examinar su eficiencia. La incorporación del sistema experto en la etapa de entrenamiento, contribuye a dotar a la etapa de reconocimiento, del conocimiento de la segmentación silábica y de las estructuras y tipos de sílabas, lo cual produce una elevada mejoría en los resultados finales. ES IMPORTANTE SEÑALAR QUE ESTE APORTE ES GENERALIZABLE PARA MUCHAS OTRAS APLICACIONES, DONDE LA ETAPA DE ENTRENAMIENTO DEL SISTEMA SE PUEDE VER FAVORECIDO POR LA INTRODUCCIÓN DE UN SISTEMA EXPERTO Y NO SOLO POR EL MODELO DE COMPORTAMIENTO DEL FENOMENO BAJO ESTUDIO.

APORTES DE LA INVESTIGACIÓN

Page 53: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

Este trabajo describió el uso de la información silábica para ASR en dos fases: la incorporación de estimaciones de inicio de sílabas en el habla discontinua y la combinación de estos tipos de estructuras en el habla continua. Dado que los sistemas actuales trabajan con la información de los sistemas basados en fonemas y la vertiente del presente trabajo se relaciona con sistemas basados en sílabas, una nueva dirección para trabajos futuros es una combinación futura de estos dos tipos de información enfocados al idioma Español.  Como se mencionó anteriormente, los experimentos de inicios de sílaba pueden ser relacionados a la combinación de experimentos al nivel de sílaba a través de una interpretación basada en intervalos de longitud de sílaba. Ambos métodos pueden ser mencionados con hipótesis de intervalos de longitud de la sílaba en varias características relacionadas a los segmentos. Esta permutación a futuro requiere unir a la sílaba en cada uno de los tres sistemas de reconocimiento. Dadas estas preguntas en la definición específica de la sílaba, a futuro esta investigación es necesaria.

En este trabajo se ha demostrado que la incorporación de la sílaba en un sistema de reconocimiento de voz aplicado a corpus pequeños y medianos, genera buenos resultados en sistemas tanto del habla continua como discontinua, lo cual resulta prometedor para aplicaciones de gran robustez. El reconocimiento orientado a sílabas representa un paradigma diferente sobre las señales de voz del reconocimiento orientado a fonemas, sobre todo, cuando se aplica al Español. Dicho paradigma conduce a un rendimiento estable y sostenido, los experimentos demuestran tal hecho.

CONCLUSIONES

Page 54: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

 Los resultados demuestran en principio, que uno de los puntos importantes para abordar el uso de las sílabas en tales sistemas es analizar las estructuras que la conforman de acuerdo al idioma.  El Español a diferencia de otros lenguajes, posee un conjunto de reglas que describen la formación de las sílabas que se presentan en dicho lenguaje. El estudio de tal situación, se manifiesta tanto en corpus de voces como en textos literarios, esta característica fue aprovechada al implantar dichas reglas en el sistema experto que ayudó en gran parte de los experimentos de este trabajo, sobre todo, en la parte de entrenamiento del sistema.  En cuanto a los resultados obtenidos, se deduce que el uso de las sílabas repercute en una alternativa al uso de los fonemas, como parte esencial que diferencia a uno del otro, es que las sílabas se conforman en estructuras bien definidas dentro del lenguaje (las reglas), mientras que los fonemas, carecen de tal elemento. Para terminar, el reconocimiento de voz es un producto en demanda, existe una motivación considerable por resolver los problemas que contienen los sistemas que implementan esta técnica en el desarrollo universal. El trabajo en esta tesis usó la unidad de la sílaba y una combinación de métodos que contribuyen a un pequeño paso al final de la meta.

CONCLUSIONES

Page 55: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

 [1] Jesus Savage Carmona, A Hybrid Systems with Symbolic AI and Statical Methods for Speech Recognition, University of Washington, 1995.[2] José Luis Oropeza Rodríguez, Reconocimiento de Comandos Verbales usando HMM, Centro de Investigación en Computación, Julio 2000.[3] Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993.[4] Peter Wilken and Dirk Honekamp, La sílaba como elemento de reconocimiento en un ASR, Abacus, 1991.[5] Ricardo Barrón Fernández, Reconocimiento de palabras aisladas usando cuantización vectorial, Centro de Investigación en Computación, Octubre 1998.[6] Wu, S., “Incorporating information from syllable-length time scales into automatic speech recognition”, Tesis de doctorado, Universidad de California en Berkeley, 1998.[7] Jones R., Downey S., Mason J., “Continuous Speech Recognition Using Syllables”, Proceedings of Eurospeech, Vol. 3, pp. 1171-1174, Rhodes, Grecia 1999.[8] Feal L., “Sobre el uso de la sílaba como unidad de síntesis en el Español”, Informe Técnico, Departamento de Informática, Universidad de Valladolid, 2000.[9] Jialu Zhang, “On the syllable structures of Chinese relating to speech recognition”, Institute of Acoustics, Academia Sinica Beijing, China, 1999.[10] Jonathan Hamaker, et al, “Advances in Alphadigit Recognition using syllables”, Institute for Signal and Information Processing, Mississippi State University, 1998.[11] Joe Tebelskis, “Speech Recognition using Neural Networks”, School of Computer Science, Carnegie Mellon University, 1995.[12] Eric Chang, “Large Vocabulary Mandarin Speech Recognition with Different Approaches in Modeling Tones”, Microsoft Research China, 1998.[13] Bernal J., Bobadilla J., Gómez P., Reconocimiento de Voz y Fonética Acústica, Alfaomega, México D. F., 2000. [14] Rabiner L,. “A Tutorial On Hidden Markov Models And Selected Applications in Speech Recognition”, Proceedings of IEEE, Vol. 77, no. 2, pp. 257-286, 1989.[15] Hartmut R. Pfitzinger, Susanne Burger, Sebastian Heid, “Syllable Detection in Read and Spontaneous Speech”, Institut für Phonetik und Sprachliche Kummunikation, University of Munich, Germany, 1998.[16] DongSuk Yuk and James Flanagan, “Telephone Speech Recognition using Neural Networks and Hidden Markov Models, AT&T, 1998.[17] Xue Wang, Louis F. M. ten Bosch* & Louis C. W. Pols, “Integration of Context-Dependent Durational Knowledge into HMM-Based Speech Recognition, Institute of Phonetics Sciences/IFOTT, University of Amsterdam, 1999.[18] Fabiola Margarita Martínez Licona, “Análisis y evaluación de sílabas en Español para su utilización en sistemas de reconocimiento automático del habla”, Universidad Autónoma Metropolitana, UAM-Iztapalapa, 2002.[19] Bernstein, Jared, et al, The Latino40 Speech Database. Entropic Research Laboratory, Washington, DC. 1994.[20] Daniel Jeremy Kershaw, “Phonetic Context-Dependency In a Hybrid ANN/HMM Speech Recognition System”, St. John’s College, University of Cambridge, 1999.[21] Hu Z., Schalkwyk J., Barnard E., Cole R., “Speech Recognition using Syllable-like Units”, Proceedings of ICSLP, Vol. 2, pp. 1117-1120, 1997.[22] Boulard H., Dupont S. “A new ASR Approach Based On Independent Processing and Recombination of Frequency Bands.” Proceedings of ICSLP, Vol 1, pp. 426-429, 1996.[23] Hauenstein A., “The syllable Re-visited”, Technical Report, Siemens AG, Corporate Research and Development, München Alemania, 1996.[24] Wu S., Shire M., Greenberg S., Morgan N., “Integrating Syllable Boundary Information into Automatic Speech Recognition “, ICASSP, Vol. 1, Munich Alemania, 1997.[25] Jones R., Downey S., Mason J., “Continuous Speech Recognition Using Syllables”, Proceedings of Eurospeech, Vol. 3, pp. 1171-1174, Rhodes, Grecia 1999.  

Page 56: Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática,

[26] Fosler-Lussier E., Greenberg S., Morgan N., “Incorporating Contextual Phonetics into Automatic Speech Recognition”, XIV International Congress of Phonetic Sciences, pp. 611-614, San Francisco, 1999.

[27] Weber K., “Multiple Timescale Feature Combination Towards Robust Speech Recognition”, Konferenz zur Verarbeitung natürlicher Sprache KOVENS2000, Ilmenau, Alemania, 2000.

[28] Meneido H., Neto J., “Combination of Acoustic Models in Continuos Speech Recognition Hybrid Systems”, 2000.

[29] Ganapathiraju A., Hamaker J., Picone J., Doddington G., “Syllable-Based Large Vocabulary Continuous Speech Recognition”, IEEE Transactions on Speech and Audio Processing, Vol. 9, No. 4, Mayo 2001, pp. 358-366.

[30] King S., Taylor P., Frankel J., Richmond K., “Speech Recognition via Phonetically Featured Syllables”, Phonus, 2000.

[31] Córdoba R., Menéndez-Pidal X., Macías Guasara J., et al., “Development and Improvement of a Real-Time ASR System for Isolated Digits in Spanish over the Telephone Line”, Proceedings Eurospeech, pp. 1537-1540, Madrid 1995.

[32] Montero J., Gutiérrez Arreola J., Colás J., et al. “Development of an emotional Speech Synthesiser in Spanish”, Proceedings Eurospeech, pp. 2099-2102, Budapest 1999.

[33] Munive M., Vargas A., Serridge B., “Entrenamiento de un Reconocedor Fonético de Dígitos para el Español usando el CSLU Toolkit”, Revista de Computación y Sistemas, 1998.

[34] Fanty M., “Overview of the CSLU Toolkit”, Center for Spoken Language Understanding, Oregon Graduate Institute of Science & Technology, USA 1996.

[35] Dominic W. Massaro, “Perceptual Images, Processing Time and Perceptual Units in Auditory Perception”, Psychological Review, pp. 124-145, 1972.

[36] Barbara Peskin, Larry Gillick, Natalie Liberman, et al., “Progress in Recognizing Conversational Telephone Speech”, ICASSP, Vol. 3, pp. 1811-1814, Toronto Canada, Mayo 1991. IEEE.

[37] Fujimora O., “Transactions on Acoustics Speech and Signal processing”, ASSP-23(1):82-87, Febrero de 1975.

[38] Fujimora O., “Syllable as a Unit of Speech Recognition”, IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP Vol. 23, no. 1, pp. 82-87, Febrero 1975.

[39] Tan Lee, P. C. Ching, “A Neural Network Based Speech Recognition System For Isolated Contonese Syllables”, The Chinese University of China, 1998.

[40] Zhemin Tu and Philipos C. Loizou, “Speech Recognition Over The Internet Using Java”, University of Arkansas at Little Rock, ICASSP99.

[41] Boulard H., Hermansky H., M N., “Towards increasing speech recognition error rates”. Speech Communication Vol. 18, pp. 205-231, 1996.

[42] Quilis A., “Fonética acústica de la lengua española”, Editorial Gredos, España, 1988.

[43] Moreno A., Mariño J., “Spanish Dialects: Phonetic Transcription”, 5th International Conference on Spoken Language Processing, Sydney Australia, 1998.

[44] Greenberg S., “Understanding speech understanding: Towards an unified theory of Speech Recognition”, XIV International Congress of Phonetic Sciences, pp611-614, San Francisco, 1999.