Reconocimiento Automático del...

46
TIC en Redes Móviles TIC en Redes Móviles Reconocimiento Automático del Habla Reconocimiento Automático del Habla ¿Qué entendemos por RAH? El reconocimiento automático del habla es un proceso por el cual una máquina transcribe en texto una señal acústica de voz ¿Qué entendemos por Comprensión Autómática del Habla? La comprensión automática del habla es un proceso por el cual una máquina asocia a una señal acústica de voz algún tipo abstracto de significado, decodifica el mensaje transportado por la señal.

Transcript of Reconocimiento Automático del...

Page 1: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento Automático del HablaReconocimiento Automático del Habla

¿Qué entendemos por RAH?El reconocimiento automático del habla es un proceso por el cual una máquina transcribe en texto una señal acústica de voz

¿Qué entendemos por Comprensión Autómática del Habla?

La comprensión automática del habla es un proceso por el cual una máquina asocia a una señal acústica de voz algún tipo abstracto de significado, decodifica el mensaje transportado por la señal.

Page 2: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Algunos Hitos HistóricosAlgunos Hitos Históricos

“Open sesame”from Ali Baba and the 40 Thieves(Tales from 1001 Nights)El primero???El primero???

Dave Bowman: Open the pod bay doors, HAL.HAL: I’m sorry Dave, I’m afraid I can´t do that.

Stanley Kubrick and Arthur C. Clarke,

Screenplay of 2001: A Space Odissey

El futuro???El futuro???

Page 3: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

• Los inicios: años 50– Bell Labs .... Reconocimiento de dígitos aislados monolocutor– RCA Labs .... Reconocimiento de 10 sílabas monolocutor– University College in England .... Reconocedor fonético– MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante

• Los fundamentos: años 60– Comienzo en Japón (NEC labs)– Dynamic time warping .... Vintsyuk (Soviet Union)– CMU ... Reconocimiento del Habla Continua .... HAL 9000

• Las primeras soluciones: años 70, el mundo probabilístico– Reconocimiento de palabras aisladas

• LPC, programación dinámica– IBM: inicio proyecto reconocimiento de grandes vocabularios– Gran inversión en los USA: proyectos DARPA– Sistema HARPY (CMU) primer sistema con exito

Algunos Hitos HistóricosAlgunos Hitos Históricos

Page 4: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Algunos Hitos HistóricosAlgunos Hitos Históricos• Reconocimiento del Habla Continua: años 80, expansión

– Algoritmos para el habla continua y grandes vocabularios– Explosión de los métodos estadísticos: Modelos Ocultos de Markov

• utilizados inicialmente por IBM y Dragon Systems, popularizados porBell Labs

– Introducción de las Redes Neuronales en el reconocimiento de voz

• Empieza el negocio: años 90, primeras aplicaciones– Ordenadores y procesadores baratos y rápidos– Sistemas de dictado– Integración reconocimiento de voz y procesado del lenguaje natural.

• ¿Una realidad?: años 00, integración en el S.O.– Integración teléfono y Voice Web browsers– Motores de RAH en los sistemas operativos – Multimodalidad, multilingualidad– VI Programa Marco EU: Ambient Intelligence

Page 5: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Y el futuro...Y el futuro...Making Speech MainstreamXuedong HuangGeneral Manager, Microsoft .NET Speech Technologies Group

Tasks Machines’error rate today

Humans’error rate

# of years for machines to catch up with humans

Freestyle speech transcription

30 % 4 % 19 years

Digit strings 0.7 % 0.009 % 41 years

Alphabet letters

5 % 1 % 15 years

Newspaper speech transcription

3 % 0.9 % 11 years

Page 6: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Algunas dificultadesAlgunas dificultades1. ¿El sistema de RAH tiene que reconocer la voz de una

persona o varias personas (incluyendo, quizas, cualquier persona)?

2. ¿Cual es el tamaño del vocabulario a reconocer?

3. Sobre el modo de dirigirse al sistema de RAH

4. Entorno acústico en el que se utilizará el sistema de RAH

5. ¿Cómo activar o se activa el sistema de RAH?

6. Variabilidad acústica y confusión acústica del vocabulario

7. ¿Qué fuente de conocimento son necesarias incorporar en el sistema de RAH?

Page 7: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

Mono vs. Mono vs. IndependienteIndependiente del del locutorlocutorMonolocutor

el sistema aprende utilizando la voz de una única personaresultados altos en tasas de reconocimientomodalidad necesaria para personas con problemas de

dicciónIndependiente del locutor

aprendizaje con grandes bases de datos de voz de muchas personas

se reduce la tasa de reconocimientonecesario para aplicaciones telefónicas

TIC en Redes MóvilesTIC en Redes Móviles

Adaptación al locutoraprendizaje inicial con multiples locutoresaprendizaje posterior con el uso de una personadespués de la adaptación comportamiento como

monolocutorvolver

Page 8: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

TamañoTamaño del del VocabularioVocabulario

Incremento de la dificultad de reconocimiento con el tamañodel vocabulario:

p.e. El usuario no conoce todas las palabras que el sistema es capaz de reconocer

Incremento en la complejidad con el tamaño del vocabulario: memoria, cálculo y algoritmos de búsqueda.

Clasificación:pequeño vocabulario (1-99)vocabulario medio (100-999)grandes vocabularios (> 1000)

volver

Page 9: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

Palabras AisladasPalabras Aisladas vs. vs. Habla Habla ContinuaContinuaReconocimiento de palabras aisladas

las frases se pronuncian con pausas entre palabraspausas suficientemente largasfacilidad en la localización del inicio y final de palabrase simplifican los algoritmos de reconocimientomodo no natural de comunicación

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de habla continualas frases se pronuncian sin ningún tipo de restricciónpresencia de coarticulación entre palabras¿fronteras entre palabras?

Ambigüedad: terminados vs. termina dosmodo natural de comunicaciónfenómenos de habla espontanea: disfluencias

Interrupciones, correcciones, frases agramaticales, ….

volver

Page 10: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

Variabilidad Variabilidad y y Confusión AcústicaConfusión AcústicaVariabilidad acústica

Diferencias en las pronunciaciones de sonidosuna misma persona, entre personasCoarticulación

Unidad básica de reconocimientofonemas, difonemas, trifonemas, semisílabas, sílabas, palabras

TIC en Redes MóvilesTIC en Redes Móviles

Confusión acústica

similitud acústica entre palabras del vocabularioestalagmita, estalagtita

homófonos: baca, vaca volver

Page 11: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Entorno AcústicoEntorno AcústicoCondiciones de laboratorio: voz de alta calidad

sin ruidos, sin reverberación o ecos

Condiciones reales

ruido ambientalotras personas, equipos de sonido, aire acondicionado, ...

Distorsiones del canalvariaciones en los micrófonos, canal telefónico, salas, ...

Ruidos de respiración, toses, labios, ....volver

Page 12: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Activación del Sistema de RAHActivación del Sistema de RAHActivación manual: El usuario indica mediante, p.e. un pulsador,

cuando debe reconocer

Sistema fiable y robustoSistema poco versátil

Activación automáticaEn sistemas de diálogo:

por turnos por turnos con interrupción

Palabra de activación, tipo Star Trek En el futuro: por comprensión del diálogo

Volver

Page 13: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Fuentes de Fuentes de ConocimientoConocimientoLéxico:

¿Cómo se construyen las palabras a partir de las unidades de reconocimiento? fonemas, difonemas, trifonemas

Sintáctico:¿Cómo están relacionadas unas palabras con otras para formar una frase?Nivel de reconocimiento automático del habla

Semántico:¿Cúal es el significado de las palabras?, Ambigüedad: PolisemiasNecesario para mantener un diálogoNivel de comprensión

PragmáticoRelaciones entre las palabras y sus usos a lo largo del diálogo

“Me gusta” ---> hace referencia a algo ocurrido en el diálogo: ElipsisNivel de diálogo

Page 14: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento

Diálogo

volver

Comprensión

ArquitecturaArquitectura

Page 15: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

RAH: Las basesRAH: Las basesUna primera aproximación: Reconocimiento de PatronesUna primera aproximación: Reconocimiento de Patrones

Reconocimiento de Palabras Aisladas Reconocimiento de Palabras Aisladas por ajuste de plantillaspor ajuste de plantillas

Plantilla: secuencia de vectores de parámetros extraídos del análisis de una palabra.

Análisis y Selección Clasificador

Referencias

VADvoz

Page 16: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

características y patronescaracterísticas y patrones• Característica (feature)

– Es un aspecto o cualidad distintivo– Definiciones

• La combinación de d características se representa por un vector d-dimensional (columna) llamado vector de características (feature vector)

• El espacio d-dimensional definido por el vector de características es llamado espacio de carácteristicas (feature space)

• Si representamos los puntos de los vectores en el espacio tenemos una representación llamada scatter plot

• Patrón (pattern)– Es un par de variables {X, ω}, donde

• X, es una colección de observaciones (vectores de características)• ω, es el concepto detrás de la observación (etiqueta)

Page 17: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

características y patrones(2)características y patrones(2)• ¿ Qué hace “bueno” a un vector de características ?

– La calidad de un vector está relacionada con la capacidad para discriminar ejemplos de las diferentes clases

• Ejemplos de la misma clase deberían tener valores similares• Ejemplos de distintas clases deberían tener valores diferentes

• Más propiedades

Page 18: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Extracción y Selección de parámetros

Algunos criterios:1. Gran variabilidad entre clases2. Insensibles a variables extrañas al proceso físico3. Estables en el tiempo4. Fácil de medir5. No estén correlados entre ellos

Evaluación de parámetros:

Ratio de Fisher=

Interesan Ratios de Fisher elevados

Varianza de las medias (sobre todas las clases)

Medias de las varianzas (dentro de las clases)

Page 19: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidadreducción dimensionalidad• El problema de la dimensionalidad

– El problema ya lo remarcó Bellman en 1961– Cuando se hace análisis multi-variable de datos hay problemas

conforme se aumenta la dimensión

• Como consecuencia se puede decir que para un problema dado hay un número de dimensiones del vector de características para el que se da el mejor rendimiento

• Se presentan dos alternativas– Selección de características, escogiendo un subconjunto– Extracción de características, por combinación de las existentes

• Métodos PCA y LDA

Page 20: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad(2)reducción dimensionalidad(2)• El problema de la extracción de características se puede formular de la siguiente

manera– Dado un espacio de características xi∈RN se busca una función y=f(x): RN→ RM con M<N

de tal manera que el vector transformado y preserva la mayor parte de la información que tenía x.

– Una función óptima será la que no aumente la probabilidad de error• En general la función óptima será una función no-lineal

– De todas formas, al no disponer de una manera sistemática para generar esa función se recurre a transformaciones lineales de la forma

y = Wx– Donde y es una proyección de x

• Dependiendo del objetivo deseado para la función objetivo tenemos dos categorías– Representación de señal, El objetivo es representar de una manera precisa las muestras

del espacio de mayor dimensión y conservar la representatividad, transmisión, reconstrucción ... PCA

– Clasificación, El objetivo de la reducción es resaltar la discriminación entre clases, LDA

Page 21: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad: reducción dimensionalidad: pcapca• El objetivo de PCA (Principal Components Analysis) es la reducción de

dimensión preservando la variabilidad en el espacio origen al máximo– Si tenemos x, un vector N-dimensional representado por una combinación

lineal de vectores de una base ortonormal {ϕ1, ϕ2,..., ϕN}

– Suponemos que representamos x con M vectores de la base de manera que representen la mayor parte de la energía

– El error de representación es:

– El objetivo es minimizar el error cuadrático medio

1

01

donde N

i i i ii

i jx y

i jϕ ϕ ϕ

=

≠⎧= ⋅ = ⎨ =⎩∑

1 1

ˆ +M N

i i i ii i M

x y bϕ ϕ= = +

=∑ ∑

( )1

ˆN

i i ii M

x x x y b ϕ= +

∆ = − = −∑

( )2 22

1

N

i ii M

E x E y bε= +

⎡ ⎤ ⎡ ⎤= ∆ = −⎣ ⎦⎣ ⎦ ∑

Page 22: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad: reducción dimensionalidad: pcapca(2)(2)• Si hacemos esta minimización sin sujetar a ninguna restricción obtenemos lo

que se puede ver intuitivamente, los mismos coeficientes sin alterar

• Por notación, representamos el error en forma matricial

• La solución que buscamos tiene que cumplir la restricción de ortonormalidad, para ello utilizamos un conjunto de multiplicadores de Lagrange en la optimización

• Calculamos la derivada de la función de coste respecto a los vectores

( ) [ ]( ) [ ]2 2 0i i i i i ii

E y b E y b b E ybδδ

⎡ ⎤− = − − = ⇒ =⎣ ⎦

( )2

1 1

1N N

T Ti x i i i i

i M i M

ε ϕ ϕ λ ϕ ϕ= + = +

== Σ + −∑ ∑

[ ]( ) [ ]( ) [ ]( )

[ ]( ) [ ]( )

22

1 1

1 1

N N Ti i i i i i

i M i MN NTT T

i i i x ii M i M

E y E y E x E x x E x

E x E x x E x

ε ϕ ϕ ϕ ϕ

ϕ ϕ ϕ ϕ

= + = +

= + = +

⎡ ⎤ ⎡ ⎤== − = − − =⎣ ⎦ ⎣ ⎦

⎡ ⎤− − = Σ⎣ ⎦

∑ ∑

∑ ∑

( ) ( )

( ) ( )

2

1 1

1 2 0

: 2 , si A es simétrica

N NT Ti x i i i i x i i i x i i i

i M i Mi i

T TdNOTA x Ax A A x Axdx

δ δε ϕ ϕ λ ϕ ϕ ϕ λϕ ϕ λϕδϕ δϕ = + = +

⎡ ⎤== Σ + − = Σ − = ⇒ Σ =⎢ ⎥⎣ ⎦

= + =

∑ ∑

Page 23: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad: reducción dimensionalidad: pcapca(3)(3)• Reducción de dimensionalidad por PCA

– La aproximación de un vector de dimensión N por una combinación de M vectores de dimensión M, con M < N, independientes se obtiene proyectando los vectores aleatorios x en los M vectores propios de mayor valor de la matriz de covarianzas de los vectores x, Σx

• Notas– PCA no considera la separabilidad entre clases ya que no tiene en cuenta la

etiqueta de los vectores– PCA rota los ejes coordenados de manera que se alineen con las direcciones

de máxima variación– No hay garantía de que las direcciones de máxima variación contengan

buena capacidad de discriminación

Page 24: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad: LDAreducción dimensionalidad: LDA• EL objetivo de LDA (Linear Discriminant Analysis) es la reducción de

dimensionalidad a la vez que se mantenga la máxima discriminación posible– La transformación se define como antes:

y = wT x– La media de cada uno de los vectores es:

– Como primera aproximación suponemos que la función objetivo es la distancia entre las medias

– Como podemos presuponer la distancia entre las medias no es una buena medida, ya que no tiene en cuenta la desviación estándar en las clases

1 1 1 = i i i

T Ti i i

x y xi i i

x y w x wN N Nω ω ω

µ µ µ∈ ∈ ∈

= = =∑ ∑ ∑%

( )1 2 1 2( ) TJ w wµ µ µ µ= − = −% %

Page 25: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad: LDA(2)reducción dimensionalidad: LDA(2)• La solución propuesta es el ratio de Fisher, en la que la distancia entre

las medias se normaliza por la desviación estándar de las clases– Para cada clase definimos el scatter o covarianza interna:

– Definimos la varianza total interna de las clases como, within class scatter:

– El discriminante lineal de Fisher se define como la función que maximiza el criterio dado por la función (ratio de Fisher)

– Encontraremos la proyección donde ejemplos de la misma clase serán proyectadoscerca unos de otros y los de clases diferentesalejados.

( )22

i

i iy

s yω

µ∈

= −∑% %

( )2 21 2s s+% %

21 22 21 2

( )J ws sµ µ−

=+

% %

% %

Page 26: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad: LDA(3)reducción dimensionalidad: LDA(3)• Para encontrar la proyección óptima w, necesitamos expresar J(w) como

función explícita de w• Definimos la medida de scatter en el espacio x.

– La matriz SW se llama within-class scatter, representa la variación dentro de las clase

• El scatter de la proyección se puede poner en función del scatter en x

• De igual manera la diferencia entre las medias proyectadas se puede expresar en términos del espacio original y de la transformación

– La matriz SB se llama between-class scatter, representa la distancia entre los centros de las clases

• Así, representamos el criterio de Fisher de la siguiente forma:

( )( )

1 2

i

Ti i i

x

w

S x x

S S Sω

µ µ∈

= − −

+ =

( ) ( ) ( )( )22

1 2

i i i

TT T T Ti i i i i i

y x x

Tw

s y w x w w x x w w S w

s s w S wω ω ω

µ µ µ µ∈ ∈ ∈

= − = − = − − =

+ =

∑ ∑ ∑% %

% %

( ) ( ) ( )( )221 2 1 2 1 2 1 2

TT T T TBw w w w w S wµ µ µ µ µ µ µ µ− = − = − − =% %

( )T

BT

W

w S wJ ww S w

=

Page 27: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidad: LDA(4)reducción dimensionalidad: LDA(4)• Para encontrar el máximo de J(w) derivamos e igualamos a 0

• Dividimos por wTSWw

• Resolvemos el problema de valores singulares

• O bien directamente en

[ ]( ) 0

0

2 2 0

TB

TW

T TB WT T

W B

T TW B B W

w S wd dJ wdw dw w S w

d w S w d w S ww S w w S w

dw dww S w S w w S w S w

⎡ ⎤= = ⇒⎢ ⎥

⎣ ⎦⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤− = ⇒⎣ ⎦ ⎣ ⎦

⎡ ⎤ ⎡ ⎤− =⎣ ⎦ ⎣ ⎦

1

0

0

0

T TW B

B WT TW W

B W

W B

w S w w S wS w S w

w S w w S w

S w JS w

S S w Jw−

⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦− = ⇒⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦

− = ⇒

− =

{ }* arg max ( ) ( ) * 0B i w iw J w S S wλ= ⇒ − =

{ } 11 2* arg max ( ) * ( )ww J w w S µ µ−= ⇒ = −

Page 28: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

reducción dimensionalidadreducción dimensionalidad• PCA vs. LDA

Page 29: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Procesado Digital de la Señal Procesado Digital de la Señal de Voz para RAHde Voz para RAH

Extracción y selección de parámetros

Frecuencia de muestreo Reducción error8 kHz referencia11 kHz +10%16 kHz +10%22 kHz +0%

Page 30: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Detección de Voz

Es importante para Evitar el push to talkReducir falsas alarmasReducir consumo

Existen distintas metodologías de diseño, pero el problema siempre es el mismo: decisión entre dos clases

{Voz, Silencio}

La decisión se hace “suave”, al reconocedor se le incluyen tramas anteriores al instante de inicio de voz y se decide silencio cuando hay un número suficiente de tramas clasificadas como silencio.

Page 31: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Extracción y Selección de parámetros

Parámetros estáticos y dinámicos

Parámetros estáticos: representaciones frecuencialesp.e. Mel-Cepstrum, PLP, LPCSe suelen utilizar de 8 a 14 coeficientes estáticos dependiendo de la frecuencia de muestreo.Ventana de hamming de 20 a 30 ms. y desplazamientos de 10 a 15 ms.

Parámetros dinámicos: los cambios temporales en el espectro tienen importancia perceptual.Complementarios a la suposición de independencia entre observaciones de los HMM.Primera y segunda derivada de los parámetros estáticos

Page 32: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Extracción y Selección de parámetros

Parámetros Reducción error relativo13 coef. Cepstrum-LPC referencia13 coef Mel-Cepstrum +10%16 coef Mel-Cepstrum +0%+ 1ª y 2ª derivada +20%+ 3ª derivada +0%

Transformaciones de parámetros

Reducción de la dimensionalidad: PCA o KLTDescartar parámetros con los autovalores mas pequeñosIncorrela los parámetros

Transformaciones discriminativas: LDA

Page 33: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

MEL CEPSTRUMMEL CEPSTRUM

Page 34: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

Clasificación por similitud de plantillas¿Cómo medir el parecido entre dos plantillas?

1. Definir una medida de similitud entre vectoresp.e. Distancia euclidea entre vectores

2. Definir una medida de similitud entre plantillasProblema: variación no lineal en la

velocidad de articulación de los sonidos

¿Cómo medir la similitud entre plantillas con distinto número de vectores?

Page 35: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

Solución: Alineamiendo TemporalDistorsionar el eje temporal de forma no uniforme

J

j

1

1 Ii

Page 36: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

Solución algorítmica: Programación Dinámica

Buscar el camino de “menor coste” que comienza en el punto (0,0) y termina en el (I,J)

Camino: conjunto de nodos ordenados(i1,j1) (i2,j2).......

Se asigna distancia o coste a los caminos

• Coste de transición

• Coste de nodo( ) ( ), ,1 1d i j i jk k k kT⎡ ⎤

− −⎢ ⎥⎣ ⎦( ),

Nd i j

Page 37: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

Distancia del camino

( , ) [( , )|( , )]1 11

KD d i j d i j i jN k k T k k k kk= +∑ − −

=donde(0,0) 0[( , )|(0,0)] 0

dN

d i jT

=

=

Principio de optimización de Bellman

El mejor camino de va de (s,t) a (u,v)

El mejor camino que va de (s,t) a (u,v) pasando por (w,x)

( , ) ( , )*

s t u v⎯⎯→

( , )( , ) ( , )*

w xs t u v⎯⎯⎯→

Page 38: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

Principio de Bellman

( , )( , ) ( , ) ( , ) ( , ) ( , ) ( , )* * *

w xs t u v s t w x w x u v⎯⎯⎯→ = ⎯⎯→ ⊕ ⎯⎯→

es decir:

( , )1 1(0,0) ( , ) (0,0) ( , )1 1* *

( , ) ( , )1 1 *

i jk k i j i jk k k k

i j i jk k k k

− −⎯⎯⎯⎯⎯⎯→ = ⎯⎯→ ⊕− −

⎯⎯→− −

Page 39: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

( , )1 1(0,0) ( , )*

i jk k i jk k

− −⎯⎯⎯⎯⎯⎯→

DefinimosDmin(i,j) = distancia de (0,0) a (i,j) por el mejor camino

Dmin[(ik,jk)|(ik-1,jk-1)] =

Entonces

Dmin[(ik,jk)|(ik-1,jk-1)] = Dmin(ik-1,jk-1)+ dN(ik,jk)+ dT[(ik,jk)|(ik-1,jk-1)]

de forma que

Dmin(ik,jk) = min {Dmin(ik-1,jk-1)+ dN(ik,jk)+ dT[(ik,jk)|(ik-1,jk-1)]}(ik-1,jk-1)

Page 40: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

Aplicándolo a nuestro problema:Monotonicidad

Restricciones locales del camino: transiciones permitidas

Restricciones globales del camino: ventana de búsquedaNormalización: independencia del caminoBacktracking: recuperar camino alineaciónDecisión: Plantilla con mínima distancia

,1 1

i i j jk k k k

≤ ≤− −

Page 41: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Reconocimiento de Palabras Aisladas por ajuste de plantillas

Ejemplo

3 2 5 6 5 32 4 6 8 2 34 5 7 5 3 52 3 6 2 8 71 2 4 7 10 10 342414731

24179943171214118715141914119171920161212

Distancias acumuladasEspacio de búsqueda

Page 42: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

RAH: Las basesRAH: Las basesReconocimiento estadísticoReconocimiento estadístico

Sea O una secuencia de T medidas acústicas de la voz, p.e. vectores Mel-Cepstrum, PLP, LPC, …

Sea W una secuencia de N palabras pertenecientes a un vocabulario fijo y conocido.

Si P(W|O) es la probabilidad condicionada de la secuencia de palabras W dada la secuencia O de medidas acústicas observadas

El reconocedor decidirá a favor de la secuencia de palabras Wque satisfaga (decisión MAP)

W = arg maxW P(W|O)

Page 43: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

RAH: Las basesRAH: Las basesUtilizando la fórmula de Bayes

)()()|()|(

OPWPWOPOWP =

P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciadaP(O|W) ... Probabilidad a priori de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuenciade medidas acústicas OP(O) ... Probabilidad de la secuencia de medidas acústicas O

Fórmula del Reconocedor)()|(arg WPWOPmaxW

W=

Modelo Acústico Modelo de Lenguaje

Page 44: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

1. Una misma palabra /fonema /sonido suena diferente cada vez que es pronunciado.

2. Podemos ver las palabras/fonema/segmentos de voz como estados de un proceso de producción.

3. En un estado dado, podemos observar diferentes sonidos pero no todos los sonidos posibles son observados en cada estado.

4. En un estado dado el proceso de producción de voz emite sonidos de acuerdo con alguna función de densidad de probabilidad predefinida.

El El proceso proceso de de producción producción del del habla visto como habla visto como un un proceso estocástico proceso estocástico

Page 45: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

5. El proceso de producción de voz puede hacer transicionesde un estado a otro.

6. No todas las trasiciones son posibles, las distintas transiciones tienen diferentes probabilidades.

Conclusión: El proceso de producción del habla puede ser representado por un

Modelo estadístico compuesto por estados con transiciones entre ellos y probabilidades de emisión de sonidos en los estados

El El proceso proceso de de producción producción del del habla visto como habla visto como un un proceso estocástico proceso estocástico

Modelos Ocultos de Modelos Ocultos de MarkovMarkov

Page 46: Reconocimiento Automático del Hablaphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_7_intro_rah.pdf– Introducción de las Redes Neuronales en el reconocimiento de voz • Empieza

TIC en Redes MóvilesTIC en Redes Móviles

Componentes Componentes de un de un Sistema Sistema RAHRAH

Hz

Procesado Señal

Voz Búsqueda Secuencia palabras

Modelo de

Lenguaje

P(W)

text

AnálisisLéxico

AnálisisGramatical

ReconocimientoReconocimientoEntrenamientoEntrenamiento

trascripción

speech

ProcesadoSeñal

text

Modelos

Acústicos

P(O|W)

AprendizajeModelos Acústicos