Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema6a.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Tema 6: Reconocimiento de Voz

Principios de Reconocimiento de Habla y de Locutor Tecnología de Reconocimiento de Locutor Tecnología de Reconocimiento de Habla

Tratamiento Digital de VozTratamiento Digital de Voz

Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor

Reconocimiento de Habla: ¿qué se dice?

La variedad de locutores (¿quién lo dice?): “ruido”(Acentos, variedades dialectales, etc.)

Reconocimiento de Locutor: ¿quién lo dice?

La variedad de mensajes hablados (¿qué se dice?): “ruido”

variación intra-locutor variación inter-locutores

Reconocimiento de Habla: Características Dependiente / Independiente de Locutor Tamaño del Vocabulario “Tipos de Reconocimiento”:

Habla aislada, palabras en contexto (word spotting), habla natural, lenguaje natural, habla espontánea, ...

Otros: Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ...

Prestaciones

Reconocimiento de Habla: Dependiente/Independiente del Locutor

Dependiente de Locutor: por ejemplo, sistemas de dictado. Independiente de Locutor: aplicaciones telefónicas. Cada vez mayor importancia de las “Técnicas de Adaptación al Locutor”

Reducción de la cantidad de voz para la adaptación. Adaptación supervisada / no-supervisada. Adaptación también al entorno de ruido. Adaptación a “habla espontánea”.

Reconocimiento de Habla: Tamaño del Vocabulario El vocabulario DEBE estar pre-fijado (en muchas ocasiones es muy importante la gestión dinámica de vocabularios : entradas variables) El diseño del vocabulario puede “olvidar” palabras: palabras fuera del vocabulario (OOV out-of-vocabulary). Cómo detectar e incorporar esas palabras es de gran importancia. Las prestaciones del Reconocedor son dependientes del tamaño del vocabulario:

Pequeño (< 100), medio (<1000), grande (>1000 -- 1M) PERO es muy importante (muchas veces más que el número de palabras):

o El grado de similitud acústica entre palabras (ej.: teléfonos)o La GRAMÁTICA de reconocimiento. La gramática restringe la secuencia de palabras a reconocer.

Reconocimiento de Habla: ”Tipo” de Reconocimiento(terminología imprecisa)

Habla aislada: lista de palabras (directorio de nombres) Palabras en contexto (word spotting): “con Juan Pérez por favor” Habla natural: “dictado natural,” u “órdenes naturales” (“quiero que me digas qué películas ponen hoy”) Lenguaje natural: suele asociarse a la identificación de entidades semánticas:<solicitud de información>quiero que me digas qué

<tipo de información>películas</tipo de información>

ponen<tiempo>hoy</tiempo></solicitud de

información> Habla espontánea: “disfluencias” : “..eh quiero que me des, que me diga.. digas qué... pone... las películas de hoy”

Reconocimiento de Habla: Características Más otros....

Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ...

DIFICULTAD de medir “realmente” las prestaciones de un sistema de reconocimiento (en laboratorio en aplicaciones)

Errores de Reconocimiento: Tasa de Error (Sustituciones / Inserciones / Elisiones (borrados)) Rechazo: Falsa Aceptación / Falso Rechazo => INFLUYE en la Tasa de Error.

Ruidos Palabras OOV (fuera del vocabulario)

Medidas de Confianza: “seguridad” del resultado de reconocimiento (ejemplo: Adaptación no-supervisada)

Reconocimiento de Locutor: Características Dependiente / Independiente de Texto Población cerrada / abierta “Modos de Funcionamiento”:

VERIFICACIÓN IDENTIFICACIÓN (Detección; Autenticación)

Otros: Entorno de Ruido..., Sistema de comunicaciones, ...VARIABILIDAD ENTRE SESIONES

Prestaciones

Rec. de Locutor: Dependiente/Independiente de Texto Dependiente Texto:

Texto fijo: locución pre-establecida (clave de acceso) Texto variable (vocabulario fijo): se pide que el locutor pronuncie una clave generada aleatoriamente (text prompted); objetivos: evitar grabaciones y “clave en voz alta”

Independiente de Texto: el locutor puede emplear cualquier locución, sin restricciones (duración, riqueza fonética ? Imaginación ? => tipo de aplicación: Acústica Forense)

Importancia de la estrategia de diálogo (factores humanos): preguntas sucesivas (nombre, apellidos, fecha de nacimiento, ...) Reconocimiento de Locutor Sistemas de Verificación de Información Verbal (complementarios? Fases diferentes ?)

Reconocimiento de Locutor: Población cerrada/abierta Población cerrada: reconocimiento entre un conjunto cerrado de usuarios; “el impostor está en casa”.

Población abierta: reconocimiento “abierto” a impostores externos a los “locutores reconocibles”

Reconocimiento de Locutor: Modos de funcionamiento VERIFICACIÓN: decidir si una persona es quien dice ser utilizando su “huella vocal” (ej.: tecleo mi password y el sistema me pide que hable para comprobar que soy yo: se contrasta la voz dubitada contra una sola “huella vocal” –la del password-)

IDENTIFICACIÓN: decidir si la voz de una persona pertenece a algun locutor de una población de locutores identificados. (se compara la voz dubitada con todas las huellas vocales de la población “indubitada”)

(DETECCIÓN: localización de un locutor en una grabación de audio – AUTENTICACIÓN: mediante verificación/identificación)

Reconocimiento de Locutor: Prestaciones Otros:

Entorno de Ruido... Sistema de comunicación... VARIABILIDAD ENTRE SESIONES

Errores de Reconocimiento: tasas de: Falsa Aceptación FA: un impostor vulnera el sistema Falso Rechazo FR: un usuario no es reconocido

“Aciertos” de Reconocimiento: Rechazo correcta: un impostor es rechazado Aceptación correcta: un usuario es reconocido

El coste de cada tipo de error depende de la aplicación (por ejemplo: mayor, menor seguridad) TAMBIÉN en aplicaciones reales: FTE Fail-to-enroll; imposibilidad de entrenarse en el sistema

Four conditional probabilitiesin speaker verification

0012-09

Input utteranceDecision condition condition

s n (customer) (impostor)

S (accept)

N (reject)

P(S | s) P(S | n)

P(N | s) P(N | n)

Relationship between error rate and decision criterion (threshold) in speaker verification

0012-10

Decision criterion (Threshold)

FR= P (N | s)

FA= P (S | n)

Equal Error Rate

Receiver operating characteristic (ROC) curves; performance examples of three speaker verification systems: A, B, and D

0012-11

10 P (S | n)

Reconocimiento de VozReconocimiento de Voz Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech)Curvas ROC Curvas DEC

Reconocimiento de VozReconocimiento de Voz Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech)

We have found it useful in speech applications to use a variant of this which we call the DET (Detection Error

Tradeoff) Curve, described below.

In the DET curve we plot error rates on both axes, giving uniform treatment to both types of error, and use a scale for both axes which spreads out the plot and better distinguishes different well performing systems and usually produces plots that are close to linear.

Recognition error rates as a function of population size in speaker identification and verification

0103-23

0.12 5 10 20 50 100

Male Female

IdentificationVerification

Size of population

Reconocimiento de VozReconocimiento de Voz

Reconocimiento de Locutor: Prestaciones (La Granja)

SHEEP, GOATS, LAMBS and WOLVESA Statistical Analysis of Speaker Performance

in the NIST 1998 Speaker Recognition Evaluation

George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas Reynolds 3,4,1 National Institute of Standards and Technology, 2 The Johns Hopkins University3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International

Reconocimiento de Locutor: Prestaciones (La Granja)

Sheep (ovejas) – Sheep comprise our default speaker type. In our model, sheep dominate the population and systems perform nominally well for them.

Goats (cabras) – Goats, in our model, are those speakers who are particularly difficult to recognize. Goats tend to adversely affect the performance of systems by accounting for a disproportionate share of the missed detections. The goat population can be an especially important problem for entry control systems, where it is important that all users be reliably accepted.

Lambs (corderos) – Lambs, in our model, are those speakers who are particularly easy to imitate. That is, a randomly chosen speaker is exceptionally likely to be accepted as a lamb. Lambs tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if lambs can be identified, either through trial and error or through correlation with other directly observable characteristics.

Wolves (lobos) – Wolves, in our model, are those speakers who are particularly successful at imitating other speakers. That is, their speech is exceptionally likely to be accepted as that of another speaker. Wolves tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if wolves can be identified and recruited to defeat systems.

Tecnología de Reconocimiento de Locutor Estructura de un Sistema de Reconocimiento de Locutor

ResultadoReconocimiento

Señalde Voz

Entrenamiento

Reconocimiento

ExtracciónDe

Características

Modelos/Patronesde referencia

para cada Locutor

Comparación(Distancia)

Speech Recognition Technology in theUbiquitous/Wearable Computing Environment Sadaoki Furui

http://www.furui.cs.titech.ac.jp/

Tecnología de Reconocimiento de Locutor Otros aspectos importantes:

ResultadoReconocimiento

Señalde Voz

ExtracciónDe

Características

Modelos/Patronesde referencia

para cada Locutor

Comparación(Distancia)

Detector deActividad

CanceladorDe

“Compensación”De

Identificación

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

• • •

SimilaritySimilarity

Referencetemplate or model

(Speaker #N)

(Speaker #2)

(Speaker #1)

FeatureextractionFeature

extractionMaximumselection

Maximumselection

Speechwave

Identificationresult

(Speaker ID)

Verificación

Speechwave

Identificationresult

(Accept / Reject)

Speaker ID(#M)

SimilaritySimilarity

(Speaker #M)

extraction DecisionDecision

ThresholdThreshold

Decisión

Distance

Intra-speaker distance

Inter-speaker distance

Objetivo: obtener un modelo del locutor Para discriminación, no para codificación ni síntesisMarco de Trabajo: Reconocimiento de PatronesEl clasificador óptimo es el clasificador de Bayes

contrario caso en (rechazo) ˆ

)/( y )/ˆ(max)/( si ˆ :iónClasificac

,......, ,....,

Clases ------- nesObservacio

oooO 1

“Todo” lo necesario es conocer la función de probabilidad

)/( 1 Op)/( 2 Op

)/( 3 Op

Rechazo Clase 1 Clase 2 Clase 3 Clase 2 Rechazo

“Todo” lo necesario es conocer la función de probabilidad

)/( 1 Op

)/( 2 Op

)/( OLp

Max Rechazo ̂

PERO: la función de probabilidad “nunca” se conoce: forma paramétrica desconocida y cantidad de datos de estima (entrenamiento) limitados

)/( 1 Op

)/( 2 Op

)/( OLp

Max Rechazo ̂

NO UN CLASIFICADOR ÚNICONO UN CLASIFICADOR ÚNICOFunciones deFunciones deDiscriminaciónDiscriminación

De una forma simplificada podemos considerar:Por la técnica de clasificación:

Clasificadores no-paramétricos Clasificadores paramétricos (Discriminativos)

Atendiendo al tipo de información empleada: Clasificadores a partir de información a largo plazo Clasificadores a partir de información a corto plazo

0012-13

(b) short-term information based method

Inputspeech

Speakeridentity

Paterns

extraction DecisionDecisionAccumulationAccumulationParametric orNon-ParametricParametric or

Non-Parametric

(a) Long-term-statistics-based method

Inputspeech

Speakeridentity

Reference templatesor models

extraction DecisionDecisionDistance

orsimilarity

Distanceor

similarity

Long-termstatistics

Average, variance,correlation, MAR

Por la técnica de clasificación... Clasificadores no-paramétricos:

No hacen ninguna hipótesis sobre el modelo de distribución de la voz del locutor

Se basan completamente en los datos de entrenamiento

Un ejemplo típico serían los sistemas de Reconocimiento Un ejemplo típico serían los sistemas de Reconocimiento Independientes del Locutor basados en Cuantificación VectorialIndependientes del Locutor basados en Cuantificación Vectorial

Vector quantization (VQ)-based text-independent speaker recognition

0103-19

Spectral envelopes Speaker-specific codebook

Cuantificador Vectorial

Representa el conjunto de vectores de ENTRENAMIENTO XX={x1,x2, ... xN} por un

número pequeño de representantes (centroides) YY={y1, y2, ... yM} (M<N)

• Fase 1. Determinación de los representantes– Medida de distancia d(xi, yj)

– Entrenamiento: Codebook YY

• Fase 2. Asignación del centroide más próximo– Cuantificación de una observación o jkyodyodyoQ kjj ),(),(

Entrenamiento CV algoritmo LBG

Primer centroide

Duplicación

Asignación de vectores

Cálculo de centroides

Cuantificación

Asunción Moreno

Universidad Politécnica de Cataluña

Entrenamiento

Cuantificación

VQ Performance on Unseen Data

Ramachandran & Mamone (eds) ‘Modern Methods of Speech Processing’ Kluer Academic, 1995

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Documents

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Redes de Radiocomunicaciones Moviles Terrestres

Fundamentos Teoricos de Radiocomunicaciones

PublicaciÃ³n TDV 2019 0001

ITU RR 2012 Reglamento de Radiocomunicaciones

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Radiocomunicaciones CY

Test de Dependencia de Videojuegos (TDV) Cholíz, 2011

RECAUDOS DE RADIOCOMUNICACIONES MARÍTIMAS …

Oficina de Radiocomunicaciones (BR) - ITU

TRANSFORMACIÓN DIGITAL EN LAS RADIOCOMUNICACIONES …

CUADERNO DE PRÁCTICAS DE RADIOCOMUNICACIONES.

Laboratorio de Radiocomunicaciones - …users.alliedmods.net/~faluco/apuntespak/3A/ApuntesPak_Lab_Radio.… · Laboratorio de Radiocomunicaciones Apuntes de Pak ... Fecha de última

Radiocomunicaciones por satélite

TDV Unidad 1

Radiocomunicaciones Uruapan

Apuntes radiocomunicaciones

Garraf a la carta TdV

RADIOCOMUNICACIONES MOVILES WM

El tdv libro que dios quiere que leas y que satanas oculto por siglos.

Curso Operador de Radiocomunicaciones