Prueba 707610

7/21/2019 Prueba 707610

1/132

Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 1

UNIVERSIDAD DE GRANADA

PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA

PROCESAMIENTO DE VOZ

ngel de la Torre Vega

Dpto. Teora de la Seal, Telemtica y Comunicaciones

7/21/2019 Prueba 707610

2/132


ORGANIZACIN DE LA ASIGNATURA

7/21/2019 Prueba 707610

3/132


ORGANIZACIN DE LA ASIGNATURA Asignatura: PROCESAMIENTO DE VOZ Titulacin: Diplomado en Logopedia (3er curso, 2o cuatrimestre) Tipo: Optativa Profesores: ngel de la Torre (Dpto. TSTC, ETSIIT, 2a planta, desp. 22)

Diego Pablo Ruiz (Dpto. FA, Facultad de Ciencias)Artur Schmitt (Dpto. FA, Facultad de Ciencias)

Dpto: Teora de la Seal, Telemtica y Comunicaciones (50%)Fsica Aplicada (50%)

Horario: Teora: X y J de 19:00 a 20:00 en A.03 Prcticas: J de 20:00 a 21:00 en A.03

Organizacin de la asignatura

7/21/2019 Prueba 707610

4/132


ORGANIZACIN DE LA ASIGNATURA Crditos: Total: 4.5 crditos

Teora: 3 crditos (30 horas) Prcticas: 1.5 crditos (15 horas)

Prcticas: Prcticas en aulas de ordenadores y laboratorio Fac. Ciencias

Evaluacin: Examen final de teora y cuestiones (67%) Prcticas: trabajo en aula de ordenadores/laboratorio y memoria de

prcticas (33%)


7/21/2019 Prueba 707610

5/132


CONTENIDOS (1a parte: 15 horas)

1. INTRODUCCIN2. FUNDAMENTOS DE PROCESAMIENTO DE SEAL

3. MODELO DIGITAL DE PRODUCCIN DE VOZ4. REPRESENTACIN DE LA SEAL DE VOZ5. ANLISIS DE SEALES DE VOZ

6. SNTESIS Y CODIFICACIN DE VOZ7. RECONOCIMIENTO DE VOZ Y RECONOCIMIENTO DE

LOCUTORES

8. PROCESAMIENTO DE LA SEAL DE VOZ EN SISTEMAS DEAYUDA A LA AUDICIN9. APLICACIONES DE LAS TECNOLOGAS DEL HABLA EN EL

DIAGNSTICO, TRATAMIENTO Y SEGUIMIENTO LOGOPDICO


7/21/2019 Prueba 707610

6/132


Tema 1: INTRODUCCIN

1.1.- La seal de voz.

1.2.- El procesamiento de voz en logopedia.1.3.- Objetivos de la asignatura.


7/21/2019 Prueba 707610

7/132


Tema 2: FUNDAMENTOS DE

PROCESAMIENTO DE SEAL

2.1.- Introduccin.

2.2.- Seales.2.3.- La transformada de Fourier.

2.4.- Propiedades de la transformada de Fourier.

2.5.- El teorema de muestreo.2.6.- Seales analgicas y seales digitales.

2.7.- La transformada discreta de Fourier.2.8.- Procesamiento digital de seales.


7/21/2019 Prueba 707610

8/132


Tema 3: MODELO DIGITAL DE

PRODUCCIN DE VOZ

3.1.- Introduccin.

3.2.- Produccin de la voz.3.3.- Resonancias del tracto vocal.

3.4.- Modelo excitacin filtrado.

3.5.- Evolucin temporal de los parmetros del modelo.3.6.- Caracterizacin de los sonidos de voz:

Tono, timbre, intensidad y duracin. Frecuencia fundamental, formantes, evolucin temporal. Representacin espectral de tiempo corto.


7/21/2019 Prueba 707610

9/132


Tema 4: REPRESENTACIN DE LA

SEAL DE VOZ4.1.- Introduccin.4.2.- Caractersticas de la seal de voz.4.3.- Representacin de la forma de onda.4.4.- Energa de tiempo corto.4.5.- Tasa promedio de cruces por cero.4.6.- Funcin de autocorrelacin de tiempo corto.4.7.- Estimacin del tono fundamental.4.8.- Anlisis de Fourier de tiempo corto. Espectrograma (WB y NB).4.9.- Linear Prediction Coding: Anlisis LPC.4.10.- Anlisis basado en banco de filtros.4.11.- Procesamiento homomrfico. Cepstrum (FFT, LPC y MFCC).


7/21/2019 Prueba 707610

10/132


Tema 5: ANALISIS DE SEALES DE VOZ

5.1.- Introduccin.

5.2.- La forma de onda.5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.

5.5.- Consonantes no estacionarias.5.6.- Coarticulacin.5.7.- Variabilidad.

5.8.- La seal de voz en presencia de ruido: Ruido blanco y ruido coloreado Ruido no estacionario Deteccin de actividad de voz


7/21/2019 Prueba 707610

11/132


Tema 6: SNTESIS Y CODIFICACIN DE VOZ

6.1.- Introduccin.

6.2.- Codificacin y decodificacin de voz.6.3.- Sntesis de voz.

6.4.- Manipulacin de la seal de voz.


7/21/2019 Prueba 707610

12/132


Tema 7: RECONOCIMIENTO DE VOZ Y

RECONOCIMIENTO DE LOCUTORES7.1.- Introduccin.

7.2.- Reconocimiento automtico de voz: Problemas asociados al reconocimiento de voz. Representacin de la voz: el front-end. Modelado acstico: GMMs, HMMs y ANNs.

Modelado del lenguaje: vocabulario y gramtica. El sistema de dilogo.

7.3.- Reconocimiento automtico de locutor:

Problemas asociados al reconocimiento de locutores Reconocimiento, identificacin y verificacin de locutor. Distintos

enfoques del problema.

Representacin de la voz y modelado del locutor.


7/21/2019 Prueba 707610

13/132


Tema 8: PROCESAMIENTO DE LA SEAL DE VOZ

EN SISTEMAS DE AYUDA A LA AUDICIN8.1.- Introduccin.8.2.- Audfonos:

Amplificacin. Bancos de filtros. Compresin.

Control automtico de ganancia y reduccin de ruido. Realimentacin acstica.

8.3.- Implantes cocleares: Funcionamiento del implante coclear.

Procesamiento de la seal en un implante coclear. Posibilidades y limitaciones de los implantes cocleares. Programacin de los implantes cocleares.

Percepcin del sonido con implantes cocleares.


7/21/2019 Prueba 707610

14/132


Tema 9: APLICACIONES DE LAS TECNOLOGAS

DEL HABLA EN EL DIAGNSTICO,TRATAMIENTO Y SEGUIMIENTO LOGOPDICO

9.1.- Introduccin.9.2.- Herramientas de anlisis de la voz.

9.3.- Herramientas basadas en reconocimiento de voz.


7/21/2019 Prueba 707610

15/132


Bibliografa recomendada


L.R. Rabiner y R.W. Schafer. Digital Processing of SpeechSignals. Prentice Hall, 1978.

S. Furui. Advances in Speech Signal Processing. Dekker, 1992.

S.V. Vaseghi. Advanced Digital Signal Processing and NoiseReduction. John Wiley and Sons, 2000.

J.L. Flanagan. Speech Analysis, Synthesis and Perception.Springer Verlag, 1972.

A. Quilis, J.A. Fernandez. Curso de fontica y fonologaespaolas. CSIC, 1989.

A. de la Torre, A.M. Peinado, A.J. Rubio. Reconocimiento

Automtico de Voz en Condiciones de Ruido. Universidad deGranada, 2001. Revistas: Speech Communication, IEEE Trans. Speech and Audio

Processing, Computer Speech and Language.

7/21/2019 Prueba 707610

16/132


TEMA 1

INTRODUCCIN

7/21/2019 Prueba 707610

17/132


Tema 1: INTRODUCCIN

1.1.- La seal de voz.

1.2.- El procesamiento de voz en logopedia.1.3.- Objetivos de la asignatura.

Tema 1: Introduccin

7/21/2019 Prueba 707610

18/132


1.1.- La seal de voz

Qu es la voz?: La voz es una onda de presin: P(x, y, z, t) = P(r, t)

Produccin: aparato fonador Propagacin (dispersin, difraccin) Audicin: se percibe y analiza en el odo; se procesa en el cerebro

Rango de intensidad: 50 70 dB SPL Rango de frecuencia: 60 Hz 6 kHz (telefona: 350 Hz 3.5 kHz) La seal de voz:

Seal elctrica recogida por un micrfono (forma de onda): A(t) (mV) Seal digital (muestreo y cuantizacin) 64 kbps; 86 kBps; Frecuencia de muestreo (8 kHz; 22 kHz; 44,1 kHz)

Nmero de bits por muestra (8 bits; 12 bits; 16 bits)

Tema 1: Introduccin

7/21/2019 Prueba 707610

19/132


Asignatura organizada en 2 partes: La onda de voz (2 parte): Fsica Acstica La seal de voz (1 parte): Procesamiento de seales

Seal:

Transmisin de informacin Ruido

Informacin contenida en la seal de voz:

Fonemas, slabas, palabras Frases, mensaje Caractersticas suprasegmentales Locutor

Patologas, vicios, acentos Entorno acstico (ruido)

Tema 1: Introduccin

7/21/2019 Prueba 707610

20/132


Transmisin de informacin en la comunicacin oralTema 1: Introduccin

7/21/2019 Prueba 707610

21/132


Procesamiento de voz (principales lneas)

Tema 1: Introduccin

Anlisis de voz

Codificacin y compresin de voz Sntesis de voz (conversin texto a voz) Reconocimiento automtico de voz

Reconocimiento y verificacin de locutores Comprensin de voz y sistemas de dilogo

Percepcin de la voz

Sistemas de ayuda a la audicin

7/21/2019 Prueba 707610

22/132


1.2.- El procesamiento de voz en logopedia

Tareas usuales en logopedia: (Re)habilitacin en foniatra

(Re)habilitacin en audicin Diseo y uso de material para evaluacin

Cmo evoluciona un determinado parmetro?

Puede considerarse normal un determinado parmetro?

Diseo y uso de material para rehabilitacin

El procesamiento de voz ayuda a: Entender la produccin de la voz

Entender la percepcin de la voz Analizar y procesar seales de voz Entender herramientas relacionadas con el procesamiento de voz

Tema 1: Introduccin

7/21/2019 Prueba 707610

23/132


Herramientas relacionadas con el procesamiento de voz:

Anlisis de voz Sntesis de voz Reconocimiento de voz Codificacin de voz

Problemas del procesamiento de voz: Variabilidad:

Intra-locutor (estado de salud, de nimo, velocidad, etc.). Inter-locutor

Entorno de adquisicin Continuidad: concatenacin y coarticulacin Informacin contenida en la voz muy redundante Multi-interactividad entre niveles:

Nivel fontico Caractersticas suprasegmentales Nivel semntico; contexto; suplencia mental

Ruido: perturbacin y efecto Lombard

Tema 1: Introduccin

7/21/2019 Prueba 707610

24/132


Variabilidad de la

seal de voz

Arriba: Tres ejecuciones del fonema/a/ en la frase voy a comprar panpronunciada por una mujer.

Abajo: Tres ejecuciones del fonema/a/ en la frase voy a comprar panpronunciada por un hombre.

Tema 1: Introduccin

T 1 I d i

7/21/2019 Prueba 707610

25/132


1.3.- Objetivos de la asignatura

Objetivos globales: Conocer las caractersticas de la seal de voz

Conocer las operaciones de procesamiento de seal que se aplican a la seal devoz:

Principales tcnicas de anlisis Aplicaciones de estas tcnicas

Aplicaciones del procesamiento de voz en logopedia

Avances tecnolgicos: Software de propsito general (MATLAB) para el anlisis y procesamiento de

seales de voz Software de propsito especfico (Dr. Speech) para el anlisis y procesamiento deseales de voz

Existencia de otros paquetes relacionados con procesamiento de voz

Tema 1: Introduccin

T 1 I t d i

7/21/2019 Prueba 707610

26/132


El procesamiento de voz contribuye a resolver cuestiones como: Qu relacin hay entre la seal de voz y los fonemas?

Qu relacin hay entre la seal de voz y otras unidades o caractersticas?

Qu herramientas de procesamiento de seal podemos (o debemos) usar para

analizar la seal de voz?

Cmo se manifiesta una patologa de la voz en la seal?

Cmo podemos ajustar un sistema de ayuda a la audicin para optimizar la

comprensin de la voz?

Cmo podemos interpretar un error en la produccin de un fonema?

Cmo podemos interpretar un error en la deteccin o identificacin de un fonema?

Tema 1: Introduccin

Tema 1: Introduccin

7/21/2019 Prueba 707610

27/132


Organizacin del curso (parte de procesamiento de seales de voz):

Tema 2: Fundamentos de procesamiento de seal (2 horas) Tema 3: Modelo digital de produccin de voz (1 hora) Tema 4: Representacin de la seal de voz (3 horas)

Tema 5: Anlisis de seales de voz (3 horas) Tema 6: Sntesis y codificacin de voz (1 hora) Tema 7: Reconocimiento de voz y reconocimiento de locutores (1 hora)

Tema 8: Procesamiento de la seal de voz en sistemas de ayuda a la audicin (2horas): Audfonos

Implantes cocleares

Tema 9: Aplicaciones de las tecnologas del habla en el diagnstico, tratamiento yseguimiento logopdico (1 hora).

Tema 1: Introduccin

7/21/2019 Prueba 707610

28/132


TEMA 2FUNDAMENTOS DE

PROCESAMIENTO DE SEAL

Tema 2: Proces de seal

7/21/2019 Prueba 707610

29/132


Tema 2: FUNDAMENTOS DE

PROCESAMIENTO DE SEAL2.1.- Introduccin.

2.2.- Seales.2.3.- La transformada de Fourier.

2.4.- Propiedades de la transformada de Fourier.

2.5.- El teorema de muestreo.2.6.- Seales analgicas y seales digitales.

2.7.- La transformada discreta de Fourier.

2.8.- Procesamiento digital de seales.

Tema 2: Proces. de seal

Tema 2: Proces de seal

7/21/2019 Prueba 707610

30/132


2.1.- Introduccin

El principal propsito de la voz es la comunicacin: La forma de onda contiene informacin

Teora de la Informacin: Informacin contenida Teora de Seal: Cmo se transmite la informacin en la forma de onda

En la prctica, la representacin de la voz est basada usualmenteen la forma de onda: Modelos de produccin Procesamiento de seal



7/21/2019 Prueba 707610

31/132


En este tema se revisan nociones bsicas de procesamiento de

seal: Concepto de seal Representacin de la seal en el dominio del tiempo y en el dominio de la

frecuencia: la transformada de Fourier Propiedades de la transformada de Fourier Muestreo de seales: el teorema de muestreo Representacin digital de seales

La transformada discreta de Fourier: DFT y FFT Procesamiento digital de seales



7/21/2019 Prueba 707610

32/132


2.2.- Seales

CONCEPTO DE SEAL: UNA SEAL ES UNA VARIACIN DE UNA MAGNITUD QUE TRANSMITE UNA

INFORMACIN

Tipos de seales: De una variable, de varias variables Unidimensional, multidimensional

Discreta, continua, de variable discreta, de variable continua Objetivo del procesamiento de seal: Comunicacin eficiente:

Codificacin, transmisin, recepcin, almacenamiento y representacin de sealesen sistemas de comunicacin de forma eficiente y fiable

Extraccin de informacin de seales ruidosas

Mtodos de complejidad muy variada: (no paramtricos, basados enmodelos, bayesianos, etc.)


7/21/2019 Prueba 707610

33/132


2.3.- La transformada de Fourier (FT)

Transformacin de dominio: A veces una operacin resulta ms sencilla en un dominio transformado Ejemplo: el producto resulta ms sencillo en el dominio del logaritmo


7/21/2019 Prueba 707610

34/132


La transformada de Fourier pasa del dominio del tiempo al dominio

de la frecuencia: Cambio de representacin: g(t) G(f) (= 2f ) Misma informacin en ambos dominios (es slo un cambio de representacin)

Existe la transformada inversa: G(f) g(t)

Transforma una seal compleja g(t) en un espectro complejo G(f)

La transformada de Fourier descompone una seal en sus componentessenoidales


7/21/2019 Prueba 707610

35/132


Transformada de una funcin coseno y una funcin seno:


7/21/2019 Prueba 707610

36/132


Espectro de potencia:


7/21/2019 Prueba 707610

37/132


Utilidad de la transformada de Fourier: Descompone una seal en sus componentes de frecuencia Propiedades:

2.4.- Propiedades de la transformada de Fourier


7/21/2019 Prueba 707610

38/132


Descomposicin en componentes de frecuencia:


7/21/2019 Prueba 707610

39/132


Linealidad de la transformada de Fourier:


7/21/2019 Prueba 707610

40/132


Linealidad de la transformada de Fourier:


7/21/2019 Prueba 707610

41/132


Filtrado:

Caracterizacin del filtro: En el dominio del tiempo: por su respuesta impulsiva h(t) En el dominio de la frecuencia: por su funcin de transferencia o respuesta en

frecuencia H(f)


7/21/2019 Prueba 707610

42/132


Filtrado en el dominio del tiempo: convolucin


7/21/2019 Prueba 707610

43/132


Filtrado en el dominio de la frecuencia: multiplicacin


7/21/2019 Prueba 707610

44/132


Ventanas (multiplicacin en el tiempo; convolucin en frecuencia)


7/21/2019 Prueba 707610

45/132


Tamao de ventana y resolucin espectral


7/21/2019 Prueba 707610

46/132


Transformada de un tren de pulsos


7/21/2019 Prueba 707610

47/132


Transformada de una seal peridica


7/21/2019 Prueba 707610

48/132


Propiedades ms importantes


2 5 El d

7/21/2019 Prueba 707610

49/132


2.5.- El teorema de muestreo


7/21/2019 Prueba 707610

50/132


ENUNCIADO DEL TEOREMA DE MUESTREO:

UNA SEAL LIMITADA EN BANDA A B Hz QUEDA REPRESENTADA PORSUS VALORES (MUESTRAS) TOMADOS A INTERVALOS REGULARES CONUNA FRECUENCIA DE MUESTREO NO INFERIOR A 2B Hz.

PARA RECUPERAR LA SEAL ORIGINAL, BASTA FILTRAR LA SEALMUESTREADA CON UN FILTRO PASO-BAJA CON FRECUENCIA DE CORTEB Hz.

SI LA FRECUENCIA DE MUESTREO NO ES SUFICIENTEMENTE ALTAAPARECEN COMPONENTES DE FRECUENCIA FANTASMAS (ALIASING)

PARA MUESTREAR: Se debe seleccionar una frecuencia de muestreo suficientemente alta O bien se debe filtrar paso-baja la seal antes de muestrear


2 6 S l l i l di it l

7/21/2019 Prueba 707610

51/132


2.6.- Seales analgicas y seales digitales

Seales fsicas: Magnitud continua, variable continua: x(t) Seal discreta

Variable discreta

Representacin digital de una seal analgica:

Discretizacin en el tiempo: MUESTREO Discretizacin de la magnitud: CUANTIZACIN El muestreo no supone prdida de informacin (T. de muestreo) La cuantizacin introduce un ruido (ruido de cuantizacin) (precisin limitada)

Adquisicin de una seal: Amplificacin y filtrado. Muestreo. Retencin. Cuantizacin. Codificacin


7/21/2019 Prueba 707610

52/132


Adquisicin de seales

Muestreo: discretizar eltiempo:

x(t) x(n)

Cuantizacin: discretizar

la magnitud: x(n) x(n)

Codificacin(representacin digital delas muestras)

0 0.2 0.4 0.6 0.8 1

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1


2 7 La transformada discreta de Fourier

7/21/2019 Prueba 707610

53/132


2.7.- La transformada discreta de Fourier

En la prctica, la transformada de Fourier no se utiliza para analizarseales: Seales infinitas, continuas, no peridicas: transformada de Fourier adecuada

FT requiere integracin numrica Seales digitales: muestreadas, finitas: Transformada discreta de Fourier (DFT)

Definicin de la transformada discreta de Fourier :

Para una seal discreta en el tiempo x(m), finita con Nmuestras, la DFT se definecomo Nmuestras espectrales uniformemente espaciadas

Existe tambin una transformada discreta de Fourier inversa Debido a la longitud finita de x(m) (equivale a aplicar ventana) no es necesario

calcular el espectro para cualquier frecuencia (resolucin espectral limitada)


7/21/2019 Prueba 707610

54/132


Algoritmos DFT:

Transformada discreta de Fourier (aplicar matriz sobre un vector) DFT Algoritmo rpido (Fast Fourier Transform) FFT es el ms usual (eficiente) Forma de la ventana: rectangular, Hamming, Hanning, Gaussiana, etc. Importancia de la longitud de la ventana: condiciona la resolucin espectral


Tamao de ventana y resolucin espectral en FFT

7/21/2019 Prueba 707610

55/132


Tamao de ventana y resolucin espectral en FFT


2 8 - Procesamiento digital de seales

7/21/2019 Prueba 707610

56/132


2.8.- Procesamiento digital de seales

Operaciones habituales en procesamiento digital de seales: Filtrado lineal (filtros IIR, filtros FIR); filtrado no lineal Procesamiento en tramas (ventanas deslizantes)

Procesamiento mediante bancos de filtros Extraccin de caractersticas Reduccin de ruido (realce)

Normalizacin Comparacin con modelos

Las operaciones aplicadas dependen del tipo de seal y del tipo deinformacin que se quiere obtener:

Seal de audio Identificacin de locutor, reconocimiento de fonemas, anlisis del tono fundamental,

etc... Mtodos no paramtricos; basados en modelos; bayesianos; ANNs; HMMs....

7/21/2019 Prueba 707610

57/132


TEMA 3

MODELO DIGITAL DEPRODUCCIN DE VOZ

Tema 3: MODELO DIGITAL DETema 3: Modelo digital de produc.

7/21/2019 Prueba 707610

58/132


PRODUCCIN DE VOZ3.1.- Introduccin.

3.2.- Produccin de voz.

3.3.- Resonancias del tracto vocal.

3.4.- Modelo excitacin filtrado.

3.5.- Evolucin temporal de los parmetros del modelo.3.6.- Caracterizacin de los sonidos de voz:

Tono, timbre, intensidad y duracin.

Frecuencia fundamental, formantes, evolucin temporal Representacin espectral de tiempo corto

3 1 Introduccin

Tema 3: Modelo digital de produc.

7/21/2019 Prueba 707610

59/132


3.1.- Introduccin

Las caractersticas de la voz estn condicionadas por losmecanismos de produccin:

Generacin del sonido Resonancias Radiacin acstica

La voz es una onda acstica: Fsica acstica de la produccin de voz

En este tema veremos un modelo digital de produccin de voz: Excitacin Filtrado Caractersticas de la seal de voz (es una seal de audio muy particular)

3 2 Produccin de la voz


7/21/2019 Prueba 707610

60/132


3.2.- Produccin de la voz

rganos de produccin de voz: Cavidades infraglticas Cavidad larngea (cuerdas vocales)

Cavidades supraglticas

Provisin de aire

Generacin del sonido: Vibracin cuerdas vocales (ondaglotal) en fonemas sonoros

Flujo turbulento (fricativos)

Oclusin + apertura (oclusivos) Filtrado del sonido

Radiacin del sonido

Cuerdas vocales:

(A) Respiracin (B) Fonemas sordos (C) Fonemas sonoros


7/21/2019 Prueba 707610

61/132


Pulmones

Traquea, bronquios Cuerdas vocales

Velo del paladar Tracto vocal

Boca Tracto nasal Orificios nasales


7/21/2019 Prueba 707610

62/132


Cavidades supraglticas(diversificacin fontica):1 Cavidad nasal2 Faringe nasal3 Paladar duro4 Paladar blando o velo del paladar5 Lengua

6 Faringe oral7 Faringe larngea8 Cartlago tiroides

9 Cuerdas vocales

10 Traquea11 Esfago

3 3 - Resonancias del tracto vocal


7/21/2019 Prueba 707610

63/132


3.3.- Resonancias del tracto vocal

Voz: onda acstica (onda de presin que se propaga por el aire) Velocidad: c = 350 m/s

Longitud de onda: = c / f Para 100 Hz, = 3.5 m Para 4 kHz, = 8.5 cm

> r (radio del tubo) aproximacin de onda plana

La forma del tracto vocal condiciona las resonancias: El tracto vocal filtra del sonido generado El tracto vocal queda descrito por la funcin de rea A(x,t) Variacin del tracto vocal: se producen entre 5 y 20 fonemas por segundo (vara

lentamente) Acoplamiento del tracto nasal (velo del paladar)


7/21/2019 Prueba 707610

64/132


Funcin de rea

Acoplamiento deltracto nasal

Si lifi i t di l i d l t t l


7/21/2019 Prueba 707610

65/132


Simplificaciones para estudiar las resonancias del tracto vocal Aproximacin de onda plana (onda unidimensional) Estacionariedad (funcin de rea invariante en el tiempo A(x,t) = A(x) ) Tubo de seccin constante a trozos

Tubo de seccin constante Impedancia acstica nula en los labios (ignorar radiacin) Prdidas despreciables (ignorar prdidas por viscosidad, conduccin trmica, etc.)

Tubo rgido (ignorar elasticidad del tracto vocal)

La funcin de rea A(x) Si A(x) es sencilla, se pueden obtener soluciones exactas para las resonancias

Si A(x) es compleja, mtodos numricos A(x) se puede medir por diversos mtodos: Rx, TAC, RMN, articulgrafos

Respuesta en frecuencia del tracto vocal: formantes


7/21/2019 Prueba 707610

66/132


L = 17.5 cm

A = 5.0 cm2 (cte)Paredes elsticas

1 resonancia / kHz

Formantes


7/21/2019 Prueba 707610

67/132


Formantes Los formantes son resonancias del tracto vocal Debido a las dimensiones del tracto vocal y a la velocidad de propagacin, aparece

en promedio 1 formante por cada kHz El tracto vocal filtra el sonido generado:

Amplifica algunas frecuencias (correspondientes a los formantes)

Atena otras frecuencias

Prdidas por radiacin Impedancia acstica del bafle Abertura circular en plano infinito

Abertura circular en esfera

Labios Prdidas dependientes de la frecuencia

Cada para altas frecuencias: aproximadamente 6 dB / dcada

Respuesta en frecuencia del tracto vocal


7/21/2019 Prueba 707610

68/132


L = 17.5 cm

A = 5.0 cm2 (cte)Paredes elsticas

Prdidas porradiacin

1 formante / kHz

Cada de 6 dB / dec

Respuesta en frecuencia del tracto vocal: fonema /a/


7/21/2019 Prueba 707610

69/132


Funciones de rea y formantes


7/21/2019 Prueba 707610

70/132


3.4.- Modelo excitacin filtrado


7/21/2019 Prueba 707610

71/132


Excitacin: Fonemas sonoros: vibracin de cuerdas vocales

Tren de pulsos glotales (pitch)

Frecuencia fundamental f0 , periodo del pitch T0 Fonemas fricativos: flujo turbulento en un estrechamiento del tracto

Fonemas oclusivos: oclusin + apertura Combinacin de mecanismos de excitacin

Filtrado: Funcin de rea del tracto vocal y nasal (acoplamiento nasal) Radiacin Un formante por kHz y cada promedio de 6 dB / dcada

Evolucin temporal de la excitacin y el filtrado

Modelo digital de produccin de voz


7/21/2019 Prueba 707610

72/132


Ejemplo de fonemas sonoro y sordo: /a/ /s/


7/21/2019 Prueba 707610

73/132


80 85 90 95 100

-0.2

-0.1

0

0.1

0.2

0.3

t (ms)

Amplitud

0 1000 2000 3000 4000 5000 6000-80

-70

-60

-50

-40

-30

-20

-10

0

frecuencia Hz

potencia(dB)

80 85 90 95 100

-0.2

-0.1

0

0.1

0.2

0.3

t ms

Am

plitud

0 1000 2000 3000 4000 5000 6000-80

-70

-60

-50

-40

-30

-20

-10

0

frecuencia Hz

potencia(dB)

3.5.- Evolucin temporal de losparmetros del modelo


7/21/2019 Prueba 707610

74/132


parmetros del modelo

Limitaciones fisiolgicas: Variaciones en la presin de aire suministrada Variaciones en la tensin de las cuerdas vocales

Variaciones en la conformacin del tracto buco-nasal Limitacin en la velocidad de produccin de fonemas: de 5 a 20 fonemas / seg

Cuasiestacionariedad de la voz: En segmentos cortos, la voz se puede considerar una seal estacionaria: Excitacin constante (intensidad constante, frecuencia fundamental constante)

Resonancias constantes

Ventana de anlisis: entre 25 ms y 50 ms Problemas de esta aproximacin:

Coarticulacin

Consonantes no estacionarias (oclusivas, africadas)

3.6.- Caracterizacin de los sonidos de voz


7/21/2019 Prueba 707610

75/132


Tono, timbre, intensidad y duracin: Tono:

Relacionado con vibracin de cuerdas vocales

En fonemas sonoros Periodicidad en el tiempo; serie de armnicos en frecuencia

Timbre:

Relacionado con los formantes (o resonancias o conformacin del tracto vocal) Envolvente espectral Patrn repetido en el dominio del tiempo

Intensidad: Relacionada con la presin de aire suministrada por pulmones

Duracin: Evolucin en el tiempo de las caractersticas anteriores (ataque, cada, etc.).


7/21/2019 Prueba 707610

76/132


Frecuencia fundamental, formantes y evolucin temporal: Frecuencia fundamental:

Entre 50 Hz y 400 Hz

Rizado espectral (o estructura fina) Formantes:

Un formante por kHz

Envolvente espectral Cada de 6 dB por dcada (filtrado digital de pre-nfasis) Potencia despreciable por encima de 6 kHz

Evolucin temporal: En periodos cortos la seal es cuasiestacionaria Evolucin lenta (velocidad de produccin de fonemas)

Representacin espectral de tiempo corto:


7/21/2019 Prueba 707610

77/132


No tiene sentido estudiar el espectro de un segmento con variosfonemas (espectro promedio)

En periodos cortos (inferiores a 50 ms) seal cuasiestacionaria:

Anlisis espectral de tiempo corto: Segmentacin en tramas (longitud entre 20 ms y 50 ms) Anlisis espectral de cada trama:

Espectro FFT (espectrograma)

Banco de filtros Espectro LPC

Representaciones cepstrales

Anlisis tpico de seales de voz: Adquisicin de seal digital (amplificacin, filtrado y muestreo) Pre-nfasis y segmentacin en tramas usando ventanas deslizantes (Hamming) Anlisis por tramas (anlisis espectral; otros tipos de anlisis)

Resolucin espectral y temporal:


7/21/2019 Prueba 707610

78/132


Resolucin temporal: depende del tamao de la ventana y del solapamiento entreventanas Resolucin espectral: depende del tamao de la ventana y del tipo de anlisis

Excitacin: Rizado espectral (estructura fina del espectro) Resolucin espectral Ventanas largas (que incluyan varios periodos de pitch) en el espectrograma para

resolverlo en frecuencia (mayores de 30 ms, Narrow Band Spectrogram) Ventanas cortas (inferiores a un periodo de pitch) para resolverlo en el dominio del

tiempo (menores de 8 ms, Wide Band Spectrogram)

Resonancias:

Envolvente espectral Ventanas cortas Tcnica de suavizado espectral

7/21/2019 Prueba 707610

79/132


TEMA 4

REPRESENTACIN DE LASEAL DE VOZ

Tema 4: REPRESENTACIN DE LASEAL DE VOZ

Tema 4: Representacin de la voz

7/21/2019 Prueba 707610

80/132


4.1.- Introduccin.4.2.- Caractersticas de la seal de voz.

4.3.- Representacin de la forma de onda.4.4.- Energa de tiempo corto.4.5.- Tasa promedio de cruces por cero.

4.6.- Funcin de autocorrelacin de tiempo corto.4.7.- Estimacin del tono fundamental.4.8.- Anlisis de Fourier de tiempo corto. Espectrograma (WB y NB).

4.9.- Linear Prediction Coding: Anlisis LPC.4.10.- Anlisis basado en banco de filtros.4.11.- Procesamiento homomrfico. Cepstrum (FFT, LPC y MFCC).

4.1.- Introduccin


7/21/2019 Prueba 707610

81/132


Modelo de produccin de voz: excitacin + filtrado Excitacin: rizado espectral Filtrado: envolvente espectral

Parmetros del modelo: varan lentamente (5 20 fonemas / seg)

Representaciones basadas en anlisis de tiempo corto Anlisis basado en tramas solapadas Segmentacin en tramas y aplicacin de ventanas Cada trama se representa por uno o varios parmetros

En este tema estudiamos distintas representaciones de la seal devoz, que resultarn tiles para distintos propsitos

4.2.- Caractersticas de la seal de voz


7/21/2019 Prueba 707610

82/132


Frecuencia de la seal de voz: Rango de frecuencias audibles: de 20 Hz a 20 kHz Rango mnimo de frecuencias para la voz: de 350 Hz a 3.5 kHz (telefona)

Rango razonable para la voz: de 60 Hz a 6 kHz Cada de 6 dB/octava para frecuencias altas (algo ms: 8-10 dB/octava) El rango de frecuencia elegido condiciona la frecuencia de muestreo

Intensidad de la seal de voz: Rango tpico: de 50 dBA a 70 dBA Rango extendido: de 30 dBA (susurro) a 90 dBA (gritos a corta distancia) Rango de 60 dB: equivalentemente Amax/ Amin = 1000

Cuantizacin uniforme: requiere del orden de 2000 niveles si la ganancia estperfectamente ajustada (11 bits). Tpicamente se usan 12 o 16 bits con cuantizacin uniforme

8 bits para cuantizacin con compresin instantnea (ley-mu o ley-A)

Modelo estadstico de la seal de voz:


7/21/2019 Prueba 707610

83/132


Distribucin de amplitudes: aproximadamente Gamma o Laplaciana Distribucin espectral de la energa: cada de unos 8 dB -10 dB por octava

-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.410

0

101

102

10

3

104

10 5

Am litud

Nmerodemue

stras

Distribucin de amplitudes


7/21/2019 Prueba 707610

84/132


Distribucin laplaciana

Distribucin gamma

4.3.- Representacin de la forma de onda


7/21/2019 Prueba 707610

85/132


Proceso de representacin: Amplificacin y filtrado (analgico) Muestreo

Cuantizacin de las muestras Codificacin de las muestras (representacin digital de la forma de onda)

Prdida de informacin asociada a la adquisicin: Filtrado paso baja previo al muestreo (eliminacin de componentes de alta

frecuencia) Aliasing (si la frecuencia de muestreo no es suficientemente alta) Ruido de cuantizacin Otras fuentes de error (ruido del entorno, ruido de adquisicin, ruido en la

transmisin, errores de bit, errores de redondeo en las operaciones, etc.)

Evaluacin del error: relacin seal a ruido: e = x x SNR = x2/ e2 SNR(dB) = 10 log10(SNR)

Importancia de la relacin seal ruido en audio y voz: SNR = 80 dB Mnimo en equipos HiFi

SNR = 60 dB Tpico en audio no HiFi. (El ruido se percibe si se presta atencin)


7/21/2019 Prueba 707610

86/132


SNR = 40 dB El ruido se percibe claramente SNR = 25 dB Tpico en comunicacin telefnica de calidad

SNR = 15 dB El ruido es desagradable SNR = 10 dB El ruido dificulta la inteligibilidad de la voz

SNR = 0 dB El ruido hace muy difcil la inteligibilidad de la voz

Amplificacin:

Permite adaptar la amplitud de la seal de entrada al rango dinmico del conversoranalgico digital (compensar caractersticas del micrfono, separacin entre ellocutor y el micrfono, etc.)

Filtrado:

Debe eliminar componentes de frecuencia superior a la mitad de la frecuencia demuestreo (para evitar aliasing). Filtrado analgico

Rizado en banda pasante; banda de transicin; atenuacin mnima Para evitar problemas en el diseo, margen de frecuencia

Muestreo: Frecuencia de muestreo adecuada


7/21/2019 Prueba 707610

87/132


Frecuencias tpicas: 8 kHz; 11,025 kHz; 16 kHz; 20 kHz; 22,05 kHz; 44,1 kHz Cuantizacin:

Necesaria para representacin digital de las muestras Introduce un error de cuantizacin

Error de saturacin Cuantizacin uniforme:

8 bits: SNR = 40 dB 12 bits: SNR = 64 dB

16 bits: SNR = 88 dB Compresin instantnea:

Ley mu ; Ley A 8 bits: SNR = 40 dB

Cuantizacin adaptable Cuantizacin diferencial Cuantizacin con prediccin

Codificacin de las muestras0 0.2 0.4 0.6 0.8 1

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

4.4.- Energa de tiempo corto


7/21/2019 Prueba 707610

88/132


La energa de la seal vara en el tiempo: Fonemas sordos menor energa que fonemas sonoros Consonantes sonoras menor energa que vocales

La energa de tiempo corto pone de manifiesto estas variaciones:

Magnitud promedio de tiempo corto: Es una medida alternativa a la energa de tiempo corto

Es menos sensible a la amplitud de las muestras

Diagrama de bloques para estimar la energa o magnitud promedio:


7/21/2019 Prueba 707610

89/132


Energa de tiempo corto: elevar al cuadrado y ventana deslizante Magnitud promedio de tiempo corto: valor absoluto y ventana deslizante La ventana deslizante equivale a filtrado paso baja Como la variacin de estos parmetros es lenta, no es necesario calcularla muestra

a muestra (se puede calcular trama a trama)

7/21/2019 Prueba 707610

90/132


Ventana aplicada:

F d l t


7/21/2019 Prueba 707610

91/132


Forma de la ventana: Rectangular

Hamming

Longitud de la ventana:

4 ms; 8 ms; 16 ms; 32 ms; 64 ms

0 100 200 300 400 500-40

-30

-20

-10

0

10

20

30

40

50

f Hz

H(f)(dB)

Ventanas de Hamm ing y rectangular de 32 ms

HammingRectangular

0 5 10 15 20 25 30 350

0.2

0.4

0.6

0.8

1

1.2

t (ms)

h(n)

Ventana de Hamming de 32 ms


Energa de tiempo corto, ventana rectangular de distintas longitudes

1

tud

7/21/2019 Prueba 707610

92/132


0 200 400 600 800 1000 1200 1400 1600-1

0

amplitu

0 200 400 600 800 1000 1200 1400 16000

5

En(8ms)

0 200 400 600 800 1000 1200 1400 16000

5

10

En(16ms)

0 200 400 600 800 1000 1200 1400 16000

10

20

En(32ms)

0 200 400 600 800 1000 1200 1400 16000

20

40

En(64ms)


0

1

tud

Energa de tiempo corto, ventana de Hamming de distintas longitudes

7/21/2019 Prueba 707610

93/132


0 200 400 600 800 1000 1200 1400 1600-1

0

ampli

0 200 400 600 800 1000 1200 1400 16000

1

2

En(8ms)

0 200 400 600 800 1000 1200 1400 16000

2

4

En(16ms)

0 200 400 600 800 1000 1200 1400 16000

5

10

En(32ms)

0 200 400 600 800 1000 1200 1400 16000

10

20

En(64ms)


Magnitud promedio de tiempo corto, ventana rectangular de distintas longitudes

0

1

itud

7/21/2019 Prueba 707610

94/132


0 200 400 600 800 1000 1200 1400 1600-1

0

ampli

0 200 400 600 800 1000 1200 1400 16000

10

20

Mn

(8ms)

0 200 400 600 800 1000 1200 1400 16000

20

40

Mn(16ms)

0 200 400 600 800 1000 1200 1400 16000

50

100

Mn(32ms)

0 200 400 600 800 1000 1200 1400 16000

100

200

Mn(64ms)


Magnitud promedio de tiempo corto, ventana de Hamming de distintas longitudes

0

1

itud

7/21/2019 Prueba 707610

95/132


0 200 400 600 800 1000 1200 1400 1600-1

0

ampl

0 200 400 600 800 1000 1200 1400 16000

5

10

Mn

(8ms)

0 200 400 600 800 1000 1200 1400 16000

10

20

Mn(16ms)

0 200 400 600 800 1000 1200 1400 16000

20

40

Mn(32ms)

0 200 400 600 800 1000 1200 1400 16000

50

100

Mn(64ms)

4.5.- Tasa promedio de cruces por cero

La tasa promedio de cruces por cero es proporcional a la frecuencia


7/21/2019 Prueba 707610

96/132


La tasa promedio de cruces por cero es proporcional a la frecuenciade la seal (para seales de banda estrecha):

Z = 2 T / T0= 2 f0T

T

T0T0


7/21/2019 Prueba 707610

97/132


La tasa de cruces por cero mide el contenido de frecuencias

Mayor para fonemas sordos que para sonoros Es independiente de la amplitud de la seal Es sensible al ruido

Es sensible a nivel de continua til para deteccin de actividad de voz en combinacin con energa

Al igual que ocurra con la energa, el nmero de cruces por cero se cuenta sobreuna ventana deslizante


Tasa promedio de cruces por cero para varias longitudes de ventana

1d

1

7/21/2019 Prueba 707610

98/132


0 100 200 300 400 500 600-1

0

amplitud

0 100 200 300 400 500 6000

50

100

Zn(8

ms)

0 100 200 300 400 500 600

0

100

200

Zn(16ms)

0 100 200 300 400 500 6000

200

400

Zn(32ms)

0 100 200 300 400 500 6000

500

Zn(64

ms)

0 100 200 300 400 500 600-0.5

0

0.5

amplitud

0 100 200 300 400 500 6000

2

4

6

En(32ms)

0 100 200 300 400 500 6000

100

200

300

Zn

(32ms)

4.6.- Funcin de autocorrelacin de tiempo corto

Autocorrelacin:


7/21/2019 Prueba 707610

99/132


Autocorrelacin: Es la correlacin de una seal consigo misma desplazada kmuestras Diversas expresiones

Seales deterministas (estacionarias)

Estimacin trama a trama

Para evitar problemas de extremos de la trama

7/21/2019 Prueba 707610

100/132


0.5

1

tud

Funcin de autocorrelacin de tiempo corto para distintas longitudes de ventana

7/21/2019 Prueba 707610

101/132


0 100 200 300 400 500 600 700-0.5

0amplit

0 50 100 150 200 250-0.5

0

0.5

1

An(k)(

8ms)

0 50 100 150 200 250-0.5

0

0.5

1

An(k)(16ms)

0 50 100 150 200 250-0.5

0

0.5

1

An(k)(32ms)

0 50 100 150 200 250-0.5

0

0.5

1

An(k)(64ms)


Funcin de autocorrelacin de tiempo corto para distintos fonemas

0 5

1

d

7/21/2019 Prueba 707610

102/132


0 100 200 300 400 500 600 700-0.5

0

0.5

amplitud

0 50 100 150 200 250-0.5

0

0.5

1

An(k)(32ms)

0 50 100 150 200 250-0.5

0

0.5

1

An(k)(32ms)

0 50 100 150 200 250-0.5

0

0.5

1

An(k)(32ms)

4.7.- Estimacin del tono fundamental

La periodicidad de la seal asociada a excitacin peridica (pulsos


7/21/2019 Prueba 707610

103/132


La periodicidad de la seal asociada a excitacin peridica (pulsosglotales, vibracin cuerdas vocales) da lugar al tono fundamental

Si tenemos un fonema sonoro, la seal es cuasi peridica, (P0 f0)

P0 y f0 estn definidos para fonemas sonoros (no para fonemas sordos) La funcin de autocorrelacin de tiempo corto de una seal peridica de

periodo P0, es peridica con periodo P0:

Rn(k) = Rn(k+P) R n(0) = Rn(P) Como la seal es cuasiperidica:

Rn(0) Rn(P)

El pico ms importante de la funcin de autocorrelacin (despus de Rn(0)) se

presenta en la muestra correspondiente al periodo del pitch La funcin de autocorrelacin de tiempo corto permite estimar el periodo del pitch (y

el tono fundamental) f0= 1 / P0

Problemas de la estimacin basada en la funcin de autocorrelacin: Pico principal asociado a la cuasi periodicidad

Picos al principio asociados a la respuesta del tracto vocal


7/21/2019 Prueba 707610

104/132


Los picos del principio pueden ser mayores que el asociado a periodicidad (en algunossegmentos) dando lugar a estimaciones errneas del tono fundamental

Soluciones: Filtrar la seal paso baja o paso

banda (50 Hz 900 Hz)

Center clipping (nivel de clipping suele

establecerse como porcentaje delmximo) Autocorrelacin sobre la seal obtenida

tras el center clipping

Autocorrelacin normalizada (con Rn(0))

y umbral para determinar si el segmentoes sordo o sonoro

0.5

1

ud

Estimacin tono fundamental sin filtrado ni clipping


7/21/2019 Prueba 707610

105/132


0 100 200 300 400 500 600-0.5

0amplitu

0 100 200 300 400 500 6000

50

100

150

200

f0(Hz)

0 100 200 300 400 500 6000

0.2

0.4

0.6

0.8

1

max(R

n)/R

n(0)

Estimacin tono fundamental con filtrado y clipping

0 2

0.4

0.6

ud


7/21/2019 Prueba 707610

106/132


0 100 200 300 400 500 6000

50

100

150

200

f0(Hz)

0 100 200 300 400 500 6000

0.2

0.4

0.6

0.8

1

max(R

n

)/R

n(0)

0 100 200 300 400 500 600-0.4

-0.2

0

0.2

amplitu

Estimacin tono fundamental con filtrado y clipping (frase ms larga)

0 2

0.4

0.6

d


7/21/2019 Prueba 707610

107/132


0 500 1000 1500150

200

250

300

350

f0(Hz)

0 500 1000 15000

0.2

0.4

0.6

0.8

1

max(R

n)/R

n(0)

0 200 400 600 800 1000 1200 1400 1600-0.4

-0.2

0

0.2

amplitud

4.8.- Anlisis de Fourier de tiempo corto:espectrogramas NB y WB

La FFT de una ventana proporciona el espectro de la porcin de


7/21/2019 Prueba 707610

108/132


La FFT de una ventana proporciona el espectro de la porcin deseal contenida en la ventana

Espectrograma: representacin del espectro de las distintas

ventanas. Es una representacin tridimensional: Eje de tiempo (para cada ventana) Eje de frecuencia (para cada punto de la FFT)

Eje de amplitud (se suele representar el mdulo de la FFT en dB) Espectrograma tpico:

Eje horizontal para el tiempo Eje vertical para la frecuencia

Amplitud representada mediante un mapa de color o nivel de gris


7/21/2019 Prueba 707610

109/132


0

0.5

1

amplitud


7/21/2019 Prueba 707610

110/132


0 100 200 300 400 500 600 700-0.5

0 1000 2000 3000 4000

-20

0

20

X(f)(dB

)

0 1000 2000 3000 4000

-20

0

20

X(f)(dB

)

0 1000 2000 3000 4000

-20

0

20

X(f)(dB)

0 5 10 15-0.02

0

0.02

x(t)

0 5 10 15-0.5

0

0.5

1

x(t)

0 5 10 15-0.5

0

0.5

x(t)

NB (ventana de 64 ms)

3500

4000WB (ventana de 8 ms)

3500

4000


7/21/2019 Prueba 707610

111/132


tiempo (s)

frecuencia(Hz)

0 0.1 0.2 0.3 0.4 0.50

500

1000

1500

2000

2500

3000

tiempo (s)

frecuencia(Hz)

0 0.1 0.2 0.3 0.4 0.5 0.60

500

1000

1500

2000

2500

3000

NB (ventana de 64 ms)

3500

4000WB (ventana de 8 ms)

3500

4000


7/21/2019 Prueba 707610

112/132


tiempo (s)

frecuencia(Hz)

0 0.1 0.2 0.3 0.4 0.50

500

1000

1500

2000

2500

3000

tiempo (s)

frecuencia(Hz)

0 0.1 0.2 0.3 0.4 0.5 0.60

500

1000

1500

2000

2500

3000

Utilidad del espectrograma: representacin global de la seal de voz Caractersticas espectrales de tiempo corto (formantes) Evolucin de las caractersticas espectrales


7/21/2019 Prueba 707610

113/132


Tono fundamental / periodo fundamental: Representado en el dominio del tiempo (WB)

Representado en el dominio de la frecuencia (NB) Se pueden identificar (leer) fonemas del espectrograma

Importancia del tamao de la ventana: Determina la resolucin espectral

Determina la resolucin temporal Df = 45 Hz Dt = 22 ms NB Df = 300 Hz Dt = 3.3 ms WB

Forma de la ventana: usualmente Hamming

0

0.5

1

plitud


7/21/2019 Prueba 707610

114/132


0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8-1

-0.5

0

amp

tiempo (s)

frecuencia(Hz)

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

1000

2000

3000

4000

tiempo (s)

frecuen

cia(Hz)

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

1000

2000

3000

4000

Problema del espectrograma: Hay un compromiso entre resolucin temporal y resolucin espectral

(incertidumbre)En general interesan ventanas de unos 20 o 30 ms (cuasi estacionariedad)


7/21/2019 Prueba 707610

115/132


En general interesan ventanas de unos 20 o 30 ms (cuasi-estacionariedad) Dependiendo del propsito, interesan resoluciones espectrales peores que 50 Hz o

30 Hz (que corresponderan a NB) Si queremos estudiar la envolvente espectral (resonancias) convendra suavizar el

espectro

Tcnicas de suavizado espectral: Espectro LPC Banco de filtros Procesamiento homomrfico (cepstrum)

4.9.- Linear Prediction Coding: Anlisis LPC

El anlisis LPC trata de caracterizar el filtro H(z) que representa al tracto


7/21/2019 Prueba 707610

116/132


El anlisis LPC trata de caracterizar el filtro H(z) que representa al tractovocal, de acuerdo con el modelo excitacin filtrado

Filtro todo polos para modelar las resonancias (dos polos por cadaresonancia). A(z) es un polinomio en z-1

Salida del filtro cuando se presenta una excitacin u(n):

Predictor lineal: obtiene una prediccin de s(n) en base a las p ltimasmuestras:


7/21/2019 Prueba 707610

117/132


Coeficientes de prediccin lineal (LPC): los que minimizan el error deprediccin:

(la suma se extiende a la ventana de anlisis)

Los coeficientes del predictor se pueden identificar con los coeficientesdel filtro

El error de prediccin es G u(n) Para sonidos sonoros, la excitacin u(n) es un tren de impulsos (que vale cero para


7/21/2019 Prueba 707610

118/132


la mayor parte de las muestras). Esto es consistente con calcular los coeficientesdel filtro como aquellos que minimizan la energa residual.

Si u(n) es un impulso simple o ruido blanco estacionario, el modelo AR(autoregresivo) garantiza que los coeficientes que minimizan la energa residualcoinciden con los del filtro

De este modo, el anlisis LPC proporciona una estimacin del filtro que

representa el tracto vocal en el modelo excitacin filtrado

Espectro LPC: es la respuesta en frecuencia del filtro. Para la

frecuencia f se obtiene evaluando H(z) en z = ej 2 f

Espectro FFT y LPC para fonemas sonoro y sordo: /a/ /s/ (ventana de 180 ms)

0.1

0.2

0.3

-20

-10

0

7/21/2019 Prueba 707610

119/132


80 85 90 95 100

-0.2

-0.1

0

0.1

t (ms)

Amplitud

0 1000 2000 3000 4000 5000 6000-80

-70

-60

-50

-40

-30

frecuencia Hz

potencia(dB)

80 85 90 95 100

-0.2

-0.1

0

0.1

0.2

0.3

t ms

Amplitud

0 1000 2000 3000 4000 5000 6000-80

-70

-60

-50

-40

-30

-20

-10

0

frecuencia Hz

potencia(dB)

ORDEN DE PREDICCIN ADECUADO:

El anlisis LPC busca una resonancia por cada 2 polos Si buscamos la envolvente espectral (los formantes) debemos utilizar


7/21/2019 Prueba 707610

120/132


Si buscamos la envolvente espectral, (los formantes), debemos utilizarun orden aproximado de 2 x Numero-de-formantes (algo mayor)

Como hay aproximadamente 1 formante por cada kHz, para frecuenciade muestreo de 8 kHz (se analiza entre 0 y 4 kHz) se debe usaraproximadamente orden 8

Para ajustar mejor el espectro LPC a la envolvente espectral, se puedeusar un orden un poco mayor (por ejemplo, 12 o 14) Si se usa un orden excesivo, el espectro LPC se ajusta a los armnicos

Influencia del orden de prediccin (seal muestreada a 11 kHz)

7/21/2019 Prueba 707610

121/132


Influencia del tamao de la ventana (seal muestreada a 11 kHz; orden LPC 16)

7/21/2019 Prueba 707610

122/132


Espectrogramas FFT y LPC (ventana de 32 ms; orden LPC 12)

7/21/2019 Prueba 707610

123/132


4.10.- Anlisis basado en banco de filtros

El anlisis basado en banco de filtros proporciona un espectro suavizado


7/21/2019 Prueba 707610

124/132


La resolucin espectral viene determinada por el nmero de filtros y elancho de banda de stos

El banco de filtros se puede disear con distintos criterios: Distribucin de los filtros a lo largo del eje de frecuencia Ancho de banda para cada frecuencia

Los filtros se pueden implementar por distintos mtodos: En el dominio del tiempo En el dominio de la frecuencia (segmentacin en tramas y FFT)

Dependiendo de la aplicacin, se puede usar la salida de cada filtro, laenvolvente de la salida, o la potencia de salida

Escala Mel Distribuye los filtros de forma uniforme desde un punto de vista perceptual Compresin del eje de frecuencia


7/21/2019 Prueba 707610

125/132



7/21/2019 Prueba 707610

126/132


Banco de filtros triangulares en escala Mel (para aplicar sobre elespectro FFT) Cada trama de voz quedara representada por M energas de salida (una

por cada filtro del banco) Tpicamente se usan alrededor de 20 30 filtros solapados Se suele representar la potencia de salida en escala logartmica

4.11.- Procesamiento homomrfico. Cepstrum(FFT, LPC y MFCC)

El procesamiento homomrfico aplica operaciones no linealesObjetivo: separar seales que se mezclan de forma complicada


7/21/2019 Prueba 707610

127/132


Objetivo: separar seales que se mezclan de forma complicada Procedimiento: transformar seales para que en el dominio transformado la mezcla

complicada se transforme en una mezcla aditiva Dificultad: los sistemas no lineales son difciles de estudiar Para determinadas aplicaciones el procesamiento homomrfico es muy til

Cepstrum: procesamiento homomrfico que incluye:

Transformacin al dominio de la frecuencia Logaritmo Transformacin al dominio del tiempo

El cepstrum convierte la convolucin en una suma El filtrado es la convolucin de la excitacin y la respuesta impulsiva del filtro En el dominio cepstral se pueden separar las partes correspondiente a excitacin y

a filtrado


7/21/2019 Prueba 707610

128/132


En el dominio cepstral es ms fcil separar la excitacin y el

filtrado: Se mezclan de forma aditiva La excitacin (corresponde al rizado espectral) est en los trminos de orden alto

del cepstrum

El filtrado (corresponde a la envolvente espectral) est en los trminos de ordenbajo del cepstrum Liftering: filtrado en el dominio del cepstrum Se podra hacer transformacin inversa, para recuperar u h

Cepstrum FFT: Cada trama representada por unos pocos coeficientes cepstrales (envolvente

espectral) El espectro FFT es un conjunto de nmeros complejos

L it d l t d b l it l j


7/21/2019 Prueba 707610

129/132


Logaritmo del espectro debe ser un logaritmo complejo

Cepstrum LPC: El cepstrum se puede calcular a partir del espectro LPC (tambin complejo)

Tambin se puede calcular a partir de los coeficientes LPC


Cepstrum MFCC: Mel Frequency Cepstral Coefficients

El espectro se estima mediante banco de filtros en escala Mel La transformada inversa se sustituye por una transformada discreta del coseno

(DCT) inversa

7/21/2019 Prueba 707610

130/132


( )

Reduce las operaciones con nmeros complejos

Cada trama representada por un vector de coeficientes cepstrales

7/21/2019 Prueba 707610

131/132


TEMA 5

ANLISIS DE SEALES DE VOZ

Tema 5: ANALISIS DE SEALES DE VOZ

5.1.- Introduccin.

5 2 La forma de onda

Tema 5: Anlisis de voz

7/21/2019 Prueba 707610

132/132


5.2.- La forma de onda.

5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.

5.5.- Consonantes no estacionarias.

5.6.- Coarticulacin.5.7.- Variabilidad.

5.8.- La seal de voz en presencia de ruido:

Ruido blanco y ruido coloreado Ruido no estacionario

Deteccin de actividad de voz

Prueba 707610

Documents

Transcript of Prueba 707610