Prueba 707610
-
Upload
avellanjorge -
Category
Documents
-
view
221 -
download
0
Transcript of Prueba 707610
-
7/21/2019 Prueba 707610
1/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 1
UNIVERSIDAD DE GRANADA
PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA
PROCESAMIENTO DE VOZ
ngel de la Torre Vega
Dpto. Teora de la Seal, Telemtica y Comunicaciones
-
7/21/2019 Prueba 707610
2/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 2
ORGANIZACIN DE LA ASIGNATURA
-
7/21/2019 Prueba 707610
3/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 3
ORGANIZACIN DE LA ASIGNATURA Asignatura: PROCESAMIENTO DE VOZ Titulacin: Diplomado en Logopedia (3er curso, 2o cuatrimestre) Tipo: Optativa Profesores: ngel de la Torre (Dpto. TSTC, ETSIIT, 2a planta, desp. 22)
Diego Pablo Ruiz (Dpto. FA, Facultad de Ciencias)Artur Schmitt (Dpto. FA, Facultad de Ciencias)
Dpto: Teora de la Seal, Telemtica y Comunicaciones (50%)Fsica Aplicada (50%)
Horario: Teora: X y J de 19:00 a 20:00 en A.03 Prcticas: J de 20:00 a 21:00 en A.03
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
4/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 4
ORGANIZACIN DE LA ASIGNATURA Crditos: Total: 4.5 crditos
Teora: 3 crditos (30 horas) Prcticas: 1.5 crditos (15 horas)
Prcticas: Prcticas en aulas de ordenadores y laboratorio Fac. Ciencias
Evaluacin: Examen final de teora y cuestiones (67%) Prcticas: trabajo en aula de ordenadores/laboratorio y memoria de
prcticas (33%)
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
5/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 5
CONTENIDOS (1a parte: 15 horas)
1. INTRODUCCIN2. FUNDAMENTOS DE PROCESAMIENTO DE SEAL
3. MODELO DIGITAL DE PRODUCCIN DE VOZ4. REPRESENTACIN DE LA SEAL DE VOZ5. ANLISIS DE SEALES DE VOZ
6. SNTESIS Y CODIFICACIN DE VOZ7. RECONOCIMIENTO DE VOZ Y RECONOCIMIENTO DE
LOCUTORES
8. PROCESAMIENTO DE LA SEAL DE VOZ EN SISTEMAS DEAYUDA A LA AUDICIN9. APLICACIONES DE LAS TECNOLOGAS DEL HABLA EN EL
DIAGNSTICO, TRATAMIENTO Y SEGUIMIENTO LOGOPDICO
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
6/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 6
Tema 1: INTRODUCCIN
1.1.- La seal de voz.
1.2.- El procesamiento de voz en logopedia.1.3.- Objetivos de la asignatura.
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
7/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 7
Tema 2: FUNDAMENTOS DE
PROCESAMIENTO DE SEAL
2.1.- Introduccin.
2.2.- Seales.2.3.- La transformada de Fourier.
2.4.- Propiedades de la transformada de Fourier.
2.5.- El teorema de muestreo.2.6.- Seales analgicas y seales digitales.
2.7.- La transformada discreta de Fourier.2.8.- Procesamiento digital de seales.
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
8/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 8
Tema 3: MODELO DIGITAL DE
PRODUCCIN DE VOZ
3.1.- Introduccin.
3.2.- Produccin de la voz.3.3.- Resonancias del tracto vocal.
3.4.- Modelo excitacin filtrado.
3.5.- Evolucin temporal de los parmetros del modelo.3.6.- Caracterizacin de los sonidos de voz:
Tono, timbre, intensidad y duracin. Frecuencia fundamental, formantes, evolucin temporal. Representacin espectral de tiempo corto.
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
9/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 9
Tema 4: REPRESENTACIN DE LA
SEAL DE VOZ4.1.- Introduccin.4.2.- Caractersticas de la seal de voz.4.3.- Representacin de la forma de onda.4.4.- Energa de tiempo corto.4.5.- Tasa promedio de cruces por cero.4.6.- Funcin de autocorrelacin de tiempo corto.4.7.- Estimacin del tono fundamental.4.8.- Anlisis de Fourier de tiempo corto. Espectrograma (WB y NB).4.9.- Linear Prediction Coding: Anlisis LPC.4.10.- Anlisis basado en banco de filtros.4.11.- Procesamiento homomrfico. Cepstrum (FFT, LPC y MFCC).
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
10/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 10
Tema 5: ANALISIS DE SEALES DE VOZ
5.1.- Introduccin.
5.2.- La forma de onda.5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.
5.5.- Consonantes no estacionarias.5.6.- Coarticulacin.5.7.- Variabilidad.
5.8.- La seal de voz en presencia de ruido: Ruido blanco y ruido coloreado Ruido no estacionario Deteccin de actividad de voz
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
11/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 11
Tema 6: SNTESIS Y CODIFICACIN DE VOZ
6.1.- Introduccin.
6.2.- Codificacin y decodificacin de voz.6.3.- Sntesis de voz.
6.4.- Manipulacin de la seal de voz.
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
12/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 12
Tema 7: RECONOCIMIENTO DE VOZ Y
RECONOCIMIENTO DE LOCUTORES7.1.- Introduccin.
7.2.- Reconocimiento automtico de voz: Problemas asociados al reconocimiento de voz. Representacin de la voz: el front-end. Modelado acstico: GMMs, HMMs y ANNs.
Modelado del lenguaje: vocabulario y gramtica. El sistema de dilogo.
7.3.- Reconocimiento automtico de locutor:
Problemas asociados al reconocimiento de locutores Reconocimiento, identificacin y verificacin de locutor. Distintos
enfoques del problema.
Representacin de la voz y modelado del locutor.
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
13/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 13
Tema 8: PROCESAMIENTO DE LA SEAL DE VOZ
EN SISTEMAS DE AYUDA A LA AUDICIN8.1.- Introduccin.8.2.- Audfonos:
Amplificacin. Bancos de filtros. Compresin.
Control automtico de ganancia y reduccin de ruido. Realimentacin acstica.
8.3.- Implantes cocleares: Funcionamiento del implante coclear.
Procesamiento de la seal en un implante coclear. Posibilidades y limitaciones de los implantes cocleares. Programacin de los implantes cocleares.
Percepcin del sonido con implantes cocleares.
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
14/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 14
Tema 9: APLICACIONES DE LAS TECNOLOGAS
DEL HABLA EN EL DIAGNSTICO,TRATAMIENTO Y SEGUIMIENTO LOGOPDICO
9.1.- Introduccin.9.2.- Herramientas de anlisis de la voz.
9.3.- Herramientas basadas en reconocimiento de voz.
Organizacin de la asignatura
-
7/21/2019 Prueba 707610
15/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 15
Bibliografa recomendada
Organizacin de la asignatura
L.R. Rabiner y R.W. Schafer. Digital Processing of SpeechSignals. Prentice Hall, 1978.
S. Furui. Advances in Speech Signal Processing. Dekker, 1992.
S.V. Vaseghi. Advanced Digital Signal Processing and NoiseReduction. John Wiley and Sons, 2000.
J.L. Flanagan. Speech Analysis, Synthesis and Perception.Springer Verlag, 1972.
A. Quilis, J.A. Fernandez. Curso de fontica y fonologaespaolas. CSIC, 1989.
A. de la Torre, A.M. Peinado, A.J. Rubio. Reconocimiento
Automtico de Voz en Condiciones de Ruido. Universidad deGranada, 2001. Revistas: Speech Communication, IEEE Trans. Speech and Audio
Processing, Computer Speech and Language.
-
7/21/2019 Prueba 707610
16/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 16
TEMA 1
INTRODUCCIN
-
7/21/2019 Prueba 707610
17/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 17
Tema 1: INTRODUCCIN
1.1.- La seal de voz.
1.2.- El procesamiento de voz en logopedia.1.3.- Objetivos de la asignatura.
Tema 1: Introduccin
-
7/21/2019 Prueba 707610
18/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 18
1.1.- La seal de voz
Qu es la voz?: La voz es una onda de presin: P(x, y, z, t) = P(r, t)
Produccin: aparato fonador Propagacin (dispersin, difraccin) Audicin: se percibe y analiza en el odo; se procesa en el cerebro
Rango de intensidad: 50 70 dB SPL Rango de frecuencia: 60 Hz 6 kHz (telefona: 350 Hz 3.5 kHz) La seal de voz:
Seal elctrica recogida por un micrfono (forma de onda): A(t) (mV) Seal digital (muestreo y cuantizacin) 64 kbps; 86 kBps; Frecuencia de muestreo (8 kHz; 22 kHz; 44,1 kHz)
Nmero de bits por muestra (8 bits; 12 bits; 16 bits)
Tema 1: Introduccin
-
7/21/2019 Prueba 707610
19/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 19
Asignatura organizada en 2 partes: La onda de voz (2 parte): Fsica Acstica La seal de voz (1 parte): Procesamiento de seales
Seal:
Transmisin de informacin Ruido
Informacin contenida en la seal de voz:
Fonemas, slabas, palabras Frases, mensaje Caractersticas suprasegmentales Locutor
Patologas, vicios, acentos Entorno acstico (ruido)
Tema 1: Introduccin
-
7/21/2019 Prueba 707610
20/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 20
Transmisin de informacin en la comunicacin oralTema 1: Introduccin
-
7/21/2019 Prueba 707610
21/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 21
Procesamiento de voz (principales lneas)
Tema 1: Introduccin
Anlisis de voz
Codificacin y compresin de voz Sntesis de voz (conversin texto a voz) Reconocimiento automtico de voz
Reconocimiento y verificacin de locutores Comprensin de voz y sistemas de dilogo
Percepcin de la voz
Sistemas de ayuda a la audicin
-
7/21/2019 Prueba 707610
22/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 22
1.2.- El procesamiento de voz en logopedia
Tareas usuales en logopedia: (Re)habilitacin en foniatra
(Re)habilitacin en audicin Diseo y uso de material para evaluacin
Cmo evoluciona un determinado parmetro?
Puede considerarse normal un determinado parmetro?
Diseo y uso de material para rehabilitacin
El procesamiento de voz ayuda a: Entender la produccin de la voz
Entender la percepcin de la voz Analizar y procesar seales de voz Entender herramientas relacionadas con el procesamiento de voz
Tema 1: Introduccin
-
7/21/2019 Prueba 707610
23/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 23
Herramientas relacionadas con el procesamiento de voz:
Anlisis de voz Sntesis de voz Reconocimiento de voz Codificacin de voz
Problemas del procesamiento de voz: Variabilidad:
Intra-locutor (estado de salud, de nimo, velocidad, etc.). Inter-locutor
Entorno de adquisicin Continuidad: concatenacin y coarticulacin Informacin contenida en la voz muy redundante Multi-interactividad entre niveles:
Nivel fontico Caractersticas suprasegmentales Nivel semntico; contexto; suplencia mental
Ruido: perturbacin y efecto Lombard
Tema 1: Introduccin
-
7/21/2019 Prueba 707610
24/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 24
Variabilidad de la
seal de voz
Arriba: Tres ejecuciones del fonema/a/ en la frase voy a comprar panpronunciada por una mujer.
Abajo: Tres ejecuciones del fonema/a/ en la frase voy a comprar panpronunciada por un hombre.
Tema 1: Introduccin
T 1 I d i
-
7/21/2019 Prueba 707610
25/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 25
1.3.- Objetivos de la asignatura
Objetivos globales: Conocer las caractersticas de la seal de voz
Conocer las operaciones de procesamiento de seal que se aplican a la seal devoz:
Principales tcnicas de anlisis Aplicaciones de estas tcnicas
Aplicaciones del procesamiento de voz en logopedia
Avances tecnolgicos: Software de propsito general (MATLAB) para el anlisis y procesamiento de
seales de voz Software de propsito especfico (Dr. Speech) para el anlisis y procesamiento deseales de voz
Existencia de otros paquetes relacionados con procesamiento de voz
Tema 1: Introduccin
T 1 I t d i
-
7/21/2019 Prueba 707610
26/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 26
El procesamiento de voz contribuye a resolver cuestiones como: Qu relacin hay entre la seal de voz y los fonemas?
Qu relacin hay entre la seal de voz y otras unidades o caractersticas?
Qu herramientas de procesamiento de seal podemos (o debemos) usar para
analizar la seal de voz?
Cmo se manifiesta una patologa de la voz en la seal?
Cmo podemos ajustar un sistema de ayuda a la audicin para optimizar la
comprensin de la voz?
Cmo podemos interpretar un error en la produccin de un fonema?
Cmo podemos interpretar un error en la deteccin o identificacin de un fonema?
Tema 1: Introduccin
Tema 1: Introduccin
-
7/21/2019 Prueba 707610
27/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 27
Organizacin del curso (parte de procesamiento de seales de voz):
Tema 2: Fundamentos de procesamiento de seal (2 horas) Tema 3: Modelo digital de produccin de voz (1 hora) Tema 4: Representacin de la seal de voz (3 horas)
Tema 5: Anlisis de seales de voz (3 horas) Tema 6: Sntesis y codificacin de voz (1 hora) Tema 7: Reconocimiento de voz y reconocimiento de locutores (1 hora)
Tema 8: Procesamiento de la seal de voz en sistemas de ayuda a la audicin (2horas): Audfonos
Implantes cocleares
Tema 9: Aplicaciones de las tecnologas del habla en el diagnstico, tratamiento yseguimiento logopdico (1 hora).
Tema 1: Introduccin
-
7/21/2019 Prueba 707610
28/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 28
TEMA 2FUNDAMENTOS DE
PROCESAMIENTO DE SEAL
Tema 2: Proces de seal
-
7/21/2019 Prueba 707610
29/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 29
Tema 2: FUNDAMENTOS DE
PROCESAMIENTO DE SEAL2.1.- Introduccin.
2.2.- Seales.2.3.- La transformada de Fourier.
2.4.- Propiedades de la transformada de Fourier.
2.5.- El teorema de muestreo.2.6.- Seales analgicas y seales digitales.
2.7.- La transformada discreta de Fourier.
2.8.- Procesamiento digital de seales.
Tema 2: Proces. de seal
Tema 2: Proces de seal
-
7/21/2019 Prueba 707610
30/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 30
2.1.- Introduccin
El principal propsito de la voz es la comunicacin: La forma de onda contiene informacin
Teora de la Informacin: Informacin contenida Teora de Seal: Cmo se transmite la informacin en la forma de onda
En la prctica, la representacin de la voz est basada usualmenteen la forma de onda: Modelos de produccin Procesamiento de seal
Tema 2: Proces. de seal
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
31/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 31
En este tema se revisan nociones bsicas de procesamiento de
seal: Concepto de seal Representacin de la seal en el dominio del tiempo y en el dominio de la
frecuencia: la transformada de Fourier Propiedades de la transformada de Fourier Muestreo de seales: el teorema de muestreo Representacin digital de seales
La transformada discreta de Fourier: DFT y FFT Procesamiento digital de seales
Tema 2: Proces. de seal
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
32/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 32
2.2.- Seales
CONCEPTO DE SEAL: UNA SEAL ES UNA VARIACIN DE UNA MAGNITUD QUE TRANSMITE UNA
INFORMACIN
Tipos de seales: De una variable, de varias variables Unidimensional, multidimensional
Discreta, continua, de variable discreta, de variable continua Objetivo del procesamiento de seal: Comunicacin eficiente:
Codificacin, transmisin, recepcin, almacenamiento y representacin de sealesen sistemas de comunicacin de forma eficiente y fiable
Extraccin de informacin de seales ruidosas
Mtodos de complejidad muy variada: (no paramtricos, basados enmodelos, bayesianos, etc.)
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
33/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 33
2.3.- La transformada de Fourier (FT)
Transformacin de dominio: A veces una operacin resulta ms sencilla en un dominio transformado Ejemplo: el producto resulta ms sencillo en el dominio del logaritmo
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
34/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 34
La transformada de Fourier pasa del dominio del tiempo al dominio
de la frecuencia: Cambio de representacin: g(t) G(f) (= 2f ) Misma informacin en ambos dominios (es slo un cambio de representacin)
Existe la transformada inversa: G(f) g(t)
Transforma una seal compleja g(t) en un espectro complejo G(f)
La transformada de Fourier descompone una seal en sus componentessenoidales
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
35/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 35
Transformada de una funcin coseno y una funcin seno:
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
36/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 36
Espectro de potencia:
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
37/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 37
Utilidad de la transformada de Fourier: Descompone una seal en sus componentes de frecuencia Propiedades:
2.4.- Propiedades de la transformada de Fourier
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
38/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 38
Descomposicin en componentes de frecuencia:
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
39/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 39
Linealidad de la transformada de Fourier:
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
40/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 40
Linealidad de la transformada de Fourier:
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
41/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 41
Filtrado:
Caracterizacin del filtro: En el dominio del tiempo: por su respuesta impulsiva h(t) En el dominio de la frecuencia: por su funcin de transferencia o respuesta en
frecuencia H(f)
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
42/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 42
Filtrado en el dominio del tiempo: convolucin
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
43/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 43
Filtrado en el dominio de la frecuencia: multiplicacin
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
44/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 44
Ventanas (multiplicacin en el tiempo; convolucin en frecuencia)
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
45/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 45
Tamao de ventana y resolucin espectral
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
46/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 46
Transformada de un tren de pulsos
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
47/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 47
Transformada de una seal peridica
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
48/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 48
Propiedades ms importantes
Tema 2: Proces. de seal
2 5 El d
-
7/21/2019 Prueba 707610
49/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 49
2.5.- El teorema de muestreo
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
50/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 50
ENUNCIADO DEL TEOREMA DE MUESTREO:
UNA SEAL LIMITADA EN BANDA A B Hz QUEDA REPRESENTADA PORSUS VALORES (MUESTRAS) TOMADOS A INTERVALOS REGULARES CONUNA FRECUENCIA DE MUESTREO NO INFERIOR A 2B Hz.
PARA RECUPERAR LA SEAL ORIGINAL, BASTA FILTRAR LA SEALMUESTREADA CON UN FILTRO PASO-BAJA CON FRECUENCIA DE CORTEB Hz.
SI LA FRECUENCIA DE MUESTREO NO ES SUFICIENTEMENTE ALTAAPARECEN COMPONENTES DE FRECUENCIA FANTASMAS (ALIASING)
PARA MUESTREAR: Se debe seleccionar una frecuencia de muestreo suficientemente alta O bien se debe filtrar paso-baja la seal antes de muestrear
Tema 2: Proces. de seal
2 6 S l l i l di it l
-
7/21/2019 Prueba 707610
51/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 51
2.6.- Seales analgicas y seales digitales
Seales fsicas: Magnitud continua, variable continua: x(t) Seal discreta
Variable discreta
Representacin digital de una seal analgica:
Discretizacin en el tiempo: MUESTREO Discretizacin de la magnitud: CUANTIZACIN El muestreo no supone prdida de informacin (T. de muestreo) La cuantizacin introduce un ruido (ruido de cuantizacin) (precisin limitada)
Adquisicin de una seal: Amplificacin y filtrado. Muestreo. Retencin. Cuantizacin. Codificacin
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
52/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 52
Adquisicin de seales
Muestreo: discretizar eltiempo:
x(t) x(n)
Cuantizacin: discretizar
la magnitud: x(n) x(n)
Codificacin(representacin digital delas muestras)
0 0.2 0.4 0.6 0.8 1
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Tema 2: Proces. de seal
2 7 La transformada discreta de Fourier
-
7/21/2019 Prueba 707610
53/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 53
2.7.- La transformada discreta de Fourier
En la prctica, la transformada de Fourier no se utiliza para analizarseales: Seales infinitas, continuas, no peridicas: transformada de Fourier adecuada
FT requiere integracin numrica Seales digitales: muestreadas, finitas: Transformada discreta de Fourier (DFT)
Definicin de la transformada discreta de Fourier :
Para una seal discreta en el tiempo x(m), finita con Nmuestras, la DFT se definecomo Nmuestras espectrales uniformemente espaciadas
Existe tambin una transformada discreta de Fourier inversa Debido a la longitud finita de x(m) (equivale a aplicar ventana) no es necesario
calcular el espectro para cualquier frecuencia (resolucin espectral limitada)
Tema 2: Proces. de seal
-
7/21/2019 Prueba 707610
54/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 54
Algoritmos DFT:
Transformada discreta de Fourier (aplicar matriz sobre un vector) DFT Algoritmo rpido (Fast Fourier Transform) FFT es el ms usual (eficiente) Forma de la ventana: rectangular, Hamming, Hanning, Gaussiana, etc. Importancia de la longitud de la ventana: condiciona la resolucin espectral
Tema 2: Proces. de seal
Tamao de ventana y resolucin espectral en FFT
-
7/21/2019 Prueba 707610
55/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 55
Tamao de ventana y resolucin espectral en FFT
Tema 2: Proces. de seal
2 8 - Procesamiento digital de seales
-
7/21/2019 Prueba 707610
56/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 56
2.8.- Procesamiento digital de seales
Operaciones habituales en procesamiento digital de seales: Filtrado lineal (filtros IIR, filtros FIR); filtrado no lineal Procesamiento en tramas (ventanas deslizantes)
Procesamiento mediante bancos de filtros Extraccin de caractersticas Reduccin de ruido (realce)
Normalizacin Comparacin con modelos
Las operaciones aplicadas dependen del tipo de seal y del tipo deinformacin que se quiere obtener:
Seal de audio Identificacin de locutor, reconocimiento de fonemas, anlisis del tono fundamental,
etc... Mtodos no paramtricos; basados en modelos; bayesianos; ANNs; HMMs....
-
7/21/2019 Prueba 707610
57/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 57
TEMA 3
MODELO DIGITAL DEPRODUCCIN DE VOZ
Tema 3: MODELO DIGITAL DETema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
58/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 58
PRODUCCIN DE VOZ3.1.- Introduccin.
3.2.- Produccin de voz.
3.3.- Resonancias del tracto vocal.
3.4.- Modelo excitacin filtrado.
3.5.- Evolucin temporal de los parmetros del modelo.3.6.- Caracterizacin de los sonidos de voz:
Tono, timbre, intensidad y duracin.
Frecuencia fundamental, formantes, evolucin temporal Representacin espectral de tiempo corto
3 1 Introduccin
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
59/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 59
3.1.- Introduccin
Las caractersticas de la voz estn condicionadas por losmecanismos de produccin:
Generacin del sonido Resonancias Radiacin acstica
La voz es una onda acstica: Fsica acstica de la produccin de voz
En este tema veremos un modelo digital de produccin de voz: Excitacin Filtrado Caractersticas de la seal de voz (es una seal de audio muy particular)
3 2 Produccin de la voz
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
60/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 60
3.2.- Produccin de la voz
rganos de produccin de voz: Cavidades infraglticas Cavidad larngea (cuerdas vocales)
Cavidades supraglticas
Provisin de aire
Generacin del sonido: Vibracin cuerdas vocales (ondaglotal) en fonemas sonoros
Flujo turbulento (fricativos)
Oclusin + apertura (oclusivos) Filtrado del sonido
Radiacin del sonido
Cuerdas vocales:
(A) Respiracin (B) Fonemas sordos (C) Fonemas sonoros
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
61/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 61
Pulmones
Traquea, bronquios Cuerdas vocales
Velo del paladar Tracto vocal
Boca Tracto nasal Orificios nasales
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
62/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 62
Cavidades supraglticas(diversificacin fontica):1 Cavidad nasal2 Faringe nasal3 Paladar duro4 Paladar blando o velo del paladar5 Lengua
6 Faringe oral7 Faringe larngea8 Cartlago tiroides
9 Cuerdas vocales
10 Traquea11 Esfago
3 3 - Resonancias del tracto vocal
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
63/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 63
3.3.- Resonancias del tracto vocal
Voz: onda acstica (onda de presin que se propaga por el aire) Velocidad: c = 350 m/s
Longitud de onda: = c / f Para 100 Hz, = 3.5 m Para 4 kHz, = 8.5 cm
> r (radio del tubo) aproximacin de onda plana
La forma del tracto vocal condiciona las resonancias: El tracto vocal filtra del sonido generado El tracto vocal queda descrito por la funcin de rea A(x,t) Variacin del tracto vocal: se producen entre 5 y 20 fonemas por segundo (vara
lentamente) Acoplamiento del tracto nasal (velo del paladar)
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
64/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 64
Funcin de rea
Acoplamiento deltracto nasal
Si lifi i t di l i d l t t l
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
65/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 65
Simplificaciones para estudiar las resonancias del tracto vocal Aproximacin de onda plana (onda unidimensional) Estacionariedad (funcin de rea invariante en el tiempo A(x,t) = A(x) ) Tubo de seccin constante a trozos
Tubo de seccin constante Impedancia acstica nula en los labios (ignorar radiacin) Prdidas despreciables (ignorar prdidas por viscosidad, conduccin trmica, etc.)
Tubo rgido (ignorar elasticidad del tracto vocal)
La funcin de rea A(x) Si A(x) es sencilla, se pueden obtener soluciones exactas para las resonancias
Si A(x) es compleja, mtodos numricos A(x) se puede medir por diversos mtodos: Rx, TAC, RMN, articulgrafos
Respuesta en frecuencia del tracto vocal: formantes
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
66/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 66
L = 17.5 cm
A = 5.0 cm2 (cte)Paredes elsticas
1 resonancia / kHz
Formantes
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
67/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 67
Formantes Los formantes son resonancias del tracto vocal Debido a las dimensiones del tracto vocal y a la velocidad de propagacin, aparece
en promedio 1 formante por cada kHz El tracto vocal filtra el sonido generado:
Amplifica algunas frecuencias (correspondientes a los formantes)
Atena otras frecuencias
Prdidas por radiacin Impedancia acstica del bafle Abertura circular en plano infinito
Abertura circular en esfera
Labios Prdidas dependientes de la frecuencia
Cada para altas frecuencias: aproximadamente 6 dB / dcada
Respuesta en frecuencia del tracto vocal
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
68/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 68
L = 17.5 cm
A = 5.0 cm2 (cte)Paredes elsticas
Prdidas porradiacin
1 formante / kHz
Cada de 6 dB / dec
Respuesta en frecuencia del tracto vocal: fonema /a/
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
69/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 69
Funciones de rea y formantes
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
70/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 70
3.4.- Modelo excitacin filtrado
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
71/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 71
Excitacin: Fonemas sonoros: vibracin de cuerdas vocales
Tren de pulsos glotales (pitch)
Frecuencia fundamental f0 , periodo del pitch T0 Fonemas fricativos: flujo turbulento en un estrechamiento del tracto
Fonemas oclusivos: oclusin + apertura Combinacin de mecanismos de excitacin
Filtrado: Funcin de rea del tracto vocal y nasal (acoplamiento nasal) Radiacin Un formante por kHz y cada promedio de 6 dB / dcada
Evolucin temporal de la excitacin y el filtrado
Modelo digital de produccin de voz
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
72/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 72
Ejemplo de fonemas sonoro y sordo: /a/ /s/
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
73/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 73
80 85 90 95 100
-0.2
-0.1
0
0.1
0.2
0.3
t (ms)
Amplitud
0 1000 2000 3000 4000 5000 6000-80
-70
-60
-50
-40
-30
-20
-10
0
frecuencia Hz
potencia(dB)
80 85 90 95 100
-0.2
-0.1
0
0.1
0.2
0.3
t ms
Am
plitud
0 1000 2000 3000 4000 5000 6000-80
-70
-60
-50
-40
-30
-20
-10
0
frecuencia Hz
potencia(dB)
3.5.- Evolucin temporal de losparmetros del modelo
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
74/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 74
parmetros del modelo
Limitaciones fisiolgicas: Variaciones en la presin de aire suministrada Variaciones en la tensin de las cuerdas vocales
Variaciones en la conformacin del tracto buco-nasal Limitacin en la velocidad de produccin de fonemas: de 5 a 20 fonemas / seg
Cuasiestacionariedad de la voz: En segmentos cortos, la voz se puede considerar una seal estacionaria: Excitacin constante (intensidad constante, frecuencia fundamental constante)
Resonancias constantes
Ventana de anlisis: entre 25 ms y 50 ms Problemas de esta aproximacin:
Coarticulacin
Consonantes no estacionarias (oclusivas, africadas)
3.6.- Caracterizacin de los sonidos de voz
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
75/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 75
Tono, timbre, intensidad y duracin: Tono:
Relacionado con vibracin de cuerdas vocales
En fonemas sonoros Periodicidad en el tiempo; serie de armnicos en frecuencia
Timbre:
Relacionado con los formantes (o resonancias o conformacin del tracto vocal) Envolvente espectral Patrn repetido en el dominio del tiempo
Intensidad: Relacionada con la presin de aire suministrada por pulmones
Duracin: Evolucin en el tiempo de las caractersticas anteriores (ataque, cada, etc.).
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
76/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 76
Frecuencia fundamental, formantes y evolucin temporal: Frecuencia fundamental:
Entre 50 Hz y 400 Hz
Rizado espectral (o estructura fina) Formantes:
Un formante por kHz
Envolvente espectral Cada de 6 dB por dcada (filtrado digital de pre-nfasis) Potencia despreciable por encima de 6 kHz
Evolucin temporal: En periodos cortos la seal es cuasiestacionaria Evolucin lenta (velocidad de produccin de fonemas)
Representacin espectral de tiempo corto:
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
77/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 77
No tiene sentido estudiar el espectro de un segmento con variosfonemas (espectro promedio)
En periodos cortos (inferiores a 50 ms) seal cuasiestacionaria:
Anlisis espectral de tiempo corto: Segmentacin en tramas (longitud entre 20 ms y 50 ms) Anlisis espectral de cada trama:
Espectro FFT (espectrograma)
Banco de filtros Espectro LPC
Representaciones cepstrales
Anlisis tpico de seales de voz: Adquisicin de seal digital (amplificacin, filtrado y muestreo) Pre-nfasis y segmentacin en tramas usando ventanas deslizantes (Hamming) Anlisis por tramas (anlisis espectral; otros tipos de anlisis)
Resolucin espectral y temporal:
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
78/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 78
Resolucin temporal: depende del tamao de la ventana y del solapamiento entreventanas Resolucin espectral: depende del tamao de la ventana y del tipo de anlisis
Excitacin: Rizado espectral (estructura fina del espectro) Resolucin espectral Ventanas largas (que incluyan varios periodos de pitch) en el espectrograma para
resolverlo en frecuencia (mayores de 30 ms, Narrow Band Spectrogram) Ventanas cortas (inferiores a un periodo de pitch) para resolverlo en el dominio del
tiempo (menores de 8 ms, Wide Band Spectrogram)
Resonancias:
Envolvente espectral Ventanas cortas Tcnica de suavizado espectral
-
7/21/2019 Prueba 707610
79/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 79
TEMA 4
REPRESENTACIN DE LASEAL DE VOZ
Tema 4: REPRESENTACIN DE LASEAL DE VOZ
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
80/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 80
4.1.- Introduccin.4.2.- Caractersticas de la seal de voz.
4.3.- Representacin de la forma de onda.4.4.- Energa de tiempo corto.4.5.- Tasa promedio de cruces por cero.
4.6.- Funcin de autocorrelacin de tiempo corto.4.7.- Estimacin del tono fundamental.4.8.- Anlisis de Fourier de tiempo corto. Espectrograma (WB y NB).
4.9.- Linear Prediction Coding: Anlisis LPC.4.10.- Anlisis basado en banco de filtros.4.11.- Procesamiento homomrfico. Cepstrum (FFT, LPC y MFCC).
4.1.- Introduccin
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
81/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 81
Modelo de produccin de voz: excitacin + filtrado Excitacin: rizado espectral Filtrado: envolvente espectral
Parmetros del modelo: varan lentamente (5 20 fonemas / seg)
Representaciones basadas en anlisis de tiempo corto Anlisis basado en tramas solapadas Segmentacin en tramas y aplicacin de ventanas Cada trama se representa por uno o varios parmetros
En este tema estudiamos distintas representaciones de la seal devoz, que resultarn tiles para distintos propsitos
4.2.- Caractersticas de la seal de voz
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
82/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 82
Frecuencia de la seal de voz: Rango de frecuencias audibles: de 20 Hz a 20 kHz Rango mnimo de frecuencias para la voz: de 350 Hz a 3.5 kHz (telefona)
Rango razonable para la voz: de 60 Hz a 6 kHz Cada de 6 dB/octava para frecuencias altas (algo ms: 8-10 dB/octava) El rango de frecuencia elegido condiciona la frecuencia de muestreo
Intensidad de la seal de voz: Rango tpico: de 50 dBA a 70 dBA Rango extendido: de 30 dBA (susurro) a 90 dBA (gritos a corta distancia) Rango de 60 dB: equivalentemente Amax/ Amin = 1000
Cuantizacin uniforme: requiere del orden de 2000 niveles si la ganancia estperfectamente ajustada (11 bits). Tpicamente se usan 12 o 16 bits con cuantizacin uniforme
8 bits para cuantizacin con compresin instantnea (ley-mu o ley-A)
Modelo estadstico de la seal de voz:
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
83/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 83
Distribucin de amplitudes: aproximadamente Gamma o Laplaciana Distribucin espectral de la energa: cada de unos 8 dB -10 dB por octava
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.410
0
101
102
10
3
104
10 5
Am litud
Nmerodemue
stras
Distribucin de amplitudes
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
84/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 84
Distribucin laplaciana
Distribucin gamma
4.3.- Representacin de la forma de onda
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
85/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 85
Proceso de representacin: Amplificacin y filtrado (analgico) Muestreo
Cuantizacin de las muestras Codificacin de las muestras (representacin digital de la forma de onda)
Prdida de informacin asociada a la adquisicin: Filtrado paso baja previo al muestreo (eliminacin de componentes de alta
frecuencia) Aliasing (si la frecuencia de muestreo no es suficientemente alta) Ruido de cuantizacin Otras fuentes de error (ruido del entorno, ruido de adquisicin, ruido en la
transmisin, errores de bit, errores de redondeo en las operaciones, etc.)
Evaluacin del error: relacin seal a ruido: e = x x SNR = x2/ e2 SNR(dB) = 10 log10(SNR)
Importancia de la relacin seal ruido en audio y voz: SNR = 80 dB Mnimo en equipos HiFi
SNR = 60 dB Tpico en audio no HiFi. (El ruido se percibe si se presta atencin)
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
86/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 86
SNR = 40 dB El ruido se percibe claramente SNR = 25 dB Tpico en comunicacin telefnica de calidad
SNR = 15 dB El ruido es desagradable SNR = 10 dB El ruido dificulta la inteligibilidad de la voz
SNR = 0 dB El ruido hace muy difcil la inteligibilidad de la voz
Amplificacin:
Permite adaptar la amplitud de la seal de entrada al rango dinmico del conversoranalgico digital (compensar caractersticas del micrfono, separacin entre ellocutor y el micrfono, etc.)
Filtrado:
Debe eliminar componentes de frecuencia superior a la mitad de la frecuencia demuestreo (para evitar aliasing). Filtrado analgico
Rizado en banda pasante; banda de transicin; atenuacin mnima Para evitar problemas en el diseo, margen de frecuencia
Muestreo: Frecuencia de muestreo adecuada
Tema 3: Modelo digital de produc.
-
7/21/2019 Prueba 707610
87/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 87
Frecuencias tpicas: 8 kHz; 11,025 kHz; 16 kHz; 20 kHz; 22,05 kHz; 44,1 kHz Cuantizacin:
Necesaria para representacin digital de las muestras Introduce un error de cuantizacin
Error de saturacin Cuantizacin uniforme:
8 bits: SNR = 40 dB 12 bits: SNR = 64 dB
16 bits: SNR = 88 dB Compresin instantnea:
Ley mu ; Ley A 8 bits: SNR = 40 dB
Cuantizacin adaptable Cuantizacin diferencial Cuantizacin con prediccin
Codificacin de las muestras0 0.2 0.4 0.6 0.8 1
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
4.4.- Energa de tiempo corto
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
88/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 88
La energa de la seal vara en el tiempo: Fonemas sordos menor energa que fonemas sonoros Consonantes sonoras menor energa que vocales
La energa de tiempo corto pone de manifiesto estas variaciones:
Magnitud promedio de tiempo corto: Es una medida alternativa a la energa de tiempo corto
Es menos sensible a la amplitud de las muestras
Diagrama de bloques para estimar la energa o magnitud promedio:
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
89/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 89
Energa de tiempo corto: elevar al cuadrado y ventana deslizante Magnitud promedio de tiempo corto: valor absoluto y ventana deslizante La ventana deslizante equivale a filtrado paso baja Como la variacin de estos parmetros es lenta, no es necesario calcularla muestra
a muestra (se puede calcular trama a trama)
-
7/21/2019 Prueba 707610
90/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 90
Ventana aplicada:
F d l t
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
91/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 91
Forma de la ventana: Rectangular
Hamming
Longitud de la ventana:
4 ms; 8 ms; 16 ms; 32 ms; 64 ms
0 100 200 300 400 500-40
-30
-20
-10
0
10
20
30
40
50
f Hz
H(f)(dB)
Ventanas de Hamm ing y rectangular de 32 ms
HammingRectangular
0 5 10 15 20 25 30 350
0.2
0.4
0.6
0.8
1
1.2
t (ms)
h(n)
Ventana de Hamming de 32 ms
Tema 4: Representacin de la voz
Energa de tiempo corto, ventana rectangular de distintas longitudes
1
tud
-
7/21/2019 Prueba 707610
92/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 92
0 200 400 600 800 1000 1200 1400 1600-1
0
amplitu
0 200 400 600 800 1000 1200 1400 16000
5
En(8ms)
0 200 400 600 800 1000 1200 1400 16000
5
10
En(16ms)
0 200 400 600 800 1000 1200 1400 16000
10
20
En(32ms)
0 200 400 600 800 1000 1200 1400 16000
20
40
En(64ms)
Tema 4: Representacin de la voz
0
1
tud
Energa de tiempo corto, ventana de Hamming de distintas longitudes
-
7/21/2019 Prueba 707610
93/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 93
0 200 400 600 800 1000 1200 1400 1600-1
0
ampli
0 200 400 600 800 1000 1200 1400 16000
1
2
En(8ms)
0 200 400 600 800 1000 1200 1400 16000
2
4
En(16ms)
0 200 400 600 800 1000 1200 1400 16000
5
10
En(32ms)
0 200 400 600 800 1000 1200 1400 16000
10
20
En(64ms)
Tema 4: Representacin de la voz
Magnitud promedio de tiempo corto, ventana rectangular de distintas longitudes
0
1
itud
-
7/21/2019 Prueba 707610
94/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 94
0 200 400 600 800 1000 1200 1400 1600-1
0
ampli
0 200 400 600 800 1000 1200 1400 16000
10
20
Mn
(8ms)
0 200 400 600 800 1000 1200 1400 16000
20
40
Mn(16ms)
0 200 400 600 800 1000 1200 1400 16000
50
100
Mn(32ms)
0 200 400 600 800 1000 1200 1400 16000
100
200
Mn(64ms)
Tema 4: Representacin de la voz
Magnitud promedio de tiempo corto, ventana de Hamming de distintas longitudes
0
1
itud
-
7/21/2019 Prueba 707610
95/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 95
0 200 400 600 800 1000 1200 1400 1600-1
0
ampl
0 200 400 600 800 1000 1200 1400 16000
5
10
Mn
(8ms)
0 200 400 600 800 1000 1200 1400 16000
10
20
Mn(16ms)
0 200 400 600 800 1000 1200 1400 16000
20
40
Mn(32ms)
0 200 400 600 800 1000 1200 1400 16000
50
100
Mn(64ms)
4.5.- Tasa promedio de cruces por cero
La tasa promedio de cruces por cero es proporcional a la frecuencia
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
96/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 96
La tasa promedio de cruces por cero es proporcional a la frecuenciade la seal (para seales de banda estrecha):
Z = 2 T / T0= 2 f0T
T
T0T0
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
97/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 97
La tasa de cruces por cero mide el contenido de frecuencias
Mayor para fonemas sordos que para sonoros Es independiente de la amplitud de la seal Es sensible al ruido
Es sensible a nivel de continua til para deteccin de actividad de voz en combinacin con energa
Al igual que ocurra con la energa, el nmero de cruces por cero se cuenta sobreuna ventana deslizante
Tema 4: Representacin de la voz
Tasa promedio de cruces por cero para varias longitudes de ventana
1d
1
-
7/21/2019 Prueba 707610
98/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 98
0 100 200 300 400 500 600-1
0
amplitud
0 100 200 300 400 500 6000
50
100
Zn(8
ms)
0 100 200 300 400 500 600
0
100
200
Zn(16ms)
0 100 200 300 400 500 6000
200
400
Zn(32ms)
0 100 200 300 400 500 6000
500
Zn(64
ms)
0 100 200 300 400 500 600-0.5
0
0.5
amplitud
0 100 200 300 400 500 6000
2
4
6
En(32ms)
0 100 200 300 400 500 6000
100
200
300
Zn
(32ms)
4.6.- Funcin de autocorrelacin de tiempo corto
Autocorrelacin:
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
99/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 99
Autocorrelacin: Es la correlacin de una seal consigo misma desplazada kmuestras Diversas expresiones
Seales deterministas (estacionarias)
Estimacin trama a trama
Para evitar problemas de extremos de la trama
-
7/21/2019 Prueba 707610
100/132
Tema 4: Representacin de la voz
0.5
1
tud
Funcin de autocorrelacin de tiempo corto para distintas longitudes de ventana
-
7/21/2019 Prueba 707610
101/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 101
0 100 200 300 400 500 600 700-0.5
0amplit
0 50 100 150 200 250-0.5
0
0.5
1
An(k)(
8ms)
0 50 100 150 200 250-0.5
0
0.5
1
An(k)(16ms)
0 50 100 150 200 250-0.5
0
0.5
1
An(k)(32ms)
0 50 100 150 200 250-0.5
0
0.5
1
An(k)(64ms)
Tema 4: Representacin de la voz
Funcin de autocorrelacin de tiempo corto para distintos fonemas
0 5
1
d
-
7/21/2019 Prueba 707610
102/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 102
0 100 200 300 400 500 600 700-0.5
0
0.5
amplitud
0 50 100 150 200 250-0.5
0
0.5
1
An(k)(32ms)
0 50 100 150 200 250-0.5
0
0.5
1
An(k)(32ms)
0 50 100 150 200 250-0.5
0
0.5
1
An(k)(32ms)
4.7.- Estimacin del tono fundamental
La periodicidad de la seal asociada a excitacin peridica (pulsos
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
103/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 103
La periodicidad de la seal asociada a excitacin peridica (pulsosglotales, vibracin cuerdas vocales) da lugar al tono fundamental
Si tenemos un fonema sonoro, la seal es cuasi peridica, (P0 f0)
P0 y f0 estn definidos para fonemas sonoros (no para fonemas sordos) La funcin de autocorrelacin de tiempo corto de una seal peridica de
periodo P0, es peridica con periodo P0:
Rn(k) = Rn(k+P) R n(0) = Rn(P) Como la seal es cuasiperidica:
Rn(0) Rn(P)
El pico ms importante de la funcin de autocorrelacin (despus de Rn(0)) se
presenta en la muestra correspondiente al periodo del pitch La funcin de autocorrelacin de tiempo corto permite estimar el periodo del pitch (y
el tono fundamental) f0= 1 / P0
Problemas de la estimacin basada en la funcin de autocorrelacin: Pico principal asociado a la cuasi periodicidad
Picos al principio asociados a la respuesta del tracto vocal
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
104/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 104
Los picos del principio pueden ser mayores que el asociado a periodicidad (en algunossegmentos) dando lugar a estimaciones errneas del tono fundamental
Soluciones: Filtrar la seal paso baja o paso
banda (50 Hz 900 Hz)
Center clipping (nivel de clipping suele
establecerse como porcentaje delmximo) Autocorrelacin sobre la seal obtenida
tras el center clipping
Autocorrelacin normalizada (con Rn(0))
y umbral para determinar si el segmentoes sordo o sonoro
0.5
1
ud
Estimacin tono fundamental sin filtrado ni clipping
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
105/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 105
0 100 200 300 400 500 600-0.5
0amplitu
0 100 200 300 400 500 6000
50
100
150
200
f0(Hz)
0 100 200 300 400 500 6000
0.2
0.4
0.6
0.8
1
max(R
n)/R
n(0)
Estimacin tono fundamental con filtrado y clipping
0 2
0.4
0.6
ud
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
106/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 106
0 100 200 300 400 500 6000
50
100
150
200
f0(Hz)
0 100 200 300 400 500 6000
0.2
0.4
0.6
0.8
1
max(R
n
)/R
n(0)
0 100 200 300 400 500 600-0.4
-0.2
0
0.2
amplitu
Estimacin tono fundamental con filtrado y clipping (frase ms larga)
0 2
0.4
0.6
d
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
107/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 107
0 500 1000 1500150
200
250
300
350
f0(Hz)
0 500 1000 15000
0.2
0.4
0.6
0.8
1
max(R
n)/R
n(0)
0 200 400 600 800 1000 1200 1400 1600-0.4
-0.2
0
0.2
amplitud
4.8.- Anlisis de Fourier de tiempo corto:espectrogramas NB y WB
La FFT de una ventana proporciona el espectro de la porcin de
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
108/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 108
La FFT de una ventana proporciona el espectro de la porcin deseal contenida en la ventana
Espectrograma: representacin del espectro de las distintas
ventanas. Es una representacin tridimensional: Eje de tiempo (para cada ventana) Eje de frecuencia (para cada punto de la FFT)
Eje de amplitud (se suele representar el mdulo de la FFT en dB) Espectrograma tpico:
Eje horizontal para el tiempo Eje vertical para la frecuencia
Amplitud representada mediante un mapa de color o nivel de gris
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
109/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 109
0
0.5
1
amplitud
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
110/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 110
0 100 200 300 400 500 600 700-0.5
0 1000 2000 3000 4000
-20
0
20
X(f)(dB
)
0 1000 2000 3000 4000
-20
0
20
X(f)(dB
)
0 1000 2000 3000 4000
-20
0
20
X(f)(dB)
0 5 10 15-0.02
0
0.02
x(t)
0 5 10 15-0.5
0
0.5
1
x(t)
0 5 10 15-0.5
0
0.5
x(t)
NB (ventana de 64 ms)
3500
4000WB (ventana de 8 ms)
3500
4000
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
111/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 111
tiempo (s)
frecuencia(Hz)
0 0.1 0.2 0.3 0.4 0.50
500
1000
1500
2000
2500
3000
tiempo (s)
frecuencia(Hz)
0 0.1 0.2 0.3 0.4 0.5 0.60
500
1000
1500
2000
2500
3000
NB (ventana de 64 ms)
3500
4000WB (ventana de 8 ms)
3500
4000
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
112/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 112
tiempo (s)
frecuencia(Hz)
0 0.1 0.2 0.3 0.4 0.50
500
1000
1500
2000
2500
3000
tiempo (s)
frecuencia(Hz)
0 0.1 0.2 0.3 0.4 0.5 0.60
500
1000
1500
2000
2500
3000
Utilidad del espectrograma: representacin global de la seal de voz Caractersticas espectrales de tiempo corto (formantes) Evolucin de las caractersticas espectrales
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
113/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 113
Tono fundamental / periodo fundamental: Representado en el dominio del tiempo (WB)
Representado en el dominio de la frecuencia (NB) Se pueden identificar (leer) fonemas del espectrograma
Importancia del tamao de la ventana: Determina la resolucin espectral
Determina la resolucin temporal Df = 45 Hz Dt = 22 ms NB Df = 300 Hz Dt = 3.3 ms WB
Forma de la ventana: usualmente Hamming
0
0.5
1
plitud
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
114/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 114
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8-1
-0.5
0
amp
tiempo (s)
frecuencia(Hz)
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60
1000
2000
3000
4000
tiempo (s)
frecuen
cia(Hz)
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60
1000
2000
3000
4000
Problema del espectrograma: Hay un compromiso entre resolucin temporal y resolucin espectral
(incertidumbre)En general interesan ventanas de unos 20 o 30 ms (cuasi estacionariedad)
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
115/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 115
En general interesan ventanas de unos 20 o 30 ms (cuasi-estacionariedad) Dependiendo del propsito, interesan resoluciones espectrales peores que 50 Hz o
30 Hz (que corresponderan a NB) Si queremos estudiar la envolvente espectral (resonancias) convendra suavizar el
espectro
Tcnicas de suavizado espectral: Espectro LPC Banco de filtros Procesamiento homomrfico (cepstrum)
4.9.- Linear Prediction Coding: Anlisis LPC
El anlisis LPC trata de caracterizar el filtro H(z) que representa al tracto
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
116/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 116
El anlisis LPC trata de caracterizar el filtro H(z) que representa al tractovocal, de acuerdo con el modelo excitacin filtrado
Filtro todo polos para modelar las resonancias (dos polos por cadaresonancia). A(z) es un polinomio en z-1
Salida del filtro cuando se presenta una excitacin u(n):
Predictor lineal: obtiene una prediccin de s(n) en base a las p ltimasmuestras:
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
117/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 117
Coeficientes de prediccin lineal (LPC): los que minimizan el error deprediccin:
(la suma se extiende a la ventana de anlisis)
Los coeficientes del predictor se pueden identificar con los coeficientesdel filtro
El error de prediccin es G u(n) Para sonidos sonoros, la excitacin u(n) es un tren de impulsos (que vale cero para
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
118/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 118
la mayor parte de las muestras). Esto es consistente con calcular los coeficientesdel filtro como aquellos que minimizan la energa residual.
Si u(n) es un impulso simple o ruido blanco estacionario, el modelo AR(autoregresivo) garantiza que los coeficientes que minimizan la energa residualcoinciden con los del filtro
De este modo, el anlisis LPC proporciona una estimacin del filtro que
representa el tracto vocal en el modelo excitacin filtrado
Espectro LPC: es la respuesta en frecuencia del filtro. Para la
frecuencia f se obtiene evaluando H(z) en z = ej 2 f
Espectro FFT y LPC para fonemas sonoro y sordo: /a/ /s/ (ventana de 180 ms)
0.1
0.2
0.3
-20
-10
0
-
7/21/2019 Prueba 707610
119/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 119
80 85 90 95 100
-0.2
-0.1
0
0.1
t (ms)
Amplitud
0 1000 2000 3000 4000 5000 6000-80
-70
-60
-50
-40
-30
frecuencia Hz
potencia(dB)
80 85 90 95 100
-0.2
-0.1
0
0.1
0.2
0.3
t ms
Amplitud
0 1000 2000 3000 4000 5000 6000-80
-70
-60
-50
-40
-30
-20
-10
0
frecuencia Hz
potencia(dB)
ORDEN DE PREDICCIN ADECUADO:
El anlisis LPC busca una resonancia por cada 2 polos Si buscamos la envolvente espectral (los formantes) debemos utilizar
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
120/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 120
Si buscamos la envolvente espectral, (los formantes), debemos utilizarun orden aproximado de 2 x Numero-de-formantes (algo mayor)
Como hay aproximadamente 1 formante por cada kHz, para frecuenciade muestreo de 8 kHz (se analiza entre 0 y 4 kHz) se debe usaraproximadamente orden 8
Para ajustar mejor el espectro LPC a la envolvente espectral, se puedeusar un orden un poco mayor (por ejemplo, 12 o 14) Si se usa un orden excesivo, el espectro LPC se ajusta a los armnicos
Influencia del orden de prediccin (seal muestreada a 11 kHz)
-
7/21/2019 Prueba 707610
121/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 121
Influencia del tamao de la ventana (seal muestreada a 11 kHz; orden LPC 16)
-
7/21/2019 Prueba 707610
122/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 122
Espectrogramas FFT y LPC (ventana de 32 ms; orden LPC 12)
-
7/21/2019 Prueba 707610
123/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 123
4.10.- Anlisis basado en banco de filtros
El anlisis basado en banco de filtros proporciona un espectro suavizado
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
124/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 124
La resolucin espectral viene determinada por el nmero de filtros y elancho de banda de stos
El banco de filtros se puede disear con distintos criterios: Distribucin de los filtros a lo largo del eje de frecuencia Ancho de banda para cada frecuencia
Los filtros se pueden implementar por distintos mtodos: En el dominio del tiempo En el dominio de la frecuencia (segmentacin en tramas y FFT)
Dependiendo de la aplicacin, se puede usar la salida de cada filtro, laenvolvente de la salida, o la potencia de salida
Escala Mel Distribuye los filtros de forma uniforme desde un punto de vista perceptual Compresin del eje de frecuencia
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
125/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 125
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
126/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 126
Banco de filtros triangulares en escala Mel (para aplicar sobre elespectro FFT) Cada trama de voz quedara representada por M energas de salida (una
por cada filtro del banco) Tpicamente se usan alrededor de 20 30 filtros solapados Se suele representar la potencia de salida en escala logartmica
4.11.- Procesamiento homomrfico. Cepstrum(FFT, LPC y MFCC)
El procesamiento homomrfico aplica operaciones no linealesObjetivo: separar seales que se mezclan de forma complicada
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
127/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 127
Objetivo: separar seales que se mezclan de forma complicada Procedimiento: transformar seales para que en el dominio transformado la mezcla
complicada se transforme en una mezcla aditiva Dificultad: los sistemas no lineales son difciles de estudiar Para determinadas aplicaciones el procesamiento homomrfico es muy til
Cepstrum: procesamiento homomrfico que incluye:
Transformacin al dominio de la frecuencia Logaritmo Transformacin al dominio del tiempo
El cepstrum convierte la convolucin en una suma El filtrado es la convolucin de la excitacin y la respuesta impulsiva del filtro En el dominio cepstral se pueden separar las partes correspondiente a excitacin y
a filtrado
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
128/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 128
En el dominio cepstral es ms fcil separar la excitacin y el
filtrado: Se mezclan de forma aditiva La excitacin (corresponde al rizado espectral) est en los trminos de orden alto
del cepstrum
El filtrado (corresponde a la envolvente espectral) est en los trminos de ordenbajo del cepstrum Liftering: filtrado en el dominio del cepstrum Se podra hacer transformacin inversa, para recuperar u h
Cepstrum FFT: Cada trama representada por unos pocos coeficientes cepstrales (envolvente
espectral) El espectro FFT es un conjunto de nmeros complejos
L it d l t d b l it l j
Tema 4: Representacin de la voz
-
7/21/2019 Prueba 707610
129/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 129
Logaritmo del espectro debe ser un logaritmo complejo
Cepstrum LPC: El cepstrum se puede calcular a partir del espectro LPC (tambin complejo)
Tambin se puede calcular a partir de los coeficientes LPC
Tema 4: Representacin de la voz
Cepstrum MFCC: Mel Frequency Cepstral Coefficients
El espectro se estima mediante banco de filtros en escala Mel La transformada inversa se sustituye por una transformada discreta del coseno
(DCT) inversa
-
7/21/2019 Prueba 707610
130/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 130
( )
Reduce las operaciones con nmeros complejos
Cada trama representada por un vector de coeficientes cepstrales
-
7/21/2019 Prueba 707610
131/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 131
TEMA 5
ANLISIS DE SEALES DE VOZ
Tema 5: ANALISIS DE SEALES DE VOZ
5.1.- Introduccin.
5 2 La forma de onda
Tema 5: Anlisis de voz
-
7/21/2019 Prueba 707610
132/132
Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 132
5.2.- La forma de onda.
5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.
5.5.- Consonantes no estacionarias.
5.6.- Coarticulacin.5.7.- Variabilidad.
5.8.- La seal de voz en presencia de ruido:
Ruido blanco y ruido coloreado Ruido no estacionario
Deteccin de actividad de voz