Prueba 707610

download Prueba 707610

of 132

Transcript of Prueba 707610

  • 7/21/2019 Prueba 707610

    1/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 1

    UNIVERSIDAD DE GRANADA

    PLAN DE ESTUDIOS: DIPLOMADO EN LOGOPEDIA

    PROCESAMIENTO DE VOZ

    ngel de la Torre Vega

    Dpto. Teora de la Seal, Telemtica y Comunicaciones

  • 7/21/2019 Prueba 707610

    2/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 2

    ORGANIZACIN DE LA ASIGNATURA

  • 7/21/2019 Prueba 707610

    3/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 3

    ORGANIZACIN DE LA ASIGNATURA Asignatura: PROCESAMIENTO DE VOZ Titulacin: Diplomado en Logopedia (3er curso, 2o cuatrimestre) Tipo: Optativa Profesores: ngel de la Torre (Dpto. TSTC, ETSIIT, 2a planta, desp. 22)

    Diego Pablo Ruiz (Dpto. FA, Facultad de Ciencias)Artur Schmitt (Dpto. FA, Facultad de Ciencias)

    Dpto: Teora de la Seal, Telemtica y Comunicaciones (50%)Fsica Aplicada (50%)

    Horario: Teora: X y J de 19:00 a 20:00 en A.03 Prcticas: J de 20:00 a 21:00 en A.03

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    4/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 4

    ORGANIZACIN DE LA ASIGNATURA Crditos: Total: 4.5 crditos

    Teora: 3 crditos (30 horas) Prcticas: 1.5 crditos (15 horas)

    Prcticas: Prcticas en aulas de ordenadores y laboratorio Fac. Ciencias

    Evaluacin: Examen final de teora y cuestiones (67%) Prcticas: trabajo en aula de ordenadores/laboratorio y memoria de

    prcticas (33%)

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    5/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 5

    CONTENIDOS (1a parte: 15 horas)

    1. INTRODUCCIN2. FUNDAMENTOS DE PROCESAMIENTO DE SEAL

    3. MODELO DIGITAL DE PRODUCCIN DE VOZ4. REPRESENTACIN DE LA SEAL DE VOZ5. ANLISIS DE SEALES DE VOZ

    6. SNTESIS Y CODIFICACIN DE VOZ7. RECONOCIMIENTO DE VOZ Y RECONOCIMIENTO DE

    LOCUTORES

    8. PROCESAMIENTO DE LA SEAL DE VOZ EN SISTEMAS DEAYUDA A LA AUDICIN9. APLICACIONES DE LAS TECNOLOGAS DEL HABLA EN EL

    DIAGNSTICO, TRATAMIENTO Y SEGUIMIENTO LOGOPDICO

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    6/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 6

    Tema 1: INTRODUCCIN

    1.1.- La seal de voz.

    1.2.- El procesamiento de voz en logopedia.1.3.- Objetivos de la asignatura.

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    7/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 7

    Tema 2: FUNDAMENTOS DE

    PROCESAMIENTO DE SEAL

    2.1.- Introduccin.

    2.2.- Seales.2.3.- La transformada de Fourier.

    2.4.- Propiedades de la transformada de Fourier.

    2.5.- El teorema de muestreo.2.6.- Seales analgicas y seales digitales.

    2.7.- La transformada discreta de Fourier.2.8.- Procesamiento digital de seales.

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    8/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 8

    Tema 3: MODELO DIGITAL DE

    PRODUCCIN DE VOZ

    3.1.- Introduccin.

    3.2.- Produccin de la voz.3.3.- Resonancias del tracto vocal.

    3.4.- Modelo excitacin filtrado.

    3.5.- Evolucin temporal de los parmetros del modelo.3.6.- Caracterizacin de los sonidos de voz:

    Tono, timbre, intensidad y duracin. Frecuencia fundamental, formantes, evolucin temporal. Representacin espectral de tiempo corto.

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    9/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 9

    Tema 4: REPRESENTACIN DE LA

    SEAL DE VOZ4.1.- Introduccin.4.2.- Caractersticas de la seal de voz.4.3.- Representacin de la forma de onda.4.4.- Energa de tiempo corto.4.5.- Tasa promedio de cruces por cero.4.6.- Funcin de autocorrelacin de tiempo corto.4.7.- Estimacin del tono fundamental.4.8.- Anlisis de Fourier de tiempo corto. Espectrograma (WB y NB).4.9.- Linear Prediction Coding: Anlisis LPC.4.10.- Anlisis basado en banco de filtros.4.11.- Procesamiento homomrfico. Cepstrum (FFT, LPC y MFCC).

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    10/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 10

    Tema 5: ANALISIS DE SEALES DE VOZ

    5.1.- Introduccin.

    5.2.- La forma de onda.5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.

    5.5.- Consonantes no estacionarias.5.6.- Coarticulacin.5.7.- Variabilidad.

    5.8.- La seal de voz en presencia de ruido: Ruido blanco y ruido coloreado Ruido no estacionario Deteccin de actividad de voz

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    11/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 11

    Tema 6: SNTESIS Y CODIFICACIN DE VOZ

    6.1.- Introduccin.

    6.2.- Codificacin y decodificacin de voz.6.3.- Sntesis de voz.

    6.4.- Manipulacin de la seal de voz.

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    12/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 12

    Tema 7: RECONOCIMIENTO DE VOZ Y

    RECONOCIMIENTO DE LOCUTORES7.1.- Introduccin.

    7.2.- Reconocimiento automtico de voz: Problemas asociados al reconocimiento de voz. Representacin de la voz: el front-end. Modelado acstico: GMMs, HMMs y ANNs.

    Modelado del lenguaje: vocabulario y gramtica. El sistema de dilogo.

    7.3.- Reconocimiento automtico de locutor:

    Problemas asociados al reconocimiento de locutores Reconocimiento, identificacin y verificacin de locutor. Distintos

    enfoques del problema.

    Representacin de la voz y modelado del locutor.

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    13/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 13

    Tema 8: PROCESAMIENTO DE LA SEAL DE VOZ

    EN SISTEMAS DE AYUDA A LA AUDICIN8.1.- Introduccin.8.2.- Audfonos:

    Amplificacin. Bancos de filtros. Compresin.

    Control automtico de ganancia y reduccin de ruido. Realimentacin acstica.

    8.3.- Implantes cocleares: Funcionamiento del implante coclear.

    Procesamiento de la seal en un implante coclear. Posibilidades y limitaciones de los implantes cocleares. Programacin de los implantes cocleares.

    Percepcin del sonido con implantes cocleares.

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    14/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 14

    Tema 9: APLICACIONES DE LAS TECNOLOGAS

    DEL HABLA EN EL DIAGNSTICO,TRATAMIENTO Y SEGUIMIENTO LOGOPDICO

    9.1.- Introduccin.9.2.- Herramientas de anlisis de la voz.

    9.3.- Herramientas basadas en reconocimiento de voz.

    Organizacin de la asignatura

  • 7/21/2019 Prueba 707610

    15/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 15

    Bibliografa recomendada

    Organizacin de la asignatura

    L.R. Rabiner y R.W. Schafer. Digital Processing of SpeechSignals. Prentice Hall, 1978.

    S. Furui. Advances in Speech Signal Processing. Dekker, 1992.

    S.V. Vaseghi. Advanced Digital Signal Processing and NoiseReduction. John Wiley and Sons, 2000.

    J.L. Flanagan. Speech Analysis, Synthesis and Perception.Springer Verlag, 1972.

    A. Quilis, J.A. Fernandez. Curso de fontica y fonologaespaolas. CSIC, 1989.

    A. de la Torre, A.M. Peinado, A.J. Rubio. Reconocimiento

    Automtico de Voz en Condiciones de Ruido. Universidad deGranada, 2001. Revistas: Speech Communication, IEEE Trans. Speech and Audio

    Processing, Computer Speech and Language.

  • 7/21/2019 Prueba 707610

    16/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 16

    TEMA 1

    INTRODUCCIN

  • 7/21/2019 Prueba 707610

    17/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 17

    Tema 1: INTRODUCCIN

    1.1.- La seal de voz.

    1.2.- El procesamiento de voz en logopedia.1.3.- Objetivos de la asignatura.

    Tema 1: Introduccin

  • 7/21/2019 Prueba 707610

    18/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 18

    1.1.- La seal de voz

    Qu es la voz?: La voz es una onda de presin: P(x, y, z, t) = P(r, t)

    Produccin: aparato fonador Propagacin (dispersin, difraccin) Audicin: se percibe y analiza en el odo; se procesa en el cerebro

    Rango de intensidad: 50 70 dB SPL Rango de frecuencia: 60 Hz 6 kHz (telefona: 350 Hz 3.5 kHz) La seal de voz:

    Seal elctrica recogida por un micrfono (forma de onda): A(t) (mV) Seal digital (muestreo y cuantizacin) 64 kbps; 86 kBps; Frecuencia de muestreo (8 kHz; 22 kHz; 44,1 kHz)

    Nmero de bits por muestra (8 bits; 12 bits; 16 bits)

    Tema 1: Introduccin

  • 7/21/2019 Prueba 707610

    19/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 19

    Asignatura organizada en 2 partes: La onda de voz (2 parte): Fsica Acstica La seal de voz (1 parte): Procesamiento de seales

    Seal:

    Transmisin de informacin Ruido

    Informacin contenida en la seal de voz:

    Fonemas, slabas, palabras Frases, mensaje Caractersticas suprasegmentales Locutor

    Patologas, vicios, acentos Entorno acstico (ruido)

    Tema 1: Introduccin

  • 7/21/2019 Prueba 707610

    20/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 20

    Transmisin de informacin en la comunicacin oralTema 1: Introduccin

  • 7/21/2019 Prueba 707610

    21/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 21

    Procesamiento de voz (principales lneas)

    Tema 1: Introduccin

    Anlisis de voz

    Codificacin y compresin de voz Sntesis de voz (conversin texto a voz) Reconocimiento automtico de voz

    Reconocimiento y verificacin de locutores Comprensin de voz y sistemas de dilogo

    Percepcin de la voz

    Sistemas de ayuda a la audicin

  • 7/21/2019 Prueba 707610

    22/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 22

    1.2.- El procesamiento de voz en logopedia

    Tareas usuales en logopedia: (Re)habilitacin en foniatra

    (Re)habilitacin en audicin Diseo y uso de material para evaluacin

    Cmo evoluciona un determinado parmetro?

    Puede considerarse normal un determinado parmetro?

    Diseo y uso de material para rehabilitacin

    El procesamiento de voz ayuda a: Entender la produccin de la voz

    Entender la percepcin de la voz Analizar y procesar seales de voz Entender herramientas relacionadas con el procesamiento de voz

    Tema 1: Introduccin

  • 7/21/2019 Prueba 707610

    23/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 23

    Herramientas relacionadas con el procesamiento de voz:

    Anlisis de voz Sntesis de voz Reconocimiento de voz Codificacin de voz

    Problemas del procesamiento de voz: Variabilidad:

    Intra-locutor (estado de salud, de nimo, velocidad, etc.). Inter-locutor

    Entorno de adquisicin Continuidad: concatenacin y coarticulacin Informacin contenida en la voz muy redundante Multi-interactividad entre niveles:

    Nivel fontico Caractersticas suprasegmentales Nivel semntico; contexto; suplencia mental

    Ruido: perturbacin y efecto Lombard

    Tema 1: Introduccin

  • 7/21/2019 Prueba 707610

    24/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 24

    Variabilidad de la

    seal de voz

    Arriba: Tres ejecuciones del fonema/a/ en la frase voy a comprar panpronunciada por una mujer.

    Abajo: Tres ejecuciones del fonema/a/ en la frase voy a comprar panpronunciada por un hombre.

    Tema 1: Introduccin

    T 1 I d i

  • 7/21/2019 Prueba 707610

    25/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 25

    1.3.- Objetivos de la asignatura

    Objetivos globales: Conocer las caractersticas de la seal de voz

    Conocer las operaciones de procesamiento de seal que se aplican a la seal devoz:

    Principales tcnicas de anlisis Aplicaciones de estas tcnicas

    Aplicaciones del procesamiento de voz en logopedia

    Avances tecnolgicos: Software de propsito general (MATLAB) para el anlisis y procesamiento de

    seales de voz Software de propsito especfico (Dr. Speech) para el anlisis y procesamiento deseales de voz

    Existencia de otros paquetes relacionados con procesamiento de voz

    Tema 1: Introduccin

    T 1 I t d i

  • 7/21/2019 Prueba 707610

    26/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 26

    El procesamiento de voz contribuye a resolver cuestiones como: Qu relacin hay entre la seal de voz y los fonemas?

    Qu relacin hay entre la seal de voz y otras unidades o caractersticas?

    Qu herramientas de procesamiento de seal podemos (o debemos) usar para

    analizar la seal de voz?

    Cmo se manifiesta una patologa de la voz en la seal?

    Cmo podemos ajustar un sistema de ayuda a la audicin para optimizar la

    comprensin de la voz?

    Cmo podemos interpretar un error en la produccin de un fonema?

    Cmo podemos interpretar un error en la deteccin o identificacin de un fonema?

    Tema 1: Introduccin

    Tema 1: Introduccin

  • 7/21/2019 Prueba 707610

    27/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 27

    Organizacin del curso (parte de procesamiento de seales de voz):

    Tema 2: Fundamentos de procesamiento de seal (2 horas) Tema 3: Modelo digital de produccin de voz (1 hora) Tema 4: Representacin de la seal de voz (3 horas)

    Tema 5: Anlisis de seales de voz (3 horas) Tema 6: Sntesis y codificacin de voz (1 hora) Tema 7: Reconocimiento de voz y reconocimiento de locutores (1 hora)

    Tema 8: Procesamiento de la seal de voz en sistemas de ayuda a la audicin (2horas): Audfonos

    Implantes cocleares

    Tema 9: Aplicaciones de las tecnologas del habla en el diagnstico, tratamiento yseguimiento logopdico (1 hora).

    Tema 1: Introduccin

  • 7/21/2019 Prueba 707610

    28/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 28

    TEMA 2FUNDAMENTOS DE

    PROCESAMIENTO DE SEAL

    Tema 2: Proces de seal

  • 7/21/2019 Prueba 707610

    29/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 29

    Tema 2: FUNDAMENTOS DE

    PROCESAMIENTO DE SEAL2.1.- Introduccin.

    2.2.- Seales.2.3.- La transformada de Fourier.

    2.4.- Propiedades de la transformada de Fourier.

    2.5.- El teorema de muestreo.2.6.- Seales analgicas y seales digitales.

    2.7.- La transformada discreta de Fourier.

    2.8.- Procesamiento digital de seales.

    Tema 2: Proces. de seal

    Tema 2: Proces de seal

  • 7/21/2019 Prueba 707610

    30/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 30

    2.1.- Introduccin

    El principal propsito de la voz es la comunicacin: La forma de onda contiene informacin

    Teora de la Informacin: Informacin contenida Teora de Seal: Cmo se transmite la informacin en la forma de onda

    En la prctica, la representacin de la voz est basada usualmenteen la forma de onda: Modelos de produccin Procesamiento de seal

    Tema 2: Proces. de seal

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    31/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 31

    En este tema se revisan nociones bsicas de procesamiento de

    seal: Concepto de seal Representacin de la seal en el dominio del tiempo y en el dominio de la

    frecuencia: la transformada de Fourier Propiedades de la transformada de Fourier Muestreo de seales: el teorema de muestreo Representacin digital de seales

    La transformada discreta de Fourier: DFT y FFT Procesamiento digital de seales

    Tema 2: Proces. de seal

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    32/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 32

    2.2.- Seales

    CONCEPTO DE SEAL: UNA SEAL ES UNA VARIACIN DE UNA MAGNITUD QUE TRANSMITE UNA

    INFORMACIN

    Tipos de seales: De una variable, de varias variables Unidimensional, multidimensional

    Discreta, continua, de variable discreta, de variable continua Objetivo del procesamiento de seal: Comunicacin eficiente:

    Codificacin, transmisin, recepcin, almacenamiento y representacin de sealesen sistemas de comunicacin de forma eficiente y fiable

    Extraccin de informacin de seales ruidosas

    Mtodos de complejidad muy variada: (no paramtricos, basados enmodelos, bayesianos, etc.)

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    33/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 33

    2.3.- La transformada de Fourier (FT)

    Transformacin de dominio: A veces una operacin resulta ms sencilla en un dominio transformado Ejemplo: el producto resulta ms sencillo en el dominio del logaritmo

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    34/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 34

    La transformada de Fourier pasa del dominio del tiempo al dominio

    de la frecuencia: Cambio de representacin: g(t) G(f) (= 2f ) Misma informacin en ambos dominios (es slo un cambio de representacin)

    Existe la transformada inversa: G(f) g(t)

    Transforma una seal compleja g(t) en un espectro complejo G(f)

    La transformada de Fourier descompone una seal en sus componentessenoidales

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    35/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 35

    Transformada de una funcin coseno y una funcin seno:

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    36/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 36

    Espectro de potencia:

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    37/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 37

    Utilidad de la transformada de Fourier: Descompone una seal en sus componentes de frecuencia Propiedades:

    2.4.- Propiedades de la transformada de Fourier

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    38/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 38

    Descomposicin en componentes de frecuencia:

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    39/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 39

    Linealidad de la transformada de Fourier:

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    40/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 40

    Linealidad de la transformada de Fourier:

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    41/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 41

    Filtrado:

    Caracterizacin del filtro: En el dominio del tiempo: por su respuesta impulsiva h(t) En el dominio de la frecuencia: por su funcin de transferencia o respuesta en

    frecuencia H(f)

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    42/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 42

    Filtrado en el dominio del tiempo: convolucin

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    43/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 43

    Filtrado en el dominio de la frecuencia: multiplicacin

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    44/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 44

    Ventanas (multiplicacin en el tiempo; convolucin en frecuencia)

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    45/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 45

    Tamao de ventana y resolucin espectral

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    46/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 46

    Transformada de un tren de pulsos

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    47/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 47

    Transformada de una seal peridica

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    48/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 48

    Propiedades ms importantes

    Tema 2: Proces. de seal

    2 5 El d

  • 7/21/2019 Prueba 707610

    49/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 49

    2.5.- El teorema de muestreo

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    50/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 50

    ENUNCIADO DEL TEOREMA DE MUESTREO:

    UNA SEAL LIMITADA EN BANDA A B Hz QUEDA REPRESENTADA PORSUS VALORES (MUESTRAS) TOMADOS A INTERVALOS REGULARES CONUNA FRECUENCIA DE MUESTREO NO INFERIOR A 2B Hz.

    PARA RECUPERAR LA SEAL ORIGINAL, BASTA FILTRAR LA SEALMUESTREADA CON UN FILTRO PASO-BAJA CON FRECUENCIA DE CORTEB Hz.

    SI LA FRECUENCIA DE MUESTREO NO ES SUFICIENTEMENTE ALTAAPARECEN COMPONENTES DE FRECUENCIA FANTASMAS (ALIASING)

    PARA MUESTREAR: Se debe seleccionar una frecuencia de muestreo suficientemente alta O bien se debe filtrar paso-baja la seal antes de muestrear

    Tema 2: Proces. de seal

    2 6 S l l i l di it l

  • 7/21/2019 Prueba 707610

    51/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 51

    2.6.- Seales analgicas y seales digitales

    Seales fsicas: Magnitud continua, variable continua: x(t) Seal discreta

    Variable discreta

    Representacin digital de una seal analgica:

    Discretizacin en el tiempo: MUESTREO Discretizacin de la magnitud: CUANTIZACIN El muestreo no supone prdida de informacin (T. de muestreo) La cuantizacin introduce un ruido (ruido de cuantizacin) (precisin limitada)

    Adquisicin de una seal: Amplificacin y filtrado. Muestreo. Retencin. Cuantizacin. Codificacin

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    52/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 52

    Adquisicin de seales

    Muestreo: discretizar eltiempo:

    x(t) x(n)

    Cuantizacin: discretizar

    la magnitud: x(n) x(n)

    Codificacin(representacin digital delas muestras)

    0 0.2 0.4 0.6 0.8 1

    -0.4

    -0.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    Tema 2: Proces. de seal

    2 7 La transformada discreta de Fourier

  • 7/21/2019 Prueba 707610

    53/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 53

    2.7.- La transformada discreta de Fourier

    En la prctica, la transformada de Fourier no se utiliza para analizarseales: Seales infinitas, continuas, no peridicas: transformada de Fourier adecuada

    FT requiere integracin numrica Seales digitales: muestreadas, finitas: Transformada discreta de Fourier (DFT)

    Definicin de la transformada discreta de Fourier :

    Para una seal discreta en el tiempo x(m), finita con Nmuestras, la DFT se definecomo Nmuestras espectrales uniformemente espaciadas

    Existe tambin una transformada discreta de Fourier inversa Debido a la longitud finita de x(m) (equivale a aplicar ventana) no es necesario

    calcular el espectro para cualquier frecuencia (resolucin espectral limitada)

    Tema 2: Proces. de seal

  • 7/21/2019 Prueba 707610

    54/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 54

    Algoritmos DFT:

    Transformada discreta de Fourier (aplicar matriz sobre un vector) DFT Algoritmo rpido (Fast Fourier Transform) FFT es el ms usual (eficiente) Forma de la ventana: rectangular, Hamming, Hanning, Gaussiana, etc. Importancia de la longitud de la ventana: condiciona la resolucin espectral

    Tema 2: Proces. de seal

    Tamao de ventana y resolucin espectral en FFT

  • 7/21/2019 Prueba 707610

    55/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 55

    Tamao de ventana y resolucin espectral en FFT

    Tema 2: Proces. de seal

    2 8 - Procesamiento digital de seales

  • 7/21/2019 Prueba 707610

    56/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 56

    2.8.- Procesamiento digital de seales

    Operaciones habituales en procesamiento digital de seales: Filtrado lineal (filtros IIR, filtros FIR); filtrado no lineal Procesamiento en tramas (ventanas deslizantes)

    Procesamiento mediante bancos de filtros Extraccin de caractersticas Reduccin de ruido (realce)

    Normalizacin Comparacin con modelos

    Las operaciones aplicadas dependen del tipo de seal y del tipo deinformacin que se quiere obtener:

    Seal de audio Identificacin de locutor, reconocimiento de fonemas, anlisis del tono fundamental,

    etc... Mtodos no paramtricos; basados en modelos; bayesianos; ANNs; HMMs....

  • 7/21/2019 Prueba 707610

    57/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 57

    TEMA 3

    MODELO DIGITAL DEPRODUCCIN DE VOZ

    Tema 3: MODELO DIGITAL DETema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    58/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 58

    PRODUCCIN DE VOZ3.1.- Introduccin.

    3.2.- Produccin de voz.

    3.3.- Resonancias del tracto vocal.

    3.4.- Modelo excitacin filtrado.

    3.5.- Evolucin temporal de los parmetros del modelo.3.6.- Caracterizacin de los sonidos de voz:

    Tono, timbre, intensidad y duracin.

    Frecuencia fundamental, formantes, evolucin temporal Representacin espectral de tiempo corto

    3 1 Introduccin

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    59/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 59

    3.1.- Introduccin

    Las caractersticas de la voz estn condicionadas por losmecanismos de produccin:

    Generacin del sonido Resonancias Radiacin acstica

    La voz es una onda acstica: Fsica acstica de la produccin de voz

    En este tema veremos un modelo digital de produccin de voz: Excitacin Filtrado Caractersticas de la seal de voz (es una seal de audio muy particular)

    3 2 Produccin de la voz

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    60/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 60

    3.2.- Produccin de la voz

    rganos de produccin de voz: Cavidades infraglticas Cavidad larngea (cuerdas vocales)

    Cavidades supraglticas

    Provisin de aire

    Generacin del sonido: Vibracin cuerdas vocales (ondaglotal) en fonemas sonoros

    Flujo turbulento (fricativos)

    Oclusin + apertura (oclusivos) Filtrado del sonido

    Radiacin del sonido

    Cuerdas vocales:

    (A) Respiracin (B) Fonemas sordos (C) Fonemas sonoros

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    61/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 61

    Pulmones

    Traquea, bronquios Cuerdas vocales

    Velo del paladar Tracto vocal

    Boca Tracto nasal Orificios nasales

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    62/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 62

    Cavidades supraglticas(diversificacin fontica):1 Cavidad nasal2 Faringe nasal3 Paladar duro4 Paladar blando o velo del paladar5 Lengua

    6 Faringe oral7 Faringe larngea8 Cartlago tiroides

    9 Cuerdas vocales

    10 Traquea11 Esfago

    3 3 - Resonancias del tracto vocal

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    63/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 63

    3.3.- Resonancias del tracto vocal

    Voz: onda acstica (onda de presin que se propaga por el aire) Velocidad: c = 350 m/s

    Longitud de onda: = c / f Para 100 Hz, = 3.5 m Para 4 kHz, = 8.5 cm

    > r (radio del tubo) aproximacin de onda plana

    La forma del tracto vocal condiciona las resonancias: El tracto vocal filtra del sonido generado El tracto vocal queda descrito por la funcin de rea A(x,t) Variacin del tracto vocal: se producen entre 5 y 20 fonemas por segundo (vara

    lentamente) Acoplamiento del tracto nasal (velo del paladar)

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    64/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 64

    Funcin de rea

    Acoplamiento deltracto nasal

    Si lifi i t di l i d l t t l

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    65/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 65

    Simplificaciones para estudiar las resonancias del tracto vocal Aproximacin de onda plana (onda unidimensional) Estacionariedad (funcin de rea invariante en el tiempo A(x,t) = A(x) ) Tubo de seccin constante a trozos

    Tubo de seccin constante Impedancia acstica nula en los labios (ignorar radiacin) Prdidas despreciables (ignorar prdidas por viscosidad, conduccin trmica, etc.)

    Tubo rgido (ignorar elasticidad del tracto vocal)

    La funcin de rea A(x) Si A(x) es sencilla, se pueden obtener soluciones exactas para las resonancias

    Si A(x) es compleja, mtodos numricos A(x) se puede medir por diversos mtodos: Rx, TAC, RMN, articulgrafos

    Respuesta en frecuencia del tracto vocal: formantes

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    66/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 66

    L = 17.5 cm

    A = 5.0 cm2 (cte)Paredes elsticas

    1 resonancia / kHz

    Formantes

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    67/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 67

    Formantes Los formantes son resonancias del tracto vocal Debido a las dimensiones del tracto vocal y a la velocidad de propagacin, aparece

    en promedio 1 formante por cada kHz El tracto vocal filtra el sonido generado:

    Amplifica algunas frecuencias (correspondientes a los formantes)

    Atena otras frecuencias

    Prdidas por radiacin Impedancia acstica del bafle Abertura circular en plano infinito

    Abertura circular en esfera

    Labios Prdidas dependientes de la frecuencia

    Cada para altas frecuencias: aproximadamente 6 dB / dcada

    Respuesta en frecuencia del tracto vocal

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    68/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 68

    L = 17.5 cm

    A = 5.0 cm2 (cte)Paredes elsticas

    Prdidas porradiacin

    1 formante / kHz

    Cada de 6 dB / dec

    Respuesta en frecuencia del tracto vocal: fonema /a/

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    69/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 69

    Funciones de rea y formantes

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    70/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 70

    3.4.- Modelo excitacin filtrado

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    71/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 71

    Excitacin: Fonemas sonoros: vibracin de cuerdas vocales

    Tren de pulsos glotales (pitch)

    Frecuencia fundamental f0 , periodo del pitch T0 Fonemas fricativos: flujo turbulento en un estrechamiento del tracto

    Fonemas oclusivos: oclusin + apertura Combinacin de mecanismos de excitacin

    Filtrado: Funcin de rea del tracto vocal y nasal (acoplamiento nasal) Radiacin Un formante por kHz y cada promedio de 6 dB / dcada

    Evolucin temporal de la excitacin y el filtrado

    Modelo digital de produccin de voz

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    72/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 72

    Ejemplo de fonemas sonoro y sordo: /a/ /s/

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    73/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 73

    80 85 90 95 100

    -0.2

    -0.1

    0

    0.1

    0.2

    0.3

    t (ms)

    Amplitud

    0 1000 2000 3000 4000 5000 6000-80

    -70

    -60

    -50

    -40

    -30

    -20

    -10

    0

    frecuencia Hz

    potencia(dB)

    80 85 90 95 100

    -0.2

    -0.1

    0

    0.1

    0.2

    0.3

    t ms

    Am

    plitud

    0 1000 2000 3000 4000 5000 6000-80

    -70

    -60

    -50

    -40

    -30

    -20

    -10

    0

    frecuencia Hz

    potencia(dB)

    3.5.- Evolucin temporal de losparmetros del modelo

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    74/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 74

    parmetros del modelo

    Limitaciones fisiolgicas: Variaciones en la presin de aire suministrada Variaciones en la tensin de las cuerdas vocales

    Variaciones en la conformacin del tracto buco-nasal Limitacin en la velocidad de produccin de fonemas: de 5 a 20 fonemas / seg

    Cuasiestacionariedad de la voz: En segmentos cortos, la voz se puede considerar una seal estacionaria: Excitacin constante (intensidad constante, frecuencia fundamental constante)

    Resonancias constantes

    Ventana de anlisis: entre 25 ms y 50 ms Problemas de esta aproximacin:

    Coarticulacin

    Consonantes no estacionarias (oclusivas, africadas)

    3.6.- Caracterizacin de los sonidos de voz

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    75/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 75

    Tono, timbre, intensidad y duracin: Tono:

    Relacionado con vibracin de cuerdas vocales

    En fonemas sonoros Periodicidad en el tiempo; serie de armnicos en frecuencia

    Timbre:

    Relacionado con los formantes (o resonancias o conformacin del tracto vocal) Envolvente espectral Patrn repetido en el dominio del tiempo

    Intensidad: Relacionada con la presin de aire suministrada por pulmones

    Duracin: Evolucin en el tiempo de las caractersticas anteriores (ataque, cada, etc.).

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    76/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 76

    Frecuencia fundamental, formantes y evolucin temporal: Frecuencia fundamental:

    Entre 50 Hz y 400 Hz

    Rizado espectral (o estructura fina) Formantes:

    Un formante por kHz

    Envolvente espectral Cada de 6 dB por dcada (filtrado digital de pre-nfasis) Potencia despreciable por encima de 6 kHz

    Evolucin temporal: En periodos cortos la seal es cuasiestacionaria Evolucin lenta (velocidad de produccin de fonemas)

    Representacin espectral de tiempo corto:

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    77/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 77

    No tiene sentido estudiar el espectro de un segmento con variosfonemas (espectro promedio)

    En periodos cortos (inferiores a 50 ms) seal cuasiestacionaria:

    Anlisis espectral de tiempo corto: Segmentacin en tramas (longitud entre 20 ms y 50 ms) Anlisis espectral de cada trama:

    Espectro FFT (espectrograma)

    Banco de filtros Espectro LPC

    Representaciones cepstrales

    Anlisis tpico de seales de voz: Adquisicin de seal digital (amplificacin, filtrado y muestreo) Pre-nfasis y segmentacin en tramas usando ventanas deslizantes (Hamming) Anlisis por tramas (anlisis espectral; otros tipos de anlisis)

    Resolucin espectral y temporal:

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    78/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 78

    Resolucin temporal: depende del tamao de la ventana y del solapamiento entreventanas Resolucin espectral: depende del tamao de la ventana y del tipo de anlisis

    Excitacin: Rizado espectral (estructura fina del espectro) Resolucin espectral Ventanas largas (que incluyan varios periodos de pitch) en el espectrograma para

    resolverlo en frecuencia (mayores de 30 ms, Narrow Band Spectrogram) Ventanas cortas (inferiores a un periodo de pitch) para resolverlo en el dominio del

    tiempo (menores de 8 ms, Wide Band Spectrogram)

    Resonancias:

    Envolvente espectral Ventanas cortas Tcnica de suavizado espectral

  • 7/21/2019 Prueba 707610

    79/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 79

    TEMA 4

    REPRESENTACIN DE LASEAL DE VOZ

    Tema 4: REPRESENTACIN DE LASEAL DE VOZ

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    80/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 80

    4.1.- Introduccin.4.2.- Caractersticas de la seal de voz.

    4.3.- Representacin de la forma de onda.4.4.- Energa de tiempo corto.4.5.- Tasa promedio de cruces por cero.

    4.6.- Funcin de autocorrelacin de tiempo corto.4.7.- Estimacin del tono fundamental.4.8.- Anlisis de Fourier de tiempo corto. Espectrograma (WB y NB).

    4.9.- Linear Prediction Coding: Anlisis LPC.4.10.- Anlisis basado en banco de filtros.4.11.- Procesamiento homomrfico. Cepstrum (FFT, LPC y MFCC).

    4.1.- Introduccin

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    81/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 81

    Modelo de produccin de voz: excitacin + filtrado Excitacin: rizado espectral Filtrado: envolvente espectral

    Parmetros del modelo: varan lentamente (5 20 fonemas / seg)

    Representaciones basadas en anlisis de tiempo corto Anlisis basado en tramas solapadas Segmentacin en tramas y aplicacin de ventanas Cada trama se representa por uno o varios parmetros

    En este tema estudiamos distintas representaciones de la seal devoz, que resultarn tiles para distintos propsitos

    4.2.- Caractersticas de la seal de voz

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    82/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 82

    Frecuencia de la seal de voz: Rango de frecuencias audibles: de 20 Hz a 20 kHz Rango mnimo de frecuencias para la voz: de 350 Hz a 3.5 kHz (telefona)

    Rango razonable para la voz: de 60 Hz a 6 kHz Cada de 6 dB/octava para frecuencias altas (algo ms: 8-10 dB/octava) El rango de frecuencia elegido condiciona la frecuencia de muestreo

    Intensidad de la seal de voz: Rango tpico: de 50 dBA a 70 dBA Rango extendido: de 30 dBA (susurro) a 90 dBA (gritos a corta distancia) Rango de 60 dB: equivalentemente Amax/ Amin = 1000

    Cuantizacin uniforme: requiere del orden de 2000 niveles si la ganancia estperfectamente ajustada (11 bits). Tpicamente se usan 12 o 16 bits con cuantizacin uniforme

    8 bits para cuantizacin con compresin instantnea (ley-mu o ley-A)

    Modelo estadstico de la seal de voz:

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    83/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 83

    Distribucin de amplitudes: aproximadamente Gamma o Laplaciana Distribucin espectral de la energa: cada de unos 8 dB -10 dB por octava

    -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.410

    0

    101

    102

    10

    3

    104

    10 5

    Am litud

    Nmerodemue

    stras

    Distribucin de amplitudes

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    84/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 84

    Distribucin laplaciana

    Distribucin gamma

    4.3.- Representacin de la forma de onda

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    85/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 85

    Proceso de representacin: Amplificacin y filtrado (analgico) Muestreo

    Cuantizacin de las muestras Codificacin de las muestras (representacin digital de la forma de onda)

    Prdida de informacin asociada a la adquisicin: Filtrado paso baja previo al muestreo (eliminacin de componentes de alta

    frecuencia) Aliasing (si la frecuencia de muestreo no es suficientemente alta) Ruido de cuantizacin Otras fuentes de error (ruido del entorno, ruido de adquisicin, ruido en la

    transmisin, errores de bit, errores de redondeo en las operaciones, etc.)

    Evaluacin del error: relacin seal a ruido: e = x x SNR = x2/ e2 SNR(dB) = 10 log10(SNR)

    Importancia de la relacin seal ruido en audio y voz: SNR = 80 dB Mnimo en equipos HiFi

    SNR = 60 dB Tpico en audio no HiFi. (El ruido se percibe si se presta atencin)

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    86/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 86

    SNR = 40 dB El ruido se percibe claramente SNR = 25 dB Tpico en comunicacin telefnica de calidad

    SNR = 15 dB El ruido es desagradable SNR = 10 dB El ruido dificulta la inteligibilidad de la voz

    SNR = 0 dB El ruido hace muy difcil la inteligibilidad de la voz

    Amplificacin:

    Permite adaptar la amplitud de la seal de entrada al rango dinmico del conversoranalgico digital (compensar caractersticas del micrfono, separacin entre ellocutor y el micrfono, etc.)

    Filtrado:

    Debe eliminar componentes de frecuencia superior a la mitad de la frecuencia demuestreo (para evitar aliasing). Filtrado analgico

    Rizado en banda pasante; banda de transicin; atenuacin mnima Para evitar problemas en el diseo, margen de frecuencia

    Muestreo: Frecuencia de muestreo adecuada

    Tema 3: Modelo digital de produc.

  • 7/21/2019 Prueba 707610

    87/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 87

    Frecuencias tpicas: 8 kHz; 11,025 kHz; 16 kHz; 20 kHz; 22,05 kHz; 44,1 kHz Cuantizacin:

    Necesaria para representacin digital de las muestras Introduce un error de cuantizacin

    Error de saturacin Cuantizacin uniforme:

    8 bits: SNR = 40 dB 12 bits: SNR = 64 dB

    16 bits: SNR = 88 dB Compresin instantnea:

    Ley mu ; Ley A 8 bits: SNR = 40 dB

    Cuantizacin adaptable Cuantizacin diferencial Cuantizacin con prediccin

    Codificacin de las muestras0 0.2 0.4 0.6 0.8 1

    -0.4

    -0.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    4.4.- Energa de tiempo corto

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    88/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 88

    La energa de la seal vara en el tiempo: Fonemas sordos menor energa que fonemas sonoros Consonantes sonoras menor energa que vocales

    La energa de tiempo corto pone de manifiesto estas variaciones:

    Magnitud promedio de tiempo corto: Es una medida alternativa a la energa de tiempo corto

    Es menos sensible a la amplitud de las muestras

    Diagrama de bloques para estimar la energa o magnitud promedio:

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    89/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 89

    Energa de tiempo corto: elevar al cuadrado y ventana deslizante Magnitud promedio de tiempo corto: valor absoluto y ventana deslizante La ventana deslizante equivale a filtrado paso baja Como la variacin de estos parmetros es lenta, no es necesario calcularla muestra

    a muestra (se puede calcular trama a trama)

  • 7/21/2019 Prueba 707610

    90/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 90

    Ventana aplicada:

    F d l t

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    91/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 91

    Forma de la ventana: Rectangular

    Hamming

    Longitud de la ventana:

    4 ms; 8 ms; 16 ms; 32 ms; 64 ms

    0 100 200 300 400 500-40

    -30

    -20

    -10

    0

    10

    20

    30

    40

    50

    f Hz

    H(f)(dB)

    Ventanas de Hamm ing y rectangular de 32 ms

    HammingRectangular

    0 5 10 15 20 25 30 350

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    t (ms)

    h(n)

    Ventana de Hamming de 32 ms

    Tema 4: Representacin de la voz

    Energa de tiempo corto, ventana rectangular de distintas longitudes

    1

    tud

  • 7/21/2019 Prueba 707610

    92/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 92

    0 200 400 600 800 1000 1200 1400 1600-1

    0

    amplitu

    0 200 400 600 800 1000 1200 1400 16000

    5

    En(8ms)

    0 200 400 600 800 1000 1200 1400 16000

    5

    10

    En(16ms)

    0 200 400 600 800 1000 1200 1400 16000

    10

    20

    En(32ms)

    0 200 400 600 800 1000 1200 1400 16000

    20

    40

    En(64ms)

    Tema 4: Representacin de la voz

    0

    1

    tud

    Energa de tiempo corto, ventana de Hamming de distintas longitudes

  • 7/21/2019 Prueba 707610

    93/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 93

    0 200 400 600 800 1000 1200 1400 1600-1

    0

    ampli

    0 200 400 600 800 1000 1200 1400 16000

    1

    2

    En(8ms)

    0 200 400 600 800 1000 1200 1400 16000

    2

    4

    En(16ms)

    0 200 400 600 800 1000 1200 1400 16000

    5

    10

    En(32ms)

    0 200 400 600 800 1000 1200 1400 16000

    10

    20

    En(64ms)

    Tema 4: Representacin de la voz

    Magnitud promedio de tiempo corto, ventana rectangular de distintas longitudes

    0

    1

    itud

  • 7/21/2019 Prueba 707610

    94/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 94

    0 200 400 600 800 1000 1200 1400 1600-1

    0

    ampli

    0 200 400 600 800 1000 1200 1400 16000

    10

    20

    Mn

    (8ms)

    0 200 400 600 800 1000 1200 1400 16000

    20

    40

    Mn(16ms)

    0 200 400 600 800 1000 1200 1400 16000

    50

    100

    Mn(32ms)

    0 200 400 600 800 1000 1200 1400 16000

    100

    200

    Mn(64ms)

    Tema 4: Representacin de la voz

    Magnitud promedio de tiempo corto, ventana de Hamming de distintas longitudes

    0

    1

    itud

  • 7/21/2019 Prueba 707610

    95/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 95

    0 200 400 600 800 1000 1200 1400 1600-1

    0

    ampl

    0 200 400 600 800 1000 1200 1400 16000

    5

    10

    Mn

    (8ms)

    0 200 400 600 800 1000 1200 1400 16000

    10

    20

    Mn(16ms)

    0 200 400 600 800 1000 1200 1400 16000

    20

    40

    Mn(32ms)

    0 200 400 600 800 1000 1200 1400 16000

    50

    100

    Mn(64ms)

    4.5.- Tasa promedio de cruces por cero

    La tasa promedio de cruces por cero es proporcional a la frecuencia

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    96/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 96

    La tasa promedio de cruces por cero es proporcional a la frecuenciade la seal (para seales de banda estrecha):

    Z = 2 T / T0= 2 f0T

    T

    T0T0

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    97/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 97

    La tasa de cruces por cero mide el contenido de frecuencias

    Mayor para fonemas sordos que para sonoros Es independiente de la amplitud de la seal Es sensible al ruido

    Es sensible a nivel de continua til para deteccin de actividad de voz en combinacin con energa

    Al igual que ocurra con la energa, el nmero de cruces por cero se cuenta sobreuna ventana deslizante

    Tema 4: Representacin de la voz

    Tasa promedio de cruces por cero para varias longitudes de ventana

    1d

    1

  • 7/21/2019 Prueba 707610

    98/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 98

    0 100 200 300 400 500 600-1

    0

    amplitud

    0 100 200 300 400 500 6000

    50

    100

    Zn(8

    ms)

    0 100 200 300 400 500 600

    0

    100

    200

    Zn(16ms)

    0 100 200 300 400 500 6000

    200

    400

    Zn(32ms)

    0 100 200 300 400 500 6000

    500

    Zn(64

    ms)

    0 100 200 300 400 500 600-0.5

    0

    0.5

    amplitud

    0 100 200 300 400 500 6000

    2

    4

    6

    En(32ms)

    0 100 200 300 400 500 6000

    100

    200

    300

    Zn

    (32ms)

    4.6.- Funcin de autocorrelacin de tiempo corto

    Autocorrelacin:

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    99/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 99

    Autocorrelacin: Es la correlacin de una seal consigo misma desplazada kmuestras Diversas expresiones

    Seales deterministas (estacionarias)

    Estimacin trama a trama

    Para evitar problemas de extremos de la trama

  • 7/21/2019 Prueba 707610

    100/132

    Tema 4: Representacin de la voz

    0.5

    1

    tud

    Funcin de autocorrelacin de tiempo corto para distintas longitudes de ventana

  • 7/21/2019 Prueba 707610

    101/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 101

    0 100 200 300 400 500 600 700-0.5

    0amplit

    0 50 100 150 200 250-0.5

    0

    0.5

    1

    An(k)(

    8ms)

    0 50 100 150 200 250-0.5

    0

    0.5

    1

    An(k)(16ms)

    0 50 100 150 200 250-0.5

    0

    0.5

    1

    An(k)(32ms)

    0 50 100 150 200 250-0.5

    0

    0.5

    1

    An(k)(64ms)

    Tema 4: Representacin de la voz

    Funcin de autocorrelacin de tiempo corto para distintos fonemas

    0 5

    1

    d

  • 7/21/2019 Prueba 707610

    102/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 102

    0 100 200 300 400 500 600 700-0.5

    0

    0.5

    amplitud

    0 50 100 150 200 250-0.5

    0

    0.5

    1

    An(k)(32ms)

    0 50 100 150 200 250-0.5

    0

    0.5

    1

    An(k)(32ms)

    0 50 100 150 200 250-0.5

    0

    0.5

    1

    An(k)(32ms)

    4.7.- Estimacin del tono fundamental

    La periodicidad de la seal asociada a excitacin peridica (pulsos

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    103/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 103

    La periodicidad de la seal asociada a excitacin peridica (pulsosglotales, vibracin cuerdas vocales) da lugar al tono fundamental

    Si tenemos un fonema sonoro, la seal es cuasi peridica, (P0 f0)

    P0 y f0 estn definidos para fonemas sonoros (no para fonemas sordos) La funcin de autocorrelacin de tiempo corto de una seal peridica de

    periodo P0, es peridica con periodo P0:

    Rn(k) = Rn(k+P) R n(0) = Rn(P) Como la seal es cuasiperidica:

    Rn(0) Rn(P)

    El pico ms importante de la funcin de autocorrelacin (despus de Rn(0)) se

    presenta en la muestra correspondiente al periodo del pitch La funcin de autocorrelacin de tiempo corto permite estimar el periodo del pitch (y

    el tono fundamental) f0= 1 / P0

    Problemas de la estimacin basada en la funcin de autocorrelacin: Pico principal asociado a la cuasi periodicidad

    Picos al principio asociados a la respuesta del tracto vocal

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    104/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 104

    Los picos del principio pueden ser mayores que el asociado a periodicidad (en algunossegmentos) dando lugar a estimaciones errneas del tono fundamental

    Soluciones: Filtrar la seal paso baja o paso

    banda (50 Hz 900 Hz)

    Center clipping (nivel de clipping suele

    establecerse como porcentaje delmximo) Autocorrelacin sobre la seal obtenida

    tras el center clipping

    Autocorrelacin normalizada (con Rn(0))

    y umbral para determinar si el segmentoes sordo o sonoro

    0.5

    1

    ud

    Estimacin tono fundamental sin filtrado ni clipping

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    105/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 105

    0 100 200 300 400 500 600-0.5

    0amplitu

    0 100 200 300 400 500 6000

    50

    100

    150

    200

    f0(Hz)

    0 100 200 300 400 500 6000

    0.2

    0.4

    0.6

    0.8

    1

    max(R

    n)/R

    n(0)

    Estimacin tono fundamental con filtrado y clipping

    0 2

    0.4

    0.6

    ud

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    106/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 106

    0 100 200 300 400 500 6000

    50

    100

    150

    200

    f0(Hz)

    0 100 200 300 400 500 6000

    0.2

    0.4

    0.6

    0.8

    1

    max(R

    n

    )/R

    n(0)

    0 100 200 300 400 500 600-0.4

    -0.2

    0

    0.2

    amplitu

    Estimacin tono fundamental con filtrado y clipping (frase ms larga)

    0 2

    0.4

    0.6

    d

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    107/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 107

    0 500 1000 1500150

    200

    250

    300

    350

    f0(Hz)

    0 500 1000 15000

    0.2

    0.4

    0.6

    0.8

    1

    max(R

    n)/R

    n(0)

    0 200 400 600 800 1000 1200 1400 1600-0.4

    -0.2

    0

    0.2

    amplitud

    4.8.- Anlisis de Fourier de tiempo corto:espectrogramas NB y WB

    La FFT de una ventana proporciona el espectro de la porcin de

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    108/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 108

    La FFT de una ventana proporciona el espectro de la porcin deseal contenida en la ventana

    Espectrograma: representacin del espectro de las distintas

    ventanas. Es una representacin tridimensional: Eje de tiempo (para cada ventana) Eje de frecuencia (para cada punto de la FFT)

    Eje de amplitud (se suele representar el mdulo de la FFT en dB) Espectrograma tpico:

    Eje horizontal para el tiempo Eje vertical para la frecuencia

    Amplitud representada mediante un mapa de color o nivel de gris

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    109/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 109

    0

    0.5

    1

    amplitud

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    110/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 110

    0 100 200 300 400 500 600 700-0.5

    0 1000 2000 3000 4000

    -20

    0

    20

    X(f)(dB

    )

    0 1000 2000 3000 4000

    -20

    0

    20

    X(f)(dB

    )

    0 1000 2000 3000 4000

    -20

    0

    20

    X(f)(dB)

    0 5 10 15-0.02

    0

    0.02

    x(t)

    0 5 10 15-0.5

    0

    0.5

    1

    x(t)

    0 5 10 15-0.5

    0

    0.5

    x(t)

    NB (ventana de 64 ms)

    3500

    4000WB (ventana de 8 ms)

    3500

    4000

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    111/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 111

    tiempo (s)

    frecuencia(Hz)

    0 0.1 0.2 0.3 0.4 0.50

    500

    1000

    1500

    2000

    2500

    3000

    tiempo (s)

    frecuencia(Hz)

    0 0.1 0.2 0.3 0.4 0.5 0.60

    500

    1000

    1500

    2000

    2500

    3000

    NB (ventana de 64 ms)

    3500

    4000WB (ventana de 8 ms)

    3500

    4000

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    112/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 112

    tiempo (s)

    frecuencia(Hz)

    0 0.1 0.2 0.3 0.4 0.50

    500

    1000

    1500

    2000

    2500

    3000

    tiempo (s)

    frecuencia(Hz)

    0 0.1 0.2 0.3 0.4 0.5 0.60

    500

    1000

    1500

    2000

    2500

    3000

    Utilidad del espectrograma: representacin global de la seal de voz Caractersticas espectrales de tiempo corto (formantes) Evolucin de las caractersticas espectrales

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    113/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 113

    Tono fundamental / periodo fundamental: Representado en el dominio del tiempo (WB)

    Representado en el dominio de la frecuencia (NB) Se pueden identificar (leer) fonemas del espectrograma

    Importancia del tamao de la ventana: Determina la resolucin espectral

    Determina la resolucin temporal Df = 45 Hz Dt = 22 ms NB Df = 300 Hz Dt = 3.3 ms WB

    Forma de la ventana: usualmente Hamming

    0

    0.5

    1

    plitud

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    114/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 114

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8-1

    -0.5

    0

    amp

    tiempo (s)

    frecuencia(Hz)

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

    1000

    2000

    3000

    4000

    tiempo (s)

    frecuen

    cia(Hz)

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

    1000

    2000

    3000

    4000

    Problema del espectrograma: Hay un compromiso entre resolucin temporal y resolucin espectral

    (incertidumbre)En general interesan ventanas de unos 20 o 30 ms (cuasi estacionariedad)

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    115/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 115

    En general interesan ventanas de unos 20 o 30 ms (cuasi-estacionariedad) Dependiendo del propsito, interesan resoluciones espectrales peores que 50 Hz o

    30 Hz (que corresponderan a NB) Si queremos estudiar la envolvente espectral (resonancias) convendra suavizar el

    espectro

    Tcnicas de suavizado espectral: Espectro LPC Banco de filtros Procesamiento homomrfico (cepstrum)

    4.9.- Linear Prediction Coding: Anlisis LPC

    El anlisis LPC trata de caracterizar el filtro H(z) que representa al tracto

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    116/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 116

    El anlisis LPC trata de caracterizar el filtro H(z) que representa al tractovocal, de acuerdo con el modelo excitacin filtrado

    Filtro todo polos para modelar las resonancias (dos polos por cadaresonancia). A(z) es un polinomio en z-1

    Salida del filtro cuando se presenta una excitacin u(n):

    Predictor lineal: obtiene una prediccin de s(n) en base a las p ltimasmuestras:

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    117/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 117

    Coeficientes de prediccin lineal (LPC): los que minimizan el error deprediccin:

    (la suma se extiende a la ventana de anlisis)

    Los coeficientes del predictor se pueden identificar con los coeficientesdel filtro

    El error de prediccin es G u(n) Para sonidos sonoros, la excitacin u(n) es un tren de impulsos (que vale cero para

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    118/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 118

    la mayor parte de las muestras). Esto es consistente con calcular los coeficientesdel filtro como aquellos que minimizan la energa residual.

    Si u(n) es un impulso simple o ruido blanco estacionario, el modelo AR(autoregresivo) garantiza que los coeficientes que minimizan la energa residualcoinciden con los del filtro

    De este modo, el anlisis LPC proporciona una estimacin del filtro que

    representa el tracto vocal en el modelo excitacin filtrado

    Espectro LPC: es la respuesta en frecuencia del filtro. Para la

    frecuencia f se obtiene evaluando H(z) en z = ej 2 f

    Espectro FFT y LPC para fonemas sonoro y sordo: /a/ /s/ (ventana de 180 ms)

    0.1

    0.2

    0.3

    -20

    -10

    0

  • 7/21/2019 Prueba 707610

    119/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 119

    80 85 90 95 100

    -0.2

    -0.1

    0

    0.1

    t (ms)

    Amplitud

    0 1000 2000 3000 4000 5000 6000-80

    -70

    -60

    -50

    -40

    -30

    frecuencia Hz

    potencia(dB)

    80 85 90 95 100

    -0.2

    -0.1

    0

    0.1

    0.2

    0.3

    t ms

    Amplitud

    0 1000 2000 3000 4000 5000 6000-80

    -70

    -60

    -50

    -40

    -30

    -20

    -10

    0

    frecuencia Hz

    potencia(dB)

    ORDEN DE PREDICCIN ADECUADO:

    El anlisis LPC busca una resonancia por cada 2 polos Si buscamos la envolvente espectral (los formantes) debemos utilizar

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    120/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 120

    Si buscamos la envolvente espectral, (los formantes), debemos utilizarun orden aproximado de 2 x Numero-de-formantes (algo mayor)

    Como hay aproximadamente 1 formante por cada kHz, para frecuenciade muestreo de 8 kHz (se analiza entre 0 y 4 kHz) se debe usaraproximadamente orden 8

    Para ajustar mejor el espectro LPC a la envolvente espectral, se puedeusar un orden un poco mayor (por ejemplo, 12 o 14) Si se usa un orden excesivo, el espectro LPC se ajusta a los armnicos

    Influencia del orden de prediccin (seal muestreada a 11 kHz)

  • 7/21/2019 Prueba 707610

    121/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 121

    Influencia del tamao de la ventana (seal muestreada a 11 kHz; orden LPC 16)

  • 7/21/2019 Prueba 707610

    122/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 122

    Espectrogramas FFT y LPC (ventana de 32 ms; orden LPC 12)

  • 7/21/2019 Prueba 707610

    123/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 123

    4.10.- Anlisis basado en banco de filtros

    El anlisis basado en banco de filtros proporciona un espectro suavizado

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    124/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 124

    La resolucin espectral viene determinada por el nmero de filtros y elancho de banda de stos

    El banco de filtros se puede disear con distintos criterios: Distribucin de los filtros a lo largo del eje de frecuencia Ancho de banda para cada frecuencia

    Los filtros se pueden implementar por distintos mtodos: En el dominio del tiempo En el dominio de la frecuencia (segmentacin en tramas y FFT)

    Dependiendo de la aplicacin, se puede usar la salida de cada filtro, laenvolvente de la salida, o la potencia de salida

    Escala Mel Distribuye los filtros de forma uniforme desde un punto de vista perceptual Compresin del eje de frecuencia

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    125/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 125

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    126/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 126

    Banco de filtros triangulares en escala Mel (para aplicar sobre elespectro FFT) Cada trama de voz quedara representada por M energas de salida (una

    por cada filtro del banco) Tpicamente se usan alrededor de 20 30 filtros solapados Se suele representar la potencia de salida en escala logartmica

    4.11.- Procesamiento homomrfico. Cepstrum(FFT, LPC y MFCC)

    El procesamiento homomrfico aplica operaciones no linealesObjetivo: separar seales que se mezclan de forma complicada

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    127/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 127

    Objetivo: separar seales que se mezclan de forma complicada Procedimiento: transformar seales para que en el dominio transformado la mezcla

    complicada se transforme en una mezcla aditiva Dificultad: los sistemas no lineales son difciles de estudiar Para determinadas aplicaciones el procesamiento homomrfico es muy til

    Cepstrum: procesamiento homomrfico que incluye:

    Transformacin al dominio de la frecuencia Logaritmo Transformacin al dominio del tiempo

    El cepstrum convierte la convolucin en una suma El filtrado es la convolucin de la excitacin y la respuesta impulsiva del filtro En el dominio cepstral se pueden separar las partes correspondiente a excitacin y

    a filtrado

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    128/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 128

    En el dominio cepstral es ms fcil separar la excitacin y el

    filtrado: Se mezclan de forma aditiva La excitacin (corresponde al rizado espectral) est en los trminos de orden alto

    del cepstrum

    El filtrado (corresponde a la envolvente espectral) est en los trminos de ordenbajo del cepstrum Liftering: filtrado en el dominio del cepstrum Se podra hacer transformacin inversa, para recuperar u h

    Cepstrum FFT: Cada trama representada por unos pocos coeficientes cepstrales (envolvente

    espectral) El espectro FFT es un conjunto de nmeros complejos

    L it d l t d b l it l j

    Tema 4: Representacin de la voz

  • 7/21/2019 Prueba 707610

    129/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 129

    Logaritmo del espectro debe ser un logaritmo complejo

    Cepstrum LPC: El cepstrum se puede calcular a partir del espectro LPC (tambin complejo)

    Tambin se puede calcular a partir de los coeficientes LPC

    Tema 4: Representacin de la voz

    Cepstrum MFCC: Mel Frequency Cepstral Coefficients

    El espectro se estima mediante banco de filtros en escala Mel La transformada inversa se sustituye por una transformada discreta del coseno

    (DCT) inversa

  • 7/21/2019 Prueba 707610

    130/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 130

    ( )

    Reduce las operaciones con nmeros complejos

    Cada trama representada por un vector de coeficientes cepstrales

  • 7/21/2019 Prueba 707610

    131/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 131

    TEMA 5

    ANLISIS DE SEALES DE VOZ

    Tema 5: ANALISIS DE SEALES DE VOZ

    5.1.- Introduccin.

    5 2 La forma de onda

    Tema 5: Anlisis de voz

  • 7/21/2019 Prueba 707610

    132/132

    Procesamiento de Voz ATV Dpto. Teora de la Seal, Telemtica y Comunicaciones Universidad de Granada 132

    5.2.- La forma de onda.

    5.3.- Las vocales.5.4.- Consonantes estacionarias sonoras y sordas.

    5.5.- Consonantes no estacionarias.

    5.6.- Coarticulacin.5.7.- Variabilidad.

    5.8.- La seal de voz en presencia de ruido:

    Ruido blanco y ruido coloreado Ruido no estacionario

    Deteccin de actividad de voz