Procesamiento de la señal de voz -...

62
Procesamiento de la señal de voz Leandro Vignolo Procesamiento Digital de Señales Ingeniería Informática FICH-UNL 29 de mayo de 2014 L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 1 / 47

Transcript of Procesamiento de la señal de voz -...

Procesamiento de la señal de voz

Leandro Vignolo

Procesamiento Digital de SeñalesIngeniería Informática FICH-UNL

29 de mayo de 2014

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 1 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Organización de la clase

1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción

2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos

3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz

4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 2 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Organización de la clase

1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción

2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos

3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz

4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 3 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Modelo lineal de producción de la voz

Diagrama esquemático del aparato fonador

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 4 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Modelo lineal de producción de la voz

Se supone que la señal es la salida de un sistema linealLa señal de voz es el resultado de la convolución entre una señal deexcitación y la respuesta al impulso del tracto vocal

y(t) = x(t) ∗ h(t)

Sólo se conoce y(t) y es de interés analizarla para estimar lascaracterísticas de la respuesta al impulso del tracto vocal h(t).En el dominio frecuencial,

Y (f) = X(f)H(f)

donde X(f) es el espectro de la excitación y H(f) es la respuesta enfrecuencias del tracto vocal.

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 5 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Estructura anatómica del tracto vocal

1 2

3

4

5

6 7 8

9

11

12 13

14

10

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 6 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Fuentes principales del sonido

Tipos de entrada

Tren de pulsos cuasiperiódicos (sonidos sonoros)Frecuencia fundamental (F0)Ruido de banda ancha (sonidos sordos)

Modificadores del sonidoMorfología del tracto vocalCircuito nasalRestricciones en el flujo de aireRadiación en los labiosPosición de la lenguaPosición de la mandíbulaSistema variante en el tiempo

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 7 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Fuentes principales del sonido

Tipos de entrada

Tren de pulsos cuasiperiódicos (sonidos sonoros)Frecuencia fundamental (F0)Ruido de banda ancha (sonidos sordos)

Modificadores del sonidoMorfología del tracto vocalCircuito nasalRestricciones en el flujo de aireRadiación en los labiosPosición de la lenguaPosición de la mandíbulaSistema variante en el tiempo

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 7 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Análisis de la señal de voz

Período y Frecuencia fundamental (F0) - Formantes

La frecuencia fundamental F0 corresponde a la frecuencia glótica,presente en los fonemas sonoros, y es una componente importante dela entonación en el habla.

Período fundamental: T0 = 1F0

Las frecuencias formantes (F1, F2, F3, · · · ) permiten discriminar entrelas vocales.

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 8 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Análisis de la señal de voz

Sonograma y espectrograma

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 9 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Espectro de una vocal

Energía en dB

20 dB

Frecuencia en KHz

0 2.5 7.5 10 5

F 1 F 2

F 3

F 4

F 0

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 10 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Espectro de una vocal

Energía en dB

20 dB

Frecuencia en KHz

0 2.5 7.5 10 5

F 1

F 2

F 3 F 4

F 0

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 11 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Triángulo de las vocales

/i/ /e/

/a/

/o/ /u/

5000 4000

3000

2000

1000

500

F 2 e

n H

z

0 400 800 1200 F 1 en Hz

Posteriores o graves

Cerradas

Medias

Anteriores o agudas

Medias Abiertas

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 12 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Percepción de la voz...

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 13 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Partes del oído

1

Externo Medio Interno

2

3

4 5 6

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 14 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Cóclea

1

2 3

4

5

6

7

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 15 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Onda viajera

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 16 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Principio de tonotopía

1 0 0 0

2 0 0 0 0

7 0 0 0

5 0 0 0

1 5 0 0

2 0 0 0

3 0 0 0

4 0 0 0

8 0 0

6 0 0

4 0 0 2 0 0

2 0

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 17 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Frecuencia y Pitch

F0 y PitchA menudo confundidos en la literatura, el pitch no es igual a lafrecuencia fundamental.La frecuencia, intensidad y las propiedades espectrales de un sonidointeractúan en formas muy complejas para dar una percepción depitch que puede ser un reflejo muy pobre de la F0. El pitch percibidocambia con la intensidad.El pitch se refiere a un atributo perceptual del sonido, mientras que afrecuencia es un atributo físico de las señales.

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 18 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Escala de mel

MelLa unidad del pitch percibido de un tono puro es el mel.No se corresponde linealmente con la frecuencia física del tono.Stevens y Volkman (1940) establecieron: 1000 Hz = 1000 mel.

Escala de mel

Fmel =1000

log (2)log

(1 +

FHz

1000

)(Fant, 1973)

Es una aproximación y existen otras variantesO’Shaugnessy (1987)Umesh (1999)

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 19 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Banco de filtros en escala de mel

0 2000 4000 6000 8000 10000 120000

1000

2000

3000

4000

Frecuencia [Hz]

Pitch

[m

el]

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 20 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Banco de filtros en escala de mel

0 2000 4000 6000 8000 10000 120000

1000

2000

3000

4000

Frecuencia [Hz]

Pitch

[m

el]

102 103 1040

1000

2000

3000

4000

Frecuencia (Hz)

Pitc

h (m

el)

FantO'ShaughnessyUmeshStevens

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 20 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Banco de filtros en escala de mel

0 2000 4000 6000 8000 10000 120000

1000

2000

3000

4000

Frecuencia [Hz]

Pitch

[m

el]

0 1000 2000 3000 4000 5000 6000 7000 80000

0.2

0.4

0.6

0.8

1

Frequency [Hz]

Gai

n

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 20 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Organización de la clase

1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción

2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos

3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz

4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 21 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Primeros niveles estructurales del habla

t Emisión completa

Tramos de análisis

Tramos procesados

Sonidos ruidos habla silencios

Fonos y fonemas

Suprasegmentos

Sílabas

Palabras Unidades sintácticas

t t t t

f f f f

/a/-/cla/-/ró/-/que/-/un/

/a/-/k/-/l/-/a/-/r/-/o/

/Aclaró/ - /que/ - /un/ - /Aleph/

/verbo/ - /nexo. inc./ - /numeral/ - /sust./

/A/ /A/ /T/ /A/ /A/

Morfemas /Aclar/-/ó/-/que/-/un/

Física acústica. Procesamiento de señales.

Fonética

Fonología

/u/-/N/ /k/-/e/

Léxico

Sintaxis

Morfología

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 22 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Análisis por tramos

Necesidad: señal no estacionariaEstacionariedad por tramosTipos de ventanas (cuadrada, Hamming, etc.)Técnicas de ventaneoSolapado en el tiempoAnálisis de las ventanas independientes

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 23 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

t

t

t

t

t

t

t

f

f

f

f

f

f 4, 4, 2, 1, 3, 3

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 24 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Análisis por tramos

Ventaneov(t, n) = ω(n,Nω)x(tNd + n), 0 < n ≤ Nω

t: índice de la ventanan: índice de la muestra

Hamming

ωH(m,Nω) =2750 −

2350 cos(2πm/Nω)

Transformaciones de dominio sobre tramos individualesV (t, k) = T (k) {v(t, n)} , 0 < k ≤ Nx

CE: ut ← u(t, k) = TF (k) {v(t, n)}CPL: at ← a(t, k) = TL(k) {v(t, n)}

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 25 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Análisis por tramos

Ventaneov(t, n) = ω(n,Nω)x(tNd + n), 0 < n ≤ Nω

t: índice de la ventanan: índice de la muestra

Hamming

ωH(m,Nω) =2750 −

2350 cos(2πm/Nω)

Transformaciones de dominio sobre tramos individualesV (t, k) = T (k) {v(t, n)} , 0 < k ≤ Nx

CE: ut ← u(t, k) = TF (k) {v(t, n)}CPL: at ← a(t, k) = TL(k) {v(t, n)}

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 25 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Análisis por tramos

Ventaneov(t, n) = ω(n,Nω)x(tNd + n), 0 < n ≤ Nω

t: índice de la ventanan: índice de la muestra

Hamming

ωH(m,Nω) =2750 −

2350 cos(2πm/Nω)

Transformaciones de dominio sobre tramos individualesV (t, k) = T (k) {v(t, n)} , 0 < k ≤ Nx

CE: ut ← u(t, k) = TF (k) {v(t, n)}CPL: at ← a(t, k) = TL(k) {v(t, n)}

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 25 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Energía y entonación (F0) por tramos

20 dB

Energía en dB

Tiempo en seg.

0 0.5 2 2.5 1.5 1

300

200

100

0

F 0 en Hz

Tiempo en seg.

0 0.5 2 2.5 1.5 1

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 26 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Organización de la clase

1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción

2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos

3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz

4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 27 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Espectro de una vocal

Energía en dB

20 dB

Frecuencia en KHz

0 2.5 7.5 10 5

F 1 F 2

F 3

F 4

F 0

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 28 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Otra elocución de la misma vocal

Energía en dB

20 dB

Frecuencia en KHz

0 2.5 7.5 10 5

F 1 F 2

F 3

F 4

F 0

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 29 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Coeficientes cepstrales

c(m) = T −1F {log |TF {v(m)}|}

Espectral → Cepstral

Espectro → Cepstro

Frcuencias → Cuefrencias

Filtro, filtrado → Liftro, liftrado

Armónicas → Ramónicas

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 30 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Coeficientes cepstrales

c(m) = T −1F {log |TF {v(m)}|}

Espectral → Cepstral

Espectro → Cepstro

Frcuencias → Cuefrencias

Filtro, filtrado → Liftro, liftrado

Armónicas → Ramónicas

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 30 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Separación de fuentes y modificadores del sonido

v̂(n) = g(n) ∗ h(n)

V̂ (k) = G(k)×H(k)

ˆlog |V (k)| = log |G(k)×H(k)|

ˆlog |V (k)| = log |G(k)|+ log |H(k)|

v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Separación de fuentes y modificadores del sonido

v̂(n) = g(n) ∗ h(n)

V̂ (k) = G(k)×H(k)

ˆlog |V (k)| = log |G(k)×H(k)|

ˆlog |V (k)| = log |G(k)|+ log |H(k)|

v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Separación de fuentes y modificadores del sonido

v̂(n) = g(n) ∗ h(n)

V̂ (k) = G(k)×H(k)

ˆlog |V (k)| = log |G(k)×H(k)|

ˆlog |V (k)| = log |G(k)|+ log |H(k)|

v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Separación de fuentes y modificadores del sonido

v̂(n) = g(n) ∗ h(n)

V̂ (k) = G(k)×H(k)

ˆlog |V (k)| = log |G(k)×H(k)|

ˆlog |V (k)| = log |G(k)|+ log |H(k)|

v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Separación de fuentes y modificadores del sonido

v̂(n) = g(n) ∗ h(n)

V̂ (k) = G(k)×H(k)

ˆlog |V (k)| = log |G(k)×H(k)|

ˆlog |V (k)| = log |G(k)|+ log |H(k)|

v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Separación de fuentes y modificadores del sonido

v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}

Energía en dB

20 dB

Frecuencia en KHz

0 2.5 7.5 10 5 L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 32 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Separación de fuentes y modificadores del sonido

v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}

G y H ocupan partes diferentes del eje de cuefrencias. Podemos separar laparte que varía rápidamente (correspondiente a la excitación del tractovocal) de la que varía lentamente (la respuesta en frecuencia del tracto).

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 32 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Fuentes y modificadores de sonido en el espectro

Energía en dB

20 dB

Frecuencia en KHz

0 2.5 7.5 10 5

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 33 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Fuentes y modificadores de sonido en el espectro

Energía en dB

20 dB

Frecuencia en KHz

0 2.5 7.5 10 5

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 34 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Cepstrum de una vocal

(esquema representativo)

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 35 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Cepstrum de una vocal

Cepstrum Real

Cuefrencia en ms

0 50 25

0.20

0

-0.10

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 36 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Cepstrum de una vocal

Cepstrum Real

Cuefrencia en ms

0 50 25

0.20

0

-0.10

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 37 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Cepstrum de una vocalCepstrum Real

Cuefrencia en ms

0 5 2.5

0.20

0

-0.10

Detección del pico que determina el período findamental T0Rango de posible de F0 (100 - 300 Hz) → rango posible de T0

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 38 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Coeficientes cepstrales en escala de mel

Permiten obtener una representación de la señal de voz emulando elanálsis frecuencial que realiza el sistema auditivo.

Banco de filtros en escala de melIntegración por bandas del espectroCoeficientes de energía por cada bandaTransformación inversa

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 39 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Coeficientes cepstrales en escala de mel

Permiten obtener una representación de la señal de voz emulando elanálsis frecuencial que realiza el sistema auditivo.

Banco de filtros en escala de melIntegración por bandas del espectroCoeficientes de energía por cada bandaTransformación inversa

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 39 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Coeficientes cepstrales en escala de mel

Escala de mel

Fmel =1000

log(2)log

(1 +

FHz

1000

)

0 1000 2000 3000 4000 5000 6000 7000 80000

0.2

0.4

0.6

0.8

1

Frequency [Hz]

Gai

n

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 40 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Coeficientes cepstrales en escala de mel

El espectro de magnitud logarítmico

X[k] = loge |TDF{x[n]}|,

es integrado en bandas usando filtros Wi, i = 1...I

U [i] =∑

kWi[k]X[k],

y luego se calcula la transformada inversa

C = TDFI{U}.

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 41 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Coeficientes cepstrales en escala de mel

Integración por bandas

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 42 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Organización de la clase

1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción

2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos

3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz

4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 43 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Estimación de F0 por cepstrum

0 5 10 15 20 25 30 35 40 45 50

-0.2

-0.1

0

0.1

0.2

/a/

t (ms)

T0

0 1 2 3 4 5 6 7 8 9 10-0.2

0

0.2

0.4

0.6

0.8

t (ms)

c[n]

T0 = 8.26 ms

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 44 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Estimación de F0 por autocorrelación

ACx[j] =∑n

xnxn−j

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 45 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Estimación de F0 por autocorrelación

T0

T0

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 45 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Estimación de F0 por autocorrelación

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 45 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Bibliografía básica

L. R. Rabiner y B. Gold, Theory and Application of Digital SignalProcessing, Prentice Hall, 1975.Secciones: 12.1, 12.2, 12.3 y 12.13.J. R. Deller, J. G. Proakis, J. H. Hansen, Discrete-Time Processing ofSpeech Signals, Prentice Hall, 1993.Secciones: 4.1, 4.2.1, 4.2.2, 6.1 y 6.2.→ Error en la figura 6.3 (c), pp 361.

H.L. Rufiner, “Análisis y modelado digital de la voz: Técnicasrecientes y aplicaciones”, Editorial UNL, 2009. (Capítulo 3).J. Makhoul, “Linear Prediction: A Tuturial Review,” Proc. IEEE, vol63, no. 4, páginas 561-580, 1975.

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 46 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Bibliografía básica

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 47 / 47

Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0

Bibliografía básica

L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 47 / 47