Procesamiento de la señal de voz -...
-
Upload
trinhkhanh -
Category
Documents
-
view
220 -
download
0
Transcript of Procesamiento de la señal de voz -...
Procesamiento de la señal de voz
Leandro Vignolo
Procesamiento Digital de SeñalesIngeniería Informática FICH-UNL
29 de mayo de 2014
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 1 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Organización de la clase
1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción
2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos
3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz
4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 2 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Organización de la clase
1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción
2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos
3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz
4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 3 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Modelo lineal de producción de la voz
Diagrama esquemático del aparato fonador
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 4 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Modelo lineal de producción de la voz
Se supone que la señal es la salida de un sistema linealLa señal de voz es el resultado de la convolución entre una señal deexcitación y la respuesta al impulso del tracto vocal
y(t) = x(t) ∗ h(t)
Sólo se conoce y(t) y es de interés analizarla para estimar lascaracterísticas de la respuesta al impulso del tracto vocal h(t).En el dominio frecuencial,
Y (f) = X(f)H(f)
donde X(f) es el espectro de la excitación y H(f) es la respuesta enfrecuencias del tracto vocal.
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 5 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Estructura anatómica del tracto vocal
1 2
3
4
5
6 7 8
9
11
12 13
14
10
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 6 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Fuentes principales del sonido
Tipos de entrada
Tren de pulsos cuasiperiódicos (sonidos sonoros)Frecuencia fundamental (F0)Ruido de banda ancha (sonidos sordos)
Modificadores del sonidoMorfología del tracto vocalCircuito nasalRestricciones en el flujo de aireRadiación en los labiosPosición de la lenguaPosición de la mandíbulaSistema variante en el tiempo
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 7 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Fuentes principales del sonido
Tipos de entrada
Tren de pulsos cuasiperiódicos (sonidos sonoros)Frecuencia fundamental (F0)Ruido de banda ancha (sonidos sordos)
Modificadores del sonidoMorfología del tracto vocalCircuito nasalRestricciones en el flujo de aireRadiación en los labiosPosición de la lenguaPosición de la mandíbulaSistema variante en el tiempo
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 7 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Análisis de la señal de voz
Período y Frecuencia fundamental (F0) - Formantes
La frecuencia fundamental F0 corresponde a la frecuencia glótica,presente en los fonemas sonoros, y es una componente importante dela entonación en el habla.
Período fundamental: T0 = 1F0
Las frecuencias formantes (F1, F2, F3, · · · ) permiten discriminar entrelas vocales.
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 8 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Análisis de la señal de voz
Sonograma y espectrograma
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 9 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Espectro de una vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1 F 2
F 3
F 4
F 0
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 10 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Espectro de una vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1
F 2
F 3 F 4
F 0
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 11 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Triángulo de las vocales
/i/ /e/
/a/
/o/ /u/
5000 4000
3000
2000
1000
500
F 2 e
n H
z
0 400 800 1200 F 1 en Hz
Posteriores o graves
Cerradas
Medias
Anteriores o agudas
Medias Abiertas
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 12 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Percepción de la voz...
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 13 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Partes del oído
1
Externo Medio Interno
2
3
4 5 6
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 14 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Cóclea
1
2 3
4
5
6
7
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 15 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Onda viajera
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 16 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Principio de tonotopía
1 0 0 0
2 0 0 0 0
7 0 0 0
5 0 0 0
1 5 0 0
2 0 0 0
3 0 0 0
4 0 0 0
8 0 0
6 0 0
4 0 0 2 0 0
2 0
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 17 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Frecuencia y Pitch
F0 y PitchA menudo confundidos en la literatura, el pitch no es igual a lafrecuencia fundamental.La frecuencia, intensidad y las propiedades espectrales de un sonidointeractúan en formas muy complejas para dar una percepción depitch que puede ser un reflejo muy pobre de la F0. El pitch percibidocambia con la intensidad.El pitch se refiere a un atributo perceptual del sonido, mientras que afrecuencia es un atributo físico de las señales.
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 18 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Escala de mel
MelLa unidad del pitch percibido de un tono puro es el mel.No se corresponde linealmente con la frecuencia física del tono.Stevens y Volkman (1940) establecieron: 1000 Hz = 1000 mel.
Escala de mel
Fmel =1000
log (2)log
(1 +
FHz
1000
)(Fant, 1973)
Es una aproximación y existen otras variantesO’Shaugnessy (1987)Umesh (1999)
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 19 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Banco de filtros en escala de mel
0 2000 4000 6000 8000 10000 120000
1000
2000
3000
4000
Frecuencia [Hz]
Pitch
[m
el]
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 20 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Banco de filtros en escala de mel
0 2000 4000 6000 8000 10000 120000
1000
2000
3000
4000
Frecuencia [Hz]
Pitch
[m
el]
102 103 1040
1000
2000
3000
4000
Frecuencia (Hz)
Pitc
h (m
el)
FantO'ShaughnessyUmeshStevens
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 20 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Banco de filtros en escala de mel
0 2000 4000 6000 8000 10000 120000
1000
2000
3000
4000
Frecuencia [Hz]
Pitch
[m
el]
0 1000 2000 3000 4000 5000 6000 7000 80000
0.2
0.4
0.6
0.8
1
Frequency [Hz]
Gai
n
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 20 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Organización de la clase
1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción
2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos
3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz
4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 21 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Primeros niveles estructurales del habla
t Emisión completa
Tramos de análisis
Tramos procesados
Sonidos ruidos habla silencios
Fonos y fonemas
Suprasegmentos
Sílabas
Palabras Unidades sintácticas
t t t t
f f f f
/a/-/cla/-/ró/-/que/-/un/
/a/-/k/-/l/-/a/-/r/-/o/
/Aclaró/ - /que/ - /un/ - /Aleph/
/verbo/ - /nexo. inc./ - /numeral/ - /sust./
/A/ /A/ /T/ /A/ /A/
Morfemas /Aclar/-/ó/-/que/-/un/
Física acústica. Procesamiento de señales.
Fonética
Fonología
/u/-/N/ /k/-/e/
Léxico
Sintaxis
Morfología
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 22 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Análisis por tramos
Necesidad: señal no estacionariaEstacionariedad por tramosTipos de ventanas (cuadrada, Hamming, etc.)Técnicas de ventaneoSolapado en el tiempoAnálisis de las ventanas independientes
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 23 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
t
t
t
t
t
t
t
f
f
f
f
f
f 4, 4, 2, 1, 3, 3
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 24 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Análisis por tramos
Ventaneov(t, n) = ω(n,Nω)x(tNd + n), 0 < n ≤ Nω
t: índice de la ventanan: índice de la muestra
Hamming
ωH(m,Nω) =2750 −
2350 cos(2πm/Nω)
Transformaciones de dominio sobre tramos individualesV (t, k) = T (k) {v(t, n)} , 0 < k ≤ Nx
CE: ut ← u(t, k) = TF (k) {v(t, n)}CPL: at ← a(t, k) = TL(k) {v(t, n)}
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 25 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Análisis por tramos
Ventaneov(t, n) = ω(n,Nω)x(tNd + n), 0 < n ≤ Nω
t: índice de la ventanan: índice de la muestra
Hamming
ωH(m,Nω) =2750 −
2350 cos(2πm/Nω)
Transformaciones de dominio sobre tramos individualesV (t, k) = T (k) {v(t, n)} , 0 < k ≤ Nx
CE: ut ← u(t, k) = TF (k) {v(t, n)}CPL: at ← a(t, k) = TL(k) {v(t, n)}
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 25 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Análisis por tramos
Ventaneov(t, n) = ω(n,Nω)x(tNd + n), 0 < n ≤ Nω
t: índice de la ventanan: índice de la muestra
Hamming
ωH(m,Nω) =2750 −
2350 cos(2πm/Nω)
Transformaciones de dominio sobre tramos individualesV (t, k) = T (k) {v(t, n)} , 0 < k ≤ Nx
CE: ut ← u(t, k) = TF (k) {v(t, n)}CPL: at ← a(t, k) = TL(k) {v(t, n)}
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 25 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Energía y entonación (F0) por tramos
20 dB
Energía en dB
Tiempo en seg.
0 0.5 2 2.5 1.5 1
300
200
100
0
F 0 en Hz
Tiempo en seg.
0 0.5 2 2.5 1.5 1
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 26 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Organización de la clase
1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción
2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos
3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz
4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 27 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Espectro de una vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1 F 2
F 3
F 4
F 0
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 28 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Otra elocución de la misma vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1 F 2
F 3
F 4
F 0
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 29 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Coeficientes cepstrales
c(m) = T −1F {log |TF {v(m)}|}
Espectral → Cepstral
Espectro → Cepstro
Frcuencias → Cuefrencias
Filtro, filtrado → Liftro, liftrado
Armónicas → Ramónicas
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 30 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Coeficientes cepstrales
c(m) = T −1F {log |TF {v(m)}|}
Espectral → Cepstral
Espectro → Cepstro
Frcuencias → Cuefrencias
Filtro, filtrado → Liftro, liftrado
Armónicas → Ramónicas
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 30 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Separación de fuentes y modificadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
ˆlog |V (k)| = log |G(k)×H(k)|
ˆlog |V (k)| = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Separación de fuentes y modificadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
ˆlog |V (k)| = log |G(k)×H(k)|
ˆlog |V (k)| = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Separación de fuentes y modificadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
ˆlog |V (k)| = log |G(k)×H(k)|
ˆlog |V (k)| = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Separación de fuentes y modificadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
ˆlog |V (k)| = log |G(k)×H(k)|
ˆlog |V (k)| = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Separación de fuentes y modificadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
ˆlog |V (k)| = log |G(k)×H(k)|
ˆlog |V (k)| = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 31 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Separación de fuentes y modificadores del sonido
v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5 L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 32 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Separación de fuentes y modificadores del sonido
v̂(m) = T −1F {log |G(k)|}+ T −1F {log |H(k)|}
G y H ocupan partes diferentes del eje de cuefrencias. Podemos separar laparte que varía rápidamente (correspondiente a la excitación del tractovocal) de la que varía lentamente (la respuesta en frecuencia del tracto).
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 32 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Fuentes y modificadores de sonido en el espectro
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 33 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Fuentes y modificadores de sonido en el espectro
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 34 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Cepstrum de una vocal
(esquema representativo)
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 35 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Cepstrum de una vocal
Cepstrum Real
Cuefrencia en ms
0 50 25
0.20
0
-0.10
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 36 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Cepstrum de una vocal
Cepstrum Real
Cuefrencia en ms
0 50 25
0.20
0
-0.10
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 37 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Cepstrum de una vocalCepstrum Real
Cuefrencia en ms
0 5 2.5
0.20
0
-0.10
Detección del pico que determina el período findamental T0Rango de posible de F0 (100 - 300 Hz) → rango posible de T0
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 38 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Coeficientes cepstrales en escala de mel
Permiten obtener una representación de la señal de voz emulando elanálsis frecuencial que realiza el sistema auditivo.
Banco de filtros en escala de melIntegración por bandas del espectroCoeficientes de energía por cada bandaTransformación inversa
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 39 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Coeficientes cepstrales en escala de mel
Permiten obtener una representación de la señal de voz emulando elanálsis frecuencial que realiza el sistema auditivo.
Banco de filtros en escala de melIntegración por bandas del espectroCoeficientes de energía por cada bandaTransformación inversa
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 39 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Coeficientes cepstrales en escala de mel
Escala de mel
Fmel =1000
log(2)log
(1 +
FHz
1000
)
0 1000 2000 3000 4000 5000 6000 7000 80000
0.2
0.4
0.6
0.8
1
Frequency [Hz]
Gai
n
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 40 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Coeficientes cepstrales en escala de mel
El espectro de magnitud logarítmico
X[k] = loge |TDF{x[n]}|,
es integrado en bandas usando filtros Wi, i = 1...I
U [i] =∑
kWi[k]X[k],
y luego se calcula la transformada inversa
C = TDFI{U}.
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 41 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Coeficientes cepstrales en escala de mel
Integración por bandas
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 42 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Organización de la clase
1 Producción y percepción de la vozGeneralidades del aparato fonadorFuentes y modificadores del sonido de la vozGeneralidades del oído y la percepción
2 Análisis por tramosNiveles estructurales del hablaAnálisis por tramos
3 Procesamiento homomórficoDefinición de los coeficientes cepstralesProcesamiento homomórfico de la voz
4 Estimación de la F0Estimación de F0 por cepstrumEstimación de F0 por autocorrelación
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 43 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Estimación de F0 por cepstrum
0 5 10 15 20 25 30 35 40 45 50
-0.2
-0.1
0
0.1
0.2
/a/
t (ms)
T0
0 1 2 3 4 5 6 7 8 9 10-0.2
0
0.2
0.4
0.6
0.8
t (ms)
c[n]
T0 = 8.26 ms
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 44 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Estimación de F0 por autocorrelación
ACx[j] =∑n
xnxn−j
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 45 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Estimación de F0 por autocorrelación
T0
T0
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 45 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Estimación de F0 por autocorrelación
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 45 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Bibliografía básica
L. R. Rabiner y B. Gold, Theory and Application of Digital SignalProcessing, Prentice Hall, 1975.Secciones: 12.1, 12.2, 12.3 y 12.13.J. R. Deller, J. G. Proakis, J. H. Hansen, Discrete-Time Processing ofSpeech Signals, Prentice Hall, 1993.Secciones: 4.1, 4.2.1, 4.2.2, 6.1 y 6.2.→ Error en la figura 6.3 (c), pp 361.
H.L. Rufiner, “Análisis y modelado digital de la voz: Técnicasrecientes y aplicaciones”, Editorial UNL, 2009. (Capítulo 3).J. Makhoul, “Linear Prediction: A Tuturial Review,” Proc. IEEE, vol63, no. 4, páginas 561-580, 1975.
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 46 / 47
Producción y percepción de la voz Análisis por tramos Procesamiento homomórfico Estimación de la F0
Bibliografía básica
L. Vignolo (PDS II FICH UNL) Procesamiento de la señal de voz 29 de mayo de 2014 47 / 47