El diagnóstico y la evaluación de patología de la voz a …fcruz/pdf/CursoVerano-07...... LPC,...
Transcript of El diagnóstico y la evaluación de patología de la voz a …fcruz/pdf/CursoVerano-07...... LPC,...
El diagnóstico y la evaluación de patología de la voz a través de
medidas no invasivas
Universidad Politécnica de MadridJuan Ignacio Godino Llorente
Universidad Politécnica de Madrid. Dpto. ICS
SumarioAntecedentes y MotivaciónPatologías en estudio Modelo de producción de la vozCaracterísticas de la voz normal y patológicaParametrización de la voz: medidas de calidad Detección automática de patología de la voz
Vocales sostenidasHabla continua
Índice de verosimilitud de voz patológica (PLI) Arquitectura del sistema Medivoz
MEDIVOZCaptura: captura y edición de señales WPCVox: análisis de la voz
El futuroConclusiones
Universidad Politécnica de Madrid. Dpto. ICS
Motivación (1)
Debido a las actuales forma de vida, la presencia de desórdenes de la voz ha aumentado considerablemente Actualmente el análisis de las alteraciones de la voz se basa en la exploración directaLas patologías de la voz causan cambios en el registro acústicoEl análisis acústico puede facilitar la detección de patología de voz
Universidad Politécnica de Madrid. Dpto. ICS
Motivación (2)
Incidencias de Cáncer de laringe en Inglaterra y País de Gales (1995-1997)
0
100
200
300
400
500
600
'0-14' '15-44' '45-54' '55-64' '65-74' '75+'
Grupo de edad
REG
ISTR
OS
Varón, 1995 Hembra, 1995 Varón, 1996 Hembra, 1996Varón, 1997 Hembra, 1997
Distribución acumulativa de Cáncer de Laringe en Inglaterra y País de Gales (1995-1997)
0
20
40
60
80
100
'0-14' '15-44' '45-54' '55-64' '65-74' '75+'
Grupo de edad
CD
F (%
)
Total Varón, 1995 Varón, 1996 Varón, 1997Hembra, 1995 Hembra, 1996 Hembra, 1997
Universidad Politécnica de Madrid. Dpto. ICS
Motivación (3)El análisis acústico es una herramienta efectiva para:
Soporte objetivo para el diagnósticoEvaluación objetiva de la disfoníaMonitorización y medida de los desórdenes de la vozDiagnóstico tempranoEvaluación de la rehabilitaciónEvaluación de tratamientos quirúrgicos y/o farmacológicos Apoyo al problema forense
Voz normalVoz normal Voz patológicaVoz patológica
Universidad Politécnica de Madrid. Dpto. ICS
Motivación (4)[Kasuy86c]
El estudio se realizó sobre 991 pacientes que fueron diagnosticados mediante valoraciones perceptuales y mediante examen visual Algunos de los pacientes analizados fueron clasificados como normales mediante un único análisis perceptualEl sistema reveló que podría haber alguna alteración, y un estudio posterior mediante examen visual demostróla existencia de cáncer glotal. En las etapas incipientes del cáncer glotal las alteraciones en la voz no son detectables perceptualmente
Universidad Politécnica de Madrid. Dpto. ICS
Patologías en estudio (1)
NódulosNódulos QuisteQuiste PólipoPólipo EdemaEdema GranulomaGranuloma
PapilomaPapiloma LeucoplasiaLeucoplasia LaringitisLaringitis CarcinomaCarcinoma SulcusSulcus
Universidad Politécnica de Madrid. Dpto. ICS
Patologías en estudio (2)
PólipoPólipoNóduloNódulo
EdemaEdemaQuisteQuiste
Universidad Politécnica de Madrid. Dpto. ICS
Producción de la voz
VibraciVibracióónn
Flujo de aireFlujo de aire
Universidad Politécnica de Madrid. Dpto. ICS
Geometría de las cuerdas (1)
La forma es muy importanteHan de tener un cierto grosorMuy importante la cubierta
Universidad Politécnica de Madrid. Dpto. ICS
Análisis de Fourier
Universidad Politécnica de Madrid. Dpto. ICS
Modelo de producción de la Voz
Onda glotalOnda glotal
Contribución del tractoContribución del tracto
Señal acústicaSeñal acústica
Universidad Politécnica de Madrid. Dpto. ICS
Señal de excitación glotal
PatológicaPatológica
NormalNormal
Espectro y onda glotal de una /i/ patológica y normal
Universidad Politécnica de Madrid. Dpto. ICS
Contribución del tracto
Símbolo vocal
Ejemplo F1(Hz) F2(Hz)
/a/ paz 730 1090
/e/ sed 530 1840
/i/ pila 390 1990
/o/ solo 570 870
/u/ luna 300 840
Universidad Politécnica de Madrid. Dpto. ICS
Características de la Voz NormalEl timbre debe ser agradable El tono debe ser el adecuado para la edad y sexo del individuoEl volumen debe ser el apropiadoLa flexibilidad debe ser la adecuada
El concepto universal de voz normal no existeSe plantea la necesidad de cuantificar la calidad de la voz
Universidad Politécnica de Madrid. Dpto. ICS
Aumento de las perturbaciones de la voz, en período y amplitud (jitter y shimmer)Presencia de ruido en el espectrogramaDisminución de los armónicos en el espectrogramaPresencia de subarmónicosRuido en alta frecuenciaInterrupciones o rupturas de la voz durante la fonaciónAlteraciones morfológicas en los pulsos glóticosDisminución del rango de fonación y/o rango dinámicoAparición de componentes moduladoras en frecuencia y/o amplitud
Características de la Voz Patológica
Universidad Politécnica de Madrid. Dpto. ICS
Edema de ReinkeEdema de Reinke
Voz Normal Voz Normal
Ejemplos de voz normal y patológica (1)
Universidad Politécnica de Madrid. Dpto. ICS
Ejemplos de voz normal y patológica (2)
Edema de ReinkeEdema de Reinke
Time
Fre
quen
cy
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90
2000
4000
6000
8000
10000
12000
Voz normal Voz normal
TimeF
requ
ency
0 0.5 1 1.5 2 2.50
2000
4000
6000
8000
10000
12000
Universidad Politécnica de Madrid. Dpto. ICS
Ejemplos de voz normal y patológica (3)
Edema de ReinkeEdema de Reinke
Voz normal Voz normal
Universidad Politécnica de Madrid. Dpto. ICS
Estrategias de parametrizaciónA largo plazo: un vector para cada registro
Parámetros acústicos “clásicos”: F0, jitter, shimmer, HNR...LTAS, Cepstrum promedio LPC, LPCC, MFCC y RASTA-PLPPLI
A corto plazo: un vector para cada trama de voz (1:15)Espectro instantáneo, Cepstrum instantáneo LPC, LPCC, MFCC y RASTA-PLPPLI
Universidad Politécnica de Madrid. Dpto. ICS
Parámetros acústicos “clásicos”Perturbación en frecuencia
JitterRAP (Relative average perturbation) PPQ (Pitch perturbation quotient)sPPQ (Soft Pitch perturbation quotient)
Perturbación en amplitudShimmerAPQ (Amplitude perturbation quotient) sAPQ (Soft Amplitude perturbation quotient)
Parámetros de medida de ruidoHNR (Harmonics to noise ratio) NNE (Normaized noise energy)GNE (Glottal to Noise Excitation Ratio) VTI (Voice Turbulence Index) SPI (Soft Phonation Index)
Parámetros de tremor (ATRI, FATR, FTRI, FFTR)
Universidad Politécnica de Madrid. Dpto. ICS
0 500 100015002000250030003500-0.5-0.4-0.3-0.2-0.1
00.10.20.30.40.5
Tiempo(ms)
No estacionario a largo plazo (secs.)No estacionario a largo plazo (secs.)
0 5 10 15 20 25 30-0.5-0.4-0.3-0.2-0.1
00.10.20.30.40.5
Tiempo(ms)
Estacionario a corto plazo (msecs.)Estacionario a corto plazo (msecs.)
Necesidad de reducir la dimensionalidad
Preprocesado
0 5 10 15 20 25 3000.10.20.30.40.50.60.70.80.91
Tiempo(ms)
Ventana de HanningVentana de Hanning
0 5 10 15 20 25 30-0.5-0.4-0.3-0.2-0.1
00.10.20.30.40.5
Tiempo(ms)
Cada trama se representa por un reducido conjunto de parámetros
Universidad Politécnica de Madrid. Dpto. ICS
Frecuencia fundamental Se identifica un único período y se mide la duraciónSe convierte a frecuencia (recíproco del tiempo)Así para todos los ciclosSe promedia por el número de ciclosLa frecuencia de un tono de 10 ms. de periodo es 100 Hz.
Universidad Politécnica de Madrid. Dpto. ICS
Perturbación de frecuencia: jitterMide las variaciones en F0 de una vocal sostenidaDa idea de la estabilidad del sistema fonadorLa perturbación de F0 está asociada a la ronquera o la dureza de la voz -> aumento del jitterSe mide en la parte central de la muestra: más estableDepende de la intensidad de la voz, tipo de vocal, género y entonaciones voluntarias
Jitter patológico 8,64%Jitter normal 0,48%
Universidad Politécnica de Madrid. Dpto. ICS
Perturbación de intensidad: shimmerMide la perturbación de la amplitud de la señal de voz Se calcula sobre vocales sostenidas (al menos 30 ciclos consecutivos sin filtrado de baja intensidad)Se mide la amplitud del pico máximo de cada ciclo de la vocal, y se comparan las amplitudes de los distintos ciclosA mayor intensidad vocal, menor shimmerCambia con la vocal y el género del sujeto
Shimmer normal 0,20 dB Shimmer patológico 1,26 dB
Universidad Politécnica de Madrid. Dpto. ICS
Relación armónico-ruido: HNRMedida de la “pureza” de la vozHNR es la relación de la energía contenida en los armónicos de una vocal respecto a la que se genera entre ellos, considerada como ruido
Señal armónica Ruido
· log energía armónicaHNR Kenergía ruido
⎛ ⎞= ⎜ ⎟
⎝ ⎠
HNR normal 28,8 dB HNR patológico 12,18 dB
Universidad Politécnica de Madrid. Dpto. ICS
Energía de ruido normalizada: NNEMedida del ruido presente en la señal de voz, debido principalmente a un cierre incompleto de la glotis provocado por patologías del aparato fonadorMide la potencia del ruido presente en la señal respecto a la potencia total
NNE normal -20,9 dB NNE patológico -6,95 dB
Universidad Politécnica de Madrid. Dpto. ICS
Índice de turbulencia de la voz: VTIMedida de la relación entre la energía en alta frecuencia (2,5-5,8 kHz) en los valles del espectro, y la energía armónica en baja frecuencia (50-2500 Hz), para tramos de voz establesMide el nivel de energía relativo del ruido de alta frecuencia. Por ejemplo, el debido a las turbulencias provocadas por patologías en la fonación
VTI normal 0,053 % VTI patológico 0,03 %
Universidad Politécnica de Madrid. Dpto. ICS
Excitación glotal a ruido :GNE
Voz normal Voz patológica
Cuantifica la cantidad de excitación de voz por oscilación de las cuerdas vocales frente a la excitación por ruido turbulento.
Excitación de voz: tren de pulsos generados por la vibración de las cuerdas vocales.Excitación de ruido turbulento: ruido generado en el tracto vocal.
Un correcto cierre de las cuerdas vocales → generación de pulsos glóticos → excitación síncrona de diferentes bandas de frecuencia.Un incorrecto cierre de las cuerdas vocales → generación de ruido turbulento → excitación incorrelada.
Universidad Politécnica de Madrid. Dpto. ICS
Índice de fonación suave (SPI) y otras medidas espectrales
SPI: promedio del cociente de energía armónica en baja frecuencia (70-1600 Hz), con respecto a la energía armónica en un rango de alta frecuencia (1,6-4,5 kHz)
Nivel de energía por debajo de 1000 Hz con respecto a la energía por encima de 1000 HzBreathiness index (BI): ratio de energía de la segunda derivada de la onda acústicaAmplitud del primer armónicoRatios de energía en varias zonas del espectro...
Universidad Politécnica de Madrid. Dpto. ICS
Tremor vocalModulación de amplitud
Índice de Intensidad de Amplitud de Tremor (ATRI) [%] Frecuencia de Amplitud de Tremor (FATR) [Hz]
Modulación de la secuencia de pitchÍndice de Intensidad de Tremor (FTRI) [%]Frecuencia de tremor de F0 (FFTR) [Hz]
Universidad Politécnica de Madrid. Dpto. ICS
Detección automática de presencia de patología de voz
Extracción de parámetros Clasificador
Clase 1Clase 1
Clase 2Clase 2
Registro de voz
Registro de voz Parámetros de
voz
Parámetros de voz
W[n]
Enventanado Detector sonoridad
LPCC,MFCC+Δ+ΔΔ
Extracción de rasgosPreénfasis
Universidad Politécnica de Madrid. Dpto. ICS
0 1000 2000 3000 4000 5000 6000 7000 8000 90000
500
1000
1500
2000
2500
3000
Frecuenc ia (Hz)
m(f)
⎟⎠⎞
⎜⎝⎛ +=
7001·log2595 10
Hzmel
FF
Basado en el sistema de percepción humanoExiste una relación no lineal entre la frecuencia “real” (Hz) y la frecuencia perceptual (mel)
Coeficientes MFCC
0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 00
0 . 2
0 . 4
0 . 6
0 . 8
1
1 . 2
1 . 4
1 . 6
1 . 8
2
F r e c u e n c i a ( H z )
Fac
tor
de e
scal
a
FFT
|·|
Bandas mel
Log(·)
DCT
Δ/ΔΔ
Señal de vozSeñal de voz
Coeficientes MFCCCoeficientes MFCC
Universidad Politécnica de Madrid. Dpto. ICS
DerivadasSe mejora la representación complementando con alguna medida de la variabilidad temporalUtilizamos un filtro FIR con simetría impar (fase lineal)
Universidad Politécnica de Madrid. Dpto. ICS
Arquitecturas de clasificaciónLibros de códigos mediante VQAproximaciones probabilísticas
GMM, HMMArquitecturas neuronales
MLP, LVQ, RBF, SVM…
Extracción de parámetros Clasificador Clase 1Clase 1
Clase 2Clase 2
Registro de voz
Registro de voz Parámetros de
voz
Parámetros de voz
Universidad Politécnica de Madrid. Dpto. ICS
Modelos de Mezclas de Gausianas(GMM)
HMM de un estadoPretende modelar una fdp mediante combinación lineal de funciones de tipo gausianaSe entrena mediante el algoritmo EMUn modelo para cada clase (normal y patológica)Se estima la fdp para cada claseSe calcula el ratio de verosimilitudUn umbral (Equal Error Rate- ERR) separa ambas clases
Universidad Politécnica de Madrid. Dpto. ICS
Estimación de la fdp mediante GMM
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
0,1),(·)/(11
≥== ∑∑==
i
Q
ii
Q
iii ccxpcxp λ
⎥⎦⎤
⎢⎣⎡ −−−= − )()(
21exp
||)2(
1)( 1
21
2μμ
πxCx
Cxp i
T
i
ni
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Data
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Initial Configuration
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1M-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1E-step
Universidad Politécnica de Madrid. Dpto. ICS
Un modelo para cada clase (normal y patológica)Se estima la fdp para cada claseSe calcula el ratio de verosimilitudUn umbral (Equal Error Rate- ERR) separa ambas clases
Detector basado en GMM
Voznormal
VozPatológica
ΣΛ(x)
Λ(x)>θ aceptarΛ(x)< θ rechazar
x1, x2, x3,
Umbral de cociente de verosimilitudesUmbral de cociente de verosimilitudes
Universidad Politécnica de Madrid. Dpto. ICS
EvaluaciónNos basamos en el cálculo de la matriz de confusión
Dado un evento se obtieneDetección correctaRechazo correctoFalso positivoFalso negativo
También se calcula:SensibilidadEspecificidadEficiencia Intervalos de confianza
Curvas DET y ROCValidación cruzada
Universidad Politécnica de Madrid. Dpto. ICS
ROCCurva de Operación Relativa (Relative Operation Characteristic)
0 50 100
0
50
100
EERBetter
efficiency Smaller threshold
Balance
Safety
Risk
True
Pos
itive
(%)
False acceptance (%)0 50 100
0
50
100
EERBetter
efficiency Smaller threshold
Balance
Safety
Risk
True
Pos
itive
(%)
False acceptance (%)
Universidad Politécnica de Madrid. Dpto. ICS
DETCurva de Compromiso de Error de Detección(Detection Error Trade-off)
0.1 50 99.9
0.1
50
99.9
EER
Better efficiency
Smaller threshold
Balance
Safety
Risk
Fals
e re
ject
ion
(%)
False Acceptance (%)0.1 50 99.9
0.1
50
99.9
EER
Better efficiency
Smaller threshold
Balance
Safety
Risk
Fals
e re
ject
ion
(%)
False Acceptance (%)
Universidad Politécnica de Madrid. Dpto. ICS
Base de datosSubconjunto definido por Parsa para la base de datos de Kay:
V. Parsa and D.G. Jamieson, “Identification of pathological voices using glottal noise measures”, Journal of Speech, Language and Hearing Research, vol. 43, no. 2, pp. 469-485, April 200053 registros normales + 173 patológicosDistribución balanceada de género y edad/ah/ sostenida 3 seg., fs=25 kHz, 16 bits “rainbow passage”
37.6
34.2
H
21 – 51
22 – 52
H
70
21
VN MediaEdad
41.726 – 58103Patolog.38.826 – 5832NormalVVH
Universidad Politécnica de Madrid. Dpto. ICS
Detección automática de presencia de patología de voz
0.1 0.2 0.5 1 2 5 10 20 40
0.1
0.2
0.5
1
2
5
10
20
40
False Alarm probability (in %)
Mis
s pr
obab
ility
(in
%)
DET using a GMM with 8 centres and 16 MFCC (frame accuracy)
MFCC+Δ+ΔΔMFCC+ΔMFCC
ΔΔΔΔ+ΔΔ
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Energy
MFCC(4)
MFCC(9)
MFCC(14)
D MFCC(2)
D MFCC(7)
D MFCC(12)
DD MFCC(1)
DD MFCC(6)
DD MFCC(11)
DD MFCC(16)
Normalised F-Ratio
Par
amet
ers
F-ratio, 16 MFCC parameters + Δ + ΔΔ
10 12 14 16 18 20 22 24 26 2820
30
40
50
60
70
80
90
100
Number of MFCC coefficients
Eff
icie
ncy
(%)
Eficciency with GMM (8 centres) and MFCC
MFCC
MFCC+ΔMFCC+Δ+ΔΔ
Universidad Politécnica de Madrid. Dpto. ICS
Con compresión MP3…
1 2 5 10 20 40 1
2
5
10
20
40
False positive rate (in %)
Fal
se n
egat
ive
rate
(in
%)
DET plot (Frame Accuracy)
8kbps24kbps
48kbps
64kbps
160kbpsUncompressed
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False positive rate
Tru
e po
sitiv
e ra
te
ROC curve (Frame Accuracy)
8kbps
24kbps
48kbps64kbps
196kbps
Uncompressed
Corpus Compression rate Detector Efficiency AUC GMM 95.04% ± 4.3 0.98 ± 0.01 1 __ SVM 95.04% ± 3.8 0.98 ± 0.01 GMM 94.35% ± 1.7 0.98 ± 0.01 2 160kbps SVM 94.90% ± 3.6 0.98 ± 0.01 GMM 93.25% ± 2.2 0.98 ± 0.01 3 96 kbps SVM 94.60% ± 3.9 0.98 ± 0.01 GMM 92.98% ± 2.4 0.97 ± 0.02 4 64kbps SVM 93.52% ± 4.3 0.97 ± 0.01 GMM 91.32% ± 2.5 0.97 ± 0.01 5 48kbps SVM 91.46% ± 4.1 0.97 ± 0.01 GMM 89.67% ± 2.0 0.97 ± 0.01 6 24kbps SVM 86.09% ± 4.9 0.93 ± 0.02 GMM 85.67% ± 1.43 0.94 ± 0.01 7 8kbps SVM 87.05% ± 4.3 0.95 ± 0.02
Universidad Politécnica de Madrid. Dpto. ICS
Sobre voz continua…Un esquema similar se puede usar aplicado sobre voz continuaSólo requiere ajustes en el detector de sonoridad para trabajar con vocales sostenidas
0.1 0.2 0.5 1 2 5 10 20 40
0.1
0.2
0.5
1
2
5
10
20
40
False Alarm probability (in %)
Mis
s pr
obab
ility
(in
%)
DET plot showing the optimum (minimum) detection cost point (File Accuracy)
Universidad Politécnica de Madrid. Dpto. ICS
Índice de verosmilitud de voz patológica: PLI
Se aplica a vocales sostenidasParámetro a largo plazoPromedio, para todas las tramas, del cociente de verosimilitudes normalizado calculado con el modelo GMM.
Nos da idea de la se “grado de patología”
]1,0[,1
1)( )·( ∈+
=Λ= Λ+− To wwefPLI
22
22
·2,
·2 σμμ
σμμ CC
TCC
o ww−
=−
=
) 0.5·( CC σσσ +=
Universidad Politécnica de Madrid. Dpto. ICS
PLI: correlación con otros parámetros
0 5 10 15 20 25 30 350.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Scatter plot CHNR (Guus de Krom) vs. PLI
Cepstrum-based Harmonics to Noise Ratio (CHNR)
Pat
holo
gica
l Lik
elih
ood
Rat
io (
PLI
)Normal
Pathological
a) -10 -5 0 5 10 15 20
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Harmonics to Noise Ratio (HNR)
Pat
holo
gica
l Lik
elih
ood
Rat
io (
PLI
)
Scatter plot HNR (Yumoto) vs. PLI
Normal
Pathological
b)
-30 -25 -20 -15 -10 -5 00.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Normalized Noise Energy (NNE)
Pat
holo
gica
l Lik
elih
ood
Rat
io (
PLI
)
Scatter plot NNE vs. PLI
Normal
Pathological
c) 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Glottal to Noise Excitation Ratio (GNE)
Pat
holo
gica
l Lik
elih
ood
Rat
io (
PLI
)
Scatter plot GNE vs. PLI
Normal
Pathological
d)
Universidad Politécnica de Madrid. Dpto. ICS
PLI: Capacidad de discriminación
PLI Normal Pathological
μ 0.24 0.65 σ 0.09 0.17 median 0.21 0.64 Percentile 10% 0.18 0.43 Percentile 90% 0.36 0.90
0 1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Val
ues
Box plots
Normal Pathological
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
false positive rate
true
pos
itive
rat
e
ROC curve. Frequency perturbation parameters
jitta AUC=0.89jitter AUC=0.83
RAP AUC=0.816
PPQ AUC=0.813
sPPQ AUC=0.817PLI AUC=0.987
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
false positive rate
true
pos
itive
rat
e
ROC curve. Amplitude perturbation parameters
ShdB AUR=0.922
Shimm AUR=0.928sAPQ AUR=0.888
PLI AUR=0.987
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
false positive rate
true
pos
itive
rat
e
ROC curve. Noise parameters
NNE AUR=0.965CHNR AUR=0.976HNR AUR=0.948VTI AUR=0.881GNE AUR=0.959PLI AUR=0.99
Universidad Politécnica de Madrid. Dpto. ICS
Sistemas comerciales de análisis en España
1994: Sistema VISHA (Visualización del habla).Basado en hardware específico de procesado de señal.Cálculos soportados por DSP.Funcionaba sobre MS-DOS.Archivos en formato no estándar.PCVox: extracción y representación de parámetros de la voz.
2005: MedivozBasado en hardware estándarArchivos en formato estándar.SO WindowsCompuesto por:
WPCVox: extracción y representación de parámetros de la voz.MedivozCaptura: herramienta de captura de señal EGG, voz y endoscopia
Universidad Politécnica de Madrid. Dpto. ICS
Medivoz (1)
Universidad Politécnica de Madrid. Dpto. ICS
Arquitectura de Medivoz (1)
MedivozCaptura
WPCVox
Base deDatos
Captura Edición
Cliente de Base de Datos
Extracción paramétrica
y análisis
Motor de base de datos
Servidor de base de datos
Universidad Politécnica de Madrid. Dpto. ICS
Arquitectura de Medivoz (2)
Base de datos
Interfaz de captura
Editor de señales
Análisis y extracción paramétrica
WPCVoxWPCVox
MedivozCapturaMedivozCaptura
Universidad Politécnica de Madrid. Dpto. ICS
MedivozCaptura: Captura de señalesBasado en los conceptos de anamnesis, visita y exploración
Anamnesis: conjunto de pruebas efectuadas sobre un paciente durante un periodo de tiempo conducentes a un ciclo diagnóstico-tratamientoSesión: se corresponde con cada una de las visitas que realiza el paciente al especialista hasta completar un tratamientoExploración: contiene las grabaciones obtenidas al efectuar el examen médico a un paciente
Un paciente tiene asociado una o varias anamnesis. Cada anamnesis tiene asociada una o varias visitas. Cada visita o sesión tiene asociada una o varias exploraciones.
Universidad Politécnica de Madrid. Dpto. ICS
Esquema relacional de MedivozCaptura (1)
Paciente
Anamnesis
Visita
Exploración
Tienesesión
Tiene visita
Tiene exploración
1
1
1
N
N
N
Universidad Politécnica de Madrid. Dpto. ICS
Esquema relacional de MedivozCaptura (2)
Paciente 1
Anamnesis 11 Exploración 1112
Anamnesis 12
Exploración 1111
Exploración 1113
Exploración 1211
Exploración 1212
Exploración 1231
Anamnesis 21 Exploración 2121
Exploración 2122
Exploración 2131
Visita 111
Visita 112
Visita 121
Visita 122
Visita 123
Visita 211
Visita 212
Visita 213
Paciente 2
Universidad Politécnica de Madrid. Dpto. ICS
Flujo de la aplicación MedivozCapturaPantalla principal
Datos de paciente
Anamnesis
Formulario de visitas
Pantalla de exploración
1 . 8 4 1 . 8 6 1 . 8 8 1 . 9 1 . 9 2 1 . 9 4 1 . 9 6
x 1 04
- 0 . 6
- 0 . 4
- 0 . 2
0
0 . 2
0 . 4
0 . 6
S p e e c h s i g n a l
s a m p l e s
am
plit
ude
1 . 7 4 1 . 7 6 1 . 7 8 1 . 8 1 . 8 2 1 . 8 4 1 . 8 6
x 1 04
- 0 . 8
- 0 . 6
- 0 . 4
- 0 . 2
0
0 . 2
0 . 4
0 . 6
0 . 8
s a m p l e s
am
plit
ud
e
Universidad Politécnica de Madrid. Dpto. ICS
Protocolo de grabaciónCaracterísticas pulmonares
Duración de “s”Duración de “e”
AudioTres ocurrencias de la vocal /a/ (a moderada intensidad durante, al menos, 3 seg.)/a, e, i, o, u/ (intensidad moderada durante, al menos, 2 seg.) Frase acústicamente balanceada: “La mesa tiene ocho patas”Frase acústicamente balanceada: “Es hábil un solo día”Un minuto de habla continua
Video Videoendoscopia durante la fonación de /e/ (con telelaringoscopio de 70º, luz estroboscópica en modo lento)Videoendoscopia durante la fonación de /i/ (con telelaringoscopio de 70º, luz estroboscópica en modo lento) Videoendoscopia y audio durante la fonación de /e/ y /i/
Cuestionario de función vocal
Universidad Politécnica de Madrid. Dpto. ICS
WPCVox en el marco de MEDIVOZ
Base de datos
Interfaz de captura
Editor de señales
Análisis y extracción paramétrica
WPCVoxWPCVox
Universidad Politécnica de Madrid. Dpto. ICS
Características WPCVox
Destinada a ordenador personal con Windows.Trabajar con archivos .WAV y .NSP.Representar y configurar parámetros de voz...Edición y zoom “solidario”.Fácil configuración y manejo de sesiones.Reproducción de archivos y/o segmentos.Generación e impresión automática de informes.
Universidad Politécnica de Madrid. Dpto. ICS
ParámetrosSonograma y cepstrogramaEspectro FFT y LPC (a corto y largo plazo)EnergíaFrecuencia fundamental FormantesFonetogramaPerturbación en frecuencia
Jitter (mean absolute value y %)RAP (Relative average perturbation) PPQ (Pitch perturbation quotient)sPPQ (Soft Pitch perturbation quotient)
Perturbación en amplitudShimmer (mean absolute value y %)APQ (Amplitude perturbation quotient) sAPQ (Soft Amplitude perturbation quotient)
Parámetros de ruidoHNR (Harmonics to noise ratio) NNE (Normalized noise energy) VTI (Voice Turbulence Index) SPI (Soft Phonation Index) …
Universidad Politécnica de Madrid. Dpto. ICS
Representación de parámetros
Grupo 1
ORGANIZADOR DE ESCRITORIO
Archivo de voz 1 Archivo de voz 2 Archivo de voz n
Grupo 1 Grupo 2 Grupo m
Formulario 1 Formulario 2 Formulario k Formulario 1 Formulario 2
Parámetro 1
Parámetro 2
Parámetro 1 Parámetro 1
Parámetro 2
Parámetro 1
Universidad Politécnica de Madrid. Dpto. ICS
WPCVox: Interfaz gráfica
Universidad Politécnica de Madrid. Dpto. ICS
Comparación WPCVox-MDVP
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "Jitter abs"
WPCVox AUR=0,86
MDVP AUC=0,89
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "Jitter rel"
WPCVox AUC=0,80
MDVP AUC=0,84
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "RAP"
WPCVox AUC=0,79
MDVP AUC=0.84
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "PPQ"
WPCVox AUC=0,79
MDVP AUC=0,84
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "sPPQ"
WPCVox AUC=0,82
MDVP AUC=0,84
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "Shimmer abs"
WPCvox AUC=0,92
MDVP AUC=0,92
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "Shimmer rel"
WPCVox AUC=0,92
MDVP AUR=0,92
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "APQ"
WPCVox AUC=0,92
MDVP AUR=0,92
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "sAPQ"
WPCVox AUC=0,90
MDVP AUC=0,90
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "HNR"
WPCVox AUC=0,93
MDVP AUC=0,88
10·log(1/HNR)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "VTI"
WPCVox AUC=0,84
MDVP AUC=0,72
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
False Positive rate
Tru
e P
ositi
ve r
ate
ROC calculated with the parameter "NHR"
WPCVox AUC=0,84
MDVP AUC=0,88
Universidad Politécnica de Madrid. Dpto. ICS
Sistema de salud en ORL
El futuro …
InternetInternet
Hospitales
y centros de especialidad
CaP
“screening”
Centro logopedia y/o foniatria
Universidad Politécnica de Madrid. Dpto. ICS
ConclusionesSe trata de un problema multidisciplinar que preocupa enormemente a los profesionales de la vozTécnicas objetivas de ayuda al diagnósticoAproximaciones útiles con vocales sostenidas y frases pregrabadasMuy importante la detección de silencios y segmentos no sonorosSe trata de una aproximación mas realista que el examen de la señal de EEGNecesidad de estandarización de bases de datosHerramientas compatibles con PC estándar y periféricos de grabaciónEstandarización de un protocolo de exploraciónApoyo a la investigación mediante la creación de bases de datos siguiendo junto con los datos de historia clínica y anamnesis necesarios del paciente. Aplicables como herramienta de telediagnósticoSe pueden aplicar esquemas de compresión Útil en las consultas de asistencia primaria y para los especialistasNo se pretende sustituir al profesional de la voz
Agosto de 2007
Gracias por la atención