El diagnóstico y la evaluación de patología de la voz a …fcruz/pdf/CursoVerano-07...... LPC,...

El diagnóstico y la evaluación de patología de la voz a través de

medidas no invasivas

Universidad Politécnica de MadridJuan Ignacio Godino Llorente

[email protected]

Universidad Politécnica de Madrid. Dpto. ICS

SumarioAntecedentes y MotivaciónPatologías en estudio Modelo de producción de la vozCaracterísticas de la voz normal y patológicaParametrización de la voz: medidas de calidad Detección automática de patología de la voz

Vocales sostenidasHabla continua

Índice de verosimilitud de voz patológica (PLI) Arquitectura del sistema Medivoz

MEDIVOZCaptura: captura y edición de señales WPCVox: análisis de la voz

El futuroConclusiones


Motivación (1)

Debido a las actuales forma de vida, la presencia de desórdenes de la voz ha aumentado considerablemente Actualmente el análisis de las alteraciones de la voz se basa en la exploración directaLas patologías de la voz causan cambios en el registro acústicoEl análisis acústico puede facilitar la detección de patología de voz


Motivación (2)

Incidencias de Cáncer de laringe en Inglaterra y País de Gales (1995-1997)

0

100

200

300

400

500

600

'0-14' '15-44' '45-54' '55-64' '65-74' '75+'

Grupo de edad

REG

ISTR

OS

Varón, 1995 Hembra, 1995 Varón, 1996 Hembra, 1996Varón, 1997 Hembra, 1997

Distribución acumulativa de Cáncer de Laringe en Inglaterra y País de Gales (1995-1997)

0

20

40

60

80

100

'0-14' '15-44' '45-54' '55-64' '65-74' '75+'

Grupo de edad

CD

F (%

)

Total Varón, 1995 Varón, 1996 Varón, 1997Hembra, 1995 Hembra, 1996 Hembra, 1997


Motivación (3)El análisis acústico es una herramienta efectiva para:

Soporte objetivo para el diagnósticoEvaluación objetiva de la disfoníaMonitorización y medida de los desórdenes de la vozDiagnóstico tempranoEvaluación de la rehabilitaciónEvaluación de tratamientos quirúrgicos y/o farmacológicos Apoyo al problema forense

Voz normalVoz normal Voz patológicaVoz patológica


Motivación (4)[Kasuy86c]

El estudio se realizó sobre 991 pacientes que fueron diagnosticados mediante valoraciones perceptuales y mediante examen visual Algunos de los pacientes analizados fueron clasificados como normales mediante un único análisis perceptualEl sistema reveló que podría haber alguna alteración, y un estudio posterior mediante examen visual demostróla existencia de cáncer glotal. En las etapas incipientes del cáncer glotal las alteraciones en la voz no son detectables perceptualmente


Patologías en estudio (1)

NódulosNódulos QuisteQuiste PólipoPólipo EdemaEdema GranulomaGranuloma

PapilomaPapiloma LeucoplasiaLeucoplasia LaringitisLaringitis CarcinomaCarcinoma SulcusSulcus


Patologías en estudio (2)

PólipoPólipoNóduloNódulo

EdemaEdemaQuisteQuiste


Producción de la voz

VibraciVibracióónn

Flujo de aireFlujo de aire


Geometría de las cuerdas (1)

La forma es muy importanteHan de tener un cierto grosorMuy importante la cubierta


Análisis de Fourier


Modelo de producción de la Voz

Onda glotalOnda glotal

Contribución del tractoContribución del tracto

Señal acústicaSeñal acústica


Señal de excitación glotal

PatológicaPatológica

NormalNormal

Espectro y onda glotal de una /i/ patológica y normal


Contribución del tracto

Símbolo vocal

Ejemplo F1(Hz) F2(Hz)

/a/ paz 730 1090

/e/ sed 530 1840

/i/ pila 390 1990

/o/ solo 570 870

/u/ luna 300 840


Características de la Voz NormalEl timbre debe ser agradable El tono debe ser el adecuado para la edad y sexo del individuoEl volumen debe ser el apropiadoLa flexibilidad debe ser la adecuada

El concepto universal de voz normal no existeSe plantea la necesidad de cuantificar la calidad de la voz


Aumento de las perturbaciones de la voz, en período y amplitud (jitter y shimmer)Presencia de ruido en el espectrogramaDisminución de los armónicos en el espectrogramaPresencia de subarmónicosRuido en alta frecuenciaInterrupciones o rupturas de la voz durante la fonaciónAlteraciones morfológicas en los pulsos glóticosDisminución del rango de fonación y/o rango dinámicoAparición de componentes moduladoras en frecuencia y/o amplitud

Características de la Voz Patológica


Edema de ReinkeEdema de Reinke

Voz Normal Voz Normal

Ejemplos de voz normal y patológica (1)




Time

Fre

quen

cy

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90

2000

4000

6000

8000

10000

12000

Voz normal Voz normal

TimeF

requ

ency

0 0.5 1 1.5 2 2.50

2000

4000

6000

8000

10000

12000




Voz normal Voz normal


Estrategias de parametrizaciónA largo plazo: un vector para cada registro

Parámetros acústicos “clásicos”: F0, jitter, shimmer, HNR...LTAS, Cepstrum promedio LPC, LPCC, MFCC y RASTA-PLPPLI

A corto plazo: un vector para cada trama de voz (1:15)Espectro instantáneo, Cepstrum instantáneo LPC, LPCC, MFCC y RASTA-PLPPLI


Parámetros acústicos “clásicos”Perturbación en frecuencia

JitterRAP (Relative average perturbation) PPQ (Pitch perturbation quotient)sPPQ (Soft Pitch perturbation quotient)

Perturbación en amplitudShimmerAPQ (Amplitude perturbation quotient) sAPQ (Soft Amplitude perturbation quotient)

Parámetros de medida de ruidoHNR (Harmonics to noise ratio) NNE (Normaized noise energy)GNE (Glottal to Noise Excitation Ratio) VTI (Voice Turbulence Index) SPI (Soft Phonation Index)

Parámetros de tremor (ATRI, FATR, FTRI, FFTR)


0 500 100015002000250030003500-0.5-0.4-0.3-0.2-0.1

00.10.20.30.40.5

Tiempo(ms)

No estacionario a largo plazo (secs.)No estacionario a largo plazo (secs.)

0 5 10 15 20 25 30-0.5-0.4-0.3-0.2-0.1

00.10.20.30.40.5

Tiempo(ms)

Estacionario a corto plazo (msecs.)Estacionario a corto plazo (msecs.)

Necesidad de reducir la dimensionalidad

Preprocesado

0 5 10 15 20 25 3000.10.20.30.40.50.60.70.80.91

Tiempo(ms)

Ventana de HanningVentana de Hanning

0 5 10 15 20 25 30-0.5-0.4-0.3-0.2-0.1

00.10.20.30.40.5

Tiempo(ms)

Cada trama se representa por un reducido conjunto de parámetros


Frecuencia fundamental Se identifica un único período y se mide la duraciónSe convierte a frecuencia (recíproco del tiempo)Así para todos los ciclosSe promedia por el número de ciclosLa frecuencia de un tono de 10 ms. de periodo es 100 Hz.


Perturbación de frecuencia: jitterMide las variaciones en F0 de una vocal sostenidaDa idea de la estabilidad del sistema fonadorLa perturbación de F0 está asociada a la ronquera o la dureza de la voz -> aumento del jitterSe mide en la parte central de la muestra: más estableDepende de la intensidad de la voz, tipo de vocal, género y entonaciones voluntarias

Jitter patológico 8,64%Jitter normal 0,48%


Perturbación de intensidad: shimmerMide la perturbación de la amplitud de la señal de voz Se calcula sobre vocales sostenidas (al menos 30 ciclos consecutivos sin filtrado de baja intensidad)Se mide la amplitud del pico máximo de cada ciclo de la vocal, y se comparan las amplitudes de los distintos ciclosA mayor intensidad vocal, menor shimmerCambia con la vocal y el género del sujeto

Shimmer normal 0,20 dB Shimmer patológico 1,26 dB


Relación armónico-ruido: HNRMedida de la “pureza” de la vozHNR es la relación de la energía contenida en los armónicos de una vocal respecto a la que se genera entre ellos, considerada como ruido

Señal armónica Ruido

· log energía armónicaHNR Kenergía ruido

⎛ ⎞= ⎜ ⎟

⎝ ⎠

HNR normal 28,8 dB HNR patológico 12,18 dB


Energía de ruido normalizada: NNEMedida del ruido presente en la señal de voz, debido principalmente a un cierre incompleto de la glotis provocado por patologías del aparato fonadorMide la potencia del ruido presente en la señal respecto a la potencia total

NNE normal -20,9 dB NNE patológico -6,95 dB


Índice de turbulencia de la voz: VTIMedida de la relación entre la energía en alta frecuencia (2,5-5,8 kHz) en los valles del espectro, y la energía armónica en baja frecuencia (50-2500 Hz), para tramos de voz establesMide el nivel de energía relativo del ruido de alta frecuencia. Por ejemplo, el debido a las turbulencias provocadas por patologías en la fonación

VTI normal 0,053 % VTI patológico 0,03 %


Excitación glotal a ruido :GNE

Voz normal Voz patológica

Cuantifica la cantidad de excitación de voz por oscilación de las cuerdas vocales frente a la excitación por ruido turbulento.

Excitación de voz: tren de pulsos generados por la vibración de las cuerdas vocales.Excitación de ruido turbulento: ruido generado en el tracto vocal.

Un correcto cierre de las cuerdas vocales → generación de pulsos glóticos → excitación síncrona de diferentes bandas de frecuencia.Un incorrecto cierre de las cuerdas vocales → generación de ruido turbulento → excitación incorrelada.


Índice de fonación suave (SPI) y otras medidas espectrales

SPI: promedio del cociente de energía armónica en baja frecuencia (70-1600 Hz), con respecto a la energía armónica en un rango de alta frecuencia (1,6-4,5 kHz)

Nivel de energía por debajo de 1000 Hz con respecto a la energía por encima de 1000 HzBreathiness index (BI): ratio de energía de la segunda derivada de la onda acústicaAmplitud del primer armónicoRatios de energía en varias zonas del espectro...


Tremor vocalModulación de amplitud

Índice de Intensidad de Amplitud de Tremor (ATRI) [%] Frecuencia de Amplitud de Tremor (FATR) [Hz]

Modulación de la secuencia de pitchÍndice de Intensidad de Tremor (FTRI) [%]Frecuencia de tremor de F0 (FFTR) [Hz]


Detección automática de presencia de patología de voz

Extracción de parámetros Clasificador

Clase 1Clase 1

Clase 2Clase 2

Registro de voz

Registro de voz Parámetros de

voz

Parámetros de voz

W[n]

Enventanado Detector sonoridad

LPCC,MFCC+Δ+ΔΔ

Extracción de rasgosPreénfasis


0 1000 2000 3000 4000 5000 6000 7000 8000 90000

500

1000

1500

2000

2500

3000

Frecuenc ia (Hz)

m(f)

⎟⎠⎞

⎜⎝⎛ +=

7001·log2595 10

Hzmel

FF

Basado en el sistema de percepción humanoExiste una relación no lineal entre la frecuencia “real” (Hz) y la frecuencia perceptual (mel)

Coeficientes MFCC

0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 00

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 . 4

1 . 6

1 . 8

2

F r e c u e n c i a ( H z )

Fac

tor

de e

scal

a

FFT

|·|

Bandas mel

Log(·)

DCT

Δ/ΔΔ

Señal de vozSeñal de voz

Coeficientes MFCCCoeficientes MFCC


DerivadasSe mejora la representación complementando con alguna medida de la variabilidad temporalUtilizamos un filtro FIR con simetría impar (fase lineal)


Arquitecturas de clasificaciónLibros de códigos mediante VQAproximaciones probabilísticas

GMM, HMMArquitecturas neuronales

MLP, LVQ, RBF, SVM…

Extracción de parámetros Clasificador Clase 1Clase 1

Clase 2Clase 2

Registro de voz

Registro de voz Parámetros de

voz

Parámetros de voz


Modelos de Mezclas de Gausianas(GMM)

HMM de un estadoPretende modelar una fdp mediante combinación lineal de funciones de tipo gausianaSe entrena mediante el algoritmo EMUn modelo para cada clase (normal y patológica)Se estima la fdp para cada claseSe calcula el ratio de verosimilitudUn umbral (Equal Error Rate- ERR) separa ambas clases


Estimación de la fdp mediante GMM

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0,1),(·)/(11

≥== ∑∑==

i

Q

ii

Q

iii ccxpcxp λ

⎥⎦⎤

⎢⎣⎡ −−−= − )()(

21exp

||)2(

1)( 1

21

2μμ

πxCx

Cxp i

T

i

ni

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Data

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Initial Configuration

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1M-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1E-step


Un modelo para cada clase (normal y patológica)Se estima la fdp para cada claseSe calcula el ratio de verosimilitudUn umbral (Equal Error Rate- ERR) separa ambas clases

Detector basado en GMM

Voznormal

VozPatológica

ΣΛ(x)

Λ(x)>θ aceptarΛ(x)< θ rechazar

x1, x2, x3,

Umbral de cociente de verosimilitudesUmbral de cociente de verosimilitudes


EvaluaciónNos basamos en el cálculo de la matriz de confusión

Dado un evento se obtieneDetección correctaRechazo correctoFalso positivoFalso negativo

También se calcula:SensibilidadEspecificidadEficiencia Intervalos de confianza

Curvas DET y ROCValidación cruzada


ROCCurva de Operación Relativa (Relative Operation Characteristic)

0 50 100

0

50

100

EERBetter

efficiency Smaller threshold

Balance

Safety

Risk

True

Pos

itive

(%)

False acceptance (%)0 50 100

0

50

100

EERBetter

efficiency Smaller threshold

Balance

Safety

Risk

True

Pos

itive

(%)

False acceptance (%)


DETCurva de Compromiso de Error de Detección(Detection Error Trade-off)

0.1 50 99.9

0.1

50

99.9

EER

Better efficiency

Smaller threshold

Balance

Safety

Risk

Fals

e re

ject

ion

(%)

False Acceptance (%)0.1 50 99.9

0.1

50

99.9

EER

Better efficiency

Smaller threshold

Balance

Safety

Risk

Fals

e re

ject

ion

(%)

False Acceptance (%)


Base de datosSubconjunto definido por Parsa para la base de datos de Kay:

V. Parsa and D.G. Jamieson, “Identification of pathological voices using glottal noise measures”, Journal of Speech, Language and Hearing Research, vol. 43, no. 2, pp. 469-485, April 200053 registros normales + 173 patológicosDistribución balanceada de género y edad/ah/ sostenida 3 seg., fs=25 kHz, 16 bits “rainbow passage”

37.6

34.2

H

21 – 51

22 – 52

H

70

21

VN MediaEdad

41.726 – 58103Patolog.38.826 – 5832NormalVVH


Detección automática de presencia de patología de voz

0.1 0.2 0.5 1 2 5 10 20 40

0.1

0.2

0.5

1

2

5

10

20

40

False Alarm probability (in %)

Mis

s pr

obab

ility

(in

%)

DET using a GMM with 8 centres and 16 MFCC (frame accuracy)

MFCC+Δ+ΔΔMFCC+ΔMFCC

ΔΔΔΔ+ΔΔ

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Energy

MFCC(4)

MFCC(9)

MFCC(14)

D MFCC(2)

D MFCC(7)

D MFCC(12)

DD MFCC(1)

DD MFCC(6)

DD MFCC(11)

DD MFCC(16)

Normalised F-Ratio

Par

amet

ers

F-ratio, 16 MFCC parameters + Δ + ΔΔ

10 12 14 16 18 20 22 24 26 2820

30

40

50

60

70

80

90

100

Number of MFCC coefficients

Eff

icie

ncy

(%)

Eficciency with GMM (8 centres) and MFCC

MFCC

MFCC+ΔMFCC+Δ+ΔΔ


Con compresión MP3…

1 2 5 10 20 40 1

2

5

10

20

40

False positive rate (in %)

Fal

se n

egat

ive

rate

(in

%)

DET plot (Frame Accuracy)

8kbps24kbps

48kbps

64kbps

160kbpsUncompressed

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False positive rate

Tru

e po

sitiv

e ra

te

ROC curve (Frame Accuracy)

8kbps

24kbps

48kbps64kbps

196kbps

Uncompressed

Corpus Compression rate Detector Efficiency AUC GMM 95.04% ± 4.3 0.98 ± 0.01 1 __ SVM 95.04% ± 3.8 0.98 ± 0.01 GMM 94.35% ± 1.7 0.98 ± 0.01 2 160kbps SVM 94.90% ± 3.6 0.98 ± 0.01 GMM 93.25% ± 2.2 0.98 ± 0.01 3 96 kbps SVM 94.60% ± 3.9 0.98 ± 0.01 GMM 92.98% ± 2.4 0.97 ± 0.02 4 64kbps SVM 93.52% ± 4.3 0.97 ± 0.01 GMM 91.32% ± 2.5 0.97 ± 0.01 5 48kbps SVM 91.46% ± 4.1 0.97 ± 0.01 GMM 89.67% ± 2.0 0.97 ± 0.01 6 24kbps SVM 86.09% ± 4.9 0.93 ± 0.02 GMM 85.67% ± 1.43 0.94 ± 0.01 7 8kbps SVM 87.05% ± 4.3 0.95 ± 0.02


Sobre voz continua…Un esquema similar se puede usar aplicado sobre voz continuaSólo requiere ajustes en el detector de sonoridad para trabajar con vocales sostenidas

0.1 0.2 0.5 1 2 5 10 20 40

0.1

0.2

0.5

1

2

5

10

20

40

False Alarm probability (in %)

Mis

s pr

obab

ility

(in

%)

DET plot showing the optimum (minimum) detection cost point (File Accuracy)


Índice de verosmilitud de voz patológica: PLI

Se aplica a vocales sostenidasParámetro a largo plazoPromedio, para todas las tramas, del cociente de verosimilitudes normalizado calculado con el modelo GMM.

Nos da idea de la se “grado de patología”

]1,0[,1

1)( )·( ∈+

=Λ= Λ+− To wwefPLI

22

22

·2,

·2 σμμ

σμμ CC

TCC

o ww−

=−

=

) 0.5·( CC σσσ +=


PLI: correlación con otros parámetros

0 5 10 15 20 25 30 350.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Scatter plot CHNR (Guus de Krom) vs. PLI

Cepstrum-based Harmonics to Noise Ratio (CHNR)

Pat

holo

gica

l Lik

elih

ood

Rat

io (

PLI

)Normal

Pathological

a) -10 -5 0 5 10 15 20

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Harmonics to Noise Ratio (HNR)

Pat

holo

gica

l Lik

elih

ood

Rat

io (

PLI

)

Scatter plot HNR (Yumoto) vs. PLI

Normal

Pathological

b)

-30 -25 -20 -15 -10 -5 00.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Normalized Noise Energy (NNE)

Pat

holo

gica

l Lik

elih

ood

Rat

io (

PLI

)

Scatter plot NNE vs. PLI

Normal

Pathological

c) 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Glottal to Noise Excitation Ratio (GNE)

Pat

holo

gica

l Lik

elih

ood

Rat

io (

PLI

)

Scatter plot GNE vs. PLI

Normal

Pathological

d)


PLI: Capacidad de discriminación

PLI Normal Pathological

μ 0.24 0.65 σ 0.09 0.17 median 0.21 0.64 Percentile 10% 0.18 0.43 Percentile 90% 0.36 0.90

0 1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Val

ues

Box plots

Normal Pathological

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

false positive rate

true

pos

itive

rat

e

ROC curve. Frequency perturbation parameters

jitta AUC=0.89jitter AUC=0.83

RAP AUC=0.816

PPQ AUC=0.813

sPPQ AUC=0.817PLI AUC=0.987

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

false positive rate

true

pos

itive

rat

e

ROC curve. Amplitude perturbation parameters

ShdB AUR=0.922

Shimm AUR=0.928sAPQ AUR=0.888

PLI AUR=0.987

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

false positive rate

true

pos

itive

rat

e

ROC curve. Noise parameters

NNE AUR=0.965CHNR AUR=0.976HNR AUR=0.948VTI AUR=0.881GNE AUR=0.959PLI AUR=0.99


Sistemas comerciales de análisis en España

1994: Sistema VISHA (Visualización del habla).Basado en hardware específico de procesado de señal.Cálculos soportados por DSP.Funcionaba sobre MS-DOS.Archivos en formato no estándar.PCVox: extracción y representación de parámetros de la voz.

2005: MedivozBasado en hardware estándarArchivos en formato estándar.SO WindowsCompuesto por:

WPCVox: extracción y representación de parámetros de la voz.MedivozCaptura: herramienta de captura de señal EGG, voz y endoscopia


Medivoz (1)


Arquitectura de Medivoz (1)

MedivozCaptura

WPCVox

Base deDatos

Captura Edición

Cliente de Base de Datos

Extracción paramétrica

y análisis

Motor de base de datos

Servidor de base de datos


Arquitectura de Medivoz (2)

Base de datos

Interfaz de captura

Editor de señales

Análisis y extracción paramétrica

WPCVoxWPCVox

MedivozCapturaMedivozCaptura


MedivozCaptura: Captura de señalesBasado en los conceptos de anamnesis, visita y exploración

Anamnesis: conjunto de pruebas efectuadas sobre un paciente durante un periodo de tiempo conducentes a un ciclo diagnóstico-tratamientoSesión: se corresponde con cada una de las visitas que realiza el paciente al especialista hasta completar un tratamientoExploración: contiene las grabaciones obtenidas al efectuar el examen médico a un paciente

Un paciente tiene asociado una o varias anamnesis. Cada anamnesis tiene asociada una o varias visitas. Cada visita o sesión tiene asociada una o varias exploraciones.


Esquema relacional de MedivozCaptura (1)

Paciente

Anamnesis

Visita

Exploración

Tienesesión

Tiene visita

Tiene exploración

1

1

1

N

N

N


Esquema relacional de MedivozCaptura (2)

Paciente 1

Anamnesis 11 Exploración 1112

Anamnesis 12

Exploración 1111

Exploración 1113

Exploración 1211

Exploración 1212

Exploración 1231

Anamnesis 21 Exploración 2121

Exploración 2122

Exploración 2131

Visita 111

Visita 112

Visita 121

Visita 122

Visita 123

Visita 211

Visita 212

Visita 213

Paciente 2


Flujo de la aplicación MedivozCapturaPantalla principal

Datos de paciente

Anamnesis

Formulario de visitas

Pantalla de exploración

1 . 8 4 1 . 8 6 1 . 8 8 1 . 9 1 . 9 2 1 . 9 4 1 . 9 6

x 1 04

- 0 . 6

- 0 . 4

- 0 . 2

0

0 . 2

0 . 4

0 . 6

S p e e c h s i g n a l

s a m p l e s

am

plit

ude

1 . 7 4 1 . 7 6 1 . 7 8 1 . 8 1 . 8 2 1 . 8 4 1 . 8 6

x 1 04

- 0 . 8

- 0 . 6

- 0 . 4

- 0 . 2

0

0 . 2

0 . 4

0 . 6

0 . 8

s a m p l e s

am

plit

ud

e


Protocolo de grabaciónCaracterísticas pulmonares

Duración de “s”Duración de “e”

AudioTres ocurrencias de la vocal /a/ (a moderada intensidad durante, al menos, 3 seg.)/a, e, i, o, u/ (intensidad moderada durante, al menos, 2 seg.) Frase acústicamente balanceada: “La mesa tiene ocho patas”Frase acústicamente balanceada: “Es hábil un solo día”Un minuto de habla continua

Video Videoendoscopia durante la fonación de /e/ (con telelaringoscopio de 70º, luz estroboscópica en modo lento)Videoendoscopia durante la fonación de /i/ (con telelaringoscopio de 70º, luz estroboscópica en modo lento) Videoendoscopia y audio durante la fonación de /e/ y /i/

Cuestionario de función vocal


WPCVox en el marco de MEDIVOZ

Base de datos

Interfaz de captura

Editor de señales

Análisis y extracción paramétrica

WPCVoxWPCVox


Características WPCVox

Destinada a ordenador personal con Windows.Trabajar con archivos .WAV y .NSP.Representar y configurar parámetros de voz...Edición y zoom “solidario”.Fácil configuración y manejo de sesiones.Reproducción de archivos y/o segmentos.Generación e impresión automática de informes.


ParámetrosSonograma y cepstrogramaEspectro FFT y LPC (a corto y largo plazo)EnergíaFrecuencia fundamental FormantesFonetogramaPerturbación en frecuencia

Jitter (mean absolute value y %)RAP (Relative average perturbation) PPQ (Pitch perturbation quotient)sPPQ (Soft Pitch perturbation quotient)

Perturbación en amplitudShimmer (mean absolute value y %)APQ (Amplitude perturbation quotient) sAPQ (Soft Amplitude perturbation quotient)

Parámetros de ruidoHNR (Harmonics to noise ratio) NNE (Normalized noise energy) VTI (Voice Turbulence Index) SPI (Soft Phonation Index) …


Representación de parámetros

Grupo 1

ORGANIZADOR DE ESCRITORIO

Archivo de voz 1 Archivo de voz 2 Archivo de voz n

Grupo 1 Grupo 2 Grupo m

Formulario 1 Formulario 2 Formulario k Formulario 1 Formulario 2

Parámetro 1

Parámetro 2

Parámetro 1 Parámetro 1

Parámetro 2

Parámetro 1


WPCVox: Interfaz gráfica


Comparación WPCVox-MDVP

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "Jitter abs"

WPCVox AUR=0,86

MDVP AUC=0,89

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "Jitter rel"

WPCVox AUC=0,80

MDVP AUC=0,84

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "RAP"

WPCVox AUC=0,79

MDVP AUC=0.84

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "PPQ"

WPCVox AUC=0,79

MDVP AUC=0,84

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "sPPQ"

WPCVox AUC=0,82

MDVP AUC=0,84

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "Shimmer abs"

WPCvox AUC=0,92

MDVP AUC=0,92

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "Shimmer rel"

WPCVox AUC=0,92

MDVP AUR=0,92

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "APQ"

WPCVox AUC=0,92

MDVP AUR=0,92

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "sAPQ"

WPCVox AUC=0,90

MDVP AUC=0,90

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "HNR"

WPCVox AUC=0,93

MDVP AUC=0,88

10·log(1/HNR)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "VTI"

WPCVox AUC=0,84

MDVP AUC=0,72

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

False Positive rate

Tru

e P

ositi

ve r

ate

ROC calculated with the parameter "NHR"

WPCVox AUC=0,84

MDVP AUC=0,88


Sistema de salud en ORL

El futuro …

InternetInternet

Hospitales

y centros de especialidad

CaP

“screening”

Centro logopedia y/o foniatria


ConclusionesSe trata de un problema multidisciplinar que preocupa enormemente a los profesionales de la vozTécnicas objetivas de ayuda al diagnósticoAproximaciones útiles con vocales sostenidas y frases pregrabadasMuy importante la detección de silencios y segmentos no sonorosSe trata de una aproximación mas realista que el examen de la señal de EEGNecesidad de estandarización de bases de datosHerramientas compatibles con PC estándar y periféricos de grabaciónEstandarización de un protocolo de exploraciónApoyo a la investigación mediante la creación de bases de datos siguiendo junto con los datos de historia clínica y anamnesis necesarios del paciente. Aplicables como herramienta de telediagnósticoSe pueden aplicar esquemas de compresión Útil en las consultas de asistencia primaria y para los especialistasNo se pretende sustituir al profesional de la voz

Agosto de 2007

Gracias por la atención

El diagnóstico y la evaluación de patología de la voz a …fcruz/pdf/CursoVerano-07...... LPC,...

Documents

Transcript of El diagnóstico y la evaluación de patología de la voz a …fcruz/pdf/CursoVerano-07...... LPC,...