Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 1

Procesamiento y Compresión de Señales de Audio

PROGRAMA DE POSGRADO EN

SISTEMAS MULTIMEDIA

Ángel de la Torre


micrófono yprocesador

transmisor RF receptor RF yemisor de estímulos

electrodo de referencia

guía de electrodos

electrodos


Imagen Rx de un implante


Sistemas de petaca y retroauricular


Percepción de la voz

Aparatoauditivo Interpretación del mensaje

Modeloacústico

(fonemas)

Modelolenguaje

(voc+gram)

Informacióncontextual

Adquisiciónde la voz

Representaciónde la voz en

el nervio auditivorespuesta

Producciónde voz

Aparatofonador


Percepción de la voz con I.C.

ImplanteCoclear Interpretación del mensaje

Modeloacústico

(fonemas)

Modelolenguaje

(voc+gram)

Informacióncontextual

Adquisiciónde la voz

Representaciónde la voz en

el nervio auditivorespuesta

Producciónde voz

Aparatofonador


Cuándo es necesario el I.C.(criterios de selección de candidatos)

• Sordera neurosensorial– No en sordera retrococlear: Implante de tronco

cerebral– No en sordera de transmisión: (Pérdidas

moderadas) Prótesis auditivas, reconstrucción cadena huesecillos

• Sordera bilateral profunda

• Incapacitante para comprensión de voz


Aportaciones del I.C.

• Percepción de la voz• Percepción de otros sonidos• Limitaciones

• Objetivo: comunicación oral– Desarrollo lingüístico en niños– Comunicación en adultos

• Funcionamiento del I.C.


Espectrograma (representación tiempo - frecuencia)

m b o i a kom p r a R p a n


Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto

• Información complementaria:– Tono fundamental– Estructura fina del espectro


Características del oído humano

• Aspectos anatómicos y fisiológicos:6.000 células ciliadas internas

40.000 terminaciones nerviosas

Repolarización: 2 ms (400 - 500 disparos/seg)

Conexión sináptica: sin interacción entre canales

Mecanismos de adaptación

• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono (entre 20 Hz y 20 kHz)– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB


Limitaciones del implante coclear

• No hay conexión sináptica:– Un electrodo estimula muchas fibras– Si se estimulan simultáneamente varios

electrodos hay interferencia entre canales

• Consecuencias:– Pocos electrodos (se representa sólo la

envolvente espectral)– Alta tasa de estimulación– En cada instante sólo se estimula un canal


Percepción con Implante Coclear

• Implante: varios electrodos (muchos menos de 4000)– ¿Por qué no más electrodos?– Intervalo de frecuencia 200 Hz - 8500 Hz

• Respuesta en el tiempo: 1500 ... 3000 disparos/seg.

• Respuesta a los distintos niveles de intensidad


Diseño de los Implantes Cocleares

• Limitaciones acoplamiento entre electrodos y terminaciones nerviosas

• Limitaciones:– procesamiento de señal

– comsumo

– tamaño

• Posibilidades y límites: sonidos / voz


¿Cómo oye un implantado?

• No se puede saber

• Sólo unos pocos pacientes están en

condiciones de hacer comparaciones

• Observación indirecta (qué son capaces

de hacer)

• Teniendo en cuenta todo el proceso de

estimulación se puede sintetizar la señal

“tal y como la oiría un implantado”


Aportaciones del Implante Coclear

• Percepción auditiva con calidad suficiente para comprensión del habla (sin ruido)

• Para ello, antes hay que desarrollar....– habilidades perceptuales– habilidades lingüísticas

• Comprensión de la voz en ruido: difícil• Percepción de los distintos sonidos, música

– proporciona toda la información temporal que un oído normal puede percibir (poca resolución espectral)


Estrategias de codificación

• Analógicas:– Compressed Analog (Clarion)

• Pulsátiles:– Extracción de características

• F0/F1/F2 (Cochlear)• MPEAK (Cochlear)

– Híbridas:• SMSP / SPEAK (Cochlear)• N-of-M (Medel)

– Forma de onda:• ACE / CIS / CIS+ (Cochlear Clarion

Medel)


Compressed Analog

compresion

compresion

compresion

compresion

compresion

Estim. elec 1

Estim. elec 2

Estim. elec 3

Estim. elec 4

Estim. elec 5

Banco defiltros

Ajuste deniveles

Adquisiciónde la señal

Estimulación


Compressed analog

• Estimulación analógica (no pulsátil)• Estimulación simultánea de todos los electrodos

(interacción entre canales)– Estimulación bipolar– Campo eléctrico de cercanía


F0 / F1 / F2

• Estima parámetros:– F0: tono fundamental (frecuencia)– F1: primer formante (frecuencia y amplitud)– F2: segundo formante (frecuencia y amplitud)

• Estimula dos electrodos en cada ciclo:– los correspondientes a las frecuencias F1 y F2– con las amplitudes estimadas para F1 y F2– con la tasa de estimulación asociada a F0


F0 / F1 / F2

F21 k - 3 k

Generador depulsos

Selección deelectrodos


Estimulación

F1300 - 1 k

F00 - 270

F2

A2

F1

A1Generador de

estímulos

Generador deestímulos

Extracción decaracterísticas

Ajuste deniveles


F0 / F1 / F2

F21 k - 3 k

Generador depulsos



Estimulación

F1300 - 1 k

F00 - 270

F2

A2

F1

A1Generador de

estímulos



Ajuste deniveles

Selecciona unoentre canales 6-20

Selecciona unoentre canales 1-5


MPEAK (Multi Peak)

F2800 - 4 k

Generador depulsos



Estimulación

F1300 - 1 k

F00 - 270

F2

A2

F1

A1Generador de

estímulos



Ajuste deniveles

4 k - 6 k

2.8 k - 4 k

2 k - 2.8 k

Electrodo 20

Electrodo 17

Electrodo 14


Extracción de características

• Presentan la información esencial para percibir la voz:– Tono fundamental (F0)– Primer y segundo formante

• Representación pobre de la voz

• Sensibilidad a estimación de F0, F1 y F2:– Respuesta pobre en condiciones de ruido


SMSP, SPEAK y N-of-M


Selección de los

N canalescon mayorintensidad

Ajustede

niveles

Selección deelectrodos Estimulación

Banco de filtros ydetecc. envolvente


• Implementaciones (alta tasa de estimulación):– SMSP; SPEAK; N-of-M

• Ventajas:– Mejor representación que extracción de carac.– Menos sensible a ruido de fondo

• Inconvenientes:– Se pierde información (canales con menos

energía)

• Compromiso:– Número de canales - tasa de estimulación


CIS: Continuous Interleaved Sampling


Ajusteniveles

Banco de filtros ydetecc. envolvente

Generaciónestímulos


• Implementaciones (alta tasa de estimulación):– ACE (Nucleus)– CIS (Clarion)– CIS+ (Medel)

• Ventajas:– Todos los electrodos estimulados en cada

ciclo con alta tasa de estimulación– Mejor representación de la señal de audio– Mejor resolución en intensidad– Mayor sensibilidad


• Tendencias en estrategias de codificación:– Reducir extracción de características– Alta tasa de estimulación

• Todas las estrategias actuales (CA, SPEAK, CIS) proporcionan resultados satisfactorios:– Envolvente espectral– Resolución temporal– Resolución en intensidad

• Prestaciones:– Representación audio suficiente para comprender voz

• Limitaciones: música y ruido


¿Qué es programar el I.C.?

• Ajustar los parámetros del sistema de implante coclear para que el paciente obtenga un aprovechamiento óptimo:

– Parámetros de estimulación

– Parámetros de representación del sonido


Montaje para programar I.C.

Ordenador paraacceder al procesador

Interface Procesador

Transmisor


Programación del procesador

• Parámetros ajustables:– conexión de electrodos– niveles de estimulación en cada electrodo

• Umbrales de percepción: THR• Máximos niveles de confort: MCL

– parámetros especiales

• Objetivos: – adaptar la estimulación a los valores particulares

de cada paciente– proporcionar la máxima calidad de audición


Importancia del ajuste

• Electrodos activados:– La banda útil se reparte entre los electrodos

activos. Si un electrodo no es funcional debe desconectarse

• Umbrales de percepción:– Para tener sensibilidad (20 - 30 dB) y para poder

discriminar niveles de volumen

• Máximos niveles de confort:– Para escuchar los sonidos fuertes (80 - 110 dB)

fuertes pero sin llegar a sensación de dolor


Dificultades del ajuste

• Colaboración paciente - programador

• Capacidad / tiempo de atención del paciente

• Capacidad de expresión del paciente

• Descripción del paciente subjetiva

• Tolerancia del paciente a imprecisión

• Evolución fisiológica del paciente

• Objetivos mínimos cubiertos


Influencia de la programación en la capacidad de percepción

• El número de electrodos– rango de frecuencia

• Electrodos no funcionales conectados– excepciones transitorias

• Electrodos con estimulaciones colaterales• Sobre-estimación de umbrales• Infra-estimación de umbrales• Desajustes de MCL


Parámetros ajustables:

• Parámetros de estimulación:– Determinación de electrodos funcionales– Rango dinámico de cada electrodo: umbral y máximo

nivel de confort

• Parámetros de representación del sonido:– Modo de estimulación– Estrategia de codificación– Bandas de frecuencia asignadas a electrodos– Tasa de estimulación– Mapeo de intensidad, volumen, sensibilidad


Determinación de electrodos funcionales– Electrodos dentro de la cóclea– Electrodos dentro de la cóclea en zona poco inervada– Electrodos fuera de la cóclea– Estimulación colateral


Rango dinámico de cada electrodo

• Rango dinámico eléctrico: es el intervalo comprendido entre– Umbral (THR): mínima estimulación eléctrica que

detecta el paciente– Máximo nivel de confort (MCL): máxima

estimulación eléctrica que tolera el paciente

• El rango dinámico debe establecerse para cada electrodo independientemente


20 dB

100 dB

THR

MCL

Rango dinámicoacústico

Rango dinámicoeléctrico

• Mapeo del rango dinámico acústico al eléctrico


Ejemplo de rango dinámico

Ecualización de canales

1 2 3 4 5 6 7 8 9 10 11 12

zona apical zona basal


Parámetros relacionados con la representación del sonido:

• Modo de estimulación• Estrategia de codificación• Bandas de frecuencia asignadas a

electrodos• Tasa de estimulación• Mapeo de intensidad• Volumen• Sensibilidad• Programas para situaciones especiales


Modo de estimulación

Configuración eléctrica de los electrodos

tierracomun

bipolar

bipolar + 1 bipolar +2

InactivoActivoReferencia

monopolar

electrodoextracoclear

alejado


Modo de estimulación

Distribución de la corriente eléctrica

InactivoActivoReferencia

tierracomun

bipolarmonopolar

bipolar + 1 bipolar +2


Bandas de frecuencia asignadas a electrodos

• Rango espectral

• Distribución de los filtros en frecuencia:(Ancho de banda y frecuencia central de cada canal)– Lineal, logarítmica, lin-log....– Elegida libremente por el programador

20 Hz 200 Hz 2 kHz 20 kHz

Rango espectral audición (20 Hz - 20 kHz)

Voz (200 Hz - 6 kHz)

Tel. (350 Hz - 3.5 kHz)

I.C. típ. (300 Hz - 5 kHz)

I. C. máx (200 Hz - 10 kHz)


Tasa de estimulación• Es el número de estímulos por segundo en cada

electrodo• Mejor cuanto más alta

– Tiempo de repolarización: 2ms– Conviene que sea superior a 800 o 1000 disparos por

segundo

• Limitada por:– Tecnología del procesador– Número de electrodos activos en cada ciclo de

estimulación– Duración de los pulsos eléctricos


Mapeo de intensidad (maplaw)

Rango dinámico acústico

20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL


Mapeo de intensidad (maplaw)


20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL


Control de volumen

Nivel de volumen

0% 100%

Niv

eles

est

imad

os

THR

MCL

0

MCL utilizado

THR utilizado


Control de volumen

Nivel de volumen

0% 100%

Niv

eles

est

imad

os

THR

MCL

0

75%


Control de sensibilidad


20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL




20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL


Resultados en Implantes Cocleares

• Factores que afectan:– Edad de implantación– Nivel de lenguaje previo a sordera– Experiencia auditiva previa a sordera– Otros factores:

• Habilidades intelectuales• Entorno social-familiar• Presencia de otras patologías• Etc....

Procesamiento y Compresión de Señales de Audio

Documents

Transcript of Procesamiento y Compresión de Señales de Audio