Procesamiento y Compresión de Señales de Audio

56
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 1 Procesamiento y Compresión de Señales de Audio PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre

description

Procesamiento y Compresión de Señales de Audio. PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre. transmisor RF. receptor RF y emisor de estímulos. electrodo de referencia. micrófono y procesador. electrodos. guía de electrodos. Imagen Rx de un implante. - PowerPoint PPT Presentation

Transcript of Procesamiento y Compresión de Señales de Audio

Page 1: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 1

Procesamiento y Compresión de Señales de Audio

PROGRAMA DE POSGRADO EN

SISTEMAS MULTIMEDIA

Ángel de la Torre

Page 2: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 2

micrófono yprocesador

transmisor RF receptor RF yemisor de estímulos

electrodo de referencia

guía de electrodos

electrodos

Page 3: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 3

Imagen Rx de un implante

Page 4: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 4

Page 5: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 5

Sistemas de petaca y retroauricular

Page 6: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 6

Percepción de la voz

Aparatoauditivo Interpretación del mensaje

Modeloacústico

(fonemas)

Modelolenguaje

(voc+gram)

Informacióncontextual

Adquisiciónde la voz

Representaciónde la voz en

el nervio auditivorespuesta

Producciónde voz

Aparatofonador

Page 7: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 7

Percepción de la voz con I.C.

ImplanteCoclear Interpretación del mensaje

Modeloacústico

(fonemas)

Modelolenguaje

(voc+gram)

Informacióncontextual

Adquisiciónde la voz

Representaciónde la voz en

el nervio auditivorespuesta

Producciónde voz

Aparatofonador

Page 8: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 8

Cuándo es necesario el I.C.(criterios de selección de candidatos)

• Sordera neurosensorial– No en sordera retrococlear: Implante de tronco

cerebral– No en sordera de transmisión: (Pérdidas

moderadas) Prótesis auditivas, reconstrucción cadena huesecillos

• Sordera bilateral profunda

• Incapacitante para comprensión de voz

Page 9: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 9

Aportaciones del I.C.

• Percepción de la voz• Percepción de otros sonidos• Limitaciones

• Objetivo: comunicación oral– Desarrollo lingüístico en niños– Comunicación en adultos

• Funcionamiento del I.C.

Page 10: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 10

Espectrograma (representación tiempo - frecuencia)

m b o i a kom p r a R p a n

Page 11: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 11

Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto

• Información complementaria:– Tono fundamental– Estructura fina del espectro

Page 12: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 12

Características del oído humano

• Aspectos anatómicos y fisiológicos:6.000 células ciliadas internas

40.000 terminaciones nerviosas

Repolarización: 2 ms (400 - 500 disparos/seg)

Conexión sináptica: sin interacción entre canales

Mecanismos de adaptación

• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono (entre 20 Hz y 20 kHz)– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB

Page 13: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 13

Limitaciones del implante coclear

• No hay conexión sináptica:– Un electrodo estimula muchas fibras– Si se estimulan simultáneamente varios

electrodos hay interferencia entre canales

• Consecuencias:– Pocos electrodos (se representa sólo la

envolvente espectral)– Alta tasa de estimulación– En cada instante sólo se estimula un canal

Page 14: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 14

Percepción con Implante Coclear

• Implante: varios electrodos (muchos menos de 4000)– ¿Por qué no más electrodos?– Intervalo de frecuencia 200 Hz - 8500 Hz

• Respuesta en el tiempo: 1500 ... 3000 disparos/seg.

• Respuesta a los distintos niveles de intensidad

Page 15: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 15

Diseño de los Implantes Cocleares

• Limitaciones acoplamiento entre electrodos y terminaciones nerviosas

• Limitaciones:– procesamiento de señal

– comsumo

– tamaño

• Posibilidades y límites: sonidos / voz

Page 16: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 16

¿Cómo oye un implantado?

• No se puede saber

• Sólo unos pocos pacientes están en

condiciones de hacer comparaciones

• Observación indirecta (qué son capaces

de hacer)

• Teniendo en cuenta todo el proceso de

estimulación se puede sintetizar la señal

“tal y como la oiría un implantado”

Page 17: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 17

Aportaciones del Implante Coclear

• Percepción auditiva con calidad suficiente para comprensión del habla (sin ruido)

• Para ello, antes hay que desarrollar....– habilidades perceptuales– habilidades lingüísticas

• Comprensión de la voz en ruido: difícil• Percepción de los distintos sonidos, música

– proporciona toda la información temporal que un oído normal puede percibir (poca resolución espectral)

Page 18: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 18

Estrategias de codificación

• Analógicas:– Compressed Analog (Clarion)

• Pulsátiles:– Extracción de características

• F0/F1/F2 (Cochlear)• MPEAK (Cochlear)

– Híbridas:• SMSP / SPEAK (Cochlear)• N-of-M (Medel)

– Forma de onda:• ACE / CIS / CIS+ (Cochlear Clarion

Medel)

Page 19: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 19

Compressed Analog

compresion

compresion

compresion

compresion

compresion

Estim. elec 1

Estim. elec 2

Estim. elec 3

Estim. elec 4

Estim. elec 5

Banco defiltros

Ajuste deniveles

Adquisiciónde la señal

Estimulación

Page 20: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 20

Compressed analog

• Estimulación analógica (no pulsátil)• Estimulación simultánea de todos los electrodos

(interacción entre canales)– Estimulación bipolar– Campo eléctrico de cercanía

Page 21: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 21

F0 / F1 / F2

• Estima parámetros:– F0: tono fundamental (frecuencia)– F1: primer formante (frecuencia y amplitud)– F2: segundo formante (frecuencia y amplitud)

• Estimula dos electrodos en cada ciclo:– los correspondientes a las frecuencias F1 y F2– con las amplitudes estimadas para F1 y F2– con la tasa de estimulación asociada a F0

Page 22: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 22

F0 / F1 / F2

F21 k - 3 k

Generador depulsos

Selección deelectrodos

Adquisiciónde la señal

Estimulación

F1300 - 1 k

F00 - 270

F2

A2

F1

A1Generador de

estímulos

Generador deestímulos

Extracción decaracterísticas

Ajuste deniveles

Page 23: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 23

F0 / F1 / F2

F21 k - 3 k

Generador depulsos

Selección deelectrodos

Adquisiciónde la señal

Estimulación

F1300 - 1 k

F00 - 270

F2

A2

F1

A1Generador de

estímulos

Generador deestímulos

Extracción decaracterísticas

Ajuste deniveles

Selecciona unoentre canales 6-20

Selecciona unoentre canales 1-5

Page 24: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 24

MPEAK (Multi Peak)

F2800 - 4 k

Generador depulsos

Selección deelectrodos

Adquisiciónde la señal

Estimulación

F1300 - 1 k

F00 - 270

F2

A2

F1

A1Generador de

estímulos

Generador deestímulos

Extracción decaracterísticas

Ajuste deniveles

4 k - 6 k

2.8 k - 4 k

2 k - 2.8 k

Electrodo 20

Electrodo 17

Electrodo 14

Page 25: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 25

Extracción de características

• Presentan la información esencial para percibir la voz:– Tono fundamental (F0)– Primer y segundo formante

• Representación pobre de la voz

• Sensibilidad a estimación de F0, F1 y F2:– Respuesta pobre en condiciones de ruido

Page 26: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 26

SMSP, SPEAK y N-of-M

Adquisiciónde la señal

Selección de los

N canalescon mayorintensidad

Ajustede

niveles

Selección deelectrodos Estimulación

Banco de filtros ydetecc. envolvente

Page 27: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 27

• Implementaciones (alta tasa de estimulación):– SMSP; SPEAK; N-of-M

• Ventajas:– Mejor representación que extracción de carac.– Menos sensible a ruido de fondo

• Inconvenientes:– Se pierde información (canales con menos

energía)

• Compromiso:– Número de canales - tasa de estimulación

Page 28: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 28

CIS: Continuous Interleaved Sampling

Adquisiciónde la señal

Ajusteniveles

Banco de filtros ydetecc. envolvente

Generaciónestímulos

Page 29: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 29

• Implementaciones (alta tasa de estimulación):– ACE (Nucleus)– CIS (Clarion)– CIS+ (Medel)

• Ventajas:– Todos los electrodos estimulados en cada

ciclo con alta tasa de estimulación– Mejor representación de la señal de audio– Mejor resolución en intensidad– Mayor sensibilidad

Page 30: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 30

• Tendencias en estrategias de codificación:– Reducir extracción de características– Alta tasa de estimulación

• Todas las estrategias actuales (CA, SPEAK, CIS) proporcionan resultados satisfactorios:– Envolvente espectral– Resolución temporal– Resolución en intensidad

• Prestaciones:– Representación audio suficiente para comprender voz

• Limitaciones: música y ruido

Page 31: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 31

¿Qué es programar el I.C.?

• Ajustar los parámetros del sistema de implante coclear para que el paciente obtenga un aprovechamiento óptimo:

– Parámetros de estimulación

– Parámetros de representación del sonido

Page 32: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 32

Montaje para programar I.C.

Ordenador paraacceder al procesador

Interface Procesador

Transmisor

Page 33: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 33

Programación del procesador

• Parámetros ajustables:– conexión de electrodos– niveles de estimulación en cada electrodo

• Umbrales de percepción: THR• Máximos niveles de confort: MCL

– parámetros especiales

• Objetivos: – adaptar la estimulación a los valores particulares

de cada paciente– proporcionar la máxima calidad de audición

Page 34: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 34

Importancia del ajuste

• Electrodos activados:– La banda útil se reparte entre los electrodos

activos. Si un electrodo no es funcional debe desconectarse

• Umbrales de percepción:– Para tener sensibilidad (20 - 30 dB) y para poder

discriminar niveles de volumen

• Máximos niveles de confort:– Para escuchar los sonidos fuertes (80 - 110 dB)

fuertes pero sin llegar a sensación de dolor

Page 35: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 35

Dificultades del ajuste

• Colaboración paciente - programador

• Capacidad / tiempo de atención del paciente

• Capacidad de expresión del paciente

• Descripción del paciente subjetiva

• Tolerancia del paciente a imprecisión

• Evolución fisiológica del paciente

• Objetivos mínimos cubiertos

Page 36: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 36

Influencia de la programación en la capacidad de percepción

• El número de electrodos– rango de frecuencia

• Electrodos no funcionales conectados– excepciones transitorias

• Electrodos con estimulaciones colaterales• Sobre-estimación de umbrales• Infra-estimación de umbrales• Desajustes de MCL

Page 37: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 37

Parámetros ajustables:

• Parámetros de estimulación:– Determinación de electrodos funcionales– Rango dinámico de cada electrodo: umbral y máximo

nivel de confort

• Parámetros de representación del sonido:– Modo de estimulación– Estrategia de codificación– Bandas de frecuencia asignadas a electrodos– Tasa de estimulación– Mapeo de intensidad, volumen, sensibilidad

Page 38: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 38

Determinación de electrodos funcionales– Electrodos dentro de la cóclea– Electrodos dentro de la cóclea en zona poco inervada– Electrodos fuera de la cóclea– Estimulación colateral

Page 39: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 39

Rango dinámico de cada electrodo

• Rango dinámico eléctrico: es el intervalo comprendido entre– Umbral (THR): mínima estimulación eléctrica que

detecta el paciente– Máximo nivel de confort (MCL): máxima

estimulación eléctrica que tolera el paciente

• El rango dinámico debe establecerse para cada electrodo independientemente

Page 40: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 40

20 dB

100 dB

THR

MCL

Rango dinámicoacústico

Rango dinámicoeléctrico

• Mapeo del rango dinámico acústico al eléctrico

Page 41: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 41

Ejemplo de rango dinámico

Ecualización de canales

1 2 3 4 5 6 7 8 9 10 11 12

zona apical zona basal

Page 42: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 42

Parámetros relacionados con la representación del sonido:

• Modo de estimulación• Estrategia de codificación• Bandas de frecuencia asignadas a

electrodos• Tasa de estimulación• Mapeo de intensidad• Volumen• Sensibilidad• Programas para situaciones especiales

Page 43: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 43

Modo de estimulación

Configuración eléctrica de los electrodos

tierracomun

bipolar

bipolar + 1 bipolar +2

InactivoActivoReferencia

monopolar

electrodoextracoclear

alejado

Page 44: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 44

Modo de estimulación

Distribución de la corriente eléctrica

InactivoActivoReferencia

tierracomun

bipolarmonopolar

bipolar + 1 bipolar +2

Page 45: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 45

Bandas de frecuencia asignadas a electrodos

• Rango espectral

• Distribución de los filtros en frecuencia:(Ancho de banda y frecuencia central de cada canal)– Lineal, logarítmica, lin-log....– Elegida libremente por el programador

20 Hz 200 Hz 2 kHz 20 kHz

Rango espectral audición (20 Hz - 20 kHz)

Voz (200 Hz - 6 kHz)

Tel. (350 Hz - 3.5 kHz)

I.C. típ. (300 Hz - 5 kHz)

I. C. máx (200 Hz - 10 kHz)

Page 46: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 46

Tasa de estimulación• Es el número de estímulos por segundo en cada

electrodo• Mejor cuanto más alta

– Tiempo de repolarización: 2ms– Conviene que sea superior a 800 o 1000 disparos por

segundo

• Limitada por:– Tecnología del procesador– Número de electrodos activos en cada ciclo de

estimulación– Duración de los pulsos eléctricos

Page 47: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 47

Mapeo de intensidad (maplaw)

Rango dinámico acústico

20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL

Page 48: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 48

Mapeo de intensidad (maplaw)

Rango dinámico acústico

20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL

Page 49: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 49

Control de volumen

Nivel de volumen

0% 100%

Niv

eles

est

imad

os

THR

MCL

0

MCL utilizado

THR utilizado

Page 50: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 50

Control de volumen

Nivel de volumen

0% 100%

Niv

eles

est

imad

os

THR

MCL

0

75%

Page 51: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 51

Control de sensibilidad

Rango dinámico acústico

20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL

Page 52: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 52

Control de sensibilidad

Rango dinámico acústico

20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL

Page 53: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 53

Control de sensibilidad

Rango dinámico acústico

20 dB 100 dB

Niv

el e

stim

. el

éctr

ico

THR

MCL

Page 54: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 54

Resultados en Implantes Cocleares

• Factores que afectan:– Edad de implantación– Nivel de lenguaje previo a sordera– Experiencia auditiva previa a sordera– Otros factores:

• Habilidades intelectuales• Entorno social-familiar• Presencia de otras patologías• Etc....

Page 55: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 55

Page 56: Procesamiento y Compresión de Señales de Audio

ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 56