Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting
-
Upload
jose-ramon-cerquides-bueno -
Category
Documents
-
view
376 -
download
0
Transcript of Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting
ANÁLISIS DE LAS PRESTACIONES DE DISTINTAS TÉCNICAS DE PREPROCESADO
EN AUDIO FINGERPRINTING
José Serradilla ArellanoMayo 2007
Índice
• Audio Fingerprinting: Generalidades• Uso de Audio Fingerprinting para
Identificación• El sistema de Philips• Mejoras propuestas en preprocesado:
– Filtrado– Algoritmo DDA
Generalidades
• Concepto: Firma compacta basada en el contenido que resume una grabación de audio.
• La señal de audio en sí no es modificada, en particular no se le añade ninguna información adicional (al contrario que Audio Watermarking).
• El factor decisivo para la implementación de un proceso de “Audio Fingerprinting” es la selección de las características a investigar.
Generalidades: Propiedades
• La huella debería ser:
– Un resumen perceptual de la grabación – Invariante a las distorsiones – Compacta– Fácilmente computable
Generalidades: Modos de Uso
• Identificación (para lo que se usará en este proyecto)• Verificación de la integridad • Apoyo al “Watermarking” • Recuperación y procesamiento de audio basados
en el contenido
Generalidades: Aplicaciones
• Monitorización y Seguimiento del contenido de audio
• Servicios de valor añadido • Sistemas de verificación de Integridad
La mayoría de ellos son casos particulares del modo de uso de identificación
Generalidades: Watermarking
• La idea básica consiste en añadir una señal, la marca de agua, a la señal original de audio.
• Ambas metodologías tienen muchas aplicaciones en común y también muchas específicas de cada una:
– “audio watermarking” aunque en un principio estaba pensado para protección de copyright, también es útil para otros muchos propósitos, particularmente para transporte de información de propósito general
– “audio fingerprinting” se usa sobre todo para identificar señales de audio, no solo en aplicaciones de copyright, sino también en reconocimiento de anuncios, por ejemplo.
Identificación
• 3 procesos principales– Extracción de Huellas – Algoritmo de búsqueda de coincidencias.– Comprobación de Hipótesis
Identificación: Extracción
• Dos partes:– Front-End: Convierte
una señal de audio en una secuencia de características relevantes.
– Bloque de modelado de huellas: define la representación final de la huella
Id.: Extracción: Front-End
• Distintos bloques, no todos obligatorios:
– Preprocesado– Framing & Overlap ( y enventanado) – Tranformaciones lineales: Estimaciones
espectrales – Extracción de características – Post-Procesado
Id.: Extracción: Modelado
• Normalmente recibe una secuencia de vectores de características calculados teniendo en cuenta todas las tramas una por una y explota redundancias entre tramas vecinas
• Varias opciones:
– Huella como resumen de las secuencias de vectores multidimensionales de una canción completa (o de una parte de ella) en un vector simple.
– Huella como secuencias de vectores binarios – Secuencia de vectores aproximada por un libro de código– Huella como secuencias de índices a un conjunto de clases de
sonidos representativo de una colección de elementos de audio
Id.: Métodos de búsqueda
• Fundamental saber cómo de eficientemente realiza las comparaciones entre el audio y millones de huellas
• Fuerza bruta inviable, otras opciones:– Pre-computar distancias offline – Filtrado de candidatos improbables con una
medida de similaridad simple– Indexado de archivos inverso – Reducción de candidatos – Otros enfoques
El Sistema de Philips
• Se usarán características no semánticas• Huella como cadena de unos pocos
miles de bits• Segmentación en tramas, cada trama -
>sub-huella• Bloques de 256 sub-huellas
El Sistema de Philips: Algoritmo
Tramas 0,37 sgOverlap 31/3232 bits en 11,6 ms256x32 en 3 sg.
33 bandas no solapadas300 y 2000 HzLog. espaciadas
01,1,1)1,(,,0
01,1,1)1,(,,1),(
mnEmnEmnEmnE
mnEmnEmnEmnEmnF
El Sistema de Philips: Algoritmo
Esta va a ser la medida de similaridad
Sist. de Philips: Análisis falso positivo
• Falso positivo: BER entre dos trozos distintos < umbral T=0.35
• Teóricamente FPR del orden de 10-20, habrá que estimarla estadísticamente
• Distribución de la BER:
NORMAL
0.44 0.46 0.48 0.5 0.52 0.54 0.56
0.0010.0030.01 0.02 0.05 0.10
0.25
0.50
0.75
0.90 0.95 0.98 0.99 0.9970.999
Data
Prob
abilit
y
Normal Probability Plot
Sist. de Philips: Análisis falso positivo
• BER distribuida [0,∞) Usamos una lognormal
FPR=3.82612e-30
Sist. de Philips: Análisis de robustez
• BER entre un trozo de audio y su versión distorsionada deber ser < T=0.35
• Las distorsiones las aplicamos con Adobe Audition
Sist. de Philips: Análisis de robustez
• Se ha trabajado con 4 canciones y estos han sido los resultados:
Mejoras propuestas en preprocesado
• En general lo que haremos es:
• Vamos a trabajar con 3 esquemas
distintos
Mejoras preprocesado: Filtrado
• La señal pasa por el filtro:
1
1
98.01
199.0)(
z
zzH
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Mejoras preprocesado: Filtrado
• Respecto al falso positivo:
FPR’= 3.80196e-30
Mejoras preprocesado: Filtrado
• Respecto a la robustez:
Mejoras preprocesado: Filtrado
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Mejoras preprocesado: DDA
• DDA: Sistema distinto al de Philips. Lo que haremos es mezclar su preprocesado con nuestro sistema.
• Se submuestrea a 11025 Hz, se divide en tramas de 372 ms que se superponen por la mitad y se hace la MCLT de cada trama
• Y ahora se aplican 2 pasos por separado
Mejoras preprocesado: DDA (1er paso)
• Filtrado paso bajo del espectro logarítmico
• A: espectro filtrado• Resultado x(i):
e.o.c 0
0A(i)-spect(i) si )()()(
iAispectix
Mejoras preprocesado: DDA (1er paso)
• Respecto al falso positivo:
FPR’= 8.1111e-27
Mejoras preprocesado: DDA (1er paso)
• Respecto a la robustez:
Mejoras preprocesado: DDA (1er paso)
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Mejoras preprocesado: DDA (2º paso)
• Se genera un umbral auditivo dependiente de la frecuencia
• thr: umbral auditivo en dB• Resultado x(i):
e.o.c 0
0thr(i)-spect(i) si )()()(
ithrispectix
Mejoras preprocesado: DDA (2º paso)
• Respecto al falso positivo:
FPR’= 5.03071e-29
Mejoras preprocesado: DDA (1er paso)
• Respecto a la robustez:
Mejoras preprocesado: DDA (1er paso)
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Conclusiones
• Se puede decir que los resultados no han sido completamente satisfactorios
• Hay mejoras para algunas distorsiones y tipos de archivos concretos, pero no generales
• ¿Motivos?