Clasificación de escenas acústicas a través de ...
Transcript of Clasificación de escenas acústicas a través de ...
Clasificación de escenas acústicas a través de descriptores de audio y máquinas de aprendizaje.
Aplicación en escenas de Medellín.
Carlos Andrés Chica Osorio, [email protected]
Dudley Yurgaky Valoyes, [email protected]
Trabajo de Grado presentado para optar al título de Ingeniero de Sonido
Asesor: Jonathan Ochoa Villegas, Magíster (MSc) en Geoinformática.
Universidad de San Buenaventura Colombia
Facultad de Ingenierías
Ingeniería de Sonido
Medellín, Colombia
2019
Citar/How to cite [1]
Referencia/Reference
Estilo/Style:
IEEE (2014)
[1] C. A. Chica Osorio, y D. Yurgaky Valoyes, “Clasificación de escenas acústicas
a través de descriptores de audio y máquinas de aprendizaje. Aplicación en
escenas de Medellín”, Tesis Ingeniería de Sonido, Universidad de San
Buenaventura Medellín, Facultad de Ingenierías, 2019.
Bibliotecas Universidad de San Buenaventura
Biblioteca Fray Alberto Montealegre OFM - Bogotá.
Biblioteca Fray Arturo Calle Restrepo OFM - Medellín, Bello, Armenia, Ibagué.
Departamento de Biblioteca - Cali.
Biblioteca Central Fray Antonio de Marchena – Cartagena.
Universidad de San Buenaventura Colombia
Universidad de San Buenaventura Colombia - http://www.usb.edu.co/
Bogotá - http://www.usbbog.edu.co
Medellín - http://www.usbmed.edu.co
Cali - http://www.usbcali.edu.co
Cartagena - http://www.usbctg.edu.co
Editorial Bonaventuriana - http://www.editorialbonaventuriana.usb.edu.co/
Revistas - http://revistas.usb.edu.co/
Biblioteca Digital (Repositorio)
http://bibliotecadigital.usb.edu.co
Agradecimientos
“Cuando uno sueña intensamente, el universo entero conspira para hacerlo realidad”.
Paulo Coelho
Antes que nada, queremos agradecer a Dios, por brindarnos la oportunidad de cumplir este sueño
y regalarnos la fortaleza necesaria para seguir adelante, pese a todas las dificultades encontradas
en el camino.
El presente proyecto de grado es el resultado de un gran esfuerzo y uno de los retos más grandes a
los que nos hemos tenido que enfrentar, por lo que resulta difícil resumir en unas cuantas líneas el
agradecimiento que tenemos a tanta gente que nos ayudó a lograr esta meta; pero no por ello
dejaremos de expresar nuestros más sinceros agradecimientos a nuestro jefe de programa quien a
su vez fue nuestro asesor de trabajo de grado, Ing. Jonathan Ochoa Villegas. Su dedicación, apoyo,
trabajo y calidad humana, nos han motivado para no desfallecer en esta tarea y lograr finalizar el
proyecto. No menor agradecimiento tenemos para nuestro coasesor el Dr. Juan Pablo Ugarte, que
con su disciplina y sólidos conocimientos fue un pilar importante para la culminación de este
proyecto, y al Ing. José Omar Giraldo Valencia por compartir sus conocimientos sobre aprendizaje
automático de manera desinteresada.
También agradecemos a los docentes quienes nos brindaron las bases necesarias para realizar este
proyecto. Por otro lado, se le agradece administrativos, compañeros y operativos de la universidad,
simplemente, gracias.
De manera más personal, y desde un punto de vista más cercano, agradecemos a nuestras familias,
novias, y a nuestros amigos, que se convirtieron en la principal motivación para no desfallecer,
gracias por su apoyo, amor y compañía incondicional, ello facilito el cumplimiento de nuestra tarea.
TABLA DE CONTENIDO
RESUMEN ....................................................................................................................................... 8
ABSTRACT ..................................................................................................................................... 9
I. INTRODUCCIÓN .................................................................................................................. 10
II. PLANTEAMIENTO DEL PROBLEMA........................................................................... 12
A. Antecedentes ...................................................................................................................... 12
III. JUSTIFICACIÓN ............................................................................................................... 14
IV. OBJETIVOS ....................................................................................................................... 15
A. Objetivo general ................................................................................................................. 15
B. Objetivos específicos .......................................................................................................... 15
C. Alcances ............................................................................................................................. 15
V. MARCO REFERENCIAL ................................................................................................. 16
A. Marco teórico ..................................................................................................................... 16
1) Aprendizaje automático. .................................................................................................. 17
a) Aprendizaje no supervisado. .................................................................................... 17
b) Aprendizaje supervisado. ......................................................................................... 17
2) Máquina de soporte de vectores (SVM). ......................................................................... 18
3) Máquinas de SVM (software Matlab) ............................................................................. 19
a) Medium Gaussian ..................................................................................................... 19
b) Quadratic SVM ........................................................................................................ 19
4) Ensemble Classifier (Boosted Trees) .............................................................................. 20
5) Descriptores de audio. ..................................................................................................... 20
a) MFCC (Mel Frecuency Cepstral Coefficient). ......................................................... 20
b) Clasificador k-Nearest-Neighbor (k-NN). ................................................................ 23
c) Chroma Vector ......................................................................................................... 23
6) Sensibilidad y Especificidad ............................................................................................ 23
7) Estadísticos ...................................................................................................................... 24
B) Estado del arte ....................................................................................................................... 25
VI. DISEÑO METODOLÓGICO .................................................................................................. 27
A. Enfoque de Investigación ................................................................................................... 27
B. Línea de Investigación ....................................................................................................... 27
C. Técnicas de recolección de información ............................................................................ 27
D. Procedimiento ..................................................................................................................... 27
1) Descripciónn General ...................................................................................................... 27
2) Grabaciones en campo ..................................................................................................... 28
3) Instrumentación de grabación. ......................................................................................... 31
4) Anotación de los eventos ................................................................................................. 31
5) Extracción de características ........................................................................................... 31
6) Entrenamiento del algoritmo ........................................................................................... 34
7) Evaluación del algoritmo ................................................................................................. 36
VII. RESULTADOS .................................................................................................................. 38
VIII. ANÁLISIS DE RESULTADOS ........................................................................................ 49
IX. CONCLUSIONES ............................................................................................................. 51
REFERENCIAS ............................................................................................................................. 52
LISTA DE TABLAS
TABLA 1. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 QUADRATIC SVM. ........... 38
TABLA 2.MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 QUADRATIC SVM. ............ 38
TABLA 3. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 QUADRATIC SVM. ........... 39
TABLA 4.TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y
ACCURACY PARA QUADRATIC SVM. ................................................................................... 40
TABLA 5. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 MEDIUM GAUSSIAM SVM.
........................................................................................................................................................ 40
TABLA 6. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 MEDIUM GAUSSIAM SVM.
........................................................................................................................................................ 41
TABLA 7. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 MEDIUM GAUSSIAM SVM.
........................................................................................................................................................ 42
TABLA 8. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y
ACCURACY PARA MEDIUM GAUSSIAM SVM. .................................................................... 42
TABLA 9. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 BOOSTED TREE. ............... 43
TABLA 10. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 BOOSTED TREE. ............. 43
TABLA 11. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 BOOSTED TREE. ............. 44
TABLA 12. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y
ACCURACY PARA BOOSTED TREE. ....................................................................................... 45
TABLA 13. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA MEDIUN GAUSSIAN
SVM EN EL PROCESO DE EVALUACIÓN .............................................................................. 46
TABLA 14. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA QUADRATIC SVM EN EL
PROCESO DE EVALUACIÓN .................................................................................................... 47
TABLA 15. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA BOOSTED TREES EN EL
PROCESO DE EVALUACIÓN .................................................................................................... 48
TABLA 16. DESCRIPTORES SEGÚN SU PORCENTAJE DE EFECTIVIDAD PARA
CLASIFICAR. ................................................................................................................................ 54
LISTA DE FIGURAS
Fig. 1. Sistema de clasificación general de sonidos ....................................................................... 16
Fig. 2. Clasificación del algoritmo SVM para 3 clases con diferentes funciones para los márgenes
de separación. ................................................................................................................................. 19
Fig. 3. Relación escala Lineal & Mel. ............................................................................................ 22
Fig. 4. Banco de filtros de Mel. ...................................................................................................... 22
Fig. 5. Taxonomía de Sonidos Urbanos. ........................................................................................ 25
Fig. 6. Diagrama de bloques de entrenamiento y evaluación de la máquina de aprendizaje. ........ 28
Fig. 7. Puntos de mediciones en zona residencial en el barrio Laureles, Medellín (A = Punto 1, B
= Punto 2, C = Punto 3 y D = Punto 4) .......................................................................................... 29
Fig. 8. Puntos de medición zona Industrial (A = Zona Industrial Guayabal, Leonisa; B = Zona
industrial Guayabal, Gonvarri ; C = Zona Industrial Guayabal, Golpeautos) ................................ 30
Fig. 9. Puntos de medición Estaciones de Metro (A = Estación Estadio; B = Estación Floresta; C =
Estación Floresta; D = Estación Suramericana). ............................................................................ 30
Fig. 10. Gráfica de descriptores según su porcentaje de efectividad para clasificar (ver anexos tabla
16). .................................................................................................................................................. 34
Fig. 11. Matriz de confusión de Quadratic SVM. .......................................................................... 35
Fig. 12. Matriz de confusión de Mediun Gaussiam SVM. ............................................................. 35
Fig. 13. Matriz de confusión de Boosted Tree. .............................................................................. 36
Fig. 14. Resultados de la clasificación de los audios de evaluación por medio de la maquina Mediun
Gaussian SVM. ............................................................................................................................... 46
Fig. 15. Resultados de la clasificación de los audios de evaluación por medio de la maquina
Quadratic SVM. ............................................................................................................................. 47
Fig. 16. Resultados de la clasificación de los audios de evaluación por medio de la maquina Boosted
Trees. .............................................................................................................................................. 48
Fig. 17. Audio E1M-001. ............................................................................................................... 49
Fig. 18. Especificaciones de los puntos de grabación y fuentes características (Zona residencial).
........................................................................................................................................................ 60
Fig. 19. Especificaciones de los puntos de grabación y fuentes (Zona Industrial). ....................... 60
Fig. 20. Especificaciones de los puntos de grabación y fuentes escenas (Zona Estaciones de metro).
........................................................................................................................................................ 61
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 8
RESUMEN
En los últimos años, han aparecido métodos de aprendizaje automático que permiten obtener
modelos para el análisis y clasificación de señales de audio (etiquetadas), como las máquinas de
vectores de soporte, Ensemble Classifier, entre otros. Estos métodos presentan un problema al ser
poco comprensibles en su funcionamiento interno, ya que, no muestran al usuario una estructura
explicativa de como realizan las predicciones y que estas sean entendibles. Vale aclarar que los
modelos son precisos, pero no son presentados adecuadamente.
Debido a que no existe un banco de sonidos de las escenas acústicas de la ciudad, fue necesario
realizar grabaciones en campo de dichas escenas en exteriores.
Se emplearon descriptores de audio tales como MFCC y Chroma Vector, para la identificación de
las escenas acústicas en conjunto con dos algoritmos SVM y uno Ensemble Classifier.
El producto fue una tasa de eficiencia del 72,22% para los casos de las máquinas SVM (Medium
Gaussian y Quadratic), los cuales son satisfactorios. Por otro lado, la máquina de aprendizaje
basada en Ensemble Classifier (Boosted Tree) tuvo una tasa de eficiencia del 55,55%, siendo esta
una máquina de bajo rendimiento.
Palabras clave: Grabaciones en campo, Aprendizaje automático, descriptores de audio, eficiencia.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 9
ABSTRACT
In recent years, automatic learning methods have been paired to obtain models for the analysis and
classification of audio signals, such as the support vector machines, Ensemble Classifier, among
others. These methods present a problem because they are not very understandable in their internal
functioning, since they do not show the user an explanatory structure of how predictions are made
and that they are understandable. It is worth mentioning that the models are accurate, but they are
not presented properly.
There is not a sound bank of the acoustic scenes of the city, it was necessary to record these outside
scenes in the field.
Audio descriptors such as MFCC and Chroma Vector were used to identify the acoustic scenes
together with two SVM algorithms and one Ensemble Classifier.
The result was an efficiency rate of 72.22% for the cases of SVM machines (Medium Gaussian
and Quadratic), which are satisfactory. On the other hand, the learning machine based on Ensemble
Classifier (Boosted Tree) had an Accuracy rate of 55.55%, this being a low performance machine.
Keyworks: Field recording, Machine Learning, Audio predictors, Accuracy.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 10
I. INTRODUCCIÓN
La presente investigación estuvo dedicada a desarrollar un algoritmo que permite clasificar escenas
acústicas de una base de datos registrada en la ciudad de Medellín. Estudiar este tema, resulta ser
todo un reto para la ingeniería de sonido, toda vez, que permitirá adentrar en un campo investigativo
poco explorado. Es por ello que hay que emprender acciones que permitan caracterizar las
diferentes escenas acústicas a través de descriptores de audio y las máquinas de aprendizaje
automático.
La clasificación de escenas acústicas hace parte de los problemas del procesamiento digital de
señales de audio, el cual, tiene aplicación en el desarrollo de nuevas tecnologías, análisis de la
música, entre otros, donde el procesamiento de estas es deseado o requerido. Los seres humanos,
además de la visión, utilizan la escucha para navegar y responder al entorno que los rodea. Por
esto, nace el interés de investigar sobre la identificación de los entornos sonoros por medio de un
algoritmo que permita lograr avances significativos.
La presentación de la investigación estará estructurada de la siguiente manera:
En el primer capítulo, se hace el planteamiento contextuado del problema, que da a conocer la
descripción de la problemática y los motivos e intereses que guían a la ejecución del proyecto.
En el segundo, tercer y cuarto capítulo, se esbozan los distintos tópicos que orientan la
comprensión, el alcance y los límites de la experiencia, es decir, todo lo que tiene que ver con los
antecedentes y marco teórico fundamentados sobre los factores que intervienen en el desarrollo de
un algoritmo para detectar eventos sonoros en audios de la vida cotidiana.
El quinto capítulo estará constituido por el marco referencial, en el que se describen las
características de la zona en la que se llevara a cabo el proyecto y el municipio donde está ubicada,
además de las grabaciones de campo, la extracción de características a partir de los descriptores de
audio y la elección de las máquinas con mayor desempeño a la hora de clasificar.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 11
El sexto capítulo estará constituido por la parte metodológica que permitirá hacer la recolección de
la información necesaria y se describirán las técnicas e instrumentos de recolección de los datos o
mediciones.
Finalmente se presentarán los capítulos siete, ocho y nueve, donde se realizará la sistematización
de datos, tabulación e interpretación de la información hasta conclusiones y recomendaciones.
Todo esto hace parte de un concurso llevado a cabo por DCASE en Finlandia. En este caso, el
proyecto se enfoca en la grabación de la base de datos y su posterior clasificación mediante las
máquinas de aprendizaje.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 12
II. PLANTEAMIENTO DEL PROBLEMA
En la actualidad se cuenta con la tecnología para identificar información relevante del sonido a
través de algoritmos diseñados para la identificación en segmentos de interés a partir de la
grabación de una muestra de audio. La gran cantidad de datos e información que tienen dichas
grabaciones conllevan a crear algoritmos que no les demande tanto tiempo para tomar la
información más relevante e identificar dichos sonidos en espacios con fuentes simultáneas. El
análisis de escenas acústicas con gran cantidad de fuentes superpuestas hace más complejo el
problema para la identificación de dichos entornos.
Uno de los principales obstáculos en el ámbito sonoro urbano es la escasez de bases de datos de
audios etiquetados y el estudio de la clasificación de los sonidos en espacios con fuentes
simultáneas. Sin embargo, existen estudios previos de la taxonomía de sonidos urbanos de los
cuales se puede basar el presente proyecto, aplicándolos en los entornos sonoros específicos de la
ciudad de Medellín.
Existen varios descriptores de audio que ayudan a la identificación y clasificación de sonidos en
conjunto en muestras de audio extensas, tanto en el dominio de la frecuencia como en el tiempo; los
cuales permiten identificar qué características tienen en particular en el entorno
sonoro cuatro estaciones del metro de Medellín, zonas residenciales y zonas industriales a partir
de grabaciones realizadas previamente en la ciudad de Medellín, siendo este uno de los
interrogantes que se plantea.
A. Antecedentes
El desarrollo de técnicas que permitan detectar eventos sonoros ha sido un trabajo complejo para
distintos campos de la ciencia. Profesionales de psicología, psicoacústica, ingenieros, entre otros,
han investigado en múltiples campos que permitieron obtener información para detallar la
complejidad del sistema auditivo humano a la hora de describir los eventos sonoros.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 13
En los últimos años, se ha observado un creciente interés por desarrollar sistemas y algoritmos
basados en audio para reconocer entornos sonoros. En el concurso de clasificación de escenas del
desafío IEEE - AASP sobre detección y clasificación de escenas acústicas
y eventos sonoros (DCASE2016), se comparan los entornos para el reconocimiento de escenas
acústicas.
Como se menciona anteriormente, no existía un banco de sonidos de los entornos que se evaluaron
en este proyecto, por lo tanto, se procedió a realizar dichas grabaciones en los entornos
escogidos para lograr una base de datos (de entrenamiento y prueba), con la
cual se aplicaron dichos conocimientos para la clasificación de escenas acústicas.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 14
III. JUSTIFICACIÓN
A medida que el hombre evoluciona e interactúa con su medio, los cambios son evidentes, por
ejemplo, hay una amplia y desbordante producción y uso de tecnologías que aumentan las fuentes
sonoras en los diferentes entornos que afectan el reconocimiento de éstas. Existen diferentes tipos
de ruido ambiental, tales como, tráfico rodado, ruido aéreo, ruido industrial y ruido
comunitario, los cuales sirven para la identificación de los entornos por medio de sus características
particulares. Por esto, se hace necesario el desarrollo de algoritmos que permitan optimizar
procesos de clasificación de estas escenas acústicas.
Este proyecto se llevó a cabo con el propósito de implementar los conocimientos adquiridos a
través de la teoría de los algoritmos de clasificación y descriptores de audio en grabaciones propias
del entorno de la ciudad de Medellín. Se realizaron dichas grabaciones ya que, en la actualidad no
existe un banco de sonidos etiquetados que caractericen los entornos escogidos de esta ciudad en
particular, que son: estaciones del metro (Estadio, Floresta, Santa
Lucía y Suramericana), zona residencial (Barrio Laureles) y zona industrial (Guayabal). Debido a
que el estudio en el ámbito de clasificación de escenas acústicas en
entornos urbanos nacionales es poco, la intención de este proyecto
era enriquecer este, construyendo una base de datos que permitiera lograr el desarrollo del
mismo. La implementación del algoritmo que se realizó quedó abierta a mejoras para obtener un
mayor desempeño a la hora de clasificar dichas escenas u otras, realizar más grabaciones de
entornos diferentes a los implementados en este proyecto para así tener un análisis más completo
de la ciudad de Medellín y que el algoritmo siga su aprendizaje con escenas que
posean características diferentes.
Una aplicación en particular podría ser el reconocimiento de cualquier escena (disponible en la
base de datos) para fines personales o institucionales, a través de grabaciones de audio realizadas
por el usuario, permitiendo a este identificar el posible lugar en el cual se registró dicha grabación.
Además, con una ampliación de la base de datos sería probable reconocer sitios específicos de la
ciudad de Medellín.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 15
IV. OBJETIVOS
A. Objetivo general
Clasificar escenas acústicas en exteriores en la ciudad de Medellín a través de descriptores de audio
y máquinas de aprendizaje.
B. Objetivos específicos
Construir dos bases de datos a partir de grabaciones realizadas en exteriores en la ciudad de
Medellín y de un protocolo de selección.
Clasificar por medio de descriptores de audio las escenas acústicas predefinidas.
Implementar un algoritmo de máquina de aprendizaje para la clasificación de escenas
acústicas seleccionadas de Medellín.
Evaluar el sistema de clasificación de escenas acústicas del algoritmo.
C. Alcances
Con este proyecto se pretende realizar la clasificación de escenas acústicas de estaciones del metro
de Medellín, zonas residenciales y zonas industriales a través de descriptores de audio y algoritmos
de clasificación.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 16
V. MARCO REFERENCIAL
A. Marco teórico
Para poder entender el propósito y objetivo de este proyecto es importante definir varios conceptos,
y así tener una visión clara de su planteamiento. Es importante saber cómo se obtienen los
descriptores de audio que se van a utilizar y cómo funciona la teoría del algoritmo de clasificación.
Para describir un sonido es necesario extraer características propias del mismo, ya sea en el
dominio de la frecuencia o en el tiempo. En la siguiente imagen se muestra un diagrama de bloques
de como son los pasos de un sistema de clasificación de sonidos.
Fig. 1. Sistema de clasificación general de sonidos
Tomado de: [1].
En esta figura:
1. Una etapa de segmentación aísla los sonidos más relevantes del fondo.
2. Una etapa de extracción de características extrae propiedades del sonido que son útiles para la
clasificación (el vector de característica, huella digital). Para la clasificación de sonidos, es vital
que los vectores de características utilizados sean lo suficientemente ricos en información para
describir suficientemente el contenido del sonido.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 17
3. Un clasificador utiliza el vector de entidad de dimensión reducida para asignar el sonido a una
categoría. Los clasificadores de sonido a menudo se basan en modelos estadísticos. Uno de ellos
es el soporte de máquinas de vectores.
1) Aprendizaje automático.
El aprendizaje automático se define según Arthur Samuel como el campo de estudio que dota a las
computadoras con la capacidad y habilidad de aprender sin haber sido programadas para esto, un
programa “aprende” cuando con respecto a alguna tarea, su desempeño mejora a medida que gana
experiencia [2].
El aprendizaje automático se divide en 2 tipos:
a) Aprendizaje no supervisado.
En el aprendizaje no supervisado el modelo es ajustado a las observaciones. Se distingue
del Aprendizaje Supervisado por el hecho de que no hay un conocimiento a priori. En el
aprendizaje no supervisado, un conjunto de datos de objetos de entrada es tratado. Así, el
aprendizaje no supervisado típicamente trata los objetos de entrada como un conjunto
de variables aleatorias, siendo construido un modelo de densidad para el conjunto de datos
[3, p. 1]
b) Aprendizaje supervisado.
En aprendizaje automático y minería de datos, el aprendizaje supervisado es una técnica
para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento
consisten de pares de objetos (normalmente vectores): una componente del par son los datos
de entrada y el otro, los resultados deseados. La salida de la función puede ser un valor
numérico y ya es conocida teniendo una relación de entrada y salida (como en los problemas
de regresión) o una etiqueta de clase (como en los de clasificación) [3, p. 1]
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 18
2) Máquina de soporte de vectores (SVM).
La importancia de SVM en tareas de clasificación es mucha ya que se utiliza para múltiples tareas,
aunque en los últimos años se ha utilizado para la segmentación y clasificación de clips de audios
y en comparación con otros procesos de aprendizaje automático es uno de los más utilizados por
su practicidad y fácil uso.
Estas son unas de las ventajas para usar SVM al momento de implementarlo en clasificación y
segmentación [4]:
• Se dispone de un conjunto de datos de formación que se pueden utilizar para formar un
clasificador.
• Una vez dada la entrada al sistema, el cálculo en un SVM depende de un número normalmente
pequeño de vectores de apoyo y es rápido.
• La distribución de datos de audio en el espacio de funciones es complicada y las diferentes clases
pueden tener áreas superpuestas o entrelazadas en el espacio de funciones. Un SVM basado
en kernel es muy adecuado para manejar tal situación.
En particular para el caso de las Máquinas de soporte de vectores la función que se debe minimizar
es la de la ecuación 1 [4].
min 𝐶 ∑ [𝑦(𝑖)𝑐𝑜𝑠𝑡1(𝜃𝑇𝑥𝑖) + (1 − 𝑦(𝑖))𝑐𝑜𝑠𝑡0(𝜃𝑇𝑥𝑖)]𝑚𝑖=1 +
1
2∑ 𝜃𝑗
2𝑛𝑖=1 (1)
En donde y es el vector con la iesima etiqueta, theta son los parámetros del modelo, x son
las iesimas entradas o los vectores de características con los descriptores de audio y C es un
término de regularización de parámetros.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 19
Fig. 2. Clasificación del algoritmo SVM para 3 clases con diferentes funciones para los márgenes de separación.
Una desventaja del algoritmo SVM es que si el número de características es mucho mayor al
número de muestras, la eficacia es baja y no proporciona estimaciones de probabilidad
directamente.
3) Máquinas de SVM (software Matlab)
Las máquinas SVM tienen buen rendimiento a la hora de predecir, velocidad de ajuste medio, y
pueden tener una buena velocidad de predicción con pocos vectores de soporte [5]. Dos ejemplos
de estas máquinas que basan su funcionamiento usando Kernel son las siguientes:
a) Medium Gaussian
Hace menor cantidad de distinciones que la Fine Gaussian SVM, usando el Kernel de Gauss con
la escala Kernel establecida en sqrt (P)/4, donde P es el número de descriptores [5].
b) Quadratic SVM
Usa el Kernel cuadrático [5].
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 20
4) Ensemble Classifier (Boosted Trees)
Combinan resultados de muchos aprendices débiles en un descriptor de conjunto de alta calidad.
Las cualidades dependen de la elección del algoritmo. Posee una precisión predictiva alta, pero
podría necesitar de algunos ajustes de parámetros. Esta máquina de aprendizaje es de rápida
velocidad de montaje con pocos aprendices 'k'. Su velocidad de predicción es rápida y usa poca
memoria [5].
5) Descriptores de audio.
En la actualidad hay muchos descriptores que se basan en el modelado espectral, como la
frecuencia, los términos temporales y la fase de cada característica espectral parcial o instantánea
de la señal residual que explica la microestructura de un sonido en particular. Cada descriptor en
particular tiene cuatro medidas diferentes: valor instantáneo (una trama), variación instantánea (de
cuadro a marco), valor medio (en un segmento temporal) y varianza (en un segmento temporal),
caracterizando así diferentes aspectos del sonido [4].
a) MFCC (Mel Frecuency Cepstral Coefficient).
Los MFCC son una manera de representar la información espectral en un sonido. Cada coeficiente
tiene un valor para cada segmento (frame) del sonido. Aquí se examinan los cambios dentro de
cada coeficiente a través del rango del sonido. La obtención de los MFCCs implica analizar y
procesar el sonido de acuerdo con los siguientes pasos [6]:
1. Dividir la señal en pequeños fragmentos (frames). La segmentación se realiza mediante la
aplicación de ventanas (ventaneo). Usualmente, estos frames son de 20 a 40 ms dependiendo de
los eventos sonoros a caracterizar, pero considerando que al ser cortos no habrá suficientes
muestras para realizar una correcta estimación del espectro.
2. Obtenga el espectro de amplitud de cada segmento.
3. Tome el registro de estos espectros.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 21
4. Convertir a la escala Mel. Esto se realiza para tener una respuesta similar a la cóclea de los seres
humanos, ya que, es sensible ante los cambios logarítmicos en frecuencia.
5. Aplique la Transformada Discreta de Coseno (DCT). Esto es necesario para obtener la energía
que contribuye a la banda de interés por la superposición de los filtros.
Para pasar de Hz a Mel se usa la ecuación:
𝑀(𝑓) = 1125 𝐿𝑛 (1 +𝑓
700) (2)
Dónde:
f = es la frecuencia en Hz.
M = función que mapea a mel.
Para pasar de mel a Hz se utiliza la siguente ecuación:
𝑀−1(𝑚) = 700 (𝑒𝑚
1125 − 1) (3)
Dónde:
m = es la frecuencia en la escala de mel.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 22
Fig. 3. Relación escala Lineal & Mel.
Tomado de: [7].
Fig. 4. Banco de filtros de Mel.
Tomado de: [7].
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 23
b) Clasificador k-Nearest-Neighbor (k-NN).
Este clasificador se adapta a problemas binarios y de clases múltiples. No requiere una etapa de
entrenamiento. Las muestras destinadas a entrenamiento son utilizadas por el clasificador durante
la etapa de evaluación. Si se proporciona un patrón de evaluación, x, primero se detectan sus k
vecinos más cercanos en el conjunto de entrenamiento y se cuentan el número perteneciente a cada
etiqueta/clase. Por último, el vector de características se asigna a la etiqueta ha acumuló el mayor
número de vecinos [8]. Para que funcione adecuadamente se requiere que:
1. Un conjunto de muestras etiquetadas.
2. Un número entero k≥1
3. Una medida de distancia (disimilitud).
c) Chroma Vector
Es una representación de doce elementos de la energía espectral. Es un descriptor comúnmente
utilizado en aplicaciones relacionadas con música. Se calcula a través del agrupamiento de los
coeficientes DFT de una ventana de corto plazo en doce intervalos. Cada intervalo representa una
de las doce clases de tono equivalente de música de tipo occidental [8].
6) Sensibilidad y Especificidad
“La sensibilidad y Especificidad son medidas estadísticas de la realización de una prueba de
clasificación binaria, también se conocen en las estadísticas como función de clasificación” [9, p.
1552]:
La sensibilidad (también llamada tasa positiva verdadera) mide la proporción de positivos que se
identifican correctamente como tales.
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =𝑉𝑃
𝑉𝑃+𝐹𝑁 (4)
Dónde:
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 24
VP: Verdaderos positivos
FN: Falsos negativos
La especificidad (también llamada tasa negativa verdadera) mide la proporción de negativos que
se identifican correctamente como tales.
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =𝑉𝑁
𝑉𝑁+𝐹𝑃 (5)
Dónde:
VN: Verdaderos negativos
FP: Falsos positivos
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑉𝑃+𝑉𝑁
𝑉𝑃+𝐹𝑃+𝐹𝑁+𝑉𝑁 (6)
Dónde:
VN: Verdaderos negativos
FP: Falsos positivos
VP: Verdaderos positivos
FN: Falsos negativos
7) Estadísticos
El manejo de metadatos es muy extenso para el procesamiento computacional, por lo tanto, existen
estadísticos que nos ayudan a resumir estos metadatos y así tener una información relevante de
estos. Para este proyecto se tuvieron en cuenta tres estadísticos:
Moda: es el número que más se repite.
Media: Es el promedio aritmético del conjunto. Se obtiene mediante la división de la suma de los
datos sobre la cantidad total de datos.
Desviación estándar: Esta indica que tan dispersos están los datos con respecto a la media [10].
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 25
B) Estado del arte
En general se tratan los sonidos según el agente que los produce, sea antropofágico (actividades
del hombre), biofónico (actividad de la flora y fauna) y geofónico (eventos geográficos como
volcanes, cascadas, derrumbes, etc.) [11].
Fig. 5. Taxonomía de Sonidos Urbanos.
Tomado de [11].
Considerando el desarrollo tecnológico alcanzado en los últimos años, la clasificación automática
de sonidos ambientales es un campo creciente en investigación con un sin número de aplicaciones
en la indexación de material multimedia y generación de metadatos y etiquetas automáticas [12].
Sin embargo el estudio de los sonidos en el ámbito urbano es poco, uno de los principales
problemas es la falta de datos etiquetados y que por lo general en el ámbito investigativo la falta
de vocabulario común cuando se trabaja con este tipo de entornos es escasa, esto significa que, la
clasificación de escenas acústicas con fuentes simultáneas puede variar en cada uno de los estudios
independientemente realizados, lo que conllevan a que sus resultados sean difíciles de comparar
[11].
La complejidad de analizar dichos entornos ha despertado el interés de la rama investigativa para
encontrar métodos más eficientes que van desde los enfoques de aprendizaje supervisado y no
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 26
supervisado, siendo el primero el más utilizado debido a su practicidad [12]. La segunda entrega
de DCASE [13], que ocurrió en 2016, ofrece una oportunidad para comparar enfoques en un
conjunto de bases de datos público. Esta edición incluye cuatro tareas diferentes: clasificación de
escenas acústicas, detección de eventos sonoros - real y sintética. La eficiencia de dichos métodos
implementados a algoritmos de clasificación ha ido mejorando a tal punto de tal y como se muestra
en el proyecto [12] que se centra en la clasificación de voz, la eficiencia de dicho algoritmo
partiendo de bases de datos de del DCASE es de un 81,4%, siendo este un porcentaje
considerablemente bueno para la clasificación.
Por otro lado existen diversos métodos para enfocarse en el ámbito de identificación de sonoros en
el entorno urbano tal y como se muestra en [13] ya que lo aplican a “estaciones de metro”, “Playa”
y “Bus” siendo estas tres complejas ya que se encuentran en un entorno con fuentes simultaneas,
aplicando CNN (Convolutional Neural Network), CQT (Constant-
Q Transform) y MFCCs (Mel Frecuency Cepstral Coefficient), obteniendo un 80,25% de
efectividad con el CQT.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 27
VI. DISEÑO METODOLÓGICO
A. Enfoque de Investigación
Esta investigación se apoyó en los parámetros de la investigación Empírico-analítica, ya que
permitió encontrar resultados producto de la experiencia, revelando relaciones esenciales y las
características fundamentales del objeto de estudio, como en este caso, permitió desarrollar un
sistema de reconocimiento a partir de archivos de audio, implementando el procesamiento digital
de señales, comprometiendo así, estudio teórico práctico de conceptos, procesos y análisis de
datos.
B. Línea de Investigación
Teniendo en cuenta la línea de investigación de la universidad San Buenaventura para el programa
de Ingeniería de Sonido, que es la de Acústica y Procesamiento Digital de señales, se
pretendía que el proyecto estuviera enmarcado en la misma, para que a través de ella se
le pudiera brindar al usuario una herramienta que le pudiera ser útil incluso en otras aplicaciones.
C. Técnicas de recolección de información
Proporciona el conocimiento de las ya existentes: teorías, hipótesis, experimentos, resultados,
instrumentos y técnicas usadas acerca del tema o problema de investigación que se trata de resolver
aquí, es por ello que, libros, tesis, revistas técnicas y páginas web, son de vital importancia para la
realización de la misma.
D. Procedimiento
1) Descripciónn General
La realización de este proyecto se divide el trabajo en cuatro etapas que son: obtención de la base
de datos a partir de grabaciones ejecutadas en las distintas escenas acústicas planteadas, extracción
de los descriptores de audio, entrenamiento del algoritmo de clasificación y por último la
evaluación del mismo.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 28
Fig. 6. Diagrama de bloques de entrenamiento y evaluación de la máquina de aprendizaje.
2) Grabaciones en campo
El enfoque de este proyecto es registrar una base de datos de escenas acústicas en exteriores, las
cuales son: estaciones del metro, zona residencial y zona industrial. Teniendo en cuenta que cada
escena acústica está conformada por diversos eventos sonoros que permiten su
identificación, fue importante realizar numerosas grabaciones en distintos horarios, las cuales
permitieron tener mayor información sobre cada escena y así se pudo identificar correctamente los
eventos particulares de cada una.
Fue necesario identificar los horarios con mayor frecuencia de los eventos sonoros de cada escena
acústica y así obtener mayor información que posibilitara el entrenamiento óptimo del algoritmo
de clasificación.
En cada uno de los entornos se realizaron 8 grabaciones de 5 minutos en 2 horarios diferentes del
día (4 en la mañana y 4 en la tarde) y se tuvo en cuenta dejar
un intervalo de aproximadamente 10 minutos entre cada una de
las grabaciones, para obtener mayor variabilidad acústica del entorno. Estas grabaciones
se realizaron con base en la ISO 1996-2 [14] que indica los parámetros para la medición de ruido
ambiental.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 29
Se ubicó el micrófono de medición a una altura de 2 m del suelo y a 3.5 m de superficies
reflejantes, para la selección del punto de grabación se tuvo en cuenta:
Zona residencial: se ubicó el micrófono en esquinas teniendo en cuenta que fuera un punto
con un mayor número de fuentes características de la escena acústica. En este caso se
capturaron fuentes tales como canto de las aves, flujo vehicular, pasos de personas,
maquinaria de construcción, herramientas de jardinería, cierre de rejas, llaves.
Fig. 7. Puntos de mediciones en zona residencial en el barrio Laureles, Medellín (A = Punto 1, B = Punto 2, C =
Punto 3 y D = Punto 4)
Zona industrial: se ubicó el micrófono en andenes cerca a las industrias que generaban
fuentes sonoras de interés de la escena acústica. En este caso se capturaron fuentes tales
como alto flujo de vehículos pesados, maquinaria industrial
(comportamiento constantemente en la grabación), compresión de aire
(maquinaria) e impacto de herramientas metálicas.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 30
Fig. 8. Puntos de medición zona Industrial (A = Zona Industrial Guayabal, Leonisa; B = Zona industrial Guayabal,
Gonvarri ; C = Zona Industrial Guayabal, Golpeautos)
Estaciones de metro: se ubicó el micrófono cerca de la entrada de las estaciones del metro,
ya que facilitaba la captura del sonido de los vagones con los rieles. En algunos casos se
veía afectada la captura de esta por el alto flujo vehicular. Por otro
lado, existían fuentes características de esta escena como son el tránsito de bicicletas y la
voz humana (alto flujo peatonal).
Fig. 9. Puntos de medición Estaciones de Metro (A = Estación Estadio; B = Estación Floresta; C = Estación
Floresta; D = Estación Suramericana).
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 31
3) Instrumentación de grabación.
Se utilizó un micrófono de medición DBX RTA-M, cable XLR,
base para micrófono proel y una Grabadora Zoom H4 para la captura del audio. El micrófono
RTA-M, es un micrófono omnidireccional de medición de frecuencia plana, especialmente
diseñado para captar frecuencias desde 20 hasta 20 kHz. Se ejecuta mediante
alimentación phantom.
Se registraron grabaciones Mono y fueron configuradas a una frecuencia de muestreo de 44.100
HZ, a 24 bits. Se configuró la grabadora Zoom con un input Gain en High y se tuvo en cuenta un
nivel de entrada de 122 dB, el cual se consideró un punto óptimo para que la grabadora no saturara
y capturara con una buena ganancia el ambiente sonoro.
4) Anotación de los eventos
Para el entrenamiento del algoritmo de clasificación se anotaron los diversos eventos sonoros de
las grabaciones realizadas; esto se tuvo en cuenta como ejercicio práctico para saber cuáles eran
las fuentes características de cada una de las escenas durante el tiempo de grabación, las cuales se
etiquetaron en 3 clases diferentes (Estaciones de metro, zonas residenciales y zonas industriales).
5) Extracción de características
Se organizaron los audios en carpetas con nombres correspondiente de cada una de las escenas
para formar matrices y así formar el banco de entrenamiento y cargarlo en el algoritmo como se
muestra en el siguiente código:
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 32
Posteriormente, para la extracción de los descriptores se obtuvo una librería (Ver anexos), la cual
se modificó para implementarla en la clasificación de los audios de este proyecto. El algoritmo
contiene una función que extrae la DFT (‘getDFT’) de cada una de las muestras y esta es utilizada
por dos funciones más que realizan la clasificación de características a término medio
(‘mtFeatureExtraction’) y término corto (‘stFeatureExtraction’), y tiene en cuenta los estadísticos
de interés que proporcione el usuario. Para este caso consideramos la desviación estándar (‘sdt’) y
la media (‘mean’). A partir del ventaneo a corto plazo, el código genera una matriz que contiene
todos los vectores característicos a corto plazo y estos son utilizados para obtención de las
características a término medio considerando los estadísticos proporcionados [8].
El tiempo escogido para el ventaneo a término medio fue de 60 segundos con pasos de 30, esto se
hizo con el propósito de simular el tiempo que se demora un humano promedio para identificar
una escena acústica. También se tomó un ventaneo a término corto de 40 ms con pasos de 20 ms,
esto con el propósito de ver el comportamiento de la señal y los cambios de energía a corto
plazo que tenían los descriptores de interés; todo lo anterior se evidencia en el siguiente segmento
del código:
Eventualmente, después de la extracción de descriptores se procedió a organizar las características
de los audios en tres matrices diferentes pertenecientes a cada una de las escenas acústicas. Se hizo
una transposición para organizar estas características de la siguiente forma:
Filas: Contienen la información de cada una de los segmentos de los audios pertenecientes a las
escenas acústicas.
Columnas: Contiene la información de cada descriptor implementado en cada una de las muestras
audio, teniendo en cuenta que de la columna 1 a la 35 pertenecen a valores de la media (‘mean’),
y de la columna 36 hasta la 70 corresponden a valores de la desviación estándar (‘std’).
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 33
Al final se creó una matriz X que contiene la matriz_i, matriz_m y matriz_r concatenadas,
considerando que la última columna corresponde a las tres etiquetas:
Etiqueta 1: Zona industrial.
Etiqueta 2: Zona residencial.
Etiqueta 3: Estación de metro.
El programa permite la extracción de las características tanto en el dominio del tiempo como en el
de la frecuencia. Los descriptores que contiene el código se pueden observar en la
función stFeatureExtraction (Ver anexos). Teniendo en cuenta todo lo anterior se elaboró un
segmento del programa donde a partir de la matriz X se obtuvo una matriz X2 con las características
de los audios y un vector Y que corresponde a las etiquetas. Luego, el algoritmo devuelve los
rangos y pesos de los descriptores para la matriz de datos de entrada X2 y el vector de respuesta Y,
usando la función Relief-F con k vecinos más cercanos.
Se define k como el número de vecinos más cercanos, especificado como un escalar entero positivo.
En este caso, se tomó k con un valor de 10 ya que es donde se estabiliza los valores de los pesos.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 34
A partir de los pesos y rangos entregados por la función Relief-F se elaboró una matriz ‘x_final’
que contiene los descriptores de interés para pasar al entrenamiento del algoritmo.
6) Entrenamiento del algoritmo
Para implementar la máquina de aprendizaje se consideró tomar los cinco descriptores con el mayor
peso que se obtuvo de la función ReliefF (Figura 10).
Fig. 10. Gráfica de descriptores según su porcentaje de efectividad para clasificar (ver anexos tabla 16).
Los descriptores seleccionados fueron: 9, 12, 18, 63 y 28 (Ver Anexos código), de los cuales los
tres primeros corresponden al tipo MFCC y los dos siguientes a Chroma Vector. Posteriormente se
exportaron dos modelos correspondientes a SVM, estos basan su funcionamiento en Quadratic y
Medium Gaussiam. Además, se implementó otra máquina del tipo Ensemble Classifier, llamada
Boosted Tree en la cual se tuvo en cuenta la implementación de diez Nearest Neighbors (Vecinos
más cercanos). Ambas máquinas de SVM tuvieron un rendimiento similar entre ellas y un Accuracy
por encima de la otra máquina de aprendizaje.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 35
Para analizar el rendimiento de cada una de las máquinas se exportaron matrices de confusión
donde se observa el porcentaje de eficiencia con el cual se clasifica cada una de las muestras de las
escenas, las cuales se muestran a continuación:
Fig. 11. Matriz de confusión de Quadratic SVM.
Fig. 12. Matriz de confusión de Mediun Gaussiam SVM.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 36
Fig. 13. Matriz de confusión de Boosted Tree.
7) Evaluación del algoritmo
Para la evaluación del algoritmo se elaboró un código (‘evaluación’) el cual extrae las
características de la base de datos de evaluación, teniendo en cuenta que el ventaneo a corto y
mediano plazo fuera el mismo que se utilizó para el entrenamiento de la máquina. Luego con la
función yfit () se obtuvo una matriz ‘pred’ con la clasificación de cada una de las muestras de la
base de datos de evaluación. Este procedimiento se hizo para 3 máquinas de aprendizaje las cuales
fueron Quadratic SVM, Medium Gaussiam SVM y Boosted Trees que facilita el software Matlab,
lo anterior se puede observar en el siguiente código:
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 37
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 38
VII. RESULTADOS
Teniendo en cuenta la matriz de confusión de Quadratic SVM (Figura 11), calculamos la
sensibilidad y la especificidad de la máquina de aprendizaje.
Cálculo para la etiqueta 1 que corresponde a Zona Industrial:
TABLA 1. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 QUADRATIC SVM.
Verdaderos Falsos
Verdadero 102 0
Falso 1 217
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =102
102+217= 0,31 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =0
0+1= 0 (5)
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =102+0
102+0+1+217= 0,31 (6)
Cálculo para la etiqueta 2 que corresponde a Zona Residencial:
TABLA 2.MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 QUADRATIC SVM.
Verdaderos Falsos
Verdadero 109 0
Falso 0 211
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 39
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =109
109+211= 0,34 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =0
0+0= 0 (5)
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =109+0
109+0+0+211= 0,34 (6)
Cálculo para la etiqueta 3 que corresponde a Estaciones de metro:
TABLA 3. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 QUADRATIC SVM.
Verdaderos Falsos
Verdadero 108 0
Falso 1 211
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =108
108+211= 0,33 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =0
0+1= 0 (5)
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 40
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =108
108+1+211= 0,33 (6)
Posteriormente se realizó una tabla (Tabla 4) teniendo en cuenta los resultados de sensibilidad y
especificidad obtenidos anteriormente comparándolos con el Accuracy que nos entregó el software
Matlab al momento de hacer el entrenamiento de la máquina de aprendizaje:
TABLA 4.TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y ACCURACY PARA
QUADRATIC SVM.
Especificidad Sensibilidad Accuracy % Accuracy cal %
Zona industrial 0 0,31 100 0,31
Zona residencial 0 0.34 100 0,34
Estaciones de metro 0 0,33 99,1 0,33
Promedio Total 0 0,32 99,7 0,32
Ulteriormente se implementó otra máquina basada en el método de Medium Gaussiam SVM del
software Matlab y teniendo en cuenta la matriz de confusión de Medium Gaussiam SVM (Figura
12), calculamos la sensibilidad y la especificidad de la máquina de aprendizaje.
Cálculo para la etiqueta 1 que corresponde a Zona Industrial:
TABLA 5. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 MEDIUM GAUSSIAM SVM.
Verdaderos Falsos
Verdadero 101 1
Falso 1 217
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =101
101+217= 0,31 (4)
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 41
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =1
1+1= 0,5 (5)
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =101+1
101+1++1+217= 0,31 (6)
Cálculo para la etiqueta 2 que corresponde a Zona Residencial:
TABLA 6. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 MEDIUM GAUSSIAM SVM.
Verdaderos Falsos
Verdadero 109 0
Falso 0 211
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =109
109+211= 0,34 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =0
0+0= 0 (5)
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =109+0
109+0+0+211= 0,34 (6)
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 42
Cálculo para la etiqueta 3 que corresponde a Estaciones de metro:
TABLA 7. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 MEDIUM GAUSSIAM SVM.
Verdaderos Falsos
Verdadero 108 1
Falso 1 210
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =108
108+210= 0,33 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =1
1+1= 0,5 (5)
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =108+1
108+1+1+210= 0,34 (6)
Posteriormente se realizó una tabla (Tabla 8) teniendo en cuenta los resultados de sensibilidad y
especificidad obtenidos anteriormente comparándolos con el Accuracy que nos entregó el software
Matlab al momento de hacer el entrenamiento de la máquina de aprendizaje:
TABLA 8. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y ACCURACY PARA
MEDIUM GAUSSIAM SVM.
Especificidad Sensibilidad Accuracy % Accuracy cal %
Zona industrial 0,5 0,31 99 0,31
Zona residencial 0 0.34 100 0,34
Estaciones de metro 0,5 0,33 99,1 0,34
Promedio Total 0,66 0,32 99,3 0,33
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 43
Teniendo en cuenta la matriz de confusión de Boosted Tree (Figura 13), calculamos la sensibilidad
y la especificidad de la máquina de aprendizaje.
Cálculo para la etiqueta 1 que corresponde a Zona Industrial:
TABLA 9. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 BOOSTED TREE.
Verdaderos Falsos
Verdadero 101 1
Falso 8 210
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =101
101+210= 0,32 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =1
1+8= 0,11 (5)
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =101+1
101+8+1+210= 0,31 (6)
Cálculo para la etiqueta 2 que corresponde a Zona Residencial:
TABLA 10. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 BOOSTED TREE.
Verdaderos Falsos
Verdadero 108 1
Falso 3 208
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 44
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =108
108+208= 0,34 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =1
1+3= 0,25 (5)
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =108+1
101+3+1+208= 0,34 (6)
Cálculo para la etiqueta 3 que corresponde a Estaciones de metro:
TABLA 11. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 BOOSTED TREE.
Verdaderos Falsos
Verdadero 98 11
Falso 2 209
Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =98
98+209= 0,31 (4)
Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =11
11+2= 0,84 (5)
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 45
Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =98+11
98+11+2+209= 0,34 (6)
Posteriormente se realizó una tabla (Tabla 12) teniendo en cuenta los resultados de sensibilidad y
especificidad obtenidos anteriormente comparándolos con el Accuracy que nos entregó el software
Matlab al momento de hacer el entrenamiento de la máquina de aprendizaje:
TABLA 12. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y ACCURACY PARA
BOOSTED TREE.
Especificidad Sensibilidad Accuracy % Accuracy cal %
Zona industrial 0,11 0,32 99 0,31
Zona residencial 0,25 0.34 99,1 0,34
Estaciones de metro 0,84 0,31 89,9 0,34
Promedio Total 0,4 0,32 99,7 0,33
Para la clasificación de los audios de la base de datos de evaluación se utilizó la función
‘evaluación’, esta arrojó un vector de características con las etiquetas y clasificación de cada uno
de los segmentos del audio (Columna 1); el nombre del audio (Columna 2) teniendo en cuenta que:
los audios EM corresponde a Estaciones de Metro, EI a Zona Industrial y ER Zona Residencial;
por último, la clasificación que resulta de la máquina de aprendizaje por medio de la moda del
vector de etiquetas de la columna 1 (Columna 3). (Esto aplica para las figuras 14, 15 y 16).
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 46
Fig. 14. Resultados de la clasificación de los audios de evaluación por medio de la maquina Mediun Gaussian
SVM.
En la figura anterior se observa la clasificación de los audios de la base de datos de evaluación
mediante la máquina de aprendizaje Mediun Gaussian, la cual obtuvo un 72,22% de efectividad
identificando la escena perteneciente de cada audio.
TABLA 13. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA MEDIUN GAUSSIAN SVM EN EL
PROCESO DE EVALUACIÓN
Número de audios clasificados correctamente 13
Número de audios clasificados incorrectamente 5
Total audios 18
Porcentaje de efectividad % 72,22
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 47
Fig. 15. Resultados de la clasificación de los audios de evaluación por medio de la maquina Quadratic SVM.
En la figura anterior se observa la clasificación de los audios de la base de datos de evaluación
mediante la máquina de aprendizaje Quadratic SVM, la cual obtuvo un 72,22% de efectividad
identificando la escena perteneciente de cada audio.
TABLA 14. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA QUADRATIC SVM EN EL PROCESO DE
EVALUACIÓN
Número de audios clasificados correctamente 13
Número de audios clasificados incorrectamente 5
Total audios 18
Porcentaje de efectividad % 72,22
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 48
Fig. 16. Resultados de la clasificación de los audios de evaluación por medio de la maquina Boosted Trees.
En la figura anterior se observa la clasificación de los audios de la base de datos de evaluación
mediante la máquina de aprendizaje Boosted Trees. la cual obtuvo un 55,55% de efectividad
identificando la escena perteneciente de cada audio.
TABLA 15. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA BOOSTED TREES EN EL PROCESO DE
EVALUACIÓN
Número de audios clasificados correctamente 10
Número de audios clasificados incorrectamente 8
Total audios 18
Porcentaje de efectividad % 55,5
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 49
VIII. ANÁLISIS DE RESULTADOS
Luego de la implementación de las máquinas de aprendizaje y la obtención de los resultados en
tablas, se analizaron sus rendimientos y las razones por las cuales presentaron cierto margen de
error a la hora de identificar las escenas acústicas.
Máquina 1. Mediun Gaussian
Para el caso de la máquina Mediun Gaussian se observó que en el audio E1M-001 (Figura 14), el
vector de etiquetas identificó el primer minuto correctamente, esto debido a que a partir del segundo
35 (aproximadamente) del audio se escucha el paso del metro que es un sonido relevante para la
caracterización de esta escena (Figura 17); luego, caracteriza al audio como si perteneciera a zona
industrial, ya que contiene un mayor número de fuentes vehiculares y esto confunde al programa
dado que en la escena industrial hay un alto flujo de estos.
Debido a que la etiqueta 1 es la moda del vector de etiquetas del algoritmo esta lo clasifica como
industrial.
Fig. 17. Audio E1M-001.
Por otra parte, en el caso de los audios E4M que fueron clasificados de forma incorrecta por la
máquina, se determinó que este error se debe al contenido de alta frecuencia del canto de aves y
frenado de vehículos, estos dos eventos sonoros son característicos del tipo de zona residencial.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 50
Considerando los valores calculados de Especificidad (50%) y Sensibilidad (33%) de la máquina
en la etiqueta 3 la cual corresponde a estaciones de metro, se puede observar que esta posee bajo
desempeño identificando las muestras positivas que son de esta etiqueta debido a la sensibilidad.
Máquina 2. Quadratic SVM
La evaluación de esta máquina de aprendizaje tuvo un comportamiento similar a Medium Gaussian.
Los errores que presentó al momento de clasificar los segmentos fueron similares, esto se debe a
que ambas basan su funcionamiento en SVM. Los audios que clasificó incorrectamente fueron los
mismos en ambas máquinas de aprendizaje. Sin embargo, en el caso de los audios E4M esta
máquina no etiquetó ningún segmento de la escena como ‘Estaciones de metro’ (figura), cuando
estas pertenecen a esta etiqueta.
Basado en la especificidad (0%), sensibilidad (33%) y el Accuracy (99,1%) entregado por Matlab
de la máquina en la etiqueta tres que corresponde a estaciones de metro, se observa que la maquina
no es muy eficaz identificando este tipo de etiquetas en comparación con las otras dos.
Máquina 3. Boosted Trees
En el caso de esta máquina tuvo una efectividad del 55,5% lo cual es baja en comparación con las
máquinas basadas en SVM.
En el entrenamiento de la máquina, los audios de zona industrial presentaban mucho contenido en
baja frecuencia debido al sonido constate de máquinas industriales, por lo tanto la máquina de
aprendizaje logró caracterizar estos eventos. Esto se ve evidenciado en la correcta clasificación de
los audios de zona industrial en la base de datos de evaluación, ya que presentan eventos similares.
Sin embargo, tres de los audios de E4R los clasificó como industrial, dado que en estas grabaciones
se presenta un alto contenido en baja frecuencia pero es debido al alto flujo vehicular, lo cual
confunde a la máquina de aprendizaje.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 51
IX. CONCLUSIONES
El hecho de grabar en exteriores hace aún más complejo el problema debido a la presencia de
fuentes simultaneas. La presencia de estas fuentes similares entre las grabaciones, provocan mayor
dificultad a la hora de identificar cada una de las escenas acústicas, puesto que, en ocasiones las
fuentes características de las mismas se ven afectadas por enmascaramiento con otras fuentes
alternas.
Los algoritmos basados en SVM son eficaces para la predicción de las escenas, sin embargo en el
caso de Quadratic SVM implementado en este proyecto, se observó que no es óptimo para clasificar
la etiqueta tres correspondiente a ‘Estaciones de metro’. Una posible solución a este problema
puede ser reajustando los parámetros de la máquina a la hora de hacer el entrenamiento de la misma,
ya sea cambiando el ventaneo a término medio y corto o tomando un mayor número de descriptores.
Sin embargo, para este caso se tomaron cinco descriptores los cuales poseen los mayores pesos
dados por la función ReliefF y los otros descriptores están por debajo del 50 % de efectividad a la
hora de caracterizar las muestras de entrenamiento.
Los descriptores MFCC proporcionados por el algoritmo ReliefF en conjunto con los algoritmos
SVM fueron efectivos a la hora de realizar la clasificación de la base de datos de evaluación,
permitiendo obtener tasas de reconocimiento buenas del 72 %.
Por otro lado, implementar un mayor número de grabaciones en la etapa de entrenamiento
permitiría que la máquina tenga más datos de los cuales basarse para la clasificación de las escenas,
esto conlleva a tener un mayor número de información y por ende a una mejor caracterización de
cada uno de los entornos.
La observación de los audios y etiquetas después de la clasificación de la máquina nos ayudan a
identificar y detectar errores los cuales se pueden solucionar haciendo reajustes de la máquina, sin
embargo, hay que tener en cuenta evitar el sobreajuste de la máquina ya que puede que no mejore
su validez predictiva.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 52
REFERENCIAS
[1] K. Hyoung-Gook, N. Moreau y T. Sikora, MPEG-7 Audio and Beyond Audio Content
Indexing and Retrieval, Primera ed., Berlín: John Wiley & Sons, Ltd, 2005.
[2] D. W. Thomas y B. R. Wilkins, "The analysis of vehicle sounds for recognition" Pattern
Recognition, 1 ed., vol. 4, Southampton: Elsevier, 1972, pp. 379-389.
[3] Advanced Tech Computing Group, 14 Abril 2008. [En línea]. Available:
http://bit.ly/2C60wqo.
[4] P. Herrera, X. Serra y G. Peters, «Audio Descriptors and Descriptor Schemes in the Context
of MPEG-7,» Proceedings Of The ICMC99.
[5] Mathworks, MATLAB, 2015.
[6] R. Loughran, J. Walker, M. O'Neill y M. O'Farrell, «"The Use of Mel Frequency Cepstral
Coefficients in Musical Instrument Identification",» Limerik, 2008.
[7] P. Pertila, «Mel-frequency cepstral coefficients (MFCCs) and gammatone filter banks
Introduction,» TUT, 2015.
[8] T. Giannakopoulos y A. Pikrakis, Introduction to Audio Analysis. A MATLAB Approach
Academic Press, Primera ed., Oxford: Elsevier, 2014, pp. 59-180.
[9] D. G. Altman y J. M. Bland, 11 Junio 1994. [En línea]. Available: http://bit.ly/2QJvm0n.
[10] J. Devore, "Probabilidad y Estadística para Ingeniería y Ciencias", Séptima ed., vol. I, Ciudad
de Mexico: Cengage Learning, 2008, pp. 254-281.
[11] J. Salamon, C. Jacoby y J. P. Bello, «A Dataset and Taxonomy for Urban Sound Research,»
Proceedings of the 2014 ACM Conference on Multimedia, vol. 3, pp. 1041-1044, 2014.
[12] AENOR, «ISO 1996-1: Descripción, medición y evaluación del ruido ambiental,» 2005.
[13] A. Mesaros, T. Heittola y T. Virtanen, «TUT database for acoustic scene classification and
sound event detection,» 18th European Signal Processing Conference, pp. 1267-1271, 2016.
[14] AENOR, «UNE-ISO 1996-2: Descripción, medición y evaluación del ruido ambiental.
Determinación de los niveles de ruido ambiental",» 2009.
[15] Brüel & Kjaer, «Sound & Vibration Measurement A/S,» 2000.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 53
[16] A. Das, N. Borisov y M. Caesar, «"Do You Hear What I Hear?: Finger Printing Smart
Devices Through Embedded Acoustic Components",» CCS'14 Proceedings of the 2014 ACM
SIGSAC Conference on Computer and Communications Security, pp. 441-452, 2016.
[17] E. Marchi , D. Tonelli, X. Xu, F. Ringeval, J. Deng , S. Squartini y B. Schuller, «Pairwise
Decomposition with Deep Neural Networks and Multiscale Kernel Subspace Learning for
Acoustic Scene Classification,» Budapest, 2016.
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 54
ANEXOS
TABLA 16. DESCRIPTORES SEGÚN SU PORCENTAJE DE EFECTIVIDAD PARA CLASIFICAR.
Descriptores Weights
%
9 100
12 77,11
18 62,33
63 49,25
28 49
13 44,69
19 44,48
45 39,01
16 34,38
10 33,97
44 32,38
5 29,46
15 28,1
22 27,55
47 25,66
6 25,55
58 25,48
17 24,68
31 23,21
46 21,69
38 19,44
62 19,43
60 17,08
23 17,07
27 16,74
68 16,21
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 55
20 15,76
64 14,6
66 13,45
33 13,21
29 13,09
14 13,03
35 12,84
8 12,43
40 11,65
53 11,51
21 11,38
50 11,22
11 10,58
32 10,57
34 10,1
49 9,54
41 8,682
24 6,59
2 6,45
65 6
7 5,55
1 4,78
54 4,59
3 4,54
59 3,61
4 3,11
36 2,73
67 2,5
42 2,44
55 2
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 56
57 1,99
51 1,93
39 1,09
30 0,77
25 0,25
69 -0,72
43 -1,44
56 -1,84
48 -1,89
26 -2,69
61 -3,38
52 -7,43
37 -7,46
70 -8,74
Código para cargar audios a partir de la ruta de un directorio función ‘cargar’:
Código que retorna una matriz con los vectores de características del ventaneo a mediano, a corto
plazo y los centros representantes para cada ventana a término medio (seg), Función
‘featureExtractionFile’:
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 57
Código para extraer los descriptores con ventaneo a corto plazo función ‘stExtractionFile’:
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 58
Código para extraer los descriptores con ventaneo a mediano plazo función ‘mtFeatureExtraction’:
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 59
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 60
Fig. 18. Especificaciones de los puntos de grabación y fuentes características (Zona residencial).
Fig. 19. Especificaciones de los puntos de grabación y fuentes (Zona Industrial).
CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 61
Fig. 20. Especificaciones de los puntos de grabación y fuentes escenas (Zona Estaciones de metro).