Clasificación de escenas acústicas a través de ...

Clasificación de escenas acústicas a través de descriptores de audio y máquinas de aprendizaje.

Aplicación en escenas de Medellín.

Carlos Andrés Chica Osorio, [email protected]

Dudley Yurgaky Valoyes, [email protected]

Trabajo de Grado presentado para optar al título de Ingeniero de Sonido

Asesor: Jonathan Ochoa Villegas, Magíster (MSc) en Geoinformática.

Universidad de San Buenaventura Colombia

Facultad de Ingenierías

Ingeniería de Sonido

Medellín, Colombia

2019

Citar/How to cite [1]

Referencia/Reference

Estilo/Style:

IEEE (2014)

[1] C. A. Chica Osorio, y D. Yurgaky Valoyes, “Clasificación de escenas acústicas

a través de descriptores de audio y máquinas de aprendizaje. Aplicación en

escenas de Medellín”, Tesis Ingeniería de Sonido, Universidad de San

Buenaventura Medellín, Facultad de Ingenierías, 2019.

Bibliotecas Universidad de San Buenaventura

Biblioteca Fray Alberto Montealegre OFM - Bogotá.

Biblioteca Fray Arturo Calle Restrepo OFM - Medellín, Bello, Armenia, Ibagué.

Departamento de Biblioteca - Cali.

Biblioteca Central Fray Antonio de Marchena – Cartagena.

Universidad de San Buenaventura Colombia

Universidad de San Buenaventura Colombia - http://www.usb.edu.co/

Bogotá - http://www.usbbog.edu.co

Medellín - http://www.usbmed.edu.co

Cali - http://www.usbcali.edu.co

Cartagena - http://www.usbctg.edu.co

Editorial Bonaventuriana - http://www.editorialbonaventuriana.usb.edu.co/

Revistas - http://revistas.usb.edu.co/

Biblioteca Digital (Repositorio)

http://bibliotecadigital.usb.edu.co

https://co.creativecommons.org/?page_id=13

https://co.creativecommons.org/?page_id=13

Agradecimientos

“Cuando uno sueña intensamente, el universo entero conspira para hacerlo realidad”.

Paulo Coelho

Antes que nada, queremos agradecer a Dios, por brindarnos la oportunidad de cumplir este sueño

y regalarnos la fortaleza necesaria para seguir adelante, pese a todas las dificultades encontradas

en el camino.

El presente proyecto de grado es el resultado de un gran esfuerzo y uno de los retos más grandes a

los que nos hemos tenido que enfrentar, por lo que resulta difícil resumir en unas cuantas líneas el

agradecimiento que tenemos a tanta gente que nos ayudó a lograr esta meta; pero no por ello

dejaremos de expresar nuestros más sinceros agradecimientos a nuestro jefe de programa quien a

su vez fue nuestro asesor de trabajo de grado, Ing. Jonathan Ochoa Villegas. Su dedicación, apoyo,

trabajo y calidad humana, nos han motivado para no desfallecer en esta tarea y lograr finalizar el

proyecto. No menor agradecimiento tenemos para nuestro coasesor el Dr. Juan Pablo Ugarte, que

con su disciplina y sólidos conocimientos fue un pilar importante para la culminación de este

proyecto, y al Ing. José Omar Giraldo Valencia por compartir sus conocimientos sobre aprendizaje

automático de manera desinteresada.

También agradecemos a los docentes quienes nos brindaron las bases necesarias para realizar este

proyecto. Por otro lado, se le agradece administrativos, compañeros y operativos de la universidad,

simplemente, gracias.

De manera más personal, y desde un punto de vista más cercano, agradecemos a nuestras familias,

novias, y a nuestros amigos, que se convirtieron en la principal motivación para no desfallecer,

gracias por su apoyo, amor y compañía incondicional, ello facilito el cumplimiento de nuestra tarea.

TABLA DE CONTENIDO

RESUMEN ....................................................................................................................................... 8

ABSTRACT ..................................................................................................................................... 9

I. INTRODUCCIÓN .................................................................................................................. 10

II. PLANTEAMIENTO DEL PROBLEMA........................................................................... 12

A. Antecedentes ...................................................................................................................... 12

III. JUSTIFICACIÓN ............................................................................................................... 14

IV. OBJETIVOS ....................................................................................................................... 15

A. Objetivo general ................................................................................................................. 15

B. Objetivos específicos .......................................................................................................... 15

C. Alcances ............................................................................................................................. 15

V. MARCO REFERENCIAL ................................................................................................. 16

A. Marco teórico ..................................................................................................................... 16

1) Aprendizaje automático. .................................................................................................. 17

a) Aprendizaje no supervisado. .................................................................................... 17

b) Aprendizaje supervisado. ......................................................................................... 17

2) Máquina de soporte de vectores (SVM). ......................................................................... 18

3) Máquinas de SVM (software Matlab) ............................................................................. 19

a) Medium Gaussian ..................................................................................................... 19

b) Quadratic SVM ........................................................................................................ 19

4) Ensemble Classifier (Boosted Trees) .............................................................................. 20

5) Descriptores de audio. ..................................................................................................... 20

a) MFCC (Mel Frecuency Cepstral Coefficient). ......................................................... 20

b) Clasificador k-Nearest-Neighbor (k-NN). ................................................................ 23

c) Chroma Vector ......................................................................................................... 23

6) Sensibilidad y Especificidad ............................................................................................ 23

7) Estadísticos ...................................................................................................................... 24

B) Estado del arte ....................................................................................................................... 25

VI. DISEÑO METODOLÓGICO .................................................................................................. 27

A. Enfoque de Investigación ................................................................................................... 27

B. Línea de Investigación ....................................................................................................... 27

C. Técnicas de recolección de información ............................................................................ 27

D. Procedimiento ..................................................................................................................... 27

1) Descripciónn General ...................................................................................................... 27

2) Grabaciones en campo ..................................................................................................... 28

3) Instrumentación de grabación. ......................................................................................... 31

4) Anotación de los eventos ................................................................................................. 31

5) Extracción de características ........................................................................................... 31

6) Entrenamiento del algoritmo ........................................................................................... 34

7) Evaluación del algoritmo ................................................................................................. 36

VII. RESULTADOS .................................................................................................................. 38

VIII. ANÁLISIS DE RESULTADOS ........................................................................................ 49

IX. CONCLUSIONES ............................................................................................................. 51

REFERENCIAS ............................................................................................................................. 52

LISTA DE TABLAS

TABLA 1. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 QUADRATIC SVM. ........... 38

TABLA 2.MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 QUADRATIC SVM. ............ 38

TABLA 3. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 QUADRATIC SVM. ........... 39

TABLA 4.TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y

ACCURACY PARA QUADRATIC SVM. ................................................................................... 40

TABLA 5. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 MEDIUM GAUSSIAM SVM.

........................................................................................................................................................ 40


........................................................................................................................................................ 41


........................................................................................................................................................ 42

TABLA 8. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y

ACCURACY PARA MEDIUM GAUSSIAM SVM. .................................................................... 42

TABLA 9. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 BOOSTED TREE. ............... 43

TABLA 10. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 BOOSTED TREE. ............. 43

TABLA 11. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 BOOSTED TREE. ............. 44

TABLA 12. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y

ACCURACY PARA BOOSTED TREE. ....................................................................................... 45

TABLA 13. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA MEDIUN GAUSSIAN

SVM EN EL PROCESO DE EVALUACIÓN .............................................................................. 46

TABLA 14. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA QUADRATIC SVM EN EL

PROCESO DE EVALUACIÓN .................................................................................................... 47

TABLA 15. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA BOOSTED TREES EN EL

PROCESO DE EVALUACIÓN .................................................................................................... 48

TABLA 16. DESCRIPTORES SEGÚN SU PORCENTAJE DE EFECTIVIDAD PARA

CLASIFICAR. ................................................................................................................................ 54

LISTA DE FIGURAS

Fig. 1. Sistema de clasificación general de sonidos ....................................................................... 16

Fig. 2. Clasificación del algoritmo SVM para 3 clases con diferentes funciones para los márgenes

de separación. ................................................................................................................................. 19

Fig. 3. Relación escala Lineal & Mel. ............................................................................................ 22

Fig. 4. Banco de filtros de Mel. ...................................................................................................... 22

Fig. 5. Taxonomía de Sonidos Urbanos. ........................................................................................ 25

Fig. 6. Diagrama de bloques de entrenamiento y evaluación de la máquina de aprendizaje. ........ 28

Fig. 7. Puntos de mediciones en zona residencial en el barrio Laureles, Medellín (A = Punto 1, B

= Punto 2, C = Punto 3 y D = Punto 4) .......................................................................................... 29

Fig. 8. Puntos de medición zona Industrial (A = Zona Industrial Guayabal, Leonisa; B = Zona

industrial Guayabal, Gonvarri ; C = Zona Industrial Guayabal, Golpeautos) ................................ 30

Fig. 9. Puntos de medición Estaciones de Metro (A = Estación Estadio; B = Estación Floresta; C =

Estación Floresta; D = Estación Suramericana). ............................................................................ 30

Fig. 10. Gráfica de descriptores según su porcentaje de efectividad para clasificar (ver anexos tabla

16). .................................................................................................................................................. 34

Fig. 11. Matriz de confusión de Quadratic SVM. .......................................................................... 35

Fig. 12. Matriz de confusión de Mediun Gaussiam SVM. ............................................................. 35

Fig. 13. Matriz de confusión de Boosted Tree. .............................................................................. 36

Fig. 14. Resultados de la clasificación de los audios de evaluación por medio de la maquina Mediun

Gaussian SVM. ............................................................................................................................... 46

Fig. 15. Resultados de la clasificación de los audios de evaluación por medio de la maquina

Quadratic SVM. ............................................................................................................................. 47

Fig. 16. Resultados de la clasificación de los audios de evaluación por medio de la maquina Boosted

Trees. .............................................................................................................................................. 48

Fig. 17. Audio E1M-001. ............................................................................................................... 49

Fig. 18. Especificaciones de los puntos de grabación y fuentes características (Zona residencial).

........................................................................................................................................................ 60

Fig. 19. Especificaciones de los puntos de grabación y fuentes (Zona Industrial). ....................... 60

Fig. 20. Especificaciones de los puntos de grabación y fuentes escenas (Zona Estaciones de metro).

........................................................................................................................................................ 61

CLASIFICACIÓN DE ESCENAS ACÚSTICAS A TRAVES DE DESCRIPTORES DE AUDIO... 8

RESUMEN

En los últimos años, han aparecido métodos de aprendizaje automático que permiten obtener

modelos para el análisis y clasificación de señales de audio (etiquetadas), como las máquinas de

vectores de soporte, Ensemble Classifier, entre otros. Estos métodos presentan un problema al ser

poco comprensibles en su funcionamiento interno, ya que, no muestran al usuario una estructura

explicativa de como realizan las predicciones y que estas sean entendibles. Vale aclarar que los

modelos son precisos, pero no son presentados adecuadamente.

Debido a que no existe un banco de sonidos de las escenas acústicas de la ciudad, fue necesario

realizar grabaciones en campo de dichas escenas en exteriores.

Se emplearon descriptores de audio tales como MFCC y Chroma Vector, para la identificación de

las escenas acústicas en conjunto con dos algoritmos SVM y uno Ensemble Classifier.

El producto fue una tasa de eficiencia del 72,22% para los casos de las máquinas SVM (Medium

Gaussian y Quadratic), los cuales son satisfactorios. Por otro lado, la máquina de aprendizaje

basada en Ensemble Classifier (Boosted Tree) tuvo una tasa de eficiencia del 55,55%, siendo esta

una máquina de bajo rendimiento.

Palabras clave: Grabaciones en campo, Aprendizaje automático, descriptores de audio, eficiencia.


ABSTRACT

In recent years, automatic learning methods have been paired to obtain models for the analysis and

classification of audio signals, such as the support vector machines, Ensemble Classifier, among

others. These methods present a problem because they are not very understandable in their internal

functioning, since they do not show the user an explanatory structure of how predictions are made

and that they are understandable. It is worth mentioning that the models are accurate, but they are

not presented properly.

There is not a sound bank of the acoustic scenes of the city, it was necessary to record these outside

scenes in the field.

Audio descriptors such as MFCC and Chroma Vector were used to identify the acoustic scenes

together with two SVM algorithms and one Ensemble Classifier.

The result was an efficiency rate of 72.22% for the cases of SVM machines (Medium Gaussian

and Quadratic), which are satisfactory. On the other hand, the learning machine based on Ensemble

Classifier (Boosted Tree) had an Accuracy rate of 55.55%, this being a low performance machine.

Keyworks: Field recording, Machine Learning, Audio predictors, Accuracy.


I. INTRODUCCIÓN

La presente investigación estuvo dedicada a desarrollar un algoritmo que permite clasificar escenas

acústicas de una base de datos registrada en la ciudad de Medellín. Estudiar este tema, resulta ser

todo un reto para la ingeniería de sonido, toda vez, que permitirá adentrar en un campo investigativo

poco explorado. Es por ello que hay que emprender acciones que permitan caracterizar las

diferentes escenas acústicas a través de descriptores de audio y las máquinas de aprendizaje

automático.

La clasificación de escenas acústicas hace parte de los problemas del procesamiento digital de

señales de audio, el cual, tiene aplicación en el desarrollo de nuevas tecnologías, análisis de la

música, entre otros, donde el procesamiento de estas es deseado o requerido. Los seres humanos,

además de la visión, utilizan la escucha para navegar y responder al entorno que los rodea. Por

esto, nace el interés de investigar sobre la identificación de los entornos sonoros por medio de un

algoritmo que permita lograr avances significativos.

La presentación de la investigación estará estructurada de la siguiente manera:

En el primer capítulo, se hace el planteamiento contextuado del problema, que da a conocer la

descripción de la problemática y los motivos e intereses que guían a la ejecución del proyecto.

En el segundo, tercer y cuarto capítulo, se esbozan los distintos tópicos que orientan la

comprensión, el alcance y los límites de la experiencia, es decir, todo lo que tiene que ver con los

antecedentes y marco teórico fundamentados sobre los factores que intervienen en el desarrollo de

un algoritmo para detectar eventos sonoros en audios de la vida cotidiana.

El quinto capítulo estará constituido por el marco referencial, en el que se describen las

características de la zona en la que se llevara a cabo el proyecto y el municipio donde está ubicada,

además de las grabaciones de campo, la extracción de características a partir de los descriptores de

audio y la elección de las máquinas con mayor desempeño a la hora de clasificar.


El sexto capítulo estará constituido por la parte metodológica que permitirá hacer la recolección de

la información necesaria y se describirán las técnicas e instrumentos de recolección de los datos o

mediciones.

Finalmente se presentarán los capítulos siete, ocho y nueve, donde se realizará la sistematización

de datos, tabulación e interpretación de la información hasta conclusiones y recomendaciones.

Todo esto hace parte de un concurso llevado a cabo por DCASE en Finlandia. En este caso, el

proyecto se enfoca en la grabación de la base de datos y su posterior clasificación mediante las

máquinas de aprendizaje.


II. PLANTEAMIENTO DEL PROBLEMA

En la actualidad se cuenta con la tecnología para identificar información relevante del sonido a

través de algoritmos diseñados para la identificación en segmentos de interés a partir de la

grabación de una muestra de audio. La gran cantidad de datos e información que tienen dichas

grabaciones conllevan a crear algoritmos que no les demande tanto tiempo para tomar la

información más relevante e identificar dichos sonidos en espacios con fuentes simultáneas. El

análisis de escenas acústicas con gran cantidad de fuentes superpuestas hace más complejo el

problema para la identificación de dichos entornos.

Uno de los principales obstáculos en el ámbito sonoro urbano es la escasez de bases de datos de

audios etiquetados y el estudio de la clasificación de los sonidos en espacios con fuentes

simultáneas. Sin embargo, existen estudios previos de la taxonomía de sonidos urbanos de los

cuales se puede basar el presente proyecto, aplicándolos en los entornos sonoros específicos de la

ciudad de Medellín.

Existen varios descriptores de audio que ayudan a la identificación y clasificación de sonidos en

conjunto en muestras de audio extensas, tanto en el dominio de la frecuencia como en el tiempo; los

cuales permiten identificar qué características tienen en particular en el entorno

sonoro cuatro estaciones del metro de Medellín, zonas residenciales y zonas industriales a partir

de grabaciones realizadas previamente en la ciudad de Medellín, siendo este uno de los

interrogantes que se plantea.

A. Antecedentes

El desarrollo de técnicas que permitan detectar eventos sonoros ha sido un trabajo complejo para

distintos campos de la ciencia. Profesionales de psicología, psicoacústica, ingenieros, entre otros,

han investigado en múltiples campos que permitieron obtener información para detallar la

complejidad del sistema auditivo humano a la hora de describir los eventos sonoros.


En los últimos años, se ha observado un creciente interés por desarrollar sistemas y algoritmos

basados en audio para reconocer entornos sonoros. En el concurso de clasificación de escenas del

desafío IEEE - AASP sobre detección y clasificación de escenas acústicas

y eventos sonoros (DCASE2016), se comparan los entornos para el reconocimiento de escenas

acústicas.

Como se menciona anteriormente, no existía un banco de sonidos de los entornos que se evaluaron

en este proyecto, por lo tanto, se procedió a realizar dichas grabaciones en los entornos

escogidos para lograr una base de datos (de entrenamiento y prueba), con la

cual se aplicaron dichos conocimientos para la clasificación de escenas acústicas.


III. JUSTIFICACIÓN

A medida que el hombre evoluciona e interactúa con su medio, los cambios son evidentes, por

ejemplo, hay una amplia y desbordante producción y uso de tecnologías que aumentan las fuentes

sonoras en los diferentes entornos que afectan el reconocimiento de éstas. Existen diferentes tipos

de ruido ambiental, tales como, tráfico rodado, ruido aéreo, ruido industrial y ruido

comunitario, los cuales sirven para la identificación de los entornos por medio de sus características

particulares. Por esto, se hace necesario el desarrollo de algoritmos que permitan optimizar

procesos de clasificación de estas escenas acústicas.

Este proyecto se llevó a cabo con el propósito de implementar los conocimientos adquiridos a

través de la teoría de los algoritmos de clasificación y descriptores de audio en grabaciones propias

del entorno de la ciudad de Medellín. Se realizaron dichas grabaciones ya que, en la actualidad no

existe un banco de sonidos etiquetados que caractericen los entornos escogidos de esta ciudad en

particular, que son: estaciones del metro (Estadio, Floresta, Santa

Lucía y Suramericana), zona residencial (Barrio Laureles) y zona industrial (Guayabal). Debido a

que el estudio en el ámbito de clasificación de escenas acústicas en

entornos urbanos nacionales es poco, la intención de este proyecto

era enriquecer este, construyendo una base de datos que permitiera lograr el desarrollo del

mismo. La implementación del algoritmo que se realizó quedó abierta a mejoras para obtener un

mayor desempeño a la hora de clasificar dichas escenas u otras, realizar más grabaciones de

entornos diferentes a los implementados en este proyecto para así tener un análisis más completo

de la ciudad de Medellín y que el algoritmo siga su aprendizaje con escenas que

posean características diferentes.

Una aplicación en particular podría ser el reconocimiento de cualquier escena (disponible en la

base de datos) para fines personales o institucionales, a través de grabaciones de audio realizadas

por el usuario, permitiendo a este identificar el posible lugar en el cual se registró dicha grabación.

Además, con una ampliación de la base de datos sería probable reconocer sitios específicos de la

ciudad de Medellín.


IV. OBJETIVOS

A. Objetivo general

Clasificar escenas acústicas en exteriores en la ciudad de Medellín a través de descriptores de audio

y máquinas de aprendizaje.

B. Objetivos específicos

Construir dos bases de datos a partir de grabaciones realizadas en exteriores en la ciudad de

Medellín y de un protocolo de selección.

Clasificar por medio de descriptores de audio las escenas acústicas predefinidas.

Implementar un algoritmo de máquina de aprendizaje para la clasificación de escenas

acústicas seleccionadas de Medellín.

Evaluar el sistema de clasificación de escenas acústicas del algoritmo.

C. Alcances

Con este proyecto se pretende realizar la clasificación de escenas acústicas de estaciones del metro

de Medellín, zonas residenciales y zonas industriales a través de descriptores de audio y algoritmos

de clasificación.


V. MARCO REFERENCIAL

A. Marco teórico

Para poder entender el propósito y objetivo de este proyecto es importante definir varios conceptos,

y así tener una visión clara de su planteamiento. Es importante saber cómo se obtienen los

descriptores de audio que se van a utilizar y cómo funciona la teoría del algoritmo de clasificación.

Para describir un sonido es necesario extraer características propias del mismo, ya sea en el

dominio de la frecuencia o en el tiempo. En la siguiente imagen se muestra un diagrama de bloques

de como son los pasos de un sistema de clasificación de sonidos.

Fig. 1. Sistema de clasificación general de sonidos

Tomado de: [1].

En esta figura:

1. Una etapa de segmentación aísla los sonidos más relevantes del fondo.

2. Una etapa de extracción de características extrae propiedades del sonido que son útiles para la

clasificación (el vector de característica, huella digital). Para la clasificación de sonidos, es vital

que los vectores de características utilizados sean lo suficientemente ricos en información para

describir suficientemente el contenido del sonido.


3. Un clasificador utiliza el vector de entidad de dimensión reducida para asignar el sonido a una

categoría. Los clasificadores de sonido a menudo se basan en modelos estadísticos. Uno de ellos

es el soporte de máquinas de vectores.

1) Aprendizaje automático.

El aprendizaje automático se define según Arthur Samuel como el campo de estudio que dota a las

computadoras con la capacidad y habilidad de aprender sin haber sido programadas para esto, un

programa “aprende” cuando con respecto a alguna tarea, su desempeño mejora a medida que gana

experiencia [2].

El aprendizaje automático se divide en 2 tipos:

a) Aprendizaje no supervisado.

En el aprendizaje no supervisado el modelo es ajustado a las observaciones. Se distingue

del Aprendizaje Supervisado por el hecho de que no hay un conocimiento a priori. En el

aprendizaje no supervisado, un conjunto de datos de objetos de entrada es tratado. Así, el

aprendizaje no supervisado típicamente trata los objetos de entrada como un conjunto

de variables aleatorias, siendo construido un modelo de densidad para el conjunto de datos

[3, p. 1]

b) Aprendizaje supervisado.

En aprendizaje automático y minería de datos, el aprendizaje supervisado es una técnica

para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento

consisten de pares de objetos (normalmente vectores): una componente del par son los datos

de entrada y el otro, los resultados deseados. La salida de la función puede ser un valor

numérico y ya es conocida teniendo una relación de entrada y salida (como en los problemas

de regresión) o una etiqueta de clase (como en los de clasificación) [3, p. 1]


2) Máquina de soporte de vectores (SVM).

La importancia de SVM en tareas de clasificación es mucha ya que se utiliza para múltiples tareas,

aunque en los últimos años se ha utilizado para la segmentación y clasificación de clips de audios

y en comparación con otros procesos de aprendizaje automático es uno de los más utilizados por

su practicidad y fácil uso.

Estas son unas de las ventajas para usar SVM al momento de implementarlo en clasificación y

segmentación [4]:

• Se dispone de un conjunto de datos de formación que se pueden utilizar para formar un

clasificador.

• Una vez dada la entrada al sistema, el cálculo en un SVM depende de un número normalmente

pequeño de vectores de apoyo y es rápido.

• La distribución de datos de audio en el espacio de funciones es complicada y las diferentes clases

pueden tener áreas superpuestas o entrelazadas en el espacio de funciones. Un SVM basado

en kernel es muy adecuado para manejar tal situación.

En particular para el caso de las Máquinas de soporte de vectores la función que se debe minimizar

es la de la ecuación 1 [4].

min 𝐶 ∑ [𝑦(𝑖)𝑐𝑜𝑠𝑡1(𝜃𝑇𝑥𝑖) + (1 − 𝑦(𝑖))𝑐𝑜𝑠𝑡0(𝜃𝑇𝑥𝑖)]𝑚𝑖=1 +

1

2∑ 𝜃𝑗

2𝑛𝑖=1 (1)

En donde y es el vector con la iesima etiqueta, theta son los parámetros del modelo, x son

las iesimas entradas o los vectores de características con los descriptores de audio y C es un

término de regularización de parámetros.


Fig. 2. Clasificación del algoritmo SVM para 3 clases con diferentes funciones para los márgenes de separación.

Una desventaja del algoritmo SVM es que si el número de características es mucho mayor al

número de muestras, la eficacia es baja y no proporciona estimaciones de probabilidad

directamente.

3) Máquinas de SVM (software Matlab)

Las máquinas SVM tienen buen rendimiento a la hora de predecir, velocidad de ajuste medio, y

pueden tener una buena velocidad de predicción con pocos vectores de soporte [5]. Dos ejemplos

de estas máquinas que basan su funcionamiento usando Kernel son las siguientes:

a) Medium Gaussian

Hace menor cantidad de distinciones que la Fine Gaussian SVM, usando el Kernel de Gauss con

la escala Kernel establecida en sqrt (P)/4, donde P es el número de descriptores [5].

b) Quadratic SVM

Usa el Kernel cuadrático [5].


4) Ensemble Classifier (Boosted Trees)

Combinan resultados de muchos aprendices débiles en un descriptor de conjunto de alta calidad.

Las cualidades dependen de la elección del algoritmo. Posee una precisión predictiva alta, pero

podría necesitar de algunos ajustes de parámetros. Esta máquina de aprendizaje es de rápida

velocidad de montaje con pocos aprendices 'k'. Su velocidad de predicción es rápida y usa poca

memoria [5].

5) Descriptores de audio.

En la actualidad hay muchos descriptores que se basan en el modelado espectral, como la

frecuencia, los términos temporales y la fase de cada característica espectral parcial o instantánea

de la señal residual que explica la microestructura de un sonido en particular. Cada descriptor en

particular tiene cuatro medidas diferentes: valor instantáneo (una trama), variación instantánea (de

cuadro a marco), valor medio (en un segmento temporal) y varianza (en un segmento temporal),

caracterizando así diferentes aspectos del sonido [4].

a) MFCC (Mel Frecuency Cepstral Coefficient).

Los MFCC son una manera de representar la información espectral en un sonido. Cada coeficiente

tiene un valor para cada segmento (frame) del sonido. Aquí se examinan los cambios dentro de

cada coeficiente a través del rango del sonido. La obtención de los MFCCs implica analizar y

procesar el sonido de acuerdo con los siguientes pasos [6]:

1. Dividir la señal en pequeños fragmentos (frames). La segmentación se realiza mediante la

aplicación de ventanas (ventaneo). Usualmente, estos frames son de 20 a 40 ms dependiendo de

los eventos sonoros a caracterizar, pero considerando que al ser cortos no habrá suficientes

muestras para realizar una correcta estimación del espectro.

2. Obtenga el espectro de amplitud de cada segmento.

3. Tome el registro de estos espectros.


4. Convertir a la escala Mel. Esto se realiza para tener una respuesta similar a la cóclea de los seres

humanos, ya que, es sensible ante los cambios logarítmicos en frecuencia.

5. Aplique la Transformada Discreta de Coseno (DCT). Esto es necesario para obtener la energía

que contribuye a la banda de interés por la superposición de los filtros.

Para pasar de Hz a Mel se usa la ecuación:

𝑀(𝑓) = 1125 𝐿𝑛 (1 +𝑓

700) (2)

Dónde:

f = es la frecuencia en Hz.

M = función que mapea a mel.

Para pasar de mel a Hz se utiliza la siguente ecuación:

𝑀−1(𝑚) = 700 (𝑒𝑚

1125 − 1) (3)

Dónde:

m = es la frecuencia en la escala de mel.


Fig. 3. Relación escala Lineal & Mel.

Tomado de: [7].

Fig. 4. Banco de filtros de Mel.

Tomado de: [7].


b) Clasificador k-Nearest-Neighbor (k-NN).

Este clasificador se adapta a problemas binarios y de clases múltiples. No requiere una etapa de

entrenamiento. Las muestras destinadas a entrenamiento son utilizadas por el clasificador durante

la etapa de evaluación. Si se proporciona un patrón de evaluación, x, primero se detectan sus k

vecinos más cercanos en el conjunto de entrenamiento y se cuentan el número perteneciente a cada

etiqueta/clase. Por último, el vector de características se asigna a la etiqueta ha acumuló el mayor

número de vecinos [8]. Para que funcione adecuadamente se requiere que:

1. Un conjunto de muestras etiquetadas.

2. Un número entero k≥1

3. Una medida de distancia (disimilitud).

c) Chroma Vector

Es una representación de doce elementos de la energía espectral. Es un descriptor comúnmente

utilizado en aplicaciones relacionadas con música. Se calcula a través del agrupamiento de los

coeficientes DFT de una ventana de corto plazo en doce intervalos. Cada intervalo representa una

de las doce clases de tono equivalente de música de tipo occidental [8].

6) Sensibilidad y Especificidad

“La sensibilidad y Especificidad son medidas estadísticas de la realización de una prueba de

clasificación binaria, también se conocen en las estadísticas como función de clasificación” [9, p.

1552]:

La sensibilidad (también llamada tasa positiva verdadera) mide la proporción de positivos que se

identifican correctamente como tales.

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =𝑉𝑃

𝑉𝑃+𝐹𝑁 (4)

Dónde:


VP: Verdaderos positivos

FN: Falsos negativos

La especificidad (también llamada tasa negativa verdadera) mide la proporción de negativos que

se identifican correctamente como tales.

𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =𝑉𝑁

𝑉𝑁+𝐹𝑃 (5)

Dónde:

VN: Verdaderos negativos

FP: Falsos positivos

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑉𝑃+𝑉𝑁

𝑉𝑃+𝐹𝑃+𝐹𝑁+𝑉𝑁 (6)

Dónde:

VN: Verdaderos negativos

FP: Falsos positivos

VP: Verdaderos positivos

FN: Falsos negativos

7) Estadísticos

El manejo de metadatos es muy extenso para el procesamiento computacional, por lo tanto, existen

estadísticos que nos ayudan a resumir estos metadatos y así tener una información relevante de

estos. Para este proyecto se tuvieron en cuenta tres estadísticos:

Moda: es el número que más se repite.

Media: Es el promedio aritmético del conjunto. Se obtiene mediante la división de la suma de los

datos sobre la cantidad total de datos.

Desviación estándar: Esta indica que tan dispersos están los datos con respecto a la media [10].


B) Estado del arte

En general se tratan los sonidos según el agente que los produce, sea antropofágico (actividades

del hombre), biofónico (actividad de la flora y fauna) y geofónico (eventos geográficos como

volcanes, cascadas, derrumbes, etc.) [11].

Fig. 5. Taxonomía de Sonidos Urbanos.

Tomado de [11].

Considerando el desarrollo tecnológico alcanzado en los últimos años, la clasificación automática

de sonidos ambientales es un campo creciente en investigación con un sin número de aplicaciones

en la indexación de material multimedia y generación de metadatos y etiquetas automáticas [12].

Sin embargo el estudio de los sonidos en el ámbito urbano es poco, uno de los principales

problemas es la falta de datos etiquetados y que por lo general en el ámbito investigativo la falta

de vocabulario común cuando se trabaja con este tipo de entornos es escasa, esto significa que, la

clasificación de escenas acústicas con fuentes simultáneas puede variar en cada uno de los estudios

independientemente realizados, lo que conllevan a que sus resultados sean difíciles de comparar

[11].

La complejidad de analizar dichos entornos ha despertado el interés de la rama investigativa para

encontrar métodos más eficientes que van desde los enfoques de aprendizaje supervisado y no


supervisado, siendo el primero el más utilizado debido a su practicidad [12]. La segunda entrega

de DCASE [13], que ocurrió en 2016, ofrece una oportunidad para comparar enfoques en un

conjunto de bases de datos público. Esta edición incluye cuatro tareas diferentes: clasificación de

escenas acústicas, detección de eventos sonoros - real y sintética. La eficiencia de dichos métodos

implementados a algoritmos de clasificación ha ido mejorando a tal punto de tal y como se muestra

en el proyecto [12] que se centra en la clasificación de voz, la eficiencia de dicho algoritmo

partiendo de bases de datos de del DCASE es de un 81,4%, siendo este un porcentaje

considerablemente bueno para la clasificación.

Por otro lado existen diversos métodos para enfocarse en el ámbito de identificación de sonoros en

el entorno urbano tal y como se muestra en [13] ya que lo aplican a “estaciones de metro”, “Playa”

y “Bus” siendo estas tres complejas ya que se encuentran en un entorno con fuentes simultaneas,

aplicando CNN (Convolutional Neural Network), CQT (Constant-

Q Transform) y MFCCs (Mel Frecuency Cepstral Coefficient), obteniendo un 80,25% de

efectividad con el CQT.


VI. DISEÑO METODOLÓGICO

A. Enfoque de Investigación

Esta investigación se apoyó en los parámetros de la investigación Empírico-analítica, ya que

permitió encontrar resultados producto de la experiencia, revelando relaciones esenciales y las

características fundamentales del objeto de estudio, como en este caso, permitió desarrollar un

sistema de reconocimiento a partir de archivos de audio, implementando el procesamiento digital

de señales, comprometiendo así, estudio teórico práctico de conceptos, procesos y análisis de

datos.

B. Línea de Investigación

Teniendo en cuenta la línea de investigación de la universidad San Buenaventura para el programa

de Ingeniería de Sonido, que es la de Acústica y Procesamiento Digital de señales, se

pretendía que el proyecto estuviera enmarcado en la misma, para que a través de ella se

le pudiera brindar al usuario una herramienta que le pudiera ser útil incluso en otras aplicaciones.

C. Técnicas de recolección de información

Proporciona el conocimiento de las ya existentes: teorías, hipótesis, experimentos, resultados,

instrumentos y técnicas usadas acerca del tema o problema de investigación que se trata de resolver

aquí, es por ello que, libros, tesis, revistas técnicas y páginas web, son de vital importancia para la

realización de la misma.

D. Procedimiento

1) Descripciónn General

La realización de este proyecto se divide el trabajo en cuatro etapas que son: obtención de la base

de datos a partir de grabaciones ejecutadas en las distintas escenas acústicas planteadas, extracción

de los descriptores de audio, entrenamiento del algoritmo de clasificación y por último la

evaluación del mismo.


Fig. 6. Diagrama de bloques de entrenamiento y evaluación de la máquina de aprendizaje.

2) Grabaciones en campo

El enfoque de este proyecto es registrar una base de datos de escenas acústicas en exteriores, las

cuales son: estaciones del metro, zona residencial y zona industrial. Teniendo en cuenta que cada

escena acústica está conformada por diversos eventos sonoros que permiten su

identificación, fue importante realizar numerosas grabaciones en distintos horarios, las cuales

permitieron tener mayor información sobre cada escena y así se pudo identificar correctamente los

eventos particulares de cada una.

Fue necesario identificar los horarios con mayor frecuencia de los eventos sonoros de cada escena

acústica y así obtener mayor información que posibilitara el entrenamiento óptimo del algoritmo

de clasificación.

En cada uno de los entornos se realizaron 8 grabaciones de 5 minutos en 2 horarios diferentes del

día (4 en la mañana y 4 en la tarde) y se tuvo en cuenta dejar

un intervalo de aproximadamente 10 minutos entre cada una de

las grabaciones, para obtener mayor variabilidad acústica del entorno. Estas grabaciones

se realizaron con base en la ISO 1996-2 [14] que indica los parámetros para la medición de ruido

ambiental.


Se ubicó el micrófono de medición a una altura de 2 m del suelo y a 3.5 m de superficies

reflejantes, para la selección del punto de grabación se tuvo en cuenta:

Zona residencial: se ubicó el micrófono en esquinas teniendo en cuenta que fuera un punto

con un mayor número de fuentes características de la escena acústica. En este caso se

capturaron fuentes tales como canto de las aves, flujo vehicular, pasos de personas,

maquinaria de construcción, herramientas de jardinería, cierre de rejas, llaves.

Fig. 7. Puntos de mediciones en zona residencial en el barrio Laureles, Medellín (A = Punto 1, B = Punto 2, C =

Punto 3 y D = Punto 4)

Zona industrial: se ubicó el micrófono en andenes cerca a las industrias que generaban

fuentes sonoras de interés de la escena acústica. En este caso se capturaron fuentes tales

como alto flujo de vehículos pesados, maquinaria industrial

(comportamiento constantemente en la grabación), compresión de aire

(maquinaria) e impacto de herramientas metálicas.


Fig. 8. Puntos de medición zona Industrial (A = Zona Industrial Guayabal, Leonisa; B = Zona industrial Guayabal,

Gonvarri ; C = Zona Industrial Guayabal, Golpeautos)

Estaciones de metro: se ubicó el micrófono cerca de la entrada de las estaciones del metro,

ya que facilitaba la captura del sonido de los vagones con los rieles. En algunos casos se

veía afectada la captura de esta por el alto flujo vehicular. Por otro

lado, existían fuentes características de esta escena como son el tránsito de bicicletas y la

voz humana (alto flujo peatonal).

Fig. 9. Puntos de medición Estaciones de Metro (A = Estación Estadio; B = Estación Floresta; C = Estación

Floresta; D = Estación Suramericana).


3) Instrumentación de grabación.

Se utilizó un micrófono de medición DBX RTA-M, cable XLR,

base para micrófono proel y una Grabadora Zoom H4 para la captura del audio. El micrófono

RTA-M, es un micrófono omnidireccional de medición de frecuencia plana, especialmente

diseñado para captar frecuencias desde 20 hasta 20 kHz. Se ejecuta mediante

alimentación phantom.

Se registraron grabaciones Mono y fueron configuradas a una frecuencia de muestreo de 44.100

HZ, a 24 bits. Se configuró la grabadora Zoom con un input Gain en High y se tuvo en cuenta un

nivel de entrada de 122 dB, el cual se consideró un punto óptimo para que la grabadora no saturara

y capturara con una buena ganancia el ambiente sonoro.

4) Anotación de los eventos

Para el entrenamiento del algoritmo de clasificación se anotaron los diversos eventos sonoros de

las grabaciones realizadas; esto se tuvo en cuenta como ejercicio práctico para saber cuáles eran

las fuentes características de cada una de las escenas durante el tiempo de grabación, las cuales se

etiquetaron en 3 clases diferentes (Estaciones de metro, zonas residenciales y zonas industriales).

5) Extracción de características

Se organizaron los audios en carpetas con nombres correspondiente de cada una de las escenas

para formar matrices y así formar el banco de entrenamiento y cargarlo en el algoritmo como se

muestra en el siguiente código:


Posteriormente, para la extracción de los descriptores se obtuvo una librería (Ver anexos), la cual

se modificó para implementarla en la clasificación de los audios de este proyecto. El algoritmo

contiene una función que extrae la DFT (‘getDFT’) de cada una de las muestras y esta es utilizada

por dos funciones más que realizan la clasificación de características a término medio

(‘mtFeatureExtraction’) y término corto (‘stFeatureExtraction’), y tiene en cuenta los estadísticos

de interés que proporcione el usuario. Para este caso consideramos la desviación estándar (‘sdt’) y

la media (‘mean’). A partir del ventaneo a corto plazo, el código genera una matriz que contiene

todos los vectores característicos a corto plazo y estos son utilizados para obtención de las

características a término medio considerando los estadísticos proporcionados [8].

El tiempo escogido para el ventaneo a término medio fue de 60 segundos con pasos de 30, esto se

hizo con el propósito de simular el tiempo que se demora un humano promedio para identificar

una escena acústica. También se tomó un ventaneo a término corto de 40 ms con pasos de 20 ms,

esto con el propósito de ver el comportamiento de la señal y los cambios de energía a corto

plazo que tenían los descriptores de interés; todo lo anterior se evidencia en el siguiente segmento

del código:

Eventualmente, después de la extracción de descriptores se procedió a organizar las características

de los audios en tres matrices diferentes pertenecientes a cada una de las escenas acústicas. Se hizo

una transposición para organizar estas características de la siguiente forma:

Filas: Contienen la información de cada una de los segmentos de los audios pertenecientes a las

escenas acústicas.

Columnas: Contiene la información de cada descriptor implementado en cada una de las muestras

audio, teniendo en cuenta que de la columna 1 a la 35 pertenecen a valores de la media (‘mean’),

y de la columna 36 hasta la 70 corresponden a valores de la desviación estándar (‘std’).


Al final se creó una matriz X que contiene la matriz_i, matriz_m y matriz_r concatenadas,

considerando que la última columna corresponde a las tres etiquetas:

Etiqueta 1: Zona industrial.

Etiqueta 2: Zona residencial.

Etiqueta 3: Estación de metro.

El programa permite la extracción de las características tanto en el dominio del tiempo como en el

de la frecuencia. Los descriptores que contiene el código se pueden observar en la

función stFeatureExtraction (Ver anexos). Teniendo en cuenta todo lo anterior se elaboró un

segmento del programa donde a partir de la matriz X se obtuvo una matriz X2 con las características

de los audios y un vector Y que corresponde a las etiquetas. Luego, el algoritmo devuelve los

rangos y pesos de los descriptores para la matriz de datos de entrada X2 y el vector de respuesta Y,

usando la función Relief-F con k vecinos más cercanos.

Se define k como el número de vecinos más cercanos, especificado como un escalar entero positivo.

En este caso, se tomó k con un valor de 10 ya que es donde se estabiliza los valores de los pesos.


A partir de los pesos y rangos entregados por la función Relief-F se elaboró una matriz ‘x_final’

que contiene los descriptores de interés para pasar al entrenamiento del algoritmo.

6) Entrenamiento del algoritmo

Para implementar la máquina de aprendizaje se consideró tomar los cinco descriptores con el mayor

peso que se obtuvo de la función ReliefF (Figura 10).

Fig. 10. Gráfica de descriptores según su porcentaje de efectividad para clasificar (ver anexos tabla 16).

Los descriptores seleccionados fueron: 9, 12, 18, 63 y 28 (Ver Anexos código), de los cuales los

tres primeros corresponden al tipo MFCC y los dos siguientes a Chroma Vector. Posteriormente se

exportaron dos modelos correspondientes a SVM, estos basan su funcionamiento en Quadratic y

Medium Gaussiam. Además, se implementó otra máquina del tipo Ensemble Classifier, llamada

Boosted Tree en la cual se tuvo en cuenta la implementación de diez Nearest Neighbors (Vecinos

más cercanos). Ambas máquinas de SVM tuvieron un rendimiento similar entre ellas y un Accuracy

por encima de la otra máquina de aprendizaje.


Para analizar el rendimiento de cada una de las máquinas se exportaron matrices de confusión

donde se observa el porcentaje de eficiencia con el cual se clasifica cada una de las muestras de las

escenas, las cuales se muestran a continuación:

Fig. 11. Matriz de confusión de Quadratic SVM.

Fig. 12. Matriz de confusión de Mediun Gaussiam SVM.


Fig. 13. Matriz de confusión de Boosted Tree.

7) Evaluación del algoritmo

Para la evaluación del algoritmo se elaboró un código (‘evaluación’) el cual extrae las

características de la base de datos de evaluación, teniendo en cuenta que el ventaneo a corto y

mediano plazo fuera el mismo que se utilizó para el entrenamiento de la máquina. Luego con la

función yfit () se obtuvo una matriz ‘pred’ con la clasificación de cada una de las muestras de la

base de datos de evaluación. Este procedimiento se hizo para 3 máquinas de aprendizaje las cuales

fueron Quadratic SVM, Medium Gaussiam SVM y Boosted Trees que facilita el software Matlab,

lo anterior se puede observar en el siguiente código:


VII. RESULTADOS

Teniendo en cuenta la matriz de confusión de Quadratic SVM (Figura 11), calculamos la

sensibilidad y la especificidad de la máquina de aprendizaje.

Cálculo para la etiqueta 1 que corresponde a Zona Industrial:

TABLA 1. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 QUADRATIC SVM.

Verdaderos Falsos

Verdadero 102 0

Falso 1 217

Aplicando la ecuación de sensibilidad (4) obtenemos lo siguiente:

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =102

102+217= 0,31 (4)

Aplicando la ecuación de Especificidad (5) obtenemos lo siguiente:

𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =0

0+1= 0 (5)

Aplicando la ecuación de Accuracy (6) obtenemos lo siguiente:

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =102+0

102+0+1+217= 0,31 (6)

Cálculo para la etiqueta 2 que corresponde a Zona Residencial:

TABLA 2.MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 2 QUADRATIC SVM.

Verdaderos Falsos

Verdadero 109 0

Falso 0 211




109+211= 0,34 (4)



0+0= 0 (5)



109+0+0+211= 0,34 (6)

Cálculo para la etiqueta 3 que corresponde a Estaciones de metro:

TABLA 3. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 3 QUADRATIC SVM.

Verdaderos Falsos

Verdadero 108 0

Falso 1 211



108+211= 0,33 (4)



0+1= 0 (5)



𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑐𝑎𝑙 =108

108+1+211= 0,33 (6)

Posteriormente se realizó una tabla (Tabla 4) teniendo en cuenta los resultados de sensibilidad y

especificidad obtenidos anteriormente comparándolos con el Accuracy que nos entregó el software

Matlab al momento de hacer el entrenamiento de la máquina de aprendizaje:

TABLA 4.TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y ACCURACY PARA

QUADRATIC SVM.

Especificidad Sensibilidad Accuracy % Accuracy cal %

Zona industrial 0 0,31 100 0,31

Zona residencial 0 0.34 100 0,34

Estaciones de metro 0 0,33 99,1 0,33

Promedio Total 0 0,32 99,7 0,32

Ulteriormente se implementó otra máquina basada en el método de Medium Gaussiam SVM del

software Matlab y teniendo en cuenta la matriz de confusión de Medium Gaussiam SVM (Figura

12), calculamos la sensibilidad y la especificidad de la máquina de aprendizaje.



Verdaderos Falsos

Verdadero 101 1

Falso 1 217



101+217= 0,31 (4)




1+1= 0,5 (5)



101+1++1+217= 0,31 (6)



Verdaderos Falsos

Verdadero 109 0

Falso 0 211



109+211= 0,34 (4)



0+0= 0 (5)



109+0+0+211= 0,34 (6)




Verdaderos Falsos

Verdadero 108 1

Falso 1 210



108+210= 0,33 (4)



1+1= 0,5 (5)



108+1+1+210= 0,34 (6)




TABLA 8. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y ACCURACY PARA

MEDIUM GAUSSIAM SVM.


Zona industrial 0,5 0,31 99 0,31

Zona residencial 0 0.34 100 0,34

Estaciones de metro 0,5 0,33 99,1 0,34

Promedio Total 0,66 0,32 99,3 0,33


Teniendo en cuenta la matriz de confusión de Boosted Tree (Figura 13), calculamos la sensibilidad

y la especificidad de la máquina de aprendizaje.


TABLA 9. MATRIZ DE CONFUSIÓN PARA LA ETIQUETA 1 BOOSTED TREE.

Verdaderos Falsos

Verdadero 101 1

Falso 8 210



101+210= 0,32 (4)



1+8= 0,11 (5)



101+8+1+210= 0,31 (6)



Verdaderos Falsos

Verdadero 108 1

Falso 3 208




108+208= 0,34 (4)



1+3= 0,25 (5)



101+3+1+208= 0,34 (6)



Verdaderos Falsos

Verdadero 98 11

Falso 2 209



98+209= 0,31 (4)



11+2= 0,84 (5)




98+11+2+209= 0,34 (6)




TABLA 12. TABLA DE COMPARACIÓN DE ESPECIFICIDAD, SENSIBILIDAD Y ACCURACY PARA

BOOSTED TREE.


Zona industrial 0,11 0,32 99 0,31

Zona residencial 0,25 0.34 99,1 0,34

Estaciones de metro 0,84 0,31 89,9 0,34

Promedio Total 0,4 0,32 99,7 0,33

Para la clasificación de los audios de la base de datos de evaluación se utilizó la función

‘evaluación’, esta arrojó un vector de características con las etiquetas y clasificación de cada uno

de los segmentos del audio (Columna 1); el nombre del audio (Columna 2) teniendo en cuenta que:

los audios EM corresponde a Estaciones de Metro, EI a Zona Industrial y ER Zona Residencial;

por último, la clasificación que resulta de la máquina de aprendizaje por medio de la moda del

vector de etiquetas de la columna 1 (Columna 3). (Esto aplica para las figuras 14, 15 y 16).


Fig. 14. Resultados de la clasificación de los audios de evaluación por medio de la maquina Mediun Gaussian

SVM.

En la figura anterior se observa la clasificación de los audios de la base de datos de evaluación

mediante la máquina de aprendizaje Mediun Gaussian, la cual obtuvo un 72,22% de efectividad

identificando la escena perteneciente de cada audio.

TABLA 13. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA MEDIUN GAUSSIAN SVM EN EL

PROCESO DE EVALUACIÓN

Número de audios clasificados correctamente 13

Número de audios clasificados incorrectamente 5

Total audios 18

Porcentaje de efectividad % 72,22


Fig. 15. Resultados de la clasificación de los audios de evaluación por medio de la maquina Quadratic SVM.


mediante la máquina de aprendizaje Quadratic SVM, la cual obtuvo un 72,22% de efectividad


TABLA 14. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA QUADRATIC SVM EN EL PROCESO DE

EVALUACIÓN



Total audios 18



Fig. 16. Resultados de la clasificación de los audios de evaluación por medio de la maquina Boosted Trees.


mediante la máquina de aprendizaje Boosted Trees. la cual obtuvo un 55,55% de efectividad


TABLA 15. PORCENTAJE DE EFECTIVIDAD DE LA MÁQUINA BOOSTED TREES EN EL PROCESO DE

EVALUACIÓN



Total audios 18



VIII. ANÁLISIS DE RESULTADOS

Luego de la implementación de las máquinas de aprendizaje y la obtención de los resultados en

tablas, se analizaron sus rendimientos y las razones por las cuales presentaron cierto margen de

error a la hora de identificar las escenas acústicas.

Máquina 1. Mediun Gaussian

Para el caso de la máquina Mediun Gaussian se observó que en el audio E1M-001 (Figura 14), el

vector de etiquetas identificó el primer minuto correctamente, esto debido a que a partir del segundo

35 (aproximadamente) del audio se escucha el paso del metro que es un sonido relevante para la

caracterización de esta escena (Figura 17); luego, caracteriza al audio como si perteneciera a zona

industrial, ya que contiene un mayor número de fuentes vehiculares y esto confunde al programa

dado que en la escena industrial hay un alto flujo de estos.

Debido a que la etiqueta 1 es la moda del vector de etiquetas del algoritmo esta lo clasifica como

industrial.

Fig. 17. Audio E1M-001.

Por otra parte, en el caso de los audios E4M que fueron clasificados de forma incorrecta por la

máquina, se determinó que este error se debe al contenido de alta frecuencia del canto de aves y

frenado de vehículos, estos dos eventos sonoros son característicos del tipo de zona residencial.


Considerando los valores calculados de Especificidad (50%) y Sensibilidad (33%) de la máquina

en la etiqueta 3 la cual corresponde a estaciones de metro, se puede observar que esta posee bajo

desempeño identificando las muestras positivas que son de esta etiqueta debido a la sensibilidad.

Máquina 2. Quadratic SVM

La evaluación de esta máquina de aprendizaje tuvo un comportamiento similar a Medium Gaussian.

Los errores que presentó al momento de clasificar los segmentos fueron similares, esto se debe a

que ambas basan su funcionamiento en SVM. Los audios que clasificó incorrectamente fueron los

mismos en ambas máquinas de aprendizaje. Sin embargo, en el caso de los audios E4M esta

máquina no etiquetó ningún segmento de la escena como ‘Estaciones de metro’ (figura), cuando

estas pertenecen a esta etiqueta.

Basado en la especificidad (0%), sensibilidad (33%) y el Accuracy (99,1%) entregado por Matlab

de la máquina en la etiqueta tres que corresponde a estaciones de metro, se observa que la maquina

no es muy eficaz identificando este tipo de etiquetas en comparación con las otras dos.

Máquina 3. Boosted Trees

En el caso de esta máquina tuvo una efectividad del 55,5% lo cual es baja en comparación con las

máquinas basadas en SVM.

En el entrenamiento de la máquina, los audios de zona industrial presentaban mucho contenido en

baja frecuencia debido al sonido constate de máquinas industriales, por lo tanto la máquina de

aprendizaje logró caracterizar estos eventos. Esto se ve evidenciado en la correcta clasificación de

los audios de zona industrial en la base de datos de evaluación, ya que presentan eventos similares.

Sin embargo, tres de los audios de E4R los clasificó como industrial, dado que en estas grabaciones

se presenta un alto contenido en baja frecuencia pero es debido al alto flujo vehicular, lo cual

confunde a la máquina de aprendizaje.


IX. CONCLUSIONES

El hecho de grabar en exteriores hace aún más complejo el problema debido a la presencia de

fuentes simultaneas. La presencia de estas fuentes similares entre las grabaciones, provocan mayor

dificultad a la hora de identificar cada una de las escenas acústicas, puesto que, en ocasiones las

fuentes características de las mismas se ven afectadas por enmascaramiento con otras fuentes

alternas.

Los algoritmos basados en SVM son eficaces para la predicción de las escenas, sin embargo en el

caso de Quadratic SVM implementado en este proyecto, se observó que no es óptimo para clasificar

la etiqueta tres correspondiente a ‘Estaciones de metro’. Una posible solución a este problema

puede ser reajustando los parámetros de la máquina a la hora de hacer el entrenamiento de la misma,

ya sea cambiando el ventaneo a término medio y corto o tomando un mayor número de descriptores.

Sin embargo, para este caso se tomaron cinco descriptores los cuales poseen los mayores pesos

dados por la función ReliefF y los otros descriptores están por debajo del 50 % de efectividad a la

hora de caracterizar las muestras de entrenamiento.

Los descriptores MFCC proporcionados por el algoritmo ReliefF en conjunto con los algoritmos

SVM fueron efectivos a la hora de realizar la clasificación de la base de datos de evaluación,

permitiendo obtener tasas de reconocimiento buenas del 72 %.

Por otro lado, implementar un mayor número de grabaciones en la etapa de entrenamiento

permitiría que la máquina tenga más datos de los cuales basarse para la clasificación de las escenas,

esto conlleva a tener un mayor número de información y por ende a una mejor caracterización de

cada uno de los entornos.

La observación de los audios y etiquetas después de la clasificación de la máquina nos ayudan a

identificar y detectar errores los cuales se pueden solucionar haciendo reajustes de la máquina, sin

embargo, hay que tener en cuenta evitar el sobreajuste de la máquina ya que puede que no mejore

su validez predictiva.


REFERENCIAS

[1] K. Hyoung-Gook, N. Moreau y T. Sikora, MPEG-7 Audio and Beyond Audio Content

Indexing and Retrieval, Primera ed., Berlín: John Wiley & Sons, Ltd, 2005.

[2] D. W. Thomas y B. R. Wilkins, "The analysis of vehicle sounds for recognition" Pattern

Recognition, 1 ed., vol. 4, Southampton: Elsevier, 1972, pp. 379-389.

[3] Advanced Tech Computing Group, 14 Abril 2008. [En línea]. Available:

http://bit.ly/2C60wqo.

[4] P. Herrera, X. Serra y G. Peters, «Audio Descriptors and Descriptor Schemes in the Context

of MPEG-7,» Proceedings Of The ICMC99.

[5] Mathworks, MATLAB, 2015.

[6] R. Loughran, J. Walker, M. O'Neill y M. O'Farrell, «"The Use of Mel Frequency Cepstral

Coefficients in Musical Instrument Identification",» Limerik, 2008.

[7] P. Pertila, «Mel-frequency cepstral coefficients (MFCCs) and gammatone filter banks

Introduction,» TUT, 2015.

[8] T. Giannakopoulos y A. Pikrakis, Introduction to Audio Analysis. A MATLAB Approach

Academic Press, Primera ed., Oxford: Elsevier, 2014, pp. 59-180.

[9] D. G. Altman y J. M. Bland, 11 Junio 1994. [En línea]. Available: http://bit.ly/2QJvm0n.

[10] J. Devore, "Probabilidad y Estadística para Ingeniería y Ciencias", Séptima ed., vol. I, Ciudad

de Mexico: Cengage Learning, 2008, pp. 254-281.

[11] J. Salamon, C. Jacoby y J. P. Bello, «A Dataset and Taxonomy for Urban Sound Research,»

Proceedings of the 2014 ACM Conference on Multimedia, vol. 3, pp. 1041-1044, 2014.

[12] AENOR, «ISO 1996-1: Descripción, medición y evaluación del ruido ambiental,» 2005.

[13] A. Mesaros, T. Heittola y T. Virtanen, «TUT database for acoustic scene classification and

sound event detection,» 18th European Signal Processing Conference, pp. 1267-1271, 2016.

[14] AENOR, «UNE-ISO 1996-2: Descripción, medición y evaluación del ruido ambiental.

Determinación de los niveles de ruido ambiental",» 2009.

[15] Brüel & Kjaer, «Sound & Vibration Measurement A/S,» 2000.


[16] A. Das, N. Borisov y M. Caesar, «"Do You Hear What I Hear?: Finger Printing Smart

Devices Through Embedded Acoustic Components",» CCS'14 Proceedings of the 2014 ACM

SIGSAC Conference on Computer and Communications Security, pp. 441-452, 2016.

[17] E. Marchi , D. Tonelli, X. Xu, F. Ringeval, J. Deng , S. Squartini y B. Schuller, «Pairwise

Decomposition with Deep Neural Networks and Multiscale Kernel Subspace Learning for

Acoustic Scene Classification,» Budapest, 2016.


ANEXOS

TABLA 16. DESCRIPTORES SEGÚN SU PORCENTAJE DE EFECTIVIDAD PARA CLASIFICAR.

Descriptores Weights

%

9 100

12 77,11

18 62,33

63 49,25

28 49

13 44,69

19 44,48

45 39,01

16 34,38

10 33,97

44 32,38

5 29,46

15 28,1

22 27,55

47 25,66

6 25,55

58 25,48

17 24,68

31 23,21

46 21,69

38 19,44

62 19,43

60 17,08

23 17,07

27 16,74

68 16,21


20 15,76

64 14,6

66 13,45

33 13,21

29 13,09

14 13,03

35 12,84

8 12,43

40 11,65

53 11,51

21 11,38

50 11,22

11 10,58

32 10,57

34 10,1

49 9,54

41 8,682

24 6,59

2 6,45

65 6

7 5,55

1 4,78

54 4,59

3 4,54

59 3,61

4 3,11

36 2,73

67 2,5

42 2,44

55 2


57 1,99

51 1,93

39 1,09

30 0,77

25 0,25

69 -0,72

43 -1,44

56 -1,84

48 -1,89

26 -2,69

61 -3,38

52 -7,43

37 -7,46

70 -8,74

Código para cargar audios a partir de la ruta de un directorio función ‘cargar’:

Código que retorna una matriz con los vectores de características del ventaneo a mediano, a corto

plazo y los centros representantes para cada ventana a término medio (seg), Función

‘featureExtractionFile’:


Código para extraer los descriptores con ventaneo a corto plazo función ‘stExtractionFile’:


Código para extraer los descriptores con ventaneo a mediano plazo función ‘mtFeatureExtraction’:


Fig. 18. Especificaciones de los puntos de grabación y fuentes características (Zona residencial).

Fig. 19. Especificaciones de los puntos de grabación y fuentes (Zona Industrial).


Fig. 20. Especificaciones de los puntos de grabación y fuentes escenas (Zona Estaciones de metro).

Clasificación de escenas acústicas a través de ...

Documents

Transcript of Clasificación de escenas acústicas a través de ...