Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por...

137
Centro de Investigaci ´ on Cient´ ıfica y de Educaci ´ on Superior de Ensenada, Baja California MR Programa de Posgrado en Ciencias en Ciencias de la computaci ´ on Reconocimiento de contexto usando informaci ´ on auditiva Tesis para cubrir parcialmente los requisitos necesarios para obtener el grado de Doctor en Ciencias Presenta: Jessica Beltr ´ an M ´ arquez Ensenada, Baja California, M ´ exico 2015

Transcript of Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por...

Page 1: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

Centro de Investigacion Cientıfica y de EducacionSuperior de Ensenada, Baja California

MR

Programa de Posgrado en Cienciasen Ciencias de la computacion

Reconocimiento de contexto usando informacion auditiva

Tesis

para cubrir parcialmente los requisitos necesarios para obtener el grado de

Doctor en Ciencias

Presenta:

Jessica Beltran Marquez

Ensenada, Baja California, Mexico

2015

Page 2: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

Tesis defendida por

Jessica Beltran Marquez

y aprobada por el siguiente Comite

Dr. Edgar Leonel Chavez Gonzalez

Codirector del Comite

Dr. Jesus Favela Vara

Codirector del Comite

Dr. Hugo Homero Hidalgo Silva

Dr. Jose Antonio Garcıa Macıas

Dra. Marcela Deyanira Rodrıguez Urrea

Dra. Ana Isabel Martınez GarcıaCoordinador del Programa de Posgrado en Ciencias de la computacion

Dra. Rufina Hernandez MartınezDirector de Estudios de Posgrado

Jessica Beltran Marquez 2015Queda prohibida la reproduccion parcial o total de esta obra sin el permiso formal y explıcito del autor

Page 3: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

ii

Resumen de la tesis que presenta Jessica Beltran Marquez como requisito parcial parala obtencion del grado de Doctor en Ciencias en Ciencias de la computacion.

Reconocimiento de contexto usando informacion auditiva

Resumen aprobado por:

Dr. Edgar Leonel Chavez Gonzalez

Codirector de Tesis

Dr. Jesus Favela Vara

Codirector de Tesis

La informacion que provee el contexto puede utilizarse para desarrollar aplicacionesdedicadas al cuidado de adultos mayores. Por ejemplo, para brindar asistencia en susactividades de la vida diaria, fomentar su integracion social y desarrollar estrategias paradisminuir riesgos provocados por algunos medicamentos. Para obtener informacion delcontexto se pueden utilizar diferentes sensores. En particular, la captura y el analisis delaudio tienen la ventaja de proveer flexibilidad para la recoleccion de datos ya que losmicrofonos estan embebidos en dispositivos moviles. Los retos que presenta el reconoci-miento del contexto usando audio son la existencia de sonidos traslapados, las diferenciasentre sonidos de un mismo tipo, el ruido y las limitaciones de espacio y tiempo de proce-samiento. Los metodos existentes permiten reconocer eventos de sonidos cuando estangrabados sin que exista traslape con otros sonidos. Recientemente se han propuestometodos que son capaces de identificar sonidos aunque esten mezclados con ruido defondo, siempre que se pueda modelar el ruido a priori. En esta tesis, se presenta unarepresentacion del audio disenada para reconocer eventos de sonidos ambientales sinnecesidad de modelar el ruido de fondo. El metodo propuesto consiste en extraer carac-terısticas de las bandas de frecuencia de los sonidos a nivel de trama y posteriormenteobtener la primera y segunda derivada en cada una de las bandas. La representacionfinal esta formada por un conjunto de histogramas, uno por cada banda. Nuestra pro-puesta tiene la ventaja de ser ligera tanto en su calculo como en su representacion final.Se muestra evidencia experimental que avala la eficiencia del esquema para el recono-cimiento de sonidos ambientales y se compara contra el unico trabajo con un enfoquesimilar al nuestro que considera la misma restriccion de no conocer a priori el ruido defondo. Los resultados obtenidos mejoran en velocidad, precision y exhaustividad a losmetodos en el estado de arte. Tambien se presentan evaluaciones sobre dos casos deuso relacionados con aplicaciones dirigidas al apoyo de adultos mayores cuyos resulta-dos indican evidencia de su eficacia para usar el reconocimiento automatico de sonidoscomo herramienta. Ademas, se describe el uso del analisis del audio para desarrollarsoluciones en escenarios distintos a la asistencia de adultos mayores.

Palabras Clave: Reconocimiento de contexto auditivo, Firmas de audio, Analisis deaudio, Clasificacion de sonidos ambientales.

Page 4: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

iii

Abstract of the thesis presented by Jessica Beltran Marquez as a partial requirement toobtain the Doctorate in Sciences degree in Computer Sciences.

Context recognition using auditory information

Abstract approved by:

Dr. Edgar Leonel Chavez Gonzalez

Thesis Co-Director

Dr. Jesus Favela Vara

Thesis Co-Director

The information given by the context can be used to develop applications to supportolder adults. For example, by providing assistance in their daily activities, by increasingtheir social interaction and by providing strategies to decrease the risk produced by somemedications. Different types of sensors can be used to obtain the context information. Par-ticulary, the capture and analysis of audio has the advantage of flexibility in data collectionand that microphones are included in mobile devices like smart phones. The challengesof context recognition through audio are the presence of mixed sounds in nature, the dif-ferences between sounds from the same class, the noise and the limitations of space andprocessing time. The current techniques allow classify sound events when they were cap-tured with no overlap with other sounds. Recently, new methods have been proposed thatare capable to identify sounds even if they are mixed with background noise, however apriori noise model in necessary. In this thesis, we present the development of a methodfor sound representation and classification designed to recognize environmental soundevents without modelling the background noise. Our proposal consist first in the extractionof features in the frequency bands from the audio frames. Then, we obtain the first andsecond derivative in each of the bands to finally represent the sounds through a set ofhistograms, one for each band. Our proposed method has the advantage of being lightand easy to calculate. We show experimental evidence that validates the efficiency of themethod to recognize sounds events and we compare against the only approach that con-siders the same restriction of not modelling a priory the background noise. The results inthe experiment show an improvement in the processing times, precision and recall compa-red with the state of the art techniques. Also, we present evaluations over two use casesrelated with applications to support older adults, which provides evidence of its efficacyfor automatic recognition of sounds as a tool for this purpose. Finally, we describe the useof audio analysis to develop solutions in different escenarios besides the support of olderadults.

Keywords: Auditory context recognition, Audio fingerprint, Audio analysis, Environ-mental sound classification.

Page 5: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

iv

Dedicatoria

Page 6: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

v

Agradecimientos

A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos

sobrinos y al resto de familia.

A mi asesor Edgar, porque ademas de ser mi sensei fuiste mi amigo. A mi asesor

Jesus por haberme mostrado con la practica las virtudes que podemos tener los seres

humanos. A los miembros de mi comite: Hugo, Tony, Marcela, muchas gracias por su apo-

yo, sus aportaciones y por haberme dejado encontrar en ustedes unas grandes personas.

A Ana M. por su apoyo en momentos difıciles y la generacion de buenos momentos.

A todas las secretarias que pasaron por Ciencias de la computacion durante mi estan-

cia, especialmente a Caro y Lydia.

A los indispensables de mis ultimos anos: Karla, Karina, Hector, Valeria, Rene, Santos,

Raymundo, Eduardo, Fabiola y Victor por haber colaborado para que todo el tiempo que

pase en mis estudios de doctorado lo viviera feliz, siempre estaran en mis corazones por

ser tan importantes para mi. Mi eterno agradecimiento por ser ustedes.

A mis companeros y maestros de CICESE de todas las generaciones con las que me

toco compartir, UMICH y CREATE-NET, gracias por estar en mi vida.

A las personas que colaboraron en el desarrollo de esta tesis: Cathy y Galatea, y mi

maestro J. Antonio Camarena.

A los que colaboran y hacen posible los sitios freesound.org y stackoverflow.

Al Centro de Investigacion Cientıfica y de Educacion Superior de Ensenada.

Al Consejo Nacional de Ciencia y Tecnologıa (CONACyT) por brindarme el apoyo

economico para realizar mis estudios de doctorado.

Page 7: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

vi

Tabla de contenidoPagina

Resumen en espanol ii

Resumen en ingles iii

Dedicatoria iv

Agradecimientos v

Lista de figuras ix

Lista de tablas xii

1. Introduccion y motivacion 11.1. AAL para adultos mayores y sus cuidadores . . . . . . . . . . . . . . . 21.2. Reconocimiento de contexto usando audio . . . . . . . . . . . . . . . . 41.3. Preguntas de investigacion . . . . . . . . . . . . . . . . . . . . . . . . 71.4. Objetivo de investigacion . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.5.1. Revision de literatura . . . . . . . . . . . . . . . . . . . . . . . . 81.5.2. Estudio observacional en el contexto de un adulto mayor . . . 81.5.3. Adquisicion de datos . . . . . . . . . . . . . . . . . . . . . . . . 81.5.4. Diseno y experimentacion . . . . . . . . . . . . . . . . . . . . . 9

1.6. Organizacion de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Sistemas de reconocimiento de audio 102.1. Sistemas de reconocimiento de audio . . . . . . . . . . . . . . . . . . 102.2. Firmas de audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1. Robustez a degradaciones . . . . . . . . . . . . . . . . . . . . 112.2.2. Transparencia o robustez al traslape de sonidos . . . . . . . . 112.2.3. Compacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.4. Facilidad de calculo y de comparacion . . . . . . . . . . . . . . 152.2.5. Escalabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.6. Procedimiento para calcular la firma de audio . . . . . . . . . . 152.2.7. Caracterısticas perceptuales . . . . . . . . . . . . . . . . . . . 16

2.2.7.1. Tasa de cruce por cero . . . . . . . . . . . . . . . . . . . . 162.2.7.2. Energıa en corto tiempo (STE) . . . . . . . . . . . . . . . . 162.2.7.3. Flujo espectral . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.7.4. Planaridad espectral . . . . . . . . . . . . . . . . . . . . . . 182.2.7.5. Mel Frequency Cepstral Coeficients (MFCC) . . . . . . . . 192.2.7.6. Multi-Band Spectral Entropy (MBSE) . . . . . . . . . . . . 19

2.3. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3.1. Maquina de soporte vectorial . . . . . . . . . . . . . . . . . . . 21

2.3.1.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3.1.2. Intuicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3.1.3. Hiperplano . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.1.4. Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . 232.3.1.5. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Page 8: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

vii

2.3.1.6. Proceso de Markov . . . . . . . . . . . . . . . . . . . . . . 232.3.1.7. Modelos ocultos de markov discretos . . . . . . . . . . . . 25

2.4. Evaluaciones en sistemas de clasificacion de audio . . . . . . . . . . . 28

3. Trabajo previo en sistemas de reconocimiento de sonidos ambientales 323.0.1. Tamano de las firmas . . . . . . . . . . . . . . . . . . . . . . . 38

4. Contribuciones de diseno de firmas de audio basada en entropıa 394.1. Diseno de firmas de audio para sonidos ambientales mezclados . . . 394.2. Diseno de firma de audio para sonidos ambientales mezclados, hete-

rogeneos y con problemas de alineamiento . . . . . . . . . . . . . . . 434.2.1. Calculo de complejidad de la firma H1dH2d-MEL-MBSES . . . 46

5. Evaluaciones 495.1. Identificacion de sonidos individuales en segmentos mezclados . . . . 495.2. Reconocimiento de clases de sonidos: Evaluacion de escalabilidad y

robustez ante alta heterogeneidad y ruido . . . . . . . . . . . . . . . . 555.3. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6. Evaluacion de las firmas en dos casos de estudio 606.1. Caso de estudio 1: Reconocimiento de comportamientos disruptivos

audibles en un escenario de una residencia de adultos mayores . . . 606.1.1. Detector de palabras clave . . . . . . . . . . . . . . . . . . . . 666.1.2. Detector de balbuceos . . . . . . . . . . . . . . . . . . . . . . . 676.1.3. Detector de sonidos ambientales . . . . . . . . . . . . . . . . . 69

6.2. Caso de estudio 2: Reconocimiento de sonidos continuos no segmen-tados producidos en un ambiente realista en un departamento habita-do por un adulto mayor . . . . . . . . . . . . . . . . . . . . . . . . . . . 706.2.1. Deteccion de sonidos ambientales continuos . . . . . . . . . . 71

6.3. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

7. Otros aportes de reconocimiento de sonidos 747.1. Reconocedor de llanto . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7.1.1. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.1.1.1. Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . 757.1.1.2. Evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

7.1.2. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 777.2. Reconocimiento de voz: Implementacion del algoritmo en un telefono

inteligente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 777.2.1. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

7.3. Deteccion de personas en el mismo lugar . . . . . . . . . . . . . . . . 807.3.1. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8. Conclusiones y trabajo futuro 878.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Lista de referencias bibliograficas 918.2.0.1. Modelos ocultos de markov discretos . . . . . . . . . . . . 105

Page 9: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

viii

8.2.0.2. Modelos ocultos de markov continuos . . . . . . . . . . . . 113

Page 10: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

ix

Lista de figurasFigura Pagina

1. Fases de la metodologıa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2. Etapas de un sistema de reconocimiento de audio. . . . . . . . . . . . . . . 10

3. a) Forma de onda de una senal de audio, b) Comparacion entre dos formasde onda, c) Desfasamiento en el tiempo en dos senales, d) Cambio devolumen, e) Senal contaminada con ruido. . . . . . . . . . . . . . . . . . . . 12

4. Ejemplo de una mezcla con una senal dominante y una senal debil. . . . . 13

5. Cuatro ejemplos de mezclas usando distintos valores de SNR. . . . . . . . 14

6. Procedimiento para obtener una firma de audio . . . . . . . . . . . . . . . . 17

7. a) Separacion en tramas de una senal de audio, b)Traslape de tramas, c)Multiplicacion de una tramana por una funcion ventana. . . . . . . . . . . . 18

8. Procedimiento para calcular MFCC. . . . . . . . . . . . . . . . . . . . . . . 19

9. Procedimiento para calcular MBSE. . . . . . . . . . . . . . . . . . . . . . . 20

10. Ejemplos de firmas de audio basadas en caracterısticas perceptuales MFCCy MBSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

11. Hiperplano separando puntos de dos clases linealmente . . . . . . . . . . . 22

12. Proceso de Markov representando una serie temporal. . . . . . . . . . . . . 24

13. Probabilidades de transicion entre estados en un modelo de Markov. . . . . 25

14. Elementos de los modelos ocultos de Markov. . . . . . . . . . . . . . . . . . 26

15. Procedimiento de entrenamiento y evaluacion usado en sistemas de reco-nocimiento de audio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

16. Ejemplo de particion de bases de datos para entrenamiento y evaluacionespara HMMs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

17. Ejemplo de particiones para hacer una validacion cruzada con 4 subcon-juntos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

18. Imagen tomada del artıculo (Dennis et al., 2013) . . . . . . . . . . . . . . . 35

19. Procedimiento de separacion en pistas de una senal original. Imagen to-mada de (Heittola et al., 2011) . . . . . . . . . . . . . . . . . . . . . . . . . 36

20. Ejemplo de obtencion de la precision y la exhaustividad para la clasificacionde eventos de sonido. Imagen tomada de (Heittola et al., 2011) . . . . . . 37

21. Particion de la imagen en sub-bloques y obtencion de las estadısticas me-dia y varianza sobre cada sub-bloque para generar el vector representantex. Imagen tomada de (Dennis et al., 2012) . . . . . . . . . . . . . . . . . . 37

22. Procedimiento para obtener la firma MEL-MBSES. . . . . . . . . . . . . . . 40

Page 11: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

x

Figura Pagina

23. MFCC, MEL-MBSES and MEL-CMBSES (a), y las versiones binarias B-MFCC, B-MEL-MBSES y MEL-CMBSES del sonido llanto de bebe. (b) . . . 40

24. Comparacion de la 5ta banda de la firma MEL-MBSES de la cancion ”Diosadel cobre”(Miguel Bose y Ana Torroja) contra la 5ta banda de otras versio-nes de la misma cancion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

25. Procedimiento para obtener la firma binaria MEL-MBSES. . . . . . . . . . . 42

26. Procedimiento para obtener la firma MEL-CMBSES. . . . . . . . . . . . . . 43

27. a Amplitudes de dos ejemplos de sonidos de golpeteos y lavado de manos.b Derivadas de la primera banda de la firma MEL-MBSES de los ejemplosde sonidos. c Firmas H1dH2d-MEL-MBSES de los ejemplos de sonidos. . 44

28. Ejemplo de la obtencion de un histograma de una banda de la derivada dela firma MEL-MBSES de un sonidos. . . . . . . . . . . . . . . . . . . . . . . 45

29. Combinaciones de todas las mezclas con pares de sonidos con un SNR=0dB. 50

30. Mezclas de tripletas de sonidos. . . . . . . . . . . . . . . . . . . . . . . . . 51

31. Firmas MFCC, MEL-MBSES and MEL-CMBSES (a), y sus versiones bina-rias del sonido Llanto de bebe (d), y las mezclas de sonido que incluyenLlanto de bebe con SNR = 20dB (b)(e) y SNR = 3.4dB (c)(f). . . . . . . . . 52

32. Classificacion en mezclas, el eje y indica al sonido dominante en la mezclamientras en cada columna se indica el otro sonido que forma la mezcla. Lasclases de sonidos son: A=balon botando, B=lavandose los dientes, C=grillo,D=llanto, E=llaves, F=lavandose las manos, G= tecleando. . . . . . . . . . 58

33. Sistema de Intervenciones Asistidas. El sistema analiza la informacion delcontexto sensada a partir del usuario, la informacion introducida por el cui-dador y el ambiente al cual el usuario se encuentra expuesto. Imagen ba-sada de (Navarro et al., 2014). . . . . . . . . . . . . . . . . . . . . . . . . . 61

34. Ubicacion de los microfonos en dos adultos mayores que habitan en laresidencia geriatrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

35. Espectrograma que representa la interaccion entre dos pacientes de la re-sidencia geriatrica. Se resaltan las palabras silencio, shut up y el balbuceo. 64

36. Sistema de Intervenciones Ambientales Asistido basado en la deteccion decomportambientos disruptivos Audibles y la activacion de intervenciones nofarmacologicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

37. Clasificacion de balbuceo en segmentos de audio continuo. . . . . . . . . . 68

38. Clasificacion de golpeteo en segmentos de audio continuo. . . . . . . . . . 70

39. Ejemplo de cuatro clases de eventos de sonidos en segmentos continuos. 72

40. Procedimiento para detectar llanto sostenido. . . . . . . . . . . . . . . . . . 75

Page 12: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

xi

Figura Pagina

41. Procedimiento para detectar actividad de voz. . . . . . . . . . . . . . . . . . 79

42. Ejemplo de configuracion de un sistema para detectar proximidad. . . . . . 81

43. Resultados al comparar los sonidos grabados por los dispositivos A y B enlas bases de datos 1 y 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

44. Hiperplano separando puntos de dos clases linealmente . . . . . . . . . . . 99

45. Hiperplano separando puntos de dos clases linealmente en un espacio decaracterısticas de mayor dimension . . . . . . . . . . . . . . . . . . . . . . 101

46. Proceso de Markov representando una serie temporal. . . . . . . . . . . . . 104

47. Probabilidades de transicion entre estados en un modelo de Markov. . . . . 105

48. Elementos de los modelos ocultos de Markov. . . . . . . . . . . . . . . . . . 106

Page 13: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

xii

Lista de tablasTabla Pagina

1. Comparacion de propuestas para el reconocimiento de sonidos am-bientales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2. Complejidad de operaciones . . . . . . . . . . . . . . . . . . . . . . . 48

3. Resultados para la primera fase de diseno. Las lıneas representanlos sonidos Llanto de bebe (i), canto de ave(ii), llaves (iii), sirena (iv),lavado de dientes (v), musica con voz(vi), musica sin voz (vii), vozde hombre (viii), voz de mujer (ix). Las columnas corresponden a lasfirmas utilizadas (todas con un mismo clasificador) MFCC (a), MEL-MBSES (b),MEL-CMBSES (c), MFCC binario (d) MEL-MBSES bina-rio (e) MEL-CMBSES binario (f). La columna (g) es el promedio delos resultados obtenidos con los 48 participantes. Las cuatro tablascorresponden a las bases de datos con un valor de SNR diferente. . 54

4. Resumen de las bases de datos usadas en esta fase . . . . . . . . . 57

5. Fscore para los experimentos sobre bases de datos A,B and C . . . 57

6. Verdaderos Positivos(VP), Falsos Positivos (FP) y F1Score en soni-dos mezclados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

7. BPSD con manifestaciones audibles documentadas en el estudio ob-servacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

8. Matriz de confusion para balbuceos y otros sonidos . . . . . . . . . . 67

9. Clases de sonidos para caso de estudio 2 . . . . . . . . . . . . . . . 71

10. Resultados de la clasificacion de llanto sostenido. . . . . . . . . . . . 76

11. Resultados de la clasificacion de llanto sostenido . . . . . . . . . . . 85

Page 14: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

1

Capıtulo 1. Introduccion y motivacion

El termino contexto, en el ambito de los sistemas computacionales, esta definido como

“cualquier informacion que pueda utilizarse para caracterizar la situacion de una entidad,

donde entidad pueda ser una persona, un lugar o un objeto que pueda ser relevante

para la interaccion entre el usuario y una aplicacion, incluyendo incluso al usuario y a la

aplicacion misma”(Abowd et al., 1999).

Actualmente existe una amplia gama de dispositivos que poseen la capacidad de sen-

sar el entorno y comunicarse entre si de forma inalambrica (Meyer and Rakotonirainy,

2003). Esto ha permitido avances en una area de conocimiento denominada computo

consciente del contexto, donde se busca desarrollar sistemas que se adapten a la infor-

macion asociada al contexto (Chen and Kotz, 2000).

Una primera generacion de aplicaciones conscientes del contexto se basaba en la ubi-

cacion para adaptar el funcionamiento de las aplicaciones (Kirk and Newmarch, 2005). Un

ejemplo esta dado por un sistema que, mediante el uso de dispositivos infrarrojos, detec-

ta el movimiento de los empleados de una oficina para permitir que sean contactados al

telefono mas cercano a su ubicacion actual dentro de todo un edificio (Want et al., 1992).

Otros ejemplos de aplicaciones para este paradigma de computo son el desarrollo de

tecnologıas de informacion que ofrecen servicios adaptables al contexto del usuario para

entregar respuestas mas inteligentes (Ma et al., 2003). Una mas consiste en un modelo

que selecciona estrategias dinamicas de notificacion de mensajes basandose en la prio-

ridad del mensaje, el nivel de uso y la ubicacion actual (Sawhney and Schmandt, 1999).

Otras investigaciones relacionadas con el computo consciente del contexto, se enfocan

en hacer identificacion de actividades (Lukowicz et al., 2004) (Oliver et al., 2004) (Baldauf

et al., 2007) e identificacion de comportamiento.

Un campo de aplicacion para la deteccion de actividades y comportamientos que ha

generado interes en los ultimos anos, consiste en el cuidado de adultos mayores. Esta

es una tarea demandante que normalmente es llevada a cabo por familiares cercanos

quienes se enfrentan a condiciones de estres o burnout mientras brindan asistencia 24/7

(Rialle et al., 2008). El concepto en ingles “Ambient Assisted Living (AAL)”, consiste en

Page 15: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

2

usar la informacion y las tecnologıas de comunicacion en las actividades de la vida diaria

de personas para permitir que continuen activas, se mantengan socialmente conectadas

y vivan de forma independiente en su edad avanzada (Active and Programme, 2015).

Por ejemplo, se pueden notificar automaticamente a los cuidadores sobre las actividades

realizadas por los adultos mayores, para identificar oportunamente las situaciones en las

que se requiera brindar apoyo, ya sea en condiciones de riesgo o cuando esta sucediendo

algo inusual (Morris et al., 2003).

1.1. AAL para adultos mayores y sus cuidadores

La oportunidad de los adultos mayores de prolongar su independencia para continuar

viviendo en sus propios hogares en vez de ingresar a una residencia geriatrica es conoci-

do como “Aging in Place” (AiP). No es suficiente proporcionar aparatos tecnologicos para

brindar la asistencia, sino que es importante conocer el contexto, de forma que el apoyo

se lleve a cabo adecuadamente (Morris et al., 2003).

El incremento de la esperanza de vida de la poblacion y la disminucion de la natalidad

han provocado que la poblacion de adultos mayores tenga un crecimiento importante en

los ultimos anos (Zuniga and Vega, 2004). Este crecimiento poblacional motiva a atender

retos sociales, economicos y de salud con el objetivo de mejorar la calidad de vida del

adulto mayor (Acree et al., 2006)

Algunas propuestas de computo consciente del contexto para asistir AiP pueden cubrir

distintos aspectos de la vida del adulto mayor. Por ejemplo, con la deteccion automatica

de sus actividades se puede notificar a los miembros de su familia para mantenerlos in-

volucrados y al tanto de situaciones donde puedan brindar apoyo (Wilson, 2005). Otro

aspecto de la vida del adulto mayor donde se puede usar el computo consciente del

contexto es mediante el diseno de aplicaciones que fomenten su integracion social para

promover un envejecimiento saludable y mantener su bienestar fısico y mental (Cornwell

et al., 2008). Un ejemplo se da en (Miluzzo et al., 2008) donde utilizan telefonos inteligen-

tes para inferir actividades automaticamente y notificarlas mediante redes sociales, esto

puede propiciar que los adultos mayores y sus familiares de generaciones mas recientes

mejoren su comunicacion (Cornejo et al., 2013).

Page 16: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

3

Otra area de apoyo consiste en monitorizar las actividades y comportamientos de los

pacientes para determinar las intervenciones farmacologicas o no farmacologicas ade-

cuadas (Wilson, 2005). Algunos medicamentos, tales como antipsicoticos y antidepresi-

vos proveen evidencia de ayudar con el trato a enfermedades en adultos mayores, tal

como la demencia, sin embargo sus efectos son modestos y producen efectos secun-

darios severos como accidentes cerebro-vasculares e incremento en el riesgo de morta-

lidad, esto resalta la importancia de usar alternativas no farmacologicas para disminuir

estos sıntomas. Mediante el analisis del contexto es posible desarrollar un Sistema de

Intervenciones Asistidas (SIA), el cual se puede disenar para detectar automaticamente

la ubicacion de adultos mayores que deambulan, detectar si se encuentran impacientes,

agitados o en general con un comportamiento problematico y con esta informacion deci-

dir el uso de una estrategia no farmacologica adecuada para mejorar el estado del adulto

mayor.

Se pueden utilizar las lecturas de diversos tipos de sensores (Lukowicz et al., 2004)

(Oliver et al., 2004) (Baldauf et al., 2007) para inferir el contexto, ya que estos permiten

la captura de variables que podrıan estar involucradas en la manifestacion de un compor-

tamiento o la realizacion de una actividad. Para poder realizar la inferencia, se establece

una relacion entre los cambios de las variables de entorno, las cuales se capturan direc-

tamente por los sensores, y la derivacion del conjunto de actividades o comportamientos

distinguibles (Meyer and Rakotonirainy, 2003).

Un reto en el diseno para la deteccion del contexto consiste en identificar cuales va-

riables o caracterısticas definen mejor a las actividades o situaciones que se desee inferir

(Mihailidis and Fernie, 2002). Otro reto esta dado por la diversidad con que las personas

manifiestan sus comportamientos o ejecutan actividades (Surie et al., 2007). Por ejem-

plo, la actividad aspirar la sala puede ejecutarse de distinta manera por dos personas.

Ademas, la diversidad se puede presentar incluso en un mismo individuo al realizar una

misma actividad en entornos o situaciones diferentes. Un individuo puede lavarse los

dientes en la manana en el bano de su recamara y el mismo individuo se lava los dientes

a mediodıa en el bano de su oficina. Por lo tanto, para desarrollar aplicaciones se requiere

adaptar a las dinamicas del entorno y ajustar a las necesidades de cada usuario, es decir

Page 17: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

4

que sea capaz de funcionar adecuadamente con las variantes que se dan con diferentes

usuarios y condiciones ambientales, (Choudhury et al., 2008).

Es improbable que un solo tipo de sensor sea adecuado para todo tipo de aplicaciones

y normalmente se combinan multiples sensores para incrementar de manera significativa

la inferencia del contexto (Meyer and Rakotonirainy, 2003). Es de interes particular para

esta investigacion el utilizar el microfono ya que el audio ambiental provee informacion

significativa que se puede utilizar para discriminar la situacion de un usuario, y por lo

tanto puede ser usada en aplicaciones conscientes del contexto (Potamitis and Ganchev,

2008).

1.2. Reconocimiento de contexto usando audio

El reconocimiento automatico del audio ambiental se ha vuelto relevante en el compu-

to consciente del contexto, especialmente donde la identificacion del audio puede usarse

para detectar y monitorizar actividades de la vida diaria (Chen et al., 2012). Una ventaja

del audio sobre otro tipo de sensores se da debido a que los microfonos pueden capturar

informacion en todas direcciones y es altamente robusto ante los cambios de posicion y

orientacion. Esto permite mayor flexibilidad para la recoleccion de datos siendo menos

intrusivo para el usuario, a diferencia de otros sensores como las camaras las cuales

requieren de ciertas condiciones como el enfocar la escena de interes, tener una ilumina-

cion apropiada y la necesidad de analizar una mayor cantidad de datos. Otra ventaja de

usar audio es que no se requiere de infraestructura centralizada ni de hardware adicional

al microfono, los cuales usualmente vienen ya incluidos en los dispositivos moviles tales

como telefonos celulares (Ma et al., 2006) (Perttunen et al., 2008). Por ejemplo, por medio

del analisis del audio capturado por un solo microfono se puede inferir la ubicacion (Ma

et al., 2006), mientras que al utilizar otros sensores como RFID (Tesoriero et al., 2010) o

dispositivos WiFi (Paciga and Lutfiyya, 2005) entonces se requiere instalar una red para

lograr la inferencia de la ubicacion.

Existen limitantes para inferir contexto mediante el analisis del audio, por ejemplo re-

sulta imposible detectar objetos o ambientes que no emiten ningun tipo de sonido (Ellis

and Lee, 2006a). Ademas, existen distintos retos para llevar a cabo el analisis automatico

Page 18: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

5

del audio ambiental tal como la existencia de sonidos traslapados, heterogeneidad para

producir los sonidos y el ruido presente al hacer la captura. A continuacion se explican a

detalle estos retos.

Sonidos traslapados. El audio capturado por un microfono esta formado por mez-

clas de sonidos que provienen de diferentes fuentes. Aunque los seres humanos

poseen la capacidad de separar y poner atencion unicamente al sonido que es de

su interes, esta tarea se mantiene como un problema abierto para ser realizada

automaticamente.

Heterogeneidad intra-clase. La heterogeneidad se da cuando existen diferencias

entre los sonidos que provienen de una misma categorıa de sonido. Para ilustrar la

heterogenedad intra clase, considerese el sonido de lavarse las manos; un sistema

deberıa ser capaz de identificar este sonido aunque esto implique que es realizado

por diferentes personas, a pesar de que se utilizan diferentes llaves, distinta cantidad

de agua y en general se presenten diferentes condidiciones.

Similitud inter-clase. Entre la inmesurable cantidad de sonidos presentes en la

naturaleza, existen sonidos que provienen de diferentes fuentes pero se escuchan

de forma similar. Por ejemplo, el sonido de una pelota botando o el sonido de tocar

una puerta. Un sistema de reconocimiento automatico de sonido podrıa confundirse

y predecir incorrectamente que se ha producido un sonido en vez de otro.

Ruido. Otros problemas relacionados con el analisis automatico son la existencia

del ruido introducido por la transmision de datos o por los dispositivos utilizados

para la captura.

Representacion compacta y facil de calcular. Un aspecto importante dentro del

proceso del reconocimiento del audio ambiental consiste en obtener una represen-

tacion apropiada del audio, la cual se denomina firma de audio, que se utiliza para

conjuntar representaciones de sonidos similares y para distinguir entre sonidos que

no estan relacionados. Se busca tener una firma de audio que ocupe poco espacio y

sea facil de calcular y de comparar. Estos requerimientos estan motivados por que

Page 19: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

6

los dispositivos en donde se realizaran los calculos tienen limitantes de poder de

computo y memoria disponible.

Los trabajos en reconocimiento de contexto basados en audio pueden agruparse en

dos maneras de describir las clases o categorıas del entorno auditivo; escenas auditivas

y eventos de sonido. Se puede considerar a las escenas auditivas como composiciones

musicales, en donde los eventos de sonido son los instrumentos musicales. Existen expe-

rimentos que determinan que el proceso cognitivo de los seres humanos para el recono-

cimiento o similaridad de escenas auditivas consiste en la identificacion de las fuentes de

sonido fısicas. Por ejemplo la escena auditiva reconocida como parque esta compuesta

por eventos de audio localizados tales como ave cantando y ni~nos jugando. Sin embar-

go, investigaciones recientes muestran que en condiciones en donde existen demasiados

sonidos no caracterısticos el ser humano posee estrategias holısticas para poder proce-

sar escenas auditivas (Aucouturier et al., 2007).

Al determinar las escenas auditivas, cada escena puede traducirse a alguna activi-

dad, por ejemplo en la propuesta presentada en (Ma et al., 2006) la identificacion de

la escena lavanderıa se traduce a que el usuario se encuentra lavando ropa mientras

que la identificacion de la escena oficina se traduce a que el usuario esta trabajando

en la oficina. Por otro lado, si se utilizan clases de eventos de sonido, la identifica-

cion de cafetera o microondas se pueden traducir a las actividades preparando cafe y

calentando en microondas respectivamente. Ambos tipos de clases proveen informacion

contextual y se pueden complementar para lograr un mejor entendimiento del contexto y

una mejor clasificacion. Existen estudios que demuestran que cuando los seres humanos

identifican sonidos no solo utilizan la informacion auditiva sino que ademas usan cono-

cimiento del contexto como auxiliar para desambiguar entre sonidos parecidos (Niessen

et al., 2008). Esta conclusion es especialmente importante para los metodos de reconoci-

miento automatico; ya que para poder determinar que se ha identificado una clase de alto

nivel, tal como una actividad, es necesario establecer una relacion entre caracterısticas

de bajo nivel extraıdas de la senal auditiva y el contexto en el cual se ha producido dicha

senal.

La deteccion de eventos de sonido puede ayudar a conocer actividades y describir

Page 20: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

7

caracterısticas del comportamiento de los adultos mayores. Un ejemplo es el sonido

lavandose los dientes que indica si el usuario esta realizando su limpieza dental. Otro

ejemplo es el evento de sonido golpeteo en la silla que se puede traducir a que un pa-

ciente esta inquieto. La deteccion del sonido grito puede indicar que el adulto mayor

esta enojado, mientras que con el sonido Tosiendo se puede conocer su estado de salud.

En esta tesis se busca encontrar una firma de audio que sea capaz de representar

correctamente eventos de sonidos mezclados y contaminados con ruido. Tambien, se

contribuye al estado del arte al reconocer sonidos que poseen alta diversidad interclase y

alta similitud intraclase. Buscamos tener una firma de audio que ocupe poco espacio, sea

facil de calcular y de comparar. Estos requerimientos estan motivados por los desarrollos

de aplicaciones en dispositivos moviles en donde existen limitantes de poder de computo

y memoria disponible.

1.3. Preguntas de investigacion

Las preguntas de investigacion que surgen respecto al analisis del contexto por medio

del sonido y la necesidad de brindar asistencia ambiental a adultos mayores son las

siguientes:

¿Puede una firma basada en entropıa ser adecuada para inferir contexto?

¿Se puede disenar una firma compacta, facil de calcular y evaluar para el reconoci-

miento de contexto?

¿Que capacidad de generalizacion a distintos usuarios puede tener una firma basa-

da en la entropıa?

¿Cual es la utilidad del reconocimiento del contexto usando audio para apoyar al

cuidado de adultos mayores?

1.4. Objetivo de investigacion

Disenar un esquema de extraccion de firma de audio y clasificacion para eventos

de sonido dirigido a un sistema de reconocimiento de contexto que sea robusto ante

Page 21: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

8

condiciones ruidosas, ocupe poco espacio y sea facil de calcular y comparar. Ademas

probar su utilidad en escenarios de adultos mayores.

1.5. Metodologıa

Buscando responder las preguntas de investigacion para lograr el objetivo planteado

se siguio la siguiente metodologıa la cual se ilustra en la Figura 1.

Estudio observacionalen el contexto de un

adulto mayor

Adquisiciónde

datos

Diseño y experimentación

Diseño de firma de audio

Elección de clasificadory de parámetros

Codificación yexperimentación

Evaluación

Revisión deliteratura

Figura 1: Fases de la metodologıa.

1.5.1. Revision de literatura

La primera fase consistio en una revision exhaustiva de la literatura relacionada con

el reconocimiento de contexto utilizando informacion auditiva. Se presto atencion a las

representaciones del audio y a las tecnicas de clasificacion utilizadas. Tambien se anali-

zaron las creaciones de las bases de datos y las metricas usadas para la evaluacion de

los metodos propuestos. Ademas se siguio la evolucion de las propuestas para tratar los

retos del analisis del audio.

1.5.2. Estudio observacional en el contexto de un adulto mayor

Se realizo un estudio observacional en una residencia geriatrica para desarrollar es-

cenarios de uso de computo consciente del contexto. Se estudio si es posible utilizar la

informacion auditiva para realizar un reconocimiento automatico de actividades y compor-

tamientos de los adultos mayores.

1.5.3. Adquisicion de datos

Se crearon las bases de datos necesarias para realizar los experimentos. El audio se

obtuvo utilizando microfonos y posteriormente se etiqueto manualmente indicando cada

Page 22: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

9

tipo de sonido. Tambien se descargaron sonidos de Internet los cuales tambien fueron

etiquetados manualmente.

1.5.4. Diseno y experimentacion

El diseno y experimentacion es una fase cıclica la cual consta de 2 etapas. Cada ciclo

busca incrementalmente resolver los retos relacionados con el analisis de audio.

Diseno de firma de audio En esta etapa se hace el analisis de la senal de audio bus-

cando una representacion que permita clasificar sonidos adecuadamente. Se busco que

la firma de audio discrimine mejor entre diferentes tipos de sonido mejorando al estado

del arte. Tambien se considero que sea robusta al ruido, utilice poco espacio utilizado y

sea rapida de calcular.

Experimentacion Se codificaron las firmas de audio propuestas en cada ciclo y se

realizaron experimentos para su evaluacion usando metodos y metricas utilizadas en la

literatura.

1.6. Organizacion de la tesis

En el capıtulo 2 se presentan los fundamentos teoricos de los sistemas de clasificacion

usando audio. En el capıtulo 3 se presentan los metodos desarrollados en el estado del

arte para el reconocimiento de contexto usando audio con aplicaciones para apoyar a

los adultos mayores. En el capıtulo 4 se describe las firmas de audio propuestas. En

el capıtulo 5 se describen los experimentos y resultados. En el capitulo 6 se presentan

otros aportes usando el reconocimiento automatico de sonidos. Finalmente, el capıtulo 7

describe las conclusiones y trabajo futuro.

Page 23: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

10

Capıtulo 2. Sistemas de reconocimiento de audio

2.1. Sistemas de reconocimiento de audio

Sonido Un sistema de reconocimiento de audio consiste de tres etapas principales (

ver Figura 2). Primero, se captura el sonido por medio de microfonos (aquı se debe tener

cuidado con la eleccion de la frecuencia de muestreo y la resolucion en bits ya que es-

tos valores definen la calidad del audio y la cantidad de datos a capturar). Posteriormente

se extrae una firma de audio que se introduce a un clasificador que finalmente indica la

clase a la que pertenece el sonido (Stager, 2007).

La principal diferencia entre los trabajos de investigacion en reconocimiento de audio,

esta dada por las firmas y clasificadores que se utilizan. Para comparar cual propuesta

es mejor para una aplicacion especıfica, se realizan evaluaciones donde se analizan me-

didas que indican la eficiencia de la clasificacion. A continuacion se describen detalles y

ejemplos de firmas de audio, clasificadores y evaluaciones en sistemas de reconocimiento

de audio.

2.2. Firmas de audio

La extraccion de firmas de audio se refiere al procedimiento de obtener una repre-

sentacion, basada en el contenido de la senal, que se utiliza para medir similitud entre

segmentos de sonidos. La firma de audio se forma con caracterısticas perceptuales del

sonido, de forma que las firmas de dos sonidos que pertenecen a una misma clase deben

tener alta similitud. Un objetivo de la firma de audio es reducir la cantidad de informacion

a almacenar y el tiempo de procesamiento utilizado para comparar senales.

La obtencion de la firma de audio es una parte muy importante en un sistema de

reconocimiento automatico. La capacidad de la firma para discriminar entre distintos tipos

aaaa

aaaa

aaaa

aaaa

aaaa

aaaa

aaaa

Captura de sonidoExtracción de firmas

de audio Clasificación Resultados

23

01

23

67

71

09

43

15

43

44

3

Figura 2: Etapas de un sistema de reconocimiento de audio.

Page 24: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

11

de sonidos es mas importante que el tipo de clasificador utilizado, ya que si los sonidos no

estan correctamente representados ningun clasificador sera capaz de entregar resultados

correctos. Las firmas de audio deben cumplir con las siguientes propiedades para que

representen adecuadamente a los sonidos ambientales.

2.2.1. Robustez a degradaciones

En la Figura 3.a se ilustra la forma de onda de una senal acustica. Si se desea compa-

rar entre las formas de onda de dos senales, entonces se requiere comparar muestra por

muestra en cada una de las senales, ver Figura 3.b. Esto implica muchos calculos y no

proporciona robustez a variaciones y degradaciones de la senal. Por ejemplo, en la Figura

3.c se observa que si se tienen dos senales muy parecidas pero con un pequeno desfa-

samiento en el tiempo, entonces al comparar las muestras correspondientes se indicarıa

que ambas senales son totalmente diferentes. Este resultado tambien se presentarıa si

se compara la senal original contra una version con distinto volumen, ver Figura 3.d, y

contra una version con contaminacion de ruido, ver Figura 3.e.

Una caracterıstica importante de la firma de audio es su capacidad para representar

correctamente senales que pueden estar sujetas a una variedad de degradaciones tales

como contaminacion por ruido, cambios de volumen y desfasamiento en el tiempo. Esto

implica que la firma de un sonido no debe ser muy diferente a una version degradada del

mismo sonido, es decir, la firma de audio debe ser robusta ante degradaciones.

2.2.2. Transparencia o robustez al traslape de sonidos

En ambientes no controlados, la senal capturada por microfonos consta de una mez-

cla de sonidos que provienen de distintas fuentes. Por ejemplo, en una cocina se puede

estar lavando los trastes al mismo tiempo que se esta guisando y usando la licuadora.

Se busca poder reconocer un sonido en especıfico, por ejemplo el sonido de la licuadora,

a pesar de que la senal original contiene a todos los sonidos traslapados. Denomina-

mos transparencia a la habilidad de la firma de audio para reconocer todos los sonidos

individuales presentes en una mezcla.

Si en una mezcla, se tiene que un sonido contribuye con mayor potencia, se le llama

Page 25: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

12

Señal original

Comparación entre dos señales muestra por muestra

Comparación entre dos señales con desfasamiento

Señal con cambio de volumen

Señal con ruido

a)

b)

c)d)

e)

Figura 3: a) Forma de onda de una senal de audio, b) Comparacion entre dos formas de onda,c) Desfasamiento en el tiempo en dos senales, d) Cambio de volumen, e) Senal contaminada conruido.

Page 26: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

13

Sonido dominante

Sonido débil

Señal dominante + señal débil

Figura 4: Ejemplo de una mezcla con una senal dominante y una senal debil.

sonido dominante, a comparacion de un sonido debil, esto produce que al escuchar la

mezcla, el sonido dominante se escuche mas fuerte que el sonido debil , ver Figura 4.

Mediante la Relacion Senal Ruido (SNR por sus siglas en inges) se expresa la relacion

que existe entre el sonido dominante y el debil. El valor de SNR es una especificacion que

mide el nivel de sonido deseado presente en una senal auditiva comparado contra el nivel

de ruido que tambien esta presenta en la senal.

SNRdB = 10logPsenal

Pruido(1)

Page 27: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

14

SNR=20dB SNR=10dB

SNR=5dB SNR=3.4dB

Figura 5: Cuatro ejemplos de mezclas usando distintos valores de SNR.

donde P es la potencia de la senal.

P =1N

n∑i=1

(xi)2 (2)

En la Figura 5 se ilustran ejemplos de cuatro mezclas entre un sonido dominante y un

sonido debil usando diferentes valores de SNR. Se observa que con valores altos de SNR

la senal dominante resulta menos modificada por la senal debil. Una forma de conocer

la transparencia de una firma de audio es evaluando la clasificacion sobre mezclas con

distintos valores de SNR.

Page 28: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

15

2.2.3. Compacta

Es necesario que una firma de audio sea compacta debido a las limitaciones de me-

moria existentes en los dispositivos donde correran las aplicaciones conscientes del con-

texto. Por ejemplo 3 segundos de una senal de audio crudo necesitan 216kB en memo-

ria, mientras que esos 3 segundos representados con una firma de audio requieren solo

10kB. Una forma de permitir comparaciones rapidas, consiste en almacenar las firmas en

la memoria inmediata RAM y asi evitar los costos de accesos a la memoria secundaria.

Otra ventaja de tener una firma compacta se presenta si la aplicacion requiere realizar

transmision de datos por medio de Iternet.

2.2.4. Facilidad de calculo y de comparacion

Para que un sistema consciente del contexto ejecute una accion oportuna o notifique

un evento que esta sucediendo actualmente, se requiere que este tenga una respuesta

rapida. Para esto, la firmas de audio se deben de calcular y comparar facilmente. Adicio-

nalmente, aunque la capacidad de procesamiento continua incrementandose dıa con dıa,

es importante optimizar este recurso para reducir el consumo de baterıa, permitir que se

ejecuten otros procesos y que el audio se pueda procesar continuamente.

2.2.5. Escalabilidad

La escalabilidad se refiere a la capacidad que tiene una firma de audio para poder

generalizarse ante sonidos de un mismo tipo a pesar de que exista heterogeneidad. Esta

heterogeneidad puede producirse por la idiosincrasia entre distintos usuarios para pro-

ducir un tipo de sonido, por variaciones en las condiciones ambientales o por diferencias

entre los dispositivos utilizados para la captura de datos.

2.2.6. Procedimiento para calcular la firma de audio

El procedimiento para obtener firmas de audio generalmente consiste en los pasos

ilustrados en la Figura 6. La primera etapa es un pre-procesado sobre el audio entrante

que consiste en operaciones basicas, como el suavizado o filtrado de datos, que puede

ser util para identificar si el audio entrante contiene o no informacion relevante y por lo

Page 29: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

16

tanto es conveniente continuar con el procedimiento o para convertir senales tipo estereo

a mono. La siguiente etapa consiste en obtener sub-segmentos de la senal entrante, los

cuales se denominan tramas, ver Figura 7.a. Posteriormente se extraen caracterısticas

perceptuales a partir de cada trama. El resumen de las caracterısticas de todas las tramas

construye una firma de audio. Finalmente se aplica un post-procesamiento que puede

consistir en una normalizacion o reduccion de la dimension de la firma final.

Normalmente se traslapan tramas adyacentes con el objetivo de mejorar la descripcion

de la senal al reducir las variaciones de la firma extraıda ( ver Figura 7.b). Ademas, el

calculo de algunas caracterısticas perceptuales requiere pasar del dominio del tiempo

hacia el dominio de la frecuencia utilizando la transformada de Fourier. Un requisito para

evitar un fenomeno denominado Leakage al realizar el cambio de dominio consiste en

multiplicar cada trama por una funcion ventana, ver Figura 7.c.

A continuacion se describen algunas caracterısticas perceptuales comunmente usa-

das en la literatura y posteriormente se explica el calculo de dos firmas de audio.

2.2.7. Caracterısticas perceptuales

Las caracterısticas perceptuales, basadas en la percepcion del oıdo humano, deben

representar la informacion relevante para la tarea de clasificacion, mientras desechan la

informacion no relevante. Algunas ejemplos de caracterısticas son los siguientes:

2.2.7.1. Tasa de cruce por cero

Esta caracterıstica indica el numero de cruces por cero cada segundo en el dominio

del tiempo. Es una forma simple de medir la frecuencia dominante de una senal sin pasar

al dominio de la frecuencia (Kedem, 1986).

2.2.7.2. Energıa en corto tiempo (STE)

Esta caracterıstica describe la envoltura de la senal la cual se consigue calculando la

media de la energıa por cada trama (Zhang and Kuo, 2001). La energıa en una senal de

duracion finita x(n) esta definida como:

Page 30: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

17

Pre-procesamiento

Separacion entramas

VentaneoTraslape

SuavizadoFiltradoetc.

Cambio de dominio

Extracción decaracterísticasperceptuales

Ejemplos:Tiempo Frecuencia

Frecuencia Cepstrum

Post-procesamiento

NormalizaciónReducción dedimension

FIRMA DE AUDIO

Audio

Figura 6: Procedimiento para obtener una firma de audio

Page 31: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

18

Trama 1 Trama 2 Trama 3

Trama 1

Trama 2

Trama 3

Trama 1

Trama 1

Separación en tramas

Traslape de tramas

Multiplicación de cada trama por una función ventana

a)

b)

c)

Figura 7: a) Separacion en tramas de una senal de audio, b)Traslape de tramas, c) Multiplicacion deuna tramana por una funcion ventana.

E =N∑

n=1

|x(n)|2 (3)

2.2.7.3. Flujo espectral

Es una caracterıstica que cuantifica los cambios del espectro a traves del tiempo

(Scheirer and Slaney, 1997). Se consigue obteniendo la distancia euclideana de las am-

plitudes del espectro en dos tramas contiguas. Las senales que muestran pocas variacio-

nes en sus propiedades espectrales, por ejemplo el ruido, poseen un flujo espectral bajo

mientras que las senales con cambios abruptos (como notas musicales) tienen un flujo

espectral alto.

2.2.7.4. Planaridad espectral

Esta caracterıstica se utiliza para determinar si existe una distribucion similar o plani-

tud en todas las bandas del espectro de frecuencia. Para su calculo se divide la media

geometrica sobre la media aritmetica de la potencia del espectro. Un valor cercano a

uno representa una distribucion similar, por ejemplo en senales de ruido blanco, mientras

que un valor bajo indica que hay concentracion de potencia en solo algunas bandas de

Page 32: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

19

Pre-énfasis

Ventaneo ytraslape

Cálculo deenergía

FFT

E

E

E

Banco defiltros MEL

Logaritmode energía

Log(E)

Log(E)

Log(E)

TransformadaDiscretaCoseno

DCT

Coeficientes

C0

C1

Cn

Figura 8: Procedimiento para calcular MFCC.

frecuencia, por ejemplo en tonos puros.

2.2.7.5. Mel Frequency Cepstral Coeficients (MFCC)

Esta caracterıstica surgio originalmente en el area de reconocimiento del habla y se

mantiene como una de las caracterısticas mas populares en el analisis de audio ambiental

(Sahidullah and Saha, 2012). Los coeficientes representan una aproximacion a la envol-

tura espectral de una senal. El procedimiento para la obtencion de los MFCC, ilustrado

en la figura 8, inicia aplicando un filtro de pre-enfasis pasa altas a la senal de entrada.

Posteriormente, se realiza el analisis sobre una ventana traslapada de tipo Hamming de

tamano N muestras. Cada ventana se transforma al dominio de la frecuencia mediante

una Transformada de Fourier (FFT) de tamano N. Despues se aplica un banco de filtros

triangulares en la escala de frecuencias mel. Para finalizar, las caracterısticas del sonido

en cada trama corresponden a los coeficientes obtenidos al aplicar la Transformada del

Coseno (DCT) sobre el logaritmo de la energıa de las bandas.

2.2.7.6. Multi-Band Spectral Entropy (MBSE)

Esta caracterıstica de audio surgio en el area de recuperacion de musica proban-

do ser efectiva para encontrar canciones en colecciones grandes de datos aunque los

segmentos de consulta contengan ruido, ecualizacion, filtrado, cambios de volumen y

compresion. Para obtener la firma se utiliza el proceso mostrado en la figura 9. El anali-

sis se realiza sobre una ventanas traslapada de tipo Hann con tamano N muestras. Cada

Page 33: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

20

Ventaneo ytraslape

Cálculo deentropía

FFT

H

H

H

Banco defiltros

BARKCoeficientes

C0

C1

Cn

Audio

Figura 9: Procedimiento para calcular MBSE.

ventana se transforma al dominio de la frecuencia mediante una FFT de tamano N. A con-

tinuacion se aplica un banco de filtros rectangulares en las escala de frecuencias Bark

desde 0 hasta 15500Hz. A cada banda se le determina la entropıa usando la ecuacion

H = ln(2πe) + 12 ln(σxxσyy − σ2

xy ). Donde σxx and σyy son las varianzas de la parte real e

imaginaria, y σxy es la covarianza entre las partes real e imaginaria de los coeficientes

obtenidos con la FFT de las bandas correspondientes. Ver Figura 9.

En la Figura 10 se muestran dos ejemplos de firmas obtenidas usando los MFCC y

las MBSE. Como se aprecia, se conjuntan las caracterısticas obtenidas en cada una de

las tramas.

2.3. Clasificadores

Un clasificador es un conjunto de algoritmos disenados para identificar a cual de un

grupo de clases pertenece una nueva observacion. En la etapa de entrenamiento se

tiene un algoritmo que consiste en encontrar los parametros de un modelo basandose

en instancias de las clases que se van a reconocer. La etapa de clasificacion consiste en

evaluar las nuevas observaciones en el modelo para determinar a la clase que pertenece.

A continuacion se explican ejemplos de clasificadores, posteriormente se describe a

Page 34: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

21

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

Tiempo

Trama con MFCC

Banda defrecuencia

Trama con MBSE

Tiempo

Banda defrecuencia

a) Firma de audio basada en MFCC b) Firma de audio basada en MBSE

Figura 10: Ejemplos de firmas de audio basadas en caracterısticas perceptuales MFCC y MBSE.

detalle las evaluaciones indicando las medidas utilizadas.

2.3.1. Maquina de soporte vectorial

2.3.1.1. Definicion

La maquina de soporte vectorial (SVM por sus siglas en ingles), es un algoritmo de

aprendizaje para clasificacion y regresion. La SVM esta basada en el concepto de proyec-

tar un conjunto de datos a un espacio de caracterısticas de dimension muy alta y entonces

determinar hiperplanos optimos para separar los datos de clases diferentes (Muller et al.,

2001).

2.3.1.2. Intuicion

Dados N puntos de entrenamiento con dimension d, los cuales provienen de dos cla-

ses distintas yi = −1 o + 1,, es decir:

{xi , yi} donde i = 1...N, y ∈ {−1, 1} , x ∈ Rd (4)

El objetivo del algoritmo SVM consiste en encontrar un hiperplano con una orientacion

que permita separar ambas clases maximizando un margen entre el hiperplano y los

puntos mas cercanos de cada clase. En la figura 11 se ilustra un ejemplo en donde se

supone que puntos de dos clases son linealmente separables por el hiperplano w ·x + b =

Page 35: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

22

Clase +1Clase -1

Vectores de soporte

-b|w|

Mar

gen

H1

H2

w

x1

x2

Figura 11: Hiperplano separando puntos de dos clases linealmente

0, donde w es normal al hiperplano y b|w| es la distancia perpendicular desde el hiperplano

hasta el origen. Cada uno de los semi-espacios definidos por este hiperplano corresponde

a una clase. Para encontrar a cual clase pretence un punto x se puede evaluar usando:

f (x) = sgn(w · x + b). El margen que se busca maximizar esta ilustrado en la figura como

el espacio entre las lıneas punteadas H1 y H2.

2.3.1.3. Hiperplano

El hiperplano se encuentra seleccionando las variables w y b de forma que los datos

de entrenamiento cumplan con las siguientes ecuaciones.

w · xi + b ≥ +1 para yi = +1 (5)

w · xi + b ≥ −1 para yi = −1 (6)

Estas ecuaciones combinadas producen la siguiente ecuacion:

yi (w · xi + b)− 1 ≥ 0 (7)

A los puntos que se encuentran mas cercanos al hiperplano, se les conoce como

Page 36: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

23

vectores de soporte. Los planos H1 y H2 donde caen los vectores de soporte se pueden

describir como:

w · xi + b = +1 para H1 (8)

w · xi + b = −1 para H2 (9)

En la figura 11 los planos H1 y H2 se ilustran con lıneas punteadas y los vectores de

soporte se representan con los puntos con linea gruesa. Notese que H1 y H2 son paralelos

y que ningun punto de entrenamiento cae entre ellos.

Si se consideran dos vectores de soporte x1 y x2 de distintas clases con (w·x1)+b ≥ +1

y (w · x2) + b ≥ +1 respectivamente, el margen esta dado por la distancia entre estos

dos puntos medidos perpendicularmente al hiperplano, es decir; w‖w‖ · (x1 − x2) = 2

‖w‖ .

El maximizar este margen es equivalente al problema de optimizacion de encontrar el

mınimo de w.

min ‖w‖ tal que yi (w · xi + b)− 1 ≥ 0 (10)

Vease el Apendice para ver mas detalles de la SVM.

2.3.1.4. Modelos Ocultos de Markov

2.3.1.5. Definicion

Los modelos ocultos e Markov (HMM por sus siglas en ingles) son una tecnica es-

tadıstica que modela datos temporales y secuenciales que se pueden utilizar para ca-

racterizar las propiedades estadısticas de una senal. Esta tecnica tiene aplicaciones en

el area de reconocimiento de patrones. El sistema a ser modelado se supone como un

proceso de Markov con estados no observables (ocultos).

2.3.1.6. Proceso de Markov

Un proceso de Markov discreto es un proceso estocastico que satisface la propiedad

de Markov, esta propiedad indica que se pueden hacer predicciones del futuro basandose

solamente en el estado presente sin necesidad de conocer la historia completa de todo

el proceso.

Page 37: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

24

S1

S2

SN

...

1 2 3 ... t ...............

Estado actual qt

Estados de una serie temporal

Figura 12: Proceso de Markov representando una serie temporal.

Para ejemplificar un proceso de Markov, supongase una serie temporal la cual da-

do un tiempo t puede tomar algun estado de un conjunto finito de N estados distintos

S1, S2, ..., SN como se ilustra en la figura 12. Al estado que ocurre en el tiempo t se le

conoce como qt .

Para describir un nuevo estado mediante una descripcion completa de la secuencia

temporal, se requiere que ademas de conocer el estado actual, se tenga informacion de

todos los estados anteriores.

P[qt = Sj |qt−1 = Si , qt−2 = Sk , ...

](11)

Sin embargo,un proceso de Markov discreto de primer orden indica que esta descrip-

cion se puede truncar y estar completamente determinada considerando solo el estado

actual y el estado inmediato anterior

P[qt = Sj |qt−1 = Si , qt−2 = Sk , ...

]= P

[qt = Sj |qt−1 = Si

](12)

Un modelo de Markov contiene las probabilidades de cambiar entre los estados, las

cuales se consideran constantes en el tiempo. Una forma de representar estas probabi-

lidades es mediante la matriz de transicion de probabilidades A; cada elemento aij de A

indica la probabilidad de pasar del estado Si al estado Sj . La figura 13 ilustra un ejemplo.

Page 38: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

25

S1 S2 S3

a11

a22 a33

a12 a23

a21 a32

a13

a31

Probabilidad de transiciones

a11

a22

a33

a12

a21 a23

a32

a13

a31

A=

Matriz de probabilidadesde transición entre estados

Figura 13: Probabilidades de transicion entre estados en un modelo de Markov.

Cada estado indica un evento observable fısico, por ejemplo el estado del clima (nubla-

do, soleado, lluvioso) o elementos de un diccionario (A,B,C,D). Cuando se ha observado

una serie de estados consecutivos, entonces se tiene una secuencia de observacion O,

por ejemplo O = {S2, S1, S1, S3} correspondientes a t = 1, 2, 3, 4. La probabilidad de una

observacion particular O dada un modelo se expresa:

P(O|Modelo) = P [S2, S1, S1, S3|Modelo] (13)

Hasta este momento, se ha descrito un modelo de Markov observable, ya que los es-

tados son directamente observables en cada instante de tiempo y los unicos parametros

son las probabilidades de transicion, tal como se muestra en la figura 13. A continuacion

se explican los modelos ocultos de Markov.

2.3.1.7. Modelos ocultos de markov discretos

En los modelos ocultos de Markov los estados se encuentran ocultos mientras lo visi-

ble corresponde a lo que se conoce como las emisiones de los estados. El ejemplo clasico

para explicar HMM discretos es el modelo de la urna y las pelotas, (Rabiner, 1989). Se

supone que existen N urnas las cuales no son visibles para un observador. Cada una de

las urnas guarda cierta cantidad de pelotas coloredas con M colores distintos. Un genio

tiene acceso a las urnas y elige una de acuerdo un proceso aleatorio de seleccion de ur-

nas. Posteriormente extrae una pelota de dicha urna y le senala al observador el color de

la pelota. Despues regresa la pelota a la urna de la que fue seleccionada. A continuacion

selecciona nuevamente una urna de acuerdo al proceso aleatorio de seleccion de urnas

Page 39: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

26

Urna 1 Urna 2 Urna 3

0.5

0.4

0.6

0.3

0.1 0.5

0.1

0.2

0.3

A=

Símobolos emitidospor las urnas(estados) = { , , }

5/9

5/9

4/9

2/9

2/9 2/9

3/9

2/9

2/9

B=

1 2 3 ... t...

Secuencia observablede símbolos

Figura 14: Elementos de los modelos ocultos de Markov.

y vuelve a extraer una pelota. El proceso se repite y produce como resultado una obser-

vacion finita de colores. La eleccion de las urnas no depende de las urnas que fueron

elegidas con anterioridad, a esto se le conoce como proceso de Markov, sin embargo la

eleccion de las urnas esta oculta al observador y lo unico que puede ser observado son

los sımbolos emitidos por las urnas, es decir, los colores.

En la figura 14 se ilustran N=3 urnas que contienen pelotas con M=3 colores distintos

(rojo, verde y azul). Las urnas son los estados de un proceso de Markov con su respectiva

matriz de probabilidades de transicion A. En los HMMs Se introducen los valores B =

{bj(k )} que indican la distribucion de probabilidad de los sımbolos observados en cada

estado, para este ejemplo clasico, la matrix B indica la probabilidad de encontrar un color

especifico en una urna dada. La secuencia temporal observable O = O1O2...OT contiene

los sımbolos o colores emitidos por los estados.

Los elementos que conforman un modelo oculto de Markov son los siguientes:

1. N, el numero de estados en el modelo S1, S2, ..., SN .

Page 40: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

27

2. M, la cantidad de sımbolos observados por estado.

3. A, la matriz de distribucion de probabilidad de transiciones entre estados.

4. B, la matriz de distribucion de probabilidad de observaciones de los sımbolos en

cada estado.

5. π, una distribucion inicial de los estados.

Un HMM λ se representa mediante estos elementos: λ = (A, B,π).

Para la aplicacion practica de los HMMs, existen tres problemas algorıtmicos los cua-

les se explican a continuacion.

Problema de evaluacion. Dada una secuencia de observacion O = O1O2...OT y un

modelo particular λ, se requiere calcular P(O|λ). Este problema se resuelve con un al-

goritmo conocido como Forward-Backward Procedure. La solucion de este problema es

util cuando existen modelos para cada clase previamente entrenados y se quiere aquella

clase con la cual una observacion tiene mayor similitud.

Problema de decodificacion. Calcular la secuencia de estados optima que mejor expli-

ca una secuencia de observaciones. Este problema se resuelve con el algoritmo Viterbi.

La obtencion de la secuencia optima se puede usar para aprender cual es la estructura

del modelo u obtener estadısticas acerca de los estados individuales.

Problema de aprendizaje. Ajustar los parametros de un modelo para maximizar P(O|λ).

Para estimar la probabilidad maxima de la observacion dado un modelo se utiliza un al-

goritmo iterativo llamado Baum-Welch o su equivalente Expectation-Maximization (EM).

El ajuste de los parametros del modelo se utiliza en la etapa de entrenamiento en donde

se generan modelos para las secuencias temporales de entrenamiento provenientes de

cada clase.

Para conocer los algoritmos que se utilizan en cada uno de los tres problemas y ex-

tender el problema discreto al problema continuo, vease el Apendice.

Algunas diferencias entre distintos tipos de clasificadores son; la cantidad de datos que

Page 41: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

28

Captura de sonidoExtracción defirma de audio

Entrenamiento/Fuera de línea

Captura de sonidoExtracción defirma de audio

Evaluación/En linea

Modelo declasificador

Entrena

Evalúa

Figura 15: Procedimiento de entrenamiento y evaluacion usado en sistemas de reconocimiento deaudio.

se requiere para el entrenamiento, la convergencia del algoritmo de entrenamiento y las

capacidades de generalizacion. Una forma de saber que clasificador elegir se consigue

haciendo evaluaciones y comparando los resultados.

2.4. Evaluaciones en sistemas de clasificacion de audio

Para que los clasificadores puedan asignar una clase al audio capturado, primero

se deben de entrenar modelos a partir de muestras de sonidos. El entrenamiento es

un proceso que normalmente consume mucho tiempo de computo, sin embargo, este

se realiza fuera de lınea y no afecta el desempeno de los sistemas en tiempo real. El

procesamiento que se realiza en lınea, consiste en extraer la firma del sonido entrante y

evaluar en los modelos de clasificacion previamente entrenados. En la Figura 15 se ilustra

el proceso de entrenamiento y de prueba para un sistema de reconocimiento de audio.

Al conjunto de los sonidos que se utilizan para el entrenamiento y para la evaluacion

se le llama base de datos. Si se lleva a cabo una clasificacion supervisada entonces

se debe indicar explıcitamente a que clase pertenece cada sonido de la base de datos,

a esto se le conoce como etiquetado. En la Figura 16 se ilustra un ejemplo de una base

de datos con 24 muestras de sonidos etiquetadas con 3 clases y su uso para entrenar

modelos. Ademas, la Figura 16 ilustra que los sonidos designados para la evaluacion se

prueban en todos los modelos y posteriormente se toma una decision que indica la clase.

Page 42: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

29

Base de datos

Modelo 1

Sonidos de entrenamiento

Sonidos para evaluación

Clase 1 Clase 2 Clase 3

Entrenamiento

Modelo 1

Modelo 2

Modelo 3

Evaluación

Decisión

Figura 16: Ejemplo de particion de bases de datos para entrenamiento y evaluaciones para HMMs.

Los sonidos usados en el entrenamiento no deben de utilizarse para la evaluacion ya

que es necesario conocer la capacidad de generalizacion del sistema. Normalmente, la

base de datos se parte en dos secciones, donde un porcentaje se designa para el entre-

namiento y el resto para la evaluacion. Existe una tecnica llamada validacion cruzada que

consiste en hacer varias particiones de la base de datos y calcular la media aritmetica de

las medidas de evaluacion sobre las diferentes particiones. Como se ilustra en la Figura

17 en una validacion cruzada de K iteraciones, la base de datos se parte en K subconjun-

tos, donde (K-1) subconjuntos se utilizan para el entrenamiento y un subconjunto se usa

como datos de prueba.

Como se menciona en esta seccion, cuando se introducen los sonidos de prueba

ya se conoce de antemano a que clase pertenecen. Por lo tanto, se puede establecer

una comparacion entre las clases predichas por el clasificador y las clases reales. A

continuacion se explican algunas medidas que utilizan estas comparaciones y sirven para

conocer la eficiencia del esquema firma-clasificador utilizado.

Page 43: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

30

Datos de prueba Datos de entrenamiento

Iteración 1

Iteración 2

Iteración 3

Iteración 4

Subconjunto 1 Subconjunto 2 Subconjunto 3 Subconjunto 4

k=4 subconjuntos

Figura 17: Ejemplo de particiones para hacer una validacion cruzada con 4 subconjuntos.

Verdaderos Positivos Los verdaderos positivos (VP) se dan cuando se predice correc-

tamente que un sonido pertenece a una clase. Por ejemplo, se predice que un sonido

corresponde a la clase 1 y efectivamente pertenece a esa clase.

Verdaderos negativos Los verdaderos negativos (VN) se dan cuando se predice co-

rrectamente que un sonido no pertenece a una clase. Por ejemplo, se predice que un

sonido no corresponde a la clase 1 y efectivamente no pertenece a esa clase.

Falsos positivos Los falsos positivos (FP) se dan cuando se predice incorrectamente

que un sonido pertenece a una clase. Por ejemplo, se predice que un sonido corresponde

a la clase 1, pero en realidad pertenece a la clase 2.

Falsos negativos Los falsos negativos (FN) se dan cuando se predice incorrectamen-

te que un sonido no pertenece a una clase. Por ejemplo, se predice que un sonido no

corresponde a la clase 1, pero en realidad si pertenece a la clase 1.

Precision La precision, indica la relacion entre los VP sobre todos los resultados posi-

tivos. Ayuda a conocer que fraccion de todos los sonidos etiquetados como positivos son

correctos.

Precision =VP

VP + VN(14)

Page 44: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

31

Exhaustividad La exhaustividad, indica la relacion entre los VP y todos los elementos

positivos de la base de datos. Ayuda a conocer la fraccion de todos los ejemplos positivos

de la base de datos que el clasificador pudo predecir correctamente.

Exhaustividad =VP

VP + FN(15)

Medida F1 La precision y el exhaustividad por si solas no reflejan completamente el

comportamiento del sistema. Por ejemplo, una exhaustividad de 1 indica que todos los

sonidos positivos de la base de datos fueron predichos como positivos por el clasificador,

sin embargo, esto se pudo haber conseguido haciendo que el clasificador prediga como

positivos a todos los sonidos, lo que disminuye la precision. Por tal motivo, para conocer

de una mejor manera el desempeno del sistema se requiere reportar ambos valores. Tam-

bien se puede utilizar otra medida, denominada Medida F1 la cual combina a la precision

y al exhaustividad como se muestra en la siguiente ecuacion.

MedidaF1 = 2Precision · ExhaustividadPrecision + Exhaustividad

(16)

Page 45: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

32

Capıtulo 3. Trabajo previo en sistemas de reconocimien-

to de sonidos ambientales

El reconocimiento automatico de sonidos ambientales es un area relativamente nueva

en comparacion de la atencion que han recibido las areas de reconocimiento de voz y

musica. Hasta antes de un par de decadas los sonidos ambientales se descartaban por

considerarse como ruido mientras se estudiaban aplicaciones para voz y musica. Sin

embargo; en los ultimos anos se ha encontrado que los sonidos ambientales producen

informacion importante para describir el contexto.

Resulta complicado comparar los trabajos que abordan el reconocimiento de soni-

dos, debido a que los autores de diversas investigaciones utilizan diferentes bases de

datos e intentan clasificar diferentes eventos de sonido. Por ejemplo, mientras un trabajo

de investigacion busca reconocer los sonidos cepillarse, lavandose las manos y rasurar-

se (Min et al., 2008a), otro trabajo investiga el reconocimiento de los sonidos tosiendo,

aplaudiendo, tocando la puerta y telefono sonando (Schroeder et al., 2011). En la actua-

lidad no existe una base de datos multi-contexto disenada para realizar comparaciones,

motivo por el cual, cada grupo de investigacion graba y etiqueta su propia base de datos

(Heittola et al., 2013).

La evolucion de los trabajos de investigacion ha permitido que cada vez se aborden

problemas mas complejos relacionados al reconocimiento de contexto, por ejemplo la

existencia de ruido o los sonidos mezclados. Tambien se ha permitido explorar esquemas

de reconocimiento considerando las propiedades de los sonidos ambientales, ya que en

un inicio se utilizaban caracterısticas perceptuales que originalmente fueron disenadas

para el reconocimiento de voz, la cual es mas estructurada que los sonidos ambientales.

Ademas, los aportes se han dirigido hacia el diseno de esquemas mas escalables y se ha

explorado el uso de microfonos en dispositivos moviles en lugar de colocarlos en lugares

predefinidos que buscan reconocer actividades especıficas que dependen del lugar en

donde se ubica el microfono.

Las diferencias en los esquemas firma de audio-clasificador, las clases de sonidos

y la cantidad y ubicacion de los microfonos propuestas por distintos aportes complica la

Page 46: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

33

comparacion entre ellos. En la Tabla 1 se presenten ejemplos que ilustran esta diversidad.

Tabla 1: Comparacion de propuestas para el reconocimiento de sonidos ambientales

Tıtulo Clases Ubicacionmicrofonos

Caracterısticas Clasificador Resultados

Implementation andEvaluation of a Low-Power Sound-BasedUser Activity Recog-nition System (Stageret al., 2004)

Martillando, Serruchan-do, Barrenando, Molien-do y Limando

Muneca y pe-cho

Tasa de cruce porcero, Fluctuacionde amplitud y Re-lacion de energıaen 4 sub-bandaslogarıtmicas

K-Vecinos mascercanos (KNN)

73 % Tasade recono-cimiento

Bathroom Activity Moni-toring Based on Sound(Chen et al., 2005)

Banandose, Orinando,Descargando el retrete,Lavandose las manos ySuspirando

Cerca del la-vamanos

MFCC HMM Tasa deexactidudsobre 84 %en todos loscasos

Sensing from the Ba-sement: A FeasibilityStudy of Unobtrusiveand Low-Cost HomeActivity Recognition(Fogarty et al., 2006)

Lavadora de ropa, Lava-dora de trastes, Rega-dera, Retrete y Lavama-nos

Microfonosen tuberıas

Media cuadratica,tasa de cruce porcero, entropıa

SVM 81.3 % deexhaustivi-dad

Early morning activitydetection using acous-tics and wearable wire-less sensors (Min et al.,2008b)

Lavado de dientes, La-vado de dientes electri-co, Lavado de cara, Ra-surado manual, Rasura-do electrico

Microfono enmuneca

No especifica Modelos Gaus-sianos Mezcla-dos

90 % exacti-tud

Advanced Patient orElder Fall Detectionbased on Movementand Sound Data (Dou-kas and Maglogiannis,2008)

Caıdas y Correr Microfono enel pie

Short Time FourierTransform (STFT)

SVM 100 % encaıdas y96.72 % encorrer

En cuanto al problema del ruido, los primeros aportes, se realizaban sobre senales

que solo contenıan informacion de la fuente de sonido sin estar contaminadas con otros

sonidos (B. Gygi and Watson, 2004). Sin embargo, en los ultimos anos, se ha considerado

analizar la robustez al ruido, por ejemplo en (Heittola et al., 2011) (Dennis et al., 2013)

(Dennis et al., 2012) donde se generan mezclas artificiales agregando sonidos a la senal

original. Tambien, se ha experimentado identificar sonidos mezclados naturalmente en

el ambiente, por ejemplo, usando una estrategia, llamada beamforming, que consiste en

utilizar varios microfonos y despues separar las fuentes de sonido individual estimando

las senales y los angulos que llegan a cada microfono (Drake et al., 2002).

Al usar solo un microfono, se permite mas flexibilidad y escalabilidad, pero trae consigo

mayor complejidad para analizar el contexto auditivo. Sin embargo, existen trabajos de

investigacion que buscan reconocer eventos de sonidos grabando con un microfono. Hay

resultados y avances importantes descritos a continuacion.

Un ejemplo de este tipo de trabajos se presenta a continuacion, donde se describe el

Page 47: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

34

esquema propuesto por Dennis et al. (2013). En esta propuesta se busca reconocer mez-

clas que contienen a los eventos de sonido de tipo impulsivo timbre de telefono, bocina

de coche, chiflido, soplido, campana y toque a una botella (Dennis et al., 2013) obteni-

dos de la base de datos Real World Computing Partnership (RWCP) (Ono et al., 2015).

Ademas, cada mezcla se contamina con un sonido de fondo no estacionario usando di-

ferentes valores de SNR, en la Figura 18.a se muestra un ejemplo de sonidos mezclados

y un ruido de fondo. El objetivo es identificar cada uno de los sonidos contenidos en las

mezclas por medio de un analisis del espectrograma de donde se detectan puntos de

interes mediante caracterısticas locales y la transformada de Hough, ver Figura 18.b. En

esa propuesta, se utilizan 20 instancias de sonidos de cada una de las 5 diferentes clases

para el entrenamiento y para la evaluacion se generan 50 mezclas de sonidos obtenidas

a partir de traslapar cada una de 15 combinaciones posibles entre sonidos provenientes

de las 5 clases. Como resultados, se reporta una exactitud de reconocimiento (relacion

entre las detecciones correcta y el numero de mezclas que contienen a la clase) de 98 %

y una tasa de clasificacion incorrecta (relacion de detecciones incorrectas y el numero de

clips que no contienen esa clase) de 0.8 %. Estos resultados aunque resultan altos, son

para este tipo de sonidos cortos, impulsivos y con poca similitud inter-clase.

El trabajo de investigacion que consideramos el estado del arte antes de nuestra con-

tribucion (Heittola et al., 2011), propone separar la senal original, que contiene una mez-

cla de sonidos, en pistas que contienen cada una de las fuentes que conforman la mezcla

mediante el algoritmo Non Negative Matrix Factorization (NMF), ver Figura 19. Una vez

que se tiene la separacion, se aplica el esquema de clasificacion estandar MFCC-HMM

sobre cada una de las pistas. Sin embargo, debido a que el algoritmo de separacion es

ciego y no supervisado, las pistas resultantes no corresponden a las fuentes originales.

Esto produce que se escuchen como versiones distorsionadas del sonido original, lo cual

afecta el desempeno final de la propuesta.

La base de datos que utilizan los autores esta compuesta de 61 clases de sonido.

Para evaluar el sistema se obtiene la medida F1 comparando los sonidos detectados

contra los sonidos etiquetados en bloques de 30 segundos. Esta metrica esta disenada

para aplicaciones que requieren baja resolucion poniendo mas atencion en detectar un

Page 48: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

35

a) Ejemplo de una mezcla con tres clases de sonidos traslapados más ruido noestacionario. Aquí, un componente de frecuencia del sonido de la campana (Bellringing) (Whistle),esta traslapado con el sonido del silbido el cual también esta siendotraslapado por el sonido de la bocina El sonido se considera(Horn). “Factory floor”

b) Ejemplo del reconocimiento de tres sonidos traslapados mediante la segmentacióndel espectrograma usando los puntos de interés detectados.

Figura 18: Imagen tomada del artıculo (Dennis et al., 2013)

Page 49: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

36

Figura 19: Procedimiento de separacion en pistas de una senal original. Imagen tomada de (Heittolaet al., 2011)

evento que en su ubicacion exacta. En la Figura 20 se muestra un ejemplo para obtener

la precision y la exhaustitivdad. Por ejemplo, en el bloque 1 se tienen etiquetados los

sonidos A,B,C y D mientras que el sistema predice a A, C y E. Debido a que A y C estan

detectados correctamente, esto indica que la precision es (2/3) y la exhaustividad es (2/4).

Otro ejemplo esta dado por un trabajo inspirado en tecnicas de procesamiento de

imagenes (Dennis et al., 2012). El procedimiento consiste en generar una imagen forma-

da con histogramas que provienen de la distribucion de las sub-bandas de frecuencia so-

bre la duracion del sonido. Posteriormente se aplican estadısticas sobre los sub-bloques

de estas imagenes y se genera un vector que contiene a las medias y varianzas (ver Fi-

gura 21). El sonido se representa con vectores que se clasifican mediante el algoritmo de

vecinos mas cercanos. En los experimentos desarrollados en este trabajo, se utilizan 80

muestras de 50 eventos de sonido obtenidos de la base de datos RWCP. Aunque cada

muestra se contamina con ruido estacionario solo se intenta clasificar a los eventos de

sonido sin existir traslapes y sin ningun interes en identificar el fondo. Ademas, se utiliza

el recurso de modelar el ruido de fondo para permitir una mejor clasificacion. Este esque-

ma se asemeja a la propuesta de esta tesis debido a que utilizamos histogramas para

representar los sonidos. Los resultados arrojan un 96 % de precision de reconocimiento y

muestran el potencial de utilizar una firma compacta para conseguir el reconocimiento de

eventos de sonidos.

Page 50: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

37

Figura 20: Ejemplo de obtencion de la precision y la exhaustividad para la clasificacion de eventosde sonido. Imagen tomada de (Heittola et al., 2011)

Figura 21: Particion de la imagen en sub-bloques y obtencion de las estadısticas media y varianzasobre cada sub-bloque para generar el vector representante x. Imagen tomada de (Dennis et al.,2012)

Page 51: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

38

En las evaluaciones desarrolladas en la presente tesis, hacemos la comparacion con

el trabajo de (Heittola et al., 2011), que para nosotros representa el unico enfoque seme-

jante al aquı presentado, es decir, busca resolver el problema considerando las mismas

restricciones. Durante el desarrollo de esta tesis tambien intentamos comparar con el tra-

bajo de (Dennis et al., 2013) y (Dennis et al., 2012) pero estas tecnicas no son adecuadas

dado que no buscan reconocer sonidos producidos por actividades de la vida diaria de

adultos mayores (ej. Lavado de manos, Lavado de dientes, tosiendo). Con estos algo-

ritmos no fue posible encontrar puntos de interes utiles en el espectrograma ya que los

sonidos que buscamos identificar contienen un espectro relativamente plano y no son

impulsivos.

Los clasificadores, aun los basados en el enfoque difuso, estan disenados para asig-

nar solo una clase a la entrada (ej. la entrada con mayor probabilidad). Esto es apropiado

para sonidos aislados pero no resuelve directamene el problema de sonidos mezclados.

Un recurso utilizado es entrenar los clasificadores con clases que contienen a los sonidos

aislados, y ademas incluir clases con ejemplos de sonidos ya mezclados (Temko and Na-

deu, 2009a); sin embargo, este enfoque requiere muestras de las combinaciones posibles

de las clases y esto implica un entrenamiento con un numero exponencial de clases.

3.0.1. Tamano de las firmas

Otro aspecto importante es el tamano de la representacion final del audio. Para reducir

el tamano se utiliza un procedimiento tradicional que implica aplicar una transformacion

a traves de proyectar el vector con un espacio de dimension alta a un espacio de menor

dimension conservando o permitiendo una clasificacion eficiente. Existe un compromiso

entre el limite de la reduccion y la perdida de informacion (Potamitis and Ganchev, 2008).

Algunos ejemplos de estas transformaciones incluyen al analisis discriminante lineal y

el analisis de componentes principales (Eronen et al., 2006) (Ntalampiras et al., 2008).

Ambas tecnicas representan tiempo de procesamiento adicional ademas del calculo de

la caracterıstica.

Page 52: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

39

Capıtulo 4. Contribuciones de diseno de firmas de audio

basada en entropıa

En esta capitulo se presenta el diseno de la firma de audio para sonidos ambientales,

el cual se realizo en dos fases. En la primera etapa se consideraron los retos de ruido y la

transparencia para sonidos mezclados. En la siguiente etapa se trato la heterogeneidad

intra-clase y similitud inter-clase. Adicionalmente se busco representar sonidos de distinto

tamano mientras se mantiene la robustez al ruido y la transparencia.

4.1. Diseno de firmas de audio para sonidos ambientales mezclados

En la primera fase, se disenaron cinco firmas de audio; MEL-MBSES, MEL-CMBSES,

B-MFCC, B-MEL-MBSES y B-MEL-CMBSES. Estas firmas fueron obtenidas a partir de

informacion espectral ya que entre sonidos ambientales se presentan diferencias en su

distribucion espectral. Para su diseno, se tomo en cuenta utilizarlas en aplicaciones con

sonidos ruidosos y mezclados.

Mel Multiband Spectral Entropy Signature (MEL-MBSES)

El procedimiento para calcular la MEL-MBSES, que es una firma basada en la entropıa

espectral de bandas de frecuencia mel ( ver figura 22), consiste en dividir la senal en

ventanas traslapadas de tipo Hann con tamano de N muestras. Posteriormente, cada

ventana se transforma al dominio de la frecuencia mediante una FFT de tamano N. A

continuacion se aplica un banco de 12 filtros rectangulares en la escala de frecuencias

MEL desde 0 hasta 15500Hz. Se calcula la entropıa sobre la informacion espectral de

cada banda usando la ecuacion H = ln(2πe) + 12 ln(σxxσyy − σ2

xy ). Donde σxx and σyy son

las varianzas de la parte real e imaginaria, y σxy es la covarianza entre las partes real e

imaginaria de los coeficientes obtenidos con la FFT de las bandas correspondientes. Con

este proceso se obtiene una firma analoga al espectrograma, el cual calcula la cantidad de

energıa en tiempo y frecuencia, a la que denominamos entropigrama. Esta firma se puede

visualizar como una imagen, ver Figura 23.a, y nos brinda la cantidad de informacion a

traves del tiempo para cada banda en la escala MEL.

Page 53: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

40

Ventaneo ytraslape

Cálculo deentropía

FFT

H

H

H

Banco defiltrosMEL

Coeficientes

C0

C1

Cn

Audio

Figura 22: Procedimiento para obtener la firma MEL-MBSES.

MFCC MEL-MBSES MEL-CMBSES

(a) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

MFCC binaria MEL-MBSES binaria MEL-CMBSES binaria

(b) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

Figura 23: MFCC, MEL-MBSES and MEL-CMBSES (a), y las versiones binarias B-MFCC, B-MEL-MBSES y MEL-CMBSES del sonido llanto de bebe. (b)

Page 54: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

41

(a) Volumen (b) Filtrado pasabajas de 1kHz (c) Ecualizacion

0 20 40 60 80 10022

23

24

25

26

27

28

29

0 20 40 60 80 10020

21

22

23

24

25

26

27

0 20 40 60 80 10022.5

23

23.5

24

24.5

25

25.5

26

26.5

27

Figura 24: Comparacion de la 5ta banda de la firma MEL-MBSES de la cancion ”Diosa del co-bre”(Miguel Bose y Ana Torroja) contra la 5ta banda de otras versiones de la misma cancion.

La firma MEL-MBSES esta basada en la firma MBSES, la cual se obtiene de forma

similar a la firma MEL-MBSES pero usando la escala Bark. La MBSES se ha utilizado en

recuperacion de musica siendo robusta ante ruido, ecualizacion y cambios de volumen

(Camarena-Ibarrola, 2008). Se realizo el cambio a la escala MEL, debido que al sepa-

rar el espectro en bandas usando la escala Bark, las primeras bandas contienen pocas

muestras, lo cual degrada el calculo de la entropıa en cada banda. Este problema se

soluciona usando la escala MEL, ya que las bandas de frecuencia quedan traslapadas

permitiendo mas muestras por banda.

El calculo de la firma MEL-MBSES sobre una version transformada de un sonido (ej.

ecualizado, filtrado, cambio de volumen) produce que los valores de la entropıa tengan un

desplazamiento con respecto a la version original. En la figura 24 se muestran ejemplos

en donde se comparan los valores de entropıa en una banda de frecuencia de un sonido

contra otras versiones del mismo sonido pero con cambio de volumen, filtrado y ecualiza-

cion. Debido a que el perfil de los valores de entropıa es casi identico, es posible utilizar

la derivada para capturar el desplazamiento del perfil e ignorarlo. Al calcular la derivada

sobre el entropigrama, se obtiene una nueva firma robusta ante las transformaciones de

ecualizacion, filtrado y cambio de volumen. Ademas, si unicamente se toma en cuenta el

signo de la derivada, se consigue que esta nueva firma este codificada de forma binaria

lo cual reduce significativamente su tamano de almacenamiento.

Binary Multiband Spectral Entropy Signature (B-MEL-MBSES)

La firma MEL-MBSES se puede hacer mas robusta ante rudio, filtrado y ecualizaion

mediante un procedimiento de binarizacion, ver figura 25. Este proceso elimina el despla-

zamiento de entropıa producido en diferentes versiones de un sonido. Con la binarizacion

Page 55: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

42

Cálculo deentropía

H

H

H

T

T

T

bit(b,0)

bit(b,1)

bit(b,n)

- +

- +

- +

Codificación

>0

>0

>0

Banco defiltros MELAudio

Ventaneo ytraslape

FFT

Valoranterior

Figura 25: Procedimiento para obtener la firma binaria MEL-MBSES.

se modela el perfil de la firma y se reduce considerablemente el tamano total de la firma.

La binarizacion se lleva a cabo tomando el signo de la derivada, como se indica en

la ecuacion 17, donde el bit correspondiente a la banda b y a la trama n, bit(n, b) se

determina con el signo producido al restar H(n, b) y H(n − 1, b).

bit(n, b) =

1 if H(n, b)− H(n, b − 1) > 0

0 if H(n, b)− H(n, b − 1) ≤ 0(17)

Una vez realizada la binarizacion, el sonido queda representado como una cadena

de bits cuya longitud depende de la duracion del sonido. Debido a que la representacion

esta en forma binaria, se puede utilizar la distancia de Hamming para comparar entre

firmas de distintos sonidos. La figura 23.b muestra una version de la firma del sonido de

un bebe llorando.

Cosine Multiband Spectral Entropy Signature (MEL-CMBSES)

Para obtener la firma MEL-CMBSES, se calcula la firma MEL-MBSES como se descri-

be arriba y posteriormente se obtiene la transformada del coseno sobre los 12 valores de

entropıa en cada trama, ver figura 26. Este paso es similar al ultimo paso de MFCC pero

en vez de utilizar el logaritmo de la energıa, se utiliza la entropıa. Teoricamente, este paso

suprime el desplazamiento provocado al obtener la firma en diferentes versiones de un

mismo sonido. En la figura 23.a se muestra un ejemplo de la firma MEL-CMBSES sobre

Page 56: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

43

Cálculo deentropía

H

H

H

Banco defiltros MELAudio

Ventaneo ytraslape

FFT

DCT

DCT

Coeficientes

C0

C1

Cn

Figura 26: Procedimiento para obtener la firma MEL-CMBSES.

un segmento de sonido.

B-MFCC y B-MEL-CMBSES

Con el objetivo de conocer el comportamiento de las firmas MFCC y MEL-CMBSES al

aplicar la binarizacion, se aplica el mismo procedimiento para producir las firmas B-MFCC

y B-MEL-CMBSES. Otra ventaja de las firmas binarias es la reduccion del espacio utili-

zado. En la figura 23.b se muestra un ejemplo de las firmas B-MFCC y B-MEL-CMBSES

sobre un segmento de sonido.

En la seccion de experimentos se describe el uso y la evaluacion de las cinco firmas

propuestas en la primera fase de diseno. Tambien se describen las debilidades de estas

firmas para reconocer sonidos ambientales heterogeneos y se detectan las necesidades

para el diseno de una nueva firma la cual se disena en una segunda fase.

4.2. Diseno de firma de audio para sonidos ambientales mezclados, heterogeneos

y con problemas de alineamiento

La siguiente firma de audio que se propone en esta tesis, surge de la necesidad de ob-

tener una firma que sea robusta ante desfasamientos, ruido y heterogenidad, mientras es

capaz de distinguir los sonidos incluidos en una mezcla. Tomando en cuenta estas con-

sideraciones de diseno, se propone una firma de audio que consiste en un vector sucinto

formado por histogramas. Con esta firma se puede representar un sonido de cualquier

Page 57: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

44

# de muestra

Am

pli

tud

0 1 2 3 4 5 6 7 8

x 104

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

# de tramaA

mpli

tud

0 50 100 1509

10

11

12

13

14

15

16

17

# de muestra

Am

pli

tud

0 1 2 3 4 5 6 7 8

x 104

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

# de trama

Am

pli

tud

0 50 100 1509

9.5

10

10.5

11

11.5

12

12.5

13

13.5

14

# de muestra

Am

pli

tud

0 1 2 3 4 5 6 7

x 104

−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

# de trama

Am

pli

tud

0 20 40 60 80 100 120 14012

12.5

13

13.5

14

14.5

15

15.5

16

# de muestra

Am

pli

tud

0 1 2 3 4 5 6 7

x 104

−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0 20 40 60 80 100 120 14012

12.5

13

13.5

14

14.5

15

15.5

16

# de trama

Am

pli

tud

Golpeteo 1 Golpeteo 2 Lavando manos 1 Lavando manos 2

a)

b)

10 155 1

1ra derivada 2da derivada

20 24

Bin

2

4

6

8

10

12

14

16

18

20

22

24

10 155 1

1ra derivada 2da derivada

20 24

Bin

2

4

6

8

10

12

14

16

18

20

22

24

10 155 1

1ra derivada 2da derivada

20 24

Bin

2

4

6

8

10

12

14

16

18

20

22

24

10 155 1

1ra derivada 2da derivada

20 24

Bin

2

4

6

8

10

12

14

16

18

20

22

24

c)

Figura 27: a Amplitudes de dos ejemplos de sonidos de golpeteos y lavado de manos. b Derivadasde la primera banda de la firma MEL-MBSES de los ejemplos de sonidos. c Firmas H1dH2d-MEL-MBSES de los ejemplos de sonidos.

duracion en un vector de tamano fijo el cual se puede evaluar rapidamente mediante un

clasificador SVM que requiere entradas de tamano fijo. Los resultados obtenidos pro-

porcionan mejores resultados que la tecnica tradicional usada en el reconocimiento de

sonidos ambientales; MFCC-HMM.

La motivacion para usar histogramas se debe a que capturan la distribucion de cada

banda de frecuencia sobre todo el sonido. En la figura 27.c, se ilustra un ejemplo de la

firma propuesta aplicada en dos muestras de dos clases de sonidos (golpeteo y lavando

las manos). Como se observa, la firma de audio permite distinguir entre sonidos de dis-

tintas clases ya que mantiene una estructura similar para los sonidos que pertenecen a

una misma clase. Sin embargo, se observa que existe heterogeneidad incluso en sonidos

provenientes de una misma clase. Estas variaciones estan dadas por las diferencias entre

amplitudes, frecuencias y desplazamientos temporales producidos por la forma intrınse-

ca de cada sonido. En la figura 27.a se muestran las amplitudes en el tiempo de las dos

muestras de ambas clases de sonidos para ejemplificar las diferencias mencionadas.

El procedimiento para obtener la firma propuesta, denominada H1dH2d-MEL-MBSES,

Page 58: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

45

0+th1+th2+th3+th4

+th5

+th6

+th7

+th8

-th1-th2-th3-th4-th5-th6-th7

-th8

Tiempo

His

tog

ram

a

Banda de la derivada de la firma MEL-MBSES

+th9

+th10+th11

+th12

-th12

-th11

-th10

-th9

Figura 28: Ejemplo de la obtencion de un histograma de una banda de la derivada de la firma MEL-MBSES de un sonidos.

incluye como primer paso la obtencion de la firma MEL-MBSES como en la seccion an-

terior. El siguiente paso consiste en calcular derivadas numericas sobre cada una de las

bandas de la firma MEL-MBSES. Con los valores de las derivadas se genera un histogra-

ma por cada banda que representa la distribucion de los valores de la derivada a lo largo

de toda la duracion del sonido. En el trabajo (Camarena-Ibarrola, 2008) se mostro que las

derivadas de las firmas de audio funcionan mejor ante condiciones de ruido y cambios

de volumen en los sonidos. En la figura 27.b se observa que las derivadas proveen in-

formacion importante de los sonidos, por ejemplo, las derivadas de los sonidos golpeteo

y lavando las manos tienen distintos valores. La figura 28 ilustra el procedimiento para

obtener el histograma en una banda.

El ultimo paso consiste en calcular segundas derivadas numericas en cada una de las

bandas de la firma MEL-MBSES para nuevamente generar histogramas por cada banda.

Estos histogramas representan la distribucion de los valores de la segunda derivada a

lo largo de toda la duracion del sonido. La firma resultante, ilustrada en la figura 27.c se

conforma con todos los histogramas de las primeras y segundas derivadas de todas las

bandas. Si la firma MEL-MBSES se obtiene con 12 bandas de frecuencia, entonces la

firma resultante consta de 24 histogramas.

Page 59: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

46

Para generar los histogramas, es necesario establecer fronteras que separen cada

intervalo. Debido a que la mayorıa de los valores de la derivada son valores pequenos,

utilizamos una tecnica adaptativa para encontrar los niveles de cuantizacion. Esta tecnica

consiste en encontrar un conjunto de cuantiles a partir de los datos de entrenamiento.

Primero se calculan las firmas de audio en todos los sonidos de entrenamiento. Posterior-

mente se separan los datos positivos y negativos y se obtienen los cuantiles sobre cada

subconjunto. Los valores obtenidos con los cuantiles, mas ± infinito conforman un total

de 24 intervalos.

Una vez que se tienen definidos los limites de los intervalos, se procede a construir

los histogramas de la siguiente manera:

H1D(b,Bj) =1N

N∑n=1

1Bj (f′

b) (18)

H2D(b,Bj) =1N

N∑n=1

1Bj (f′′

b ) (19)

Donde f ′b es la primera derivada de la banda b de la firma de audio MEL-MBSES y f ′′bes la segunda derivada de la banda b de la firma de audio. N es el numero de muestras

del segmento de audio. 1Bj (·) es la funcion indicadora, la cual vale uno si el valor esta

dentro del j th bin Bj y cero en cualquier otro caso. H1D es el histograma obtenido con la

primera derivada y H2D es el histograma obtenido con la segunda derivada.

4.2.1. Calculo de complejidad de la firma H1dH2d-MEL-MBSES

La firma propuesta H1dH2d-MEL-MBSES tiene, ademas de su desempeno en la cla-

sificacion, dos ventajas sobre la tecnica usada en el estado del arte NMF-MFCC-HMM.

Estas ventajas son el espacio que ocupa la firma y el tiempo de procesamiento para su

calculo y evaluacion. En la seccion de experimentos se describe a detalle el procedimien-

to para la clasificacion usando la firma propuesta y el estado del arte. En esta seccion,

con el objetivo de resaltar estas ventajas se comparan los tiempos de procesamiento y el

espacio requerido. La tabla 2 muestra el numero estimado de operaciones que se requie-

Page 60: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

47

ren para calcular la firma MFCC sobre un segundo de audio. Las operaciones incluidas

para la obtencion de los MFCC comprenden el calculo de la energıa de las magnitudes

en las bandas filtradas de frecuencia, la DCT del logaritmo de los valores de la energıa y

el calculo de las derivadas. Las operaciones incluidas para la obtencion de H1dH2d-MEL-

MBSES comprenden el calculo de la entropıa con la ecuacion sobre las bandas filtradas

de frecuencia, el calculo de la primera y segunda derivada y la comparacion con fuerza

bruta con los umbrales para generar los histogramas.

La tabla 2 muestra el numero estimado de operaciones para evaluar la firma MFCC

de un sonido usando una HMM continua de 3 estados con 16 gaussianas mezcladas

por cada una de las 7 clases. Para evaluar un vector de entrada x en modelos de HMM

continuos, la funcion de densidad de probabilidad de un estado j , bj(x) esta representada

por (Rabiner, 1989).

bj(x) =M∑

m=1

cjmN(x ,µjm,Σjm) 1 ≤ j ≤ S (20)

donde N denota una funcion de probabilidad multi-dimensional Gaussiana (pdf) con un

vector de media µ y matriz de covarianza Σ. Aquı, cjm son los coeficientes para la mezcla

mth en el estado j .

Donde la funcion de probabilidad multi-dimensional Gaussiana esta dada por

Nx =1√

(2π)K |Σ|exp

[−1

2(ot − µi)Σi

−1(ot − µi)t]

(21)

La multiplicacion matricial entre cada trama de dimension 24 con la matriz de cova-

rianza de dimension 24x24 es la operacion que requiere mas tiempo procesamiento.

En la tabla 2, tambien se muestra el numero de operaciones estimadas para evaluar la

firma H1dH2d-MEL-MBSES, que consiste en un vector de dimension 24x24=576, usando

SVMs. Para evaluar un SVM lineal, se tiene que la funcion de decision esta dada de la

forma [Hearst:1998:SVM]:

Page 61: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

48

Tabla 2: Complejidad de operaciones

Firma No.ops

Clasificador No.ops

Separacionde fuentes

No.ops

Total No.ops

Tamano enkilo Bytes

X2 MFCC 7.4M HMM 33.2M NMF 43.8M total 84.4M 8kBH1d+H2d 7.2M SVM 0.02M NO 0 total 7.2M .9kB

tasa 11.7 8.8

No. ops =Numero de operacionesM = Millones

f (x) = sign(l∑

i=1

vik (x , xi) + b) (22)

donde x es el vector a ser evaluado, xi son los vectores de soporte, vi son los pesos

para los vectores de soporte y k es el kernel utilizado. En esta tesis usamos libsvm,

la cual entrena K (K − 1)/2 clasificadores binarios para llevar a cabo una clasificacion

K-multiclase one-vs-one. Esto implica que para clasificar un sonido de entrada, este se

debe comparar con K (K − 1)/2 clasificadores binarios mediante la operacion producto

interno entre el vector de entrada y cada hiperplano.

Adicionalmente, se muestran los calculos requeridos para separar las fuentes usando

el algoritmo NMF. Los calculos sobre la firma MFCC y HMM se consideran sobre ambas

fuentes separadas. La factorizacion NMF es un problema NP. Sin embargo, su solucion

se puede aproximar con un algoritmo polinomial.

Para finalizar, se muestra el espacio requerido por cada una de las firmas, que como

se puede observar es 8.8 veces menor que usando MFCC.

Page 62: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

49

Capıtulo 5. Evaluaciones

Se hicieron dos fases de experimentos para evaluar la capacidad de las firmas pa-

ra tratar con los retos del reconocimiento de sonidos ambientales. En ambas fases se

compara con el estado de arte.

El objetivo de la primera fase es comparar el desempeno de las firmas de audio

descritas en la seccion de metodos para identificar sonidos individuales cuando

estan traslapados con otros sonidos. Para ello, se usan 9 sonidos ambientales y se

obtienen mezclas de tripletas de estos sonidos usando distintos valores de SNR.

En la segunda fase, se busca evaluar la capacidad de la firma H1dH2d-MEL-MBSES

para representar sonidos heterogeneos de diversas clases y con diferente tamano.

Para ello, se experimenta con la clasificacion de muestras de 7 clases de sonidos

ambientales.

5.1. Identificacion de sonidos individuales en segmentos mezclados

En el experimento de la primera fase se compararon las firmas MEL-MBSES, MEL-

CMBSES, B-MFCC, B-MEL-MBSES y B-MEL-CMBSES. El experimento consiste en iden-

tificar las ocurrencias de un sonido en una base de datos la cual se describe a continua-

cion.

Base de datos

Se descargaron nueve segmentos de sonidos ambientales (llanto de bebe, llaves, si-

rena de policıa, canto de ave, lavado de dientes, musica con voz, musica sin voz, voz de

hombre, voz de mujer) de la pagina http://www.freesound.org con 44100 Hz de frecuen-

cia de muestro y 16 bits de profundidad. Todos los sonidos se recortaron manualmente a

una duracion de tres segundos. Se generaron mezclas formadas de tres sonidos a partir

de combinaciones de los nueve segmentos originales. Antes de generar las mezclas de

tres sonidos, se llevo a cabo un paso preliminar donde se generaron mezclas usando solo

dos sonidos. En estas mezclas de pares, los dos sonidos incluıdos se escuchan con un

Page 63: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

50

S1 S2 S3 S4 S5 S6 S7 S8 S9

S1+S2

S1+S3

S1+S9

S2+S3

S2+S9 S8+S9

Mezcla de sonidos con SNR=0dB

Sonidos originales

Figura 29: Combinaciones de todas las mezclas con pares de sonidos con un SNR=0dB.

mismo volumen. Esta caracterıstica se consigue utilizando un SNR de 0dB que implica

que ambos sonidos contribuyen con potencias iguales. Le llamamos “mezcla A”, (ver fi-

gura 29) a todas las combinaciones posibles de pares de sonidos a partir de los nueve

sonidos originales.

Para generar las mezclas con tres sonidos, se hacen todas las combinaciones posi-

bles entre los 9 sonidos originales y los elementos de la “mezcla A”. Sin embargo, para

generar estas mezclas, ahora se toma un sonido dominante, el cual se percibe con ma-

yor volumen, y un sonido debil. Esto se consigue usando un SNR mayor de 0dB que

implica que el sonido dominante contribuye con una potencia mayor. El sonido dominante

es uno de los nueve sonidos originales mientras el sonido debil proviene de “mezcla A”.

Ademas, se evita que se repita un mismo sonido dentro de la mezcla, ver figura 30.a. Con

el proposito de explorar la capacidad de reconocimiento sobre sonidos mezclados, se

generan mezclas usando 4 diferentes valores de SNR. Denominamos base de datos de

3.4dB a todas las mezclas generadas usando 3.4dB, y de la misma forma nombramos a

las base de datos de 5dB, 10dB y 20dB, ver figura 30.b. Cada base de datos contiene 254

elementos. En cada base de datos, cada uno de los 9 sonidos originales se encuentra en

84 mezclas ya sea como sonido dominante o como sonido debil.

En la figura 31 se aprecian ejemplos de las firmas MFCC, MEL-MBSES, MEL-CMBSES,

B-MFCC, B-MEL-MBSES y B-MEL-CMBSES del sonido llanto de bebe. En 31.(b)(e) se

muestran las firmas para una mezcla formada de tres sonidos con un SNR=20dB y

Page 64: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

51

S1+S2+S3

S1+S2+S4

S1+S8+S9

S2+S1+S4

S2+S8+S9

Base de datos con mezclas de tres sonidos

S2+S1+S3

S9+S1+S3

S9+S7+S8

S9+S1+S2 S1+S8+S9

SNR=0dB

SNR={3.4,5,10,20}dB

Un sonido no se repite en la misma mezcla

a)

b)

Figura 30: Mezclas de tripletas de sonidos.

en 31.(c)(f) se muestran las firmas para una mezcla formada de tres sonidos con un

SNR=3.4dB. El sonido llanto de bebe es la senal dominante mientras que los sonidos

canto de ave y musica instrumental son la senal debil. Como se observa, la estructura de

las firmas de las mezclas con SNR=20dB se asemeja mas a la firma del sonido dominante

que las firmas con el SNR=3dB.

Para tener un punto de comparacion, se pidio a 48 participantes con edades entre 21 y

30 anos escuchar los mismos sonidos usados en el experimento. Esto se realizo a traves

de una pagina web (http://sound.natix.org) en donde cada participante debıa escuchar

con audifonos 21 mezclas de sonidos. Las mezclas fueron asignadas aleatoriamente a

partir todas las cuatro base de datos (3.4dB, 5dB,10dB, 20dB). A un mismo participante

no se le asignaron mezclas repetidas aunque tuvieran SNR diferente. Los participantes

primero escucharon por separado cada uno de los sonidos originales y a continuacion se

les presentaron sus 21 mezclas correspondientes. Se les pidio indicar mediante botones

check aquellos sonidos originales que creıan escuchar en cada mezcla. A ninguno de

los participantes se les informo la cantidad de sonidos incluıdos en las mezclas y tenıan

la oportunidad de escuchar cada sonido las veces que necesitaran. En promedio, cada

participante escucho 2.52 veces cada mezcla con SNR=3.4dB, 2.47 veces con SNR=5dB,

2.61 con SNR=20dB y 3.53 veces con SNR=20dB.

Experimento

El experimento consiste en usar cada mezcla como consulta y realizar una busqueda

para determinar cuales de los 9 sonidos originales conforman dicha mezcla. Las busque-

das se repiten para cada una de las 4 bases de datos (3.4dB, 5dB, 10dB y 20dB), y para

cada una de las 6 firmas mostradas en la seccion anterior. En cada busqueda, se obtie-

Page 65: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

52

MFCC MEL-BSES MEL-CMBSES

(a) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

(b) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

(c) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

MFCC binaria MEL-BSES binaria MEL-CMBSES binaria

(d) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

(e) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

(f) 50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

50 100 150 200 250

2

4

6

8

10

12

Figura 31: Firmas MFCC, MEL-MBSES and MEL-CMBSES (a), y sus versiones binarias del sonidoLlanto de bebe (d), y las mezclas de sonido que incluyen Llanto de bebe con SNR = 20dB (b)(e) ySNR = 3.4dB (c)(f).

Page 66: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

53

ne la distancia de la mezcla con cada uno de los 9 sonidos originales y se ordenan de

menor a mayor. Una busqueda exitosa es aquella en la que los sonidos que conforman la

mezcla resultan los tres sonidos con menor distancia. Para evaluar las firmas se utiliza la

exhaustividad dado que ya se conoce que cada sonido esta presente en 84 mezclas. En

la Tabla 3 se muestran los resultados para cada una de las bases de datos usando las fir-

mas propuestas y ademas se muestran los resultados obtenidos cuando los participantes

escucharon los sonidos en la pagina web. Las distancias utilizadas en este experimento

son: la distancia Euclideana para los MFCC y MEL-CMBSES, la distancia Euclideana con

desplazamiento para la firma MEL-MBSES y la distancia de Hamming para las firmas

binarias.

Page 67: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

54

Tabla 3: Resultados para la primera fase de diseno. Las lıneas representan los sonidos Llanto debebe (i), canto de ave(ii), llaves (iii), sirena (iv), lavado de dientes (v), musica con voz(vi), musica sinvoz (vii), voz de hombre (viii), voz de mujer (ix). Las columnas corresponden a las firmas utilizadas(todas con un mismo clasificador) MFCC (a), MEL-MBSES (b),MEL-CMBSES (c), MFCC binario (d)MEL-MBSES binario (e) MEL-CMBSES binario (f). La columna (g) es el promedio de los resultadosobtenidos con los 48 participantes. Las cuatro tablas corresponden a las bases de datos con unvalor de SNR diferente.

SNR=3.4dB(a) (b) (c) (d) (e) (f) (g)

(i) 28.57 11.90 23.81 98.81 100.00 100.00 96.42(ii) 47.62 57.14 52.38 100.00 100.00 100.00 96.42(iii) 29.76 84.52 29.76 100.00 100.00 100.00 95.23(iv) 9.52 100.00 5.95 96.43 94.05 100.00 90.47(v) 97.62 100.00 92.86 100.00 100.00 100.00 97.61(vi) 95.24 89.29 96.43 100.00 100.00 100.00 92.85(vii) 100.00 100.00 100.00 100.00 100.00 100.00 94.04(viii) 20.24 5.95 17.86 98.81 100.00 96.43 97.61(ix) 96.43 58.33 84.52 100.00 97.62 100.00 97.61

Promedio 58.33 67.46 55.95 99.34 99.07 99.60 95.37

SNR=5dB(a) (b) (c) (d) (e) (f) (g)

(i) 32.14 11.90 29.76 97.62 100.00 97.62 98.08(ii) 45.24 57.14 44.05 100.00 100.00 100.00 97.61(iii) 29.76 84.52 32.14 98.81 98.81 100.00 100(iv) 11.90 100.00 7.14 91.67 91.67 100.00 91.66(v) 94.05 100.00 84.52 100.00 100.00 100.00 98.80(vi) 92.86 84.52 94.05 100.00 100.00 100.00 90.47(vii) 100.00 100.00 100.00 100.00 100.00 100.00 96.42(viii) 25.00 7.14 17.86 95.24 100.00 94.05 95.23(ix) 94.05 58.33 80.95 98.81 97.62 100.00 96.42

Promedio 58.33 67.06 54.50 98.02 98.68 99.07 96.16

SNR=10 dB(a) (b) (c) (d) (e) (f) (g)

(i) 34.52 27.38 33.33 88.10 89.29 88.10 95.23(ii) 39.29 44.05 36.90 100.00 98.81 100.00 98.80(iii) 42.86 79.76 42.86 92.86 91.67 97.62 95.23(iv) 22.62 100.00 19.05 83.33 76.19 96.43 73.80(v) 72.62 98.81 69.05 100.00 100.00 100.00 96.42(vi) 82.14 82.14 83.33 100.00 98.81 100.00 94.04(vii) 100.00 96.43 100.00 100.00 100.00 100.00 90.47(viii) 33.33 23.81 26.19 89.29 94.05 86.90 96.42(ix) 80.95 50.00 65.48 90.48 88.10 97.62 95.23

Promedio 56.48 66.93 52.91 93.78 92.99 96.30 92.85

SNR=20dB(a) (b) (c) (d) (e) (f) (g)

(i) 34.52 33.33 33.33 69.05 79.76 76.19 94.04(ii) 40.48 39.29 33.33 97.62 90.48 97.62 89.28(iii) 41.67 63.10 41.67 91.67 91.67 95.24 89.28(iv) 33.33 100.00 33.33 67.86 60.71 64.29 46.42(v) 57.14 78.57 53.57 100.00 100.00 100.00 86.90(vi) 82.14 70.24 82.14 100.00 88.10 91.67 72.61(vii) 100.00 90.48 100.00 98.81 100.00 92.86 83.33(viii) 33.33 33.33 33.33 61.90 78.57 67.86 77.38(ix) 61.90 36.90 58.33 79.76 71.43 79.76 82.14

Promedio 53.84 60.58 52.12 85.19 84.52 85.05 80.15

Page 68: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

55

Como se observa en la Tabla 3 , los resultados son mejores con valores de SNR

bajos. Esto sucede debido a que en las mezclas con 3.4dB todas los sonidos que forman

la mezcla se pueden escuchar de forma similar. En el caso de SNR=20dB sucede lo

contrario debido a que los sonidos que conforman la senal debil se escuchan muy poco

en comparacion del sonido dominante. Esto ultimo tambien se aprecia con el numero de

veces que los participantes escucharon las mezclas con 20dB (3.53) en comparacion con

otros valores de SNR.

En esta fase de diseno, solo se usa un sonido por cada clase. Sin embargo, como

se aprecia en la seccion de metodo, se observa que diferentes instancias de una misma

clase pueden presentar diferencias de estructura en el tiempo y en la frecuencia. Por tal

motivo, se diseno la firma H1dH2d-MEL-MBSES que posee flexibilidad para reconocer

las clases de sonidos cuya evaluacion se describe en la siguiente seccion.

5.2. Reconocimiento de clases de sonidos: Evaluacion de escalabilidad y robustez

ante alta heterogeneidad y ruido

El experimento de la segunda fase consiste en evaluar la firma H1dH2d-MEL-MBSES

ante condiciones de ruido y su capacidad para generalizar su respuesta cuando se usa

con diferentes usuarios y dispositivos de grabacion. De igual manera que en la fase ante-

rior, se construye una base de datos con las condiciones necesarias para la evaluacion.

Base de datos

Para la construccion de las bases de datos utilizadas en esta fase, se grabaron seis

clases de sonidos (balon botando, lavado de dientes, grillo, lavado de manos, llaves y te-

cleando) usando un telefono movil LG-E510f. Ademas, se descargo de www.freesounds.org

la clase llanto de bebe. Los sonidos fueron producidos por cuatro participantes donde ca-

da uno contribuyo con 10 muestras para cada clase. Todos los sonidos se grabaron en

condiciones ambientales naturales y cada sonido se produjo sin seguir instrucciones es-

pecıficas. Por ejemplo, cada sujeto se cepillo los dientes como normalmente lo hace en

su ambiente especifico y los rebotes de balon se produjeron usando diferentes balones y

superficies. Se construyo la base de datos A con las 280 muestras capturadas de las 7

Page 69: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

56

clases. Todos los sonidos fueron capturados con una frecuencia de muestreo de 44100Hz

y 16 bits de profundidad. La duracion de los sonidos es variable entre 1.2 a 5.7 segundos.

Con el proposito de evaluar el desempeno de la firma propuesta ante variaciones

intra-clase y evaluar que tan generalizable es a otros usuarios, se crearon dos bases de

datos adicionales. Se formo la base de datos B al grabar con el mismo telefono cuatro

muestras por cada clase de cuatro participantes adicionales. Ademas, se creo la base de

datos C al bajar de internet (www.freesounds.org y www.youtube.com) ocho sonidos por

cada clase que provienen de sujetos y ambientes diferentes. Es importante mencionar

que los sonidos descargados de internet fueron capturados con diferentes dispositivos de

los cuales no tenemos ningun control. De la misma manera, no tenemos control sobre los

sujetos que produjeron los sonidos ni los ambientes en donde fueron capturados, lo que

produce una base de datos heterogenea.

Para evaluar el desempeno de la firma ante condiciones de ruido y conocer la capa-

cidad de encontrar todos los sonidos que conforman una mezcla, creamos la base de

datos D. Esta base de datos se genero mezclando dos sonidos de dos clases diferentes.

De igual forma que en el experimento anterior, usamos cuatro valores distintos de SNR

lo cual produce que los sonidos se perciban con distinto volumen. Por cada clase y por

cada valor de SNR se obtuvieron seis mezclas en donde la clase contribuye como sonido

dominante y sonidos de otras clases contribuyen como senal debil. Por ejemplo, para la

clase lavado de dientes, se generaron las seis mezclas : lavado de dientes-balon botan-

do, lavado de dientes-grillo, lavado de dientes-lavado de manos, lavado de dientes-llaves,

lavado de dientes-tecleando,lavado de dientes-llanto de bebe. En este ejemplo, el soni-

do lavado de dientes se escucha dominante con 2dB,5dB,10dB y 20dB mientras que los

otros sonidos se escuchan debiles. Cabe mencionar que ademas ya existe ruido presen-

te en todas las grabaciones debido a que fueron obtenidos sin ningun control sobre el

ambiente.

La tabla 4 resume las bases de datos utilizadas en esta fase y las caracterısticas que

evaluan de la firma.

Page 70: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

57

Tabla 4: Resumen de las bases de datos usadas en esta fase

Base de datos A Base de datos B Base de datos C Base de datos D

No. Elem. x clase 280 112 56 42 por valor SNRA evaluar sonidos limpios generalizacion a generalizacion a

usuarios usuarios y dispositivos robustez al ruido

Tabla 5: Fscore para los experimentos sobre bases de datos A,B and C

Base de datos A Base de datos B Base de datos C

NMF-MFCC-HMM .98 .79 .26H1d SVM .94 .72 .51

H1d + H2d SVM .96 .80 .56

Experimento

En el desarrollo del experimento, se comparo la firma propuesta H1dH2d-MEL-MBSES

contra NMF-HMM-MFCC. La primera evaluacion consistio en llevar a cabo validacion cru-

zada con 10 particiones sobre los elementos de la base de datos A. Para el resto de las

evaluaciones se entrenaron modelos usando todos los elementos de la base de datos A

para evaluar los el desempeno de las firmas sobre las bases de datos B,C y D.

De la tabla 5 se observa que nuestra propuesta H1dH2d-MEL-MBSES produce re-

sultados similares al metodo base NMF-HMM-MFCC usando las bases de datos A y B.

Ademas, la tabla muestra resultados al usar la firma H1d-MEL-MBSES, es decir, usando

solo las primeras derivadas. Como se puede observar, los resultados mejoran cuando se

usan las segundas derivadas. Cabe mencionar que aunque los resultados para las bases

de datos A y B son similares, nuestra propuesta requiere menor espacio y es mas rapida

para evaluar.

Los resultados al evaluar sobre la base de datos C, mostrados en la tabla 5 indican

que nuestra propuesta posee mejor generalizacion a distintos usuarios y dispositivos de

grabacion, ya que los resultados son significativamente mejores. Recordamos que la base

de datos C corresponde a los sonidos descargados de internet.

La evaluacion sobre la base de datos D refleja la capacidad de nuestra propuesta

para reconocer dos sonidos que forman una mezcla. Aquı cabe mencionar que no te-

nemos ninguna informacion a priori sobre los fondos de los sonidos ya que pueden ser

Page 71: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

58

H1d+H2d SMV NMF MFCC HMMA BCD EFG A BCD EFG A BCD EFGA BCD EFGA BCD EFG

GT 2dB 5dB 10dB 20dB

A

B

C

E

D

G

F

A BCD EFG A BCD EFG A BCD EFGA BCD EFGA BCD EFG

GT 2dB 5dB 10dB 20dB

A

B

C

E

D

G

F

Figura 32: Classificacion en mezclas, el eje y indica al sonido dominante en la mezcla mientras encada columna se indica el otro sonido que forma la mezcla. Las clases de sonidos son: A=balon bo-tando, B=lavandose los dientes, C=grillo, D=llanto, E=llaves, F=lavandose las manos, G= tecleando.

de cualquier clase. La figura 32 muestra la matriz de confusion al clasificar los sonidos

mezclados. Los cuadros negros significan que el sonido se identifico correctamente co-

mo parte de la mezcla, es decir los VP. Los cuadros blancos significan que que el sonido

se clasifico de forma incorrecta como parte de la mezcla, es decir, FP. Las etiquetas en

el eje vertical indicas a cual clase de sonido pertenece la senal dominante en la mezcla

mientras que las etiquetas en el eje horizontal indican a que clase de sonido pertenece

la senal debil. GT se refiere al ground truth. Los valores de SNR usados para formar las

mezclas se indican con 2dB, 5dB, 10dB y 20dB. Cada base de datos esta formada por 42

sonidos, donde cada sonido contiene 2 clases, por lo tanto, deberıan de existir 84 VP.

En la tabla 6 se muestran los VP, FP y el F1Score al reconocer los sonidos que compo-

nen cada mezcla. Como se aprecia, nuestra propuesta resulta mejor que el metodo base.

La firma NMF-MFCC-HMM produce mejores resultados cuando se clasifican sonidos in-

dividuales sin ruido, como se muestra en la tabla 5 y en la tabla 6 con un SNR=20dB. Sin

embargo, se aprecia de la tabla que es poco probable que NMF-MFCC-HMM encuentre

a los dos sonidos que forman la mezcla. Se detecto que incluso al utilizar separacion de

fuentes con NMF, los dos sonidos separados frecuentemente se clasifican como de la

misma clase o de lo contrario existirıan mas FP.

5.3. Discusion

Los resultados de los experimentos de esta seccion indican que es posible utilizar una

firma de audio compacta y facil de calcular para reconocer eventos de sonido. Mediante

el primer experimento se identifico que el usar las derivadas de las firmas de audio in-

Page 72: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

59

Tabla 6: Verdaderos Positivos(VP), Falsos Positivos (FP) y F1Score en sonidos mezclados.

Test data D H1d+H2d SVM NMF-MFCC-HMM

VP FP F1Score VP FP F1Score

SNR = 2dB 46 10 0.65 39 10 0.59SNR = 5dB 45 9 0.65 38 10 0.57SNR = 10dB 42 7 0.63 40 7 0.61SNR = 20dB 45 5 0.67 43 1 0.67

crementa la eficiencia del reconocimiento para sonidos mezclados mientras que ayuda a

disminuir el tamano de la firma. Ademas, la respuesta de nuestra propuesta se compara

con el desempeno de reconocimiento de sonidos mezclados de los seres humanos.

La evaluacion del segundo diseno de firma de audio indica que es posible reconocer

sonidos con alta heterogeneidad, con duracion distinta y con condiciones de ruido usando

una representacion compacta y facil de calcular. Los resultados indican una mejorıa en

el desempeno comparando con el estado del arte y muestran la viabilidad para utilizar

nuestra propuesta en aplicaciones conscientes del contexto con eventos de sonido en

condiciones realistas.

En el siguiente capitulo se presentan esquemas de reconocimiento de eventos de

sonido para dos casos de uso de aplicaciones para adultos mayores.

Page 73: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

60

Capıtulo 6. Evaluacion de las firmas en dos casos de

estudio

Se presentan evaluaciones en dos casos de estudio relacionados con la asistencia

ambiental a adultos mayores.

En el primer caso, la evaluacion consiste en probar la eficiencia sobre datos gra-

bados en un ambiente real de una residencia geriatrica. Aunque en esta evaluacion

los sonidos son segmentados manualmente, estos se encuentran contaminados con

ruido y estan traslapados con otros sonidos de forma natural por el ambiente.

En el segundo caso, se evalua la capacidad de la firma para clasificar audio continuo

que no ha sido segmentado manualmente y es producido en un ambiente real que

consiste en un departamento que habita un adulto mayor.

6.1. Caso de estudio 1: Reconocimiento de comportamientos disruptivos audibles

en un escenario de una residencia de adultos mayores

Este caso de estudio consiste en reconocer comportamientos disruptivos mediante au-

dio. Los adultos mayores con problemas de demencia y/o Alzheimer, presentan Sıntomas

de Demencia Psicologicos y de Comportamiento (SDPC). Estos sıntomas son trastornos

en la percepcion que se manifiestan a traves de la satisfaccion, el humor y el comporta-

miento (Burns et al., 2012). Los sıntomas psicologicos de demencia se relacionan con la

ansiedad, depresion y psicosis. Algunos ejemplos de estos sıntomas incluyen agresion,

apatıa, agitacion, comportamientos desinhibidos, comportamiento deambulante, altera-

ciones nocturnas y Comportamientos Disruptivos Audibles (CDA). Aproximadamente el

90 por ciento de los pacientes con demencia del tipo Alzheimer presentan estos proble-

mas de comportamiento haciendo que cuidarlos sea una tarea complicada. Por ejemplo,

el CDA, que se manifiesta mediante gritos, maldiciones o con preguntas inapropiadas

y repetitivas produce estres emocional severo a los cuidadores y a otros habitantes de

residencias geriatricas. Ademas, el personal de enfermerıa de residencias geriatricas ex-

presa mas frustracion, ansiedad y enojo hacia pacientes que presentan CDA e incluso

suelen distanciarse de ellos (Fick et al., 2014).

Page 74: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

61

Ambiente/ContextoPaciente con

demencia Cuidador

Observación

Intervención

Actuadorambiental

Análisis decomportamiento

Modelo dedecisión

Intervención

Sensado delcontexto

Intervención

Informacióndel contexto

proporcionadapor el cuidador

Establecimiento dela intervención

Figura 33: Sistema de Intervenciones Asistidas. El sistema analiza la informacion del contexto sen-sada a partir del usuario, la informacion introducida por el cuidador y el ambiente al cual el usuariose encuentra expuesto. Imagen basada de (Navarro et al., 2014).

En los ultimos anos, se ha determinado que el tratamiento a la demencia debe incluir

Intervenciones No Farmacologicas (INF) cuando se manifiesten comportamientos disrup-

tivos (Sadowsky and Galvin, 2012). Algunos medicamentos, tales como antipsicoticos y

antidepresivos proveen evidencia de ayudar con los SDCP, sin embargo sus efectos son

modestos y producen efectos secundarios severos como accidentes cerebro-vasculares

e incremento en el riesgo de mortalidad, lo cual resalta la importancia de usar alternativas

no farmacologicas para disminuir estos sıntomas (Jalbert et al., 2008). Mediante el anali-

sis automatico del contexto es posible desarrollar un Sistema de Intervenciones Asistidas

(SIA) cuyo objetivo sea el sugerir estrategias para tratar comportamientos problematicos

(ver figura 33) (Navarro et al., 2014). Este sistema puede utilizar la informacion contextual

para mejorar la calidad de vida de los pacientes con demencia debido a que identifica

automaticamente cuando existe presencia de SDPC y decide una intervencion no far-

macologica apropiada ya sea modificando el ambiente o persuadiendo al paciente o al

cuidador de llevar a cabo una sugerencia.

Page 75: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

62

En esta seccion, se evalua la deteccion automatica de CDA’s usando grabaciones

de audios recabados en una residencia geriatrica, que es un ambiente naturalista donde

habitan personas que producen este tipo de comportamientos disruptivos.

Base de datos

La base de datos para este experimento surgio de un estudio observacional en una

residencia geriatrica. Se seleccionaron 5 residentes diagnosticados con demencia (4 mu-

jeres y 1 hombre, con edades entre los 81 y 94 anos, promedio=90.2) para participar

en el estudio observacional de SDCP. Los criterios de inclusion de los sujetos fueron: 1)

deben estar diagnosticados con demencia; 2) estar catalogados por los cuidadores con

un puntaje de frecuencia de al menos 2 en algun punto del inventario Neuropsiquiatrico1 (Cummings et al., 1994) en el mes pasado; 3) Poder conversar en Ingles/Espanol; y

4) ser capaz de participar independientemente o con alguna asistencia en al menos dos

ADL (ej. banarse, vestirse, alimentarse). Durante 4 semanas, se observo de cerca a los

participantes por 5 horas diarias por 3 dıas cada semana para documentar las manifes-

taciones de agitacion de acuerdo al Inventario de Agitaciones Cohen-Mansfield (IACM)

(Cohen-Mansfield and Martin, 2010)(Cohen-Mansfield, 1997). Los comportamientos agi-

tados siempre son socialmente inapropiados y se pueden manifestar de tres formas: a)

puede ser abusivo o agresivo hacia si mismo o hacia otras personas, b) puede ser un

comportamiento apropiado, pero realizado con una frecuencia inapropiada, por ejemplo

preguntar cosas constantemente, y por ultimo c) puede ser inapropiado de acuerdo a

estandares sociales para una situacion especıfica, por ejemplo quitarse la ropa en un

cuarto publico. Se documentaron manualmente los signos que mostraron los pacientes

cada vez que producıan algun incidente. La observacion se realizo en las areas publicas

de la residencia geriatrica. Ademas, tambien anotamos las interacciones sociales con los

trabajadores y con otros residentes.

De este estudio, se documentaron 181 incidentes de SDCP en 11 de las 29 categorıas

incluıdas en el IACM. La mayorıa de los incidentes (81.22 %) tienen una manifestacion1El Inventario Neuropsiquiatrico fue desarrollado por Cummings et al. (1994), con el fin de recoger in-

formacion sobre la presencia de sıntomas neuropsiquiatricos y conductuales en pacientes con alteracionescerebrales. Aunque inicialmente se diseno para ser aplicado en pacientes con Enfermedad de Alzheimer yotras demencias, puede resultar util para la valoracion de cambios conductuales en otras situaciones.

Page 76: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

63

Tabla 7: BPSD con manifestaciones audibles documentadas en el estudio observacional

Descripcion Incidentes %

Agresion verbal o malas palabras 29 19.73Preguntas o frases repetitivas 33 22.45

Haciendo ruidos extranos 43 29.25Quejas 6 4.08

Manerismos repetitivos 36 24.49

auditiva. En la tabla 7 se presenta una categorizacion de estos incidentes.

Para la grabacion de sonidos, los participantes usaron el dispositivo de grabado Sansa

Clip+MP3 Player. Las sesiones se grabaron con el formato WAV con una frecuencia de

muestreo de 24KhZ y 16 bits de profundidad. La Figura 34 muestra dos ejemplos que

ilustran a dos residentes usando el dispositivo en la cintura.

Figura 34: Ubicacion de los microfonos en dos adultos mayores que habitan en la residencia ge-riatrica.

A partir del estudio, se identificaron dos escenarios que ilustran los problemas que se

asocian a los CDA’s. Los escenarios se narran a continuacion como si ya estuviera imple-

mentado el sistema SIA resaltando con ello la motivacion de realizar un reconocimiento

automatico de estos comportamientos. Esto ademas puede servir como guıa para futuras

sesiones de diseno y para probar prototipos.

Escenario A

Rose es una adulta mayor de 94 anos de edad que habita en la residencia geriatrica y

esta diagnosticada con la enfermedad de Alzheimer. Sus sıntomas de comportamiento y

neuropsiquiatricos incluyen explosiones de agresiones expontaneas que provocan estres

Page 77: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

64

en sus companeros residentes. Una tarde, Rose esta comiendo en el comedor, cuando su

companera Doris, empieza a gritar y a producir balbuceos. En la figura 35 se ilustra esta

interaccion. Esto molesta a Rose y provoca que empiece a gritar Shut up repetidamente

y a golpear la mesa. Los balbuceos de Doris son capturado por los microfonos del SIA

y se detectan automaticamente por el componente de balbuceos. Con la deteccion, es

posible cambiar anticipadamente el fondo musical de acuerdo a las preferencias de Rose

para calmar su estado de animo. Si el problema persiste, el SIA conduce a Rose a su

recamara o a algun lugar mas calmado de la residencia para evitar su incomodidad. Las

guıas se dan mediante estımulos visuales indicandole el camino. Al mismo tiempo, se

les informa a los cuidadores sobre la situacion y reciben un mensaje cuando Rose llega

finalmente a su recamara.

Ba

lbu

ce

o

Ba

lbu

ce

o

Ba

lbu

ce

o

Ba

lbu

ce

o

Ba

lbu

ce

o

Ba

lbu

ce

o

Ba

lbu

ce

o

Ba

lbu

ce

o

Ba

lbu

ce

o

Figura 35: Espectrograma que representa la interaccion entre dos pacientes de la residencia ge-riatrica. Se resaltan las palabras silencio, shut up y el balbuceo.

Escenario B

Frank es un adulto mayor de 90 anos que habita en la residencia y esta diagnosticado

con demencia moderada. El utiliza una silla de ruedas para poder trasladarse dentro

de la residencia. Cada vez que necesita algo, grita enfermera! enfermera!. Si no se le

atiende rapidamente, entonces empieza a llorar, y esto molesta a otros residentes. El dıa

de hoy, Frank esta merodeando la entrada de la residencia geriatrica mientras espera

una oportunidad para salirse. Entre mas tiempo espera, empieza a agitarse y cuando

Frank esta agitado, su comportamiento disruptivo consiste en golpear repetidamente el

descansabrazo de la silla de ruedas. Aunque los signos de agitacion son manifestados

en diferentes formas por cada individuo (Cohen-Mansfield and Martin, 2010) (Navarretta,

2014), este tipo de comportamiento no es raro dentro de los pacientes con demencia

que con frecuencia expresan su ansiedad con movimientos repetitivos (Cohen-Mansfield,

1997). Si el sonido que produce Frank, es detectado por los microfonos y sensores de

Page 78: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

65

ubicacion del SIA, entonces se interpretan como un comportamiento deambulante. En

respuesta, el sistema enciende la television en una area cercana y reproduce el juego de

futbol (grabado) favorito de Frank con el objetivo de desviar su atencion de la puerta.

Arquitectura del Sistema de Intervenciones Ambientales

Para que el sistema realice las intervenciones adecuadas, este debe ser capaz de

detectar automaticamente aquellos sonidos que se asocian con comportamientos disrup-

tivos. El sistema propuesto (ver figura 36), incluye un componente que detecta los CDA’s

sobre los sonidos que recibe de entrada. El clasificador de CDA’s esta ajustado para reco-

nocer tres tipos de sonidos. El primer tipo corresponde a palabras que son repetidas con

frecuencia por alguno de los residentes tales como Shut up , silencio o nurse. El segundo

tipo de sonidos reconocidos consiste en balbuceos o palabras que no se entienden como

las producidas por Doris en el escenario A. El ultimo tipo de sonidos corresponde a soni-

dos ambientales. Algunos ejemplos de este tipo de sonidos son: golpeteos en la silla de

ruedas, como los que produce Frank en el escenario B cuando esta agitado, o el sonido

del excusado descargando agua. Una vez que se detecta un CDA, el sistema selecciona

la intervencion apropiada basandose en informacion de contexto adicional capturada por

otros sensores o por conocimiento almacenado en la ontologıa (Navarro et al., 2014).

VBDClassiÞer

SILENCIO!

ENFERMERA!

Murmullos

Balbuceos

Golpeteo

Modelode

decisión

Análisisde

Comportamiento

Ontología

Intervención

Notificación

Orientación

Música

Clasificadorde sonidosdisruptivos

Máquina de Intervención

Descargarexcusado

Figura 36: Sistema de Intervenciones Ambientales Asistido basado en la deteccion de comportam-bientos disruptivos Audibles y la activacion de intervenciones no farmacologicas.

Page 79: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

66

6.1.1. Detector de palabras clave

Para detectar las palabras clave, se construyo un modelo de un clasificador para cada

palabra usando muestras de entrenamiento. Las muestras utilizadas provienen del audio

capturado en la residencia geriatrica donde habitan pacientes con demencia. Para este

problema, se opto por utilizar MFCC con 24 coeficientes como firma de audio y HMM

para la clasificacion, ya que estos corresponden a la configuracion del estado del arte

para reconocimiento del habla.

A partir del audio capturado de Rose en el estudio de campo, se encontraron 19 mues-

tras de la palabra shut up, 12 muestras de silencio, 9 muestras de chicken shit y 3 mues-

tras de stop it. Debido a que se tienen 60 horas registradas de Rose, se estima que ella

produce estas palabras claves con una tasa de 0.7 veces por hora. Esta tasa indica que

estas expresiones son caracterısticas de Rose de manera que tiene sentido modelar un

clasificador para detectar exclusivamente estas palabras. Esto por un lado simplifica el

problema al reducir las posibles palabras, aunque al tratarse de un ambiente realista no

controlado existen los problemas de ruido y la heterogeneidad con que ella misma produ-

ce las palabras.

En este experimento, se construyeron HMMs continuos para las palabras shut up,

y silencio usando los sonidos grabados en la campana de sensado. La evaluacion se

realizo usando validacion cruzada con particion de tres de donde se obtuvo como resul-

tado un F1Score del 91 %.

Con estos escenarios se identifican manifestaciones audibles de distinta naturaleza.

Por un lado se tienen sonidos no verbales tales como los golpeteos. Por otro lado se tie-

nen los sonidos verbales como las palabras y los balbuceos. Todos estos sonidos deben

detectarse bajo condiciones ruidosas compuestas de sonidos de fondo no estacionarios.

Cada cuarto de la residencia tiene su propio sonido de fondo y adicionalmente las en-

fermeras y pacientes tambien producen sonidos aleatorios. Esto implica que el sonido de

fondo no puede ser modelado a priori debido a su naturaleza no estacionaria. Este reto en

particular se atiende en esta tesis y nuestros resultados muestran que se pueden detectar

los sonidos propuestos usando microfonos de baja calidad y usando menos recursos de

Page 80: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

67

Tabla 8: Matriz de confusion para balbuceos y otros sonidos

Balbuceos( %) Otros ( %)

Balbuceos 81.24 18.75Otros 38.28 61.17

computo que el estado del arte.

6.1.2. Detector de balbuceos

Para la deteccion de balbuceos, se opto por utilizar la firma MEL-MBSES con un cla-

sificador HMM ergodico continuo con una gaussiana y 3 estados. El trabajo mas parecido

en la literatura, hasta donde conocemos, detecta balbuceos de bebes [ref] pero no en-

contramos nada relacionado con el balbuceo de adultos mayores.

De las 203 horas grabadas en el estudio de campo, se analizaron 113 horas de las

cuales se encontraron 198 muestras de balbuceo. Esto indica una tasa de 1.4 balbuceos

por hora. Se decidio detectar este CDA automaticamente ya que una intervencion ade-

cuada podrıa disminuir problemas entre los residentes y los cuidadores.

La base de datos para este experimento de reconocimiento de balbuceo se formo seg-

mentando manualmente 43 instancias de balbuceos grabados de Doris durante el estudio

de campo. Ademas, para modelar el resto de los sonidos, recortamos otros 43 ejemplos

aleatorios de sonido que tambien fueron grabados durante el estudio de campo. La du-

racion de los sonidos es variable con una duracion promedio 1.75 segundos y una des-

viacion estandar de 0.95. La clasificacion se evaluo usando validacion cruzada. La matriz

de confusion obtenida se muestra en la Tabla 8. Los resultados obtenidos muestran que

el balbuceo fue estimado correctamente en promedio 81.24 % sobre todas las validacio-

nes (VP), mientras que fue clasificado incorrectamente un 18.75 % ya que en estos casos

fue predicho como la clase otros (FN). Como se observa, los falsos positivos fueron mas

frecuentes, lo que indica que el algoritmo identifico incorrectamente otros sonidos como

balbuceos.

Ademas de los experimentos sobre los datos segmentados, tambien se realizo un ex-

perimento en donde se clasificaron 6 minutos de segmentos de audio continuo grabado

en la residencia. Los segmentos tienen una duracion que va desde los 7 hasta los 35

Page 81: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

68

2.2 7.6 13.6 19.6 25.6

tiempo (segundos)

GT

P

TP FNTNTN TN

2.2 4.4 7.2 9.8 12.6

tiempo(segundos)

GT

P

FP FPTNTN TP FP

Figura 37: Clasificacion de balbuceo en segmentos de audio continuo.

segundos e incluyen sonidos de balbuceo dentro de su contenido. Estos segmentos no

fueron segmentados manualmente y estan mezclados con otros sonidos de fondo produ-

cidos en la residencia.

Se genero un modelo con las 43 instancias segmentadas de balbuceo y las 43 ins-

tancias de otros sonidos para entrenar HMMs. Se usaron estos modelos para clasificar

los 6 minutos de segmentos continuos. El procedimiento para clasificar los segmentos

continuos consiste en tomar ventanas deslizantes de dos segundos del audio de entrada

y calcular la MEL-MBSES. Posteriormente, se evalua la firma en los HMMs para obte-

ner la prediccion de los dos segundos. Despues se toma otra ventana de dos segundos

con un traslape del 80 % con la ventana anterior y esta tambien se clasifica para obtener

la nueva prediccion. Se continua con este procedimiento hasta alcanzar el final del seg-

mento de audio. Se obtuvo un F1Score del 89 %. La figura 37 muestra un ejemplo de los

resultados al clasificar dos audios continuos. La etiqueta GT se refiere a Ground Truth y

P es la prediccion de los HMMs. El color blanco representa los balbuceos y el color negro

representa a los otros sonidos de fondo. La figura 37 muestra ejemplos de Verdaderos Po-

sitivos (VP), es decir, cuando la prediccion indica exitosamente el balbuceos. Tambien se

muestran los Falsos positivos (FP), es decir, cuando la prediccion indica erroneamente un

balbuceo. Adicionalmente se muestran los verdaderos negativos (VN), es decir, cuando la

prediccion indica correctamente que no hay balbuceo. Para finalizar, se indican los Falsos

Negativos (FN), que representan cuando la prediccion falla para detectar el balbuceo.

Page 82: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

69

6.1.3. Detector de sonidos ambientales

La manifestacion de un comportamiento disruptivo incluye sonidos ambientales ta-

les como golpeteo o descarga del excusado. Para este problema, utilizamos la firma

H1DH2S-MEL-MBSES la cual se propone en la seccion tal para detectar sonidos am-

bientales como lavado de manos o cepillados de dientes resultando en una clasificacion

con buen desempeno.

Debido a que se obtuvieron pocas instancias etiquetadas del sonido de golpeteo en

la silla de ruedas, se opto por reproducir el sonido para grabar mas instancias para que

nuestros resultados sean estadısticamente significativos. Se grabaron 50 sonidos los cua-

les se segmentaron manualmente. Se calculo la firma H1DH2D-MEL-MBSES para gene-

rar un modelo de SVMs lineal con c=0. Ademas se generaron modelos SVMs para tres

diferentes fondos tıpicos que se producen en la residencia: fondo con voz, fondo con mur-

mullos y musica y fondo tranquilo. Para la evaluacion se utilizo validacion cruzada con una

particion de 10 y se obtuvo un F1Score del 93 %.

Tambien se realizo un experimento con 4.6 minutos de porciones de audio continuo

grabado en la residencia. Las porciones varıan desde 12 hasta 49 segundos de duracion

e incluyen el sonido de golpeteo en la silla de ruedas. No se realizo una segmentacion

manual sobre las porciones de audio las cuales tambien contienen otros sonidos de fondo

producidos en la residencia.

Se generaron modelos SVM’s con las 50 instancias segmentadas de golpeteo y los

tres tipos de fondo. Se usaron estos modelos para clasificar los 4.6 minutos de segmentos

continuos. El procedimiento para clasificar los segmentos continuos consiste en tomar

ventanas deslizantes de dos segundos del audio de entrada y calcular la H1DH2D-MEL-

MBSES. Posteriormente, se evalua la firma en los SVM’s para obtener la prediccion de los

dos segundos. Despues se toma otra ventana de dos segundos con un traslape del 80 %

con la ventana anterior y esta tambien se clasifica para obtener la nueva prediccion. Se

continua con este procedimiento hasta alcanzar el final del segmento de audio. Se obtuvo

un F1Score del 87 %. La figura 38 muestra un ejemplo de los resultados al clasificar

dos audios continuos. La etiqueta GT se refiere a Ground Truth y P es la prediccion de

Page 83: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

70

2.2 8.8 16 23.2 30.4

time (seconds)

GT

P

FP TPTNTN TN

2.2 8.6 17.6 25.6 33.6

time (seconds)

GT

P

TP TNTN TP TNFP TN

Figura 38: Clasificacion de golpeteo en segmentos de audio continuo.

los SVM’s. El color blanco representa los golpeteos y el color negro representa a los

otros sonidos de fondo. La figura 38 muestra ejemplos de Verdaderos Positivos (VP), es

decir, cuando la prediccion indica exitosamente el golpeteo. Tambien se muestran los

Falsos positivos (FP), es decir, cuando la prediccion indica erroneamente un golpeteo.

Adicionalmente se muestran los verdaderos negativos (TN), es decir, cuando la prediccion

indica correctamente que no hay golpeteo. Para finalizar, se indican los Falsos Negativos

(FN), que representan cuando la prediccion falla para detectar el golpeteo.

6.2. Caso de estudio 2: Reconocimiento de sonidos continuos no segmentados

producidos en un ambiente realista en un departamento habitado por un adul-

to mayor

El objetivo de esta evaluacion, es reconocer un numero mayor de clases de sonidos

ambientales los cuales se producen naturalmente en un departamento habitado por un

adulto mayor y otro miembro de su familia. La evaluacion se realiza sobre segmentos de

audio continuo sin ninguna segmentacion manual. Ademas, se evalua la capacidad de

encontrar los sonidos presentes en una mezcla formada naturalmente (no sintetica) en

este ambiente.

Base de datos

Se grabaron 20 clases de sonidos en el departamento de un adulto mayor relaciona-

dos con alguna actividad y tres tipos de fondo los cuales se presentan en la tabla 9

Para la etapa de entrenamiento, se segmentaron y etiquetaron manualmente 40 seg-

mentos de audio de aproximadamente 3 segundos para cada una de las 23 clases de

Page 84: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

71

Tabla 9: Clases de sonidos para caso de estudio 2

Eventos de Sonidos Fondos

Lavadora Fondo de dıaLicuadora Fondo de nocheAspiradora Fondo con voz

Lavado de dientesDucha

Lavado de trastesTosiendo

Tocando la puertaBicicleta estacionaria

Descargando excusadoAgua Hirviendo en tetera

Tocando el timbreTelefonoGuisandoSecadoraAlarmaAplauso

TecleandoMaquina de coser

Tronando los desos

sonidos. Para la etapa de evaluacion, se grabaron 118 minutos de audio continuo sin

segmentar, asegurando que cada clase de sonido apareciera al menos una vez. Los so-

nidos que forman parte de esta base de datos implican retos en el dominio del tiempo y

de la frecuencia. Estos retos se deben a que varias clases tienen forma de onda similar y

comparten informacion en bandas de frecuencia. En la figura 39 se muestran cuatro es-

pectrogramas de los segmentos de audio continuo, donde se observa que existen sonidos

que aunque pertenezcan a clases distintas comparten la informacion en varias bandas de

frecuencia, e incluso existen clases de sonidos de actividades que tienen un parecido con

la estructura espectral del fondo. Ademas, en las bases de datos con sonidos mezclados y

con segmentos continuos, al menos dos clases estan contribuyendo con sus propiedades

en el tiempo y en la frecuencia para producir un nuevo sonido traslapado.

6.2.1. Deteccion de sonidos ambientales continuos

Los experimentos se realizan usando dos configuraciones de firma-clasificador con el

proposito de hacer una comparacion entre ellas. Las dos configuraciones son: H1dH2d-

MEL-MBSES con SVM y NMF-MFCC con HMM. Estas configuraciones se utilizaron en la

Page 85: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

72

ducha/fondo fondo

fondoguisando/fondo

fondo

aspirando/fondo fondofondo aspirando/fondofondo

fondo licuando/fondo licuando/fondo fondo

Figura 39: Ejemplo de cuatro clases de eventos de sonidos en segmentos continuos.

segunda seccion Reconocimiento de clases de sonidos.

Para la evaluacion de las firmas en los sonidos continuos, se sigue el siguiente proce-

dimiento. Se utiliza una ventana deslizante con un traslape del 80 % y por cada ventana

se extrae una firma, ya sea H1dH2d-MEL-MBSES o NMF-MFCC. Posteriormente, cada

firma se clasifica usando SVM o HMM segun sea el caso. Cada vez que un sonido se

clasifica correctamente se tiene un VP y cada vez que un fondo se clasifica como fondo

se tiene un VN. Los sonidos utilizados en este experimento unicamente traslapan alguna

de las clases de audio mencionadas con alguno de los fondos, es decir, no se traslapan

dos clases de audio provenientes del alguna actividad. Con esta evaluacion se obtiene

Page 86: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

73

un F1Score del 41 % cuando se utiliza el metodo base NMF-MFCC-HMM y 58 % cuando

se utiliza la firma propuesta H1dH2d-MEL-MBSES la cual claramente supera al metodo

base.

6.3. Discusion

Los experimentos llevados a cabo en este capıtulo indican la viabilidad de usar el

reconocimiento automatico de eventos de sonidos para utilizarse como herramienta en

un sistema dirigido apoyar la vida diaria de adultos mayores y de sus cuidadores.

Con el primer caso de uso se evalua la firmas de audio y clasificacion en sistemas de

asistencia ambiental para detectar y responder ante comportamientos disruptivos audi-

bles en condiciones realistas. Se clasifica sobre porciones de audio continuas obteniendo

F1Score mayor al 87 %. Estos resultados indican la capacidad de la propuesta para tra-

tar con entradas de audio continuo en ambientes ruidosos y heterogeneos para detectar

comportamientos disruptivos en una residencia geriatrica.

Considerando que el sistema esta disenado para cuidadores, para nosotros es im-

portante que se les informe acerca de eventos cuando existe seguridad de que haya

sucedido y ası reducir la carga de trabajo con falsos positivos. Esto permite disenar el es-

quema de firma-clasificador ajustando los parametros para evitar falsos positivos aunque

esto implique tambien la existencia de falsos negativos.

Con el segundo caso de uso se evalua nuestra propuesta H1dH2d-MEL-MBSES en

condiciones ambiciosas y realistas debido a que este experimento se realiza sobre 118

minutos de porciones de audio continuo con 23 clases de sonidos capturados en condi-

ciones ruidosas. El escenario de captura corresponde a un departamento donde habita

un adulto mayor quien ejecuta sus actividades de la vida diaria. Los resultados, indican la

posibilidad de utilizar nuestra propuesta en aplicaciones conscientes de contexto.

Debido a que los sonidos ambientales proveen informacion de contexto, su reconoci-

miento automatico se puede utilizar en diferentes aplicaciones. En el siguiente capitulo se

discuten otras instancias del uso de firmas de audio y clasificadores que han probado ser

de utilidad en otros escenarios.

Page 87: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

74

Capıtulo 7. Otros aportes de reconocimiento de sonidos

A continuacion se describen 3 proyectos que se realizaron en el desarrollo de esta

tesis aplicando el conocimiento obtenido de procesamiento y clasificacion de sonido. Con

estos proyectos se explora el analisis del audio para reconocer diversos elementos de

contextos adicionales a eventos de sonidos ambientales. El primer proyecto consistio en

la deteccion automatica de llanto de bebes donde se explora el uso de la informacion del

tiempo para incrementar la eficacia de la clasificacion. El segundo proyecto consistio de

un detector de voz el cual se implementa en un telefono inteligente. En el tercer proyecto

se utilizo el audio de varios microfonos para determinar si dos personas se encuentran en

un mismo lugar y con esto detectar socializacion y para optimizar recursos en campanas

de sensado.

7.1. Reconocedor de llanto

Con el proposito de entender mejor el lenguaje de los bebes, se puede utilizar una

herramienta que almacena los comportamientos de los bebes que suceden antes de una

situacion crıtica de llanto sostenido, es decir, llanto fuerte de larga duracion. Mediante

la observacion de estos comportamientos, los padres pueden analizar los movimientos o

los sonidos previos a la situacion crıtica y usar estos datos posteriormente para relacionar

estos comportamientos con las necesidades del bebe.

Se trabajo en un proyecto de deteccion de llanto sostenido de recien nacidos con inte-

grantes del departamento de Ciencias de la Computacion de CICESE de donde resulto el

artıculo de congreso (Rincon et al., 2013).

7.1.1. Experimentos

Para este problema, se capturan segmentos de audio de 30 segundos los cuales se

procesan y clasifican para determinar si en cada segmento existe llanto sostenido. El pro-

cedimiento para la deteccion de llanto sostenido se muestra en la figura 40. Se obtienen

los coeficientes de la firma MEL-MBSES cada medio segundo y se evaluan en una SVM

previamente entrenada para detectar llanto. Si se detecta que existe llanto, se incremente

un contador indicando que por medio segundo mas se ha detectado llanto. Se repite este

Page 88: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

75

Grabación de 1/2segundo de audio

Obtención de firma

Clasificación

llanto detectado?

contador++

si

no

tiempo<30seg?

contador>(10seg)?

Indica llantosostenido

si

si

Inicio

Tiempo=0contador=0

no

no

Figura 40: Procedimiento para detectar llanto sostenido.

procedimiento hasta que han pasado 30 segundos. Si el contador indica que existen mas

de 10 segundos con llanto entonces el segmento se clasifica como llanto sostenido.

Se realizo una comparacion entre la firma propuesta y un metodo base basado en

MFCC. Para la clasificacion, se entrenaron modelos SVMs para las clases: llanto, silencio

y sonidos de fondo. Las SVMs se entrenan y se evaluan usando la biblioteca LibSVM con

MATLAB (Chang and Lin, 2015). Los modelos se entrenaron usando kernels RBF con los

parametros gamma=2 y C=5 para los MEL-MBES y gamma=2 y C=5 para los MFCC.

7.1.1.1. Base de datos

Para formar la base de datos, se descargaron de Internet 3000 muestras de sonido

con una duracion de medio segundo. Los sonidos fueron capturados con una frecuencia

de muestreo de 44100Hz y 16 bits de profundidad. La base de datos se divide con 1000

sonidos de llantos de bebe, 1000 sonidos de silencio y 1000 sonidos de fondo que no

Page 89: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

76

Tabla 10: Resultados de la clasificacion de llanto sostenido.

MFCC MELMBSESPrecision ( %) Exhaustividad ( %) Precision ( %) Exhaustividad ( %)

Sonidos de medio segundo 97.99 98 98.01 98Llanto sostenido 77 70 100 90

incluyen llanto. Se uso el 85 % de los sonidos de la base de datos para entrenar el cla-

sificador y el 15 % para las evaluaciones. Ademas, se descargaron de http://youtube.com

8 segmentos de audio con una duracion entre 30-90 segundos y se etiquetaron cada 30

segundos indicando si existe o no llanto sostenido. Los sonidos en estos segmentos se

consideran condiciones realistas ya que provienen de diferentes bebes y de diferentes

dispositivos de grabacion sin ningun control de las condiciones de grabado.

7.1.1.2. Evaluacion

Primero se evaluo el detector de llanto usando los 3000 sonidos descargados de Inter-

net. En la tabla 10 se muestran los resultados usando las firmas MFCC y MEL-MBSES.

Posteriormente, se clasifico el detector de llanto sostenido usando los 8 segmentos de

audio descargados de Internet. En la tabla 10 se muestran los resultados al comparar los

MFCC y MEL-MBSES.

Como se aprecia en la tabla 10, la firma MEL-MBSES produce resultados conside-

rablemente mejor que los MFCC en escenarios ruidosos y realistas tales como los seg-

mentos bajados de internet con llanto sostenido. Un 100 % de precision indica que no

se cometio ningun error al clasificar un segmento como llanto sostenido. Sin embargo, la

exhaustividad de 90 % indica que una instancia de llanto sostenido no fue identificada.

Dependiendo de las necesidades de la aplicacion, es posible ajustar los parametros

de forma que se modifiquen tanto la precision como la exhaustividad. Sin embargo, como

regla general esto trae consigo que el incremento de uno implique el decremento del otro.

Para balancear correctamente estas dos medidas se requiere conocer mas detalles, por

ejemplo, es posible que en la aplicacion sea crıtica la deteccion de llanto de forma que se

prefieran FP a FN.

Page 90: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

77

7.1.2. Discusion

En este trabajo se presenta una comparacion de la firma MEL-MBSES contra la firma

mas utilizada para tratar con voz: MFCC. Los resultados indican que nuestra propuesta

supera al metodo base particularmente en condiciones ruidosas. Con este trabajo incur-

sionamos en el reconocimiento en segmentos continuos al reconocer el llanto sostenido

sobre las porciones de audio. Tambien se utilizo un esquema de clasificacion que consi-

dera otros aspectos ademas del resultado directo del clasificador, por ejemplo el requeri-

miento de tener 10 segundos de llanto para considerarse como llanto sostenido.

7.2. Reconocimiento de voz: Implementacion del algoritmo en un telefono inteli-

gente

Se realizo un proyecto con el Centro de Investigacion Create-Net, en Trento, Italia,

que consistio en la implementacion de un algoritmo detector de actividad voz (DAV) en

un telefono inteligente de donde resulto el artıculo de conferencia (Ferdous et al., 2015).

La implementacion del DAV se utilizo dentro de un proyecto de monitoreo de personas

para detectar estres en su trabajo. El proposito de la DAV es contabilizar las interacciones

verbales para determinar si existe una correlacion entre la cantidad de voz detectada con

los niveles de estres percibidos por los propios sujetos de estudio.

El DAV procesa el sonido continuamente en el telefono sin almacenar ni transmitir

el sonido por razones de privacidad. De esta manera, la aplicacion solo transmite a un

servidor la decision binaria si el sonido corresponde o no a voz humana. Con esto se

permite detectar si el usuario se encuentra participando en una conversacion. El rango

de captura del microfono incluido en el telefono esta limitado a sonidos cercanos, lo que

asegura que solo se detecten las conversaciones cercanas al usuario asegurando ası su

participacion.

Para la captura de la informacion auditiva se utilizo el telefono Samsung Galaxy 3 mini,

que contiene un CPU de 1GHz dual-core Cortez A9, GPU Mali-400 y el sistema operativo

Android 4.1.

El algoritmo consiste en la evaluacion de dos caracterısticas de la senal de audio; la

Page 91: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

78

primera es el pitch y la segunda es una version ligera de la firma MEL-MBSES.

El pitch esta relacionado con la medida de la frecuencia fundamental de una senal

de voz F0 (Hedelin and Huber, 1990). El pitch se puede utilizar para el reconocimiento de

voz, debido a que la frecuencia fundamental de la voz humana se encuentra en el rango

de los 40Hz a los 600Hz. En este trabajo, se calcula el pitch usando el algoritmo YIN

propuesto en (de Cheveigne and Kawahara, 2002). Este algoritmo utiliza la autocorrela-

cion para el calculo del pitch. Se eligio esta implementacion ya que provee cualidades

importantes para su uso en dispositivos moviles: exactitud, robustez al ruido y eficiencia

de procesamiento.

La version de la firma MEL-MBSES implementada en el telefono movil se calcula como

se describe en la seccion 4.1, pero usando solo 8 bandas de frecuencia en la escala MEL

distribuidas desde los 0Hz hasta los 3500Hz. No es necesario utilizar frecuencias mayores

ya que la voz humana no rebasa los 3500Hz. Esto a su vez reduce el tamano de la firma

y disminuye el tiempo de procesamiento al usar solo 8 coeficientes.

Para determinar si se trata de voz, se deben de satisfacer dos condiciones: i) el pitch

se debe encontrar en el rango de voz humana (40Hz-600Hz), y ii) la evaluacion de los 8

coeficientes de una trama de la firma MEL-MBSES en un modelo de SVM, debe indicar

que corresponde a voz. Se entreno la SVM usando muestras de la firma MEL-MBSES

sobre tramas de audio provenientes de 3 minutos de sonido de voz y 3 minutos de sonidos

de fondo. El calculo de los coeficientes de SVM se obtuvieron usando el algoritmo lineal

SMO incluido en la aplicacion (of Waikato, 2015).

Se utilizo una frecuencia de muestreo de 44100Hz. El tamano de ventana se fijo a

1024 muestras. El pitch y la firma MEL-MBSES se calculan para cada ventana. Si se

satisfacen las condiciones i y ii en al menos 7 de cada 30 tramas (aproximadamente 0.7

segundos), entonces se determina que existe voz en ese segmento de audio, ver Figura

41.

Se realizo un estudio donde participaron 38 trabajadores que fueron monitoreados du-

rante 6 semanas. Mediante telefonos inteligentes se capturo la interaccion verbal usando

el microfono y se pedıa a los usuarios contestar encuestas donde indicaran los niveles

Page 92: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

79

Tramas=0ContadorTramasVoz=0

Calcula pitch

contadorTramasVoz++

si

no

Tramas<30?

countadorTramasVoz>=7?

IndicarDetección de Voz

si

si

Inicio

no

no

Calcula MEL-MBSES

50Hz<pitch<600Hz&

predicción SVM == si

Graba

Muestras<1024?si

Tramas++

no

Figura 41: Procedimiento para detectar actividad de voz.

Page 93: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

80

de estres percibidos. Los resultados indican que no existe correlacion entre el nivel de

estres con las interacciones verbales. Sin embargo, existe una correlacion positiva del

91.67 % entre la interaccion verbal y los niveles de estres percibidos por aquellos sujetos

que reportan altos niveles de estres (12 sujetos).

7.2.1. Discusion

El desarrollo de este proyecto resulto util para nuestra investigacion debido a que se

realizo una implementacion de una version de la firma en un telefono inteligente. Esto

ayudo a conocer las diferencias de programacion en PCs y en dispositivos moviles. Tam-

bien ayudo para detectar las limitantes de estos dispositivos moviles, por ejemplo, que la

firma se tuvo que programar sin hacer traslape ya que esto imposibilitaba una entrega de

respuestas rapida.

7.3. Deteccion de personas en el mismo lugar

Al detectar si dos personas se encuentran en la misma area, es posible optimizar

los recursos computacionales de procesamiento, baterıa y de memoria en dispositivos

moviles usados para sensado. Una forma de determinar si dos personas estan en la

misma ubicacion se consigue al determinar si los dispositivos usados por los usuarios

se encuentran grabando el mismo sonido. Se trabajo en un proyecto que se enfoca a

determinar si dos adultos mayores viviendo en una residencia geriatrica se encuentran

en la misma ubicacion de donde surgio el artıculo.

En la figura se muestra un ejemplo de la configuracion de un sistema para detec-

tar proximidad entre dos sujetos usando informacion auditiva. El sistema se divide en

dos componentes, el primero procesa la informacion en los dispositivos moviles de cada

usuario y el otro componente se encuentra en un servidor local en la residencia geriatrica.

En el componente movil, se captura el audio del ambiente y se calcula una firma de audio

denominada Time Entropy Sigature (TES) (Ibarrola and Chavez, 2006). A continuacion se

envıan los datos al servidor el cual contiene un filtro de proximidad el cual compara las

firmas recibidas de los dispositivos moviles y determina si las grabaciones contienen in-

formacion similar. Finalmente, se tiene un filtro llamado nodo optimo que determina cual

dispositivo movil se mantendra grabando y envıa un aviso a los otros dispositivos para

Page 94: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

81

Dispositivo móvil

AudioFirma de audio

AFP

n dispositivos móviles

Servidor

Estimador deproximidad

Nodoóptimo

GrabarSi No

Descansa

Figura 42: Ejemplo de configuracion de un sistema para detectar proximidad.

que dejen de grabar. De esta forma se establece una estrategia de sensado colaborativo

la cual se basa en los recursos utilizados de baterıa, almacenamiento y transmision. Por

ejemplo, supongamos que se detecta que dos dispositivos se encuentran juntos y uno de

ellos tiene poca baterıa, en ese caso, el nodo optimo indicara que ese telefono deje de

procesar audio por una cantidad determinada de tiempo mientras el trabajo es realizado

por el otro dispositivo con mayor disponibilidad de recursos.

La firma de audio Time Entropy Signature (TES), usada en este proyecto, proporciona

dos caracterısticas importantes para esta aplicacion. La primera es la reduccion de los

recursos utilizados en la transmision de los datos al servidor y la segunda es que al obte-

ner distancias entre dos firmas se permite determinar si dos dispositivos estan grabando

una misma escena.

La TES utilizada en este proyecto consiste en un vector que contiene las entropıas de

la senal de audio. Se mostro en (Ibarrola and Chavez, 2006) que el obtener la cantidad

de informacion (entropıa) de una senal produce una firma de audio robusta ante cambios

de energıa de la senal, filtrados, compresion y pequenas cantidades de ruido blanco. El

procedimiento detallado para obtener la TES se puede encontrar en (Ibarrola and Chavez,

2006). Brevemente explicado, el procedimiento para obtener la TES consiste en calcular la

Page 95: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

82

entropıa sobre tramas de 370ms con un traslape del 87.5 %. Posteriormente, el vector de

entropıas resultante se codifica de forma binaria de forma que solo refleje la modulacion

de la entropıa en el tiempo, de forma similar a como se mostro en la seccion pero sobre el

tiempo. La TES es compacta ya que usa solo un bit por trama. Para un audio en formato

wav de 6 minutos de duracion, el tamano de la TES representa el 0.012 % de su tamano

original y toma 540 ms para calcularse (Se utilizo una computadora Dell Precision T5500,

con procesador Intel(R) Xeon(R) CPU 2.00GHZ). La comparacion entre dos TES tambien

utiliza pocos recursos ya que se utiliza la distancia Hamming entre los bits de las firmas.

Adicionalmente, la TES proporciona privacidad a los usuarios ya que no es necesario

enviar los audios originales al servidor y no es posible recuperar el audio original con los

bits que forman la firma.

Para evaluar el funcionamiento de la TES en esta aplicacion, se hicieron experimentos

utilizando dos bases de datos. La base de datos 1 se grabo en los pasillos del departa-

mento de Ciencias de Computacion en CICESE y la base de datos 2 se grabo en las

instalaciones de la residencia geriatrica Serena. Todos los sonidos se capturaron utilizan-

do una frecuencia de muestreo de 24000Hz con 8 bits de profundidad. La base de datos

1 consta de 18 minutos de audio capturado con 3 dispositivos diferentes: A, B y C. En

este escenario se obtienen 5 combinaciones diferentes en las grabaciones. A, B y C se

encuentran juntos, A y B estan juntos pero no C, A y C estan juntos pero no B, B y C

estan juntos pero no A, y finalmente, todos los dispositivos estan en diferentes ubicacio-

nes por lo que graban distinta informacion. La base de datos 2 consta de 6 minutos con

30 segundos de audio capturado usando 2 dispositivos para grabacion: A y B). En este

escenario se tienen las siguientes combinaciones de datos, A y B estan juntos, A y B

estan en diferentes ubicaciones.

Para comparar dos firmas se usan segmentos de 15 segundos. Se comparan 15 se-

gundos provenientes de un dispositivo de grabacion contra los 15 segundos correspon-

dientes del segundo dispositivo de grabacion. Ademas, se toma en cuenta un despla-

zamiento de 300ms. La necesidad de usar un desplazamiento se da porque cuando se

transmiten las firmas desde los dispositivos hacia el servidor, existe la posibilidad que

estas se reciban desplazadas en el tiempo. Esto puede ser ocasionado por las diferen-

Page 96: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

83

tes posiciones relativas con que los dispositivos capturan el audio o por cuestiones de

transmision de datos.

Cada vez que se comparan los segmentos de las firmas de 15 segundos, se fija

el segmento de un archivo mientras que el otro segmento se desliza adelantandose y

atrasandose bit por bit hasta 300ms con respecto al segmento fijo. Una vez que se reali-

zan todas las comparaciones posibles, la distancia entre ambos segmentos corresponde

a la distancia Hamming mınima despues de considerar todos los desplazamientos. Debi-

do a que se utilizan traslapes, cada vez que se obtiene una distancia se representan 1.7s

de audio.

Las distancias entre las firmas sirven para determinar si dos dispositivos se encuen-

tran en la misma area o separados. Una distancia pequena se da cuando dos firmas son

similares, es decir, representan el mismo sonido. Por otro lado, cuando una distancia es

grande se indica que las firmas son diferentes pues provienen de sonidos distintos. Es por

ello que se establecio un umbral bajo para establecer cuando se considera que una dis-

tancia entre dos firmas es pequena y un umbral alto para establecer cuando se considera

que se tiene una distancia grande. Ambos umbrales se obtuvieron experimentalmente.

Si una distancia es menor que el umbral bajo entonces se predice que en ese momento

los dos dispositivos estan juntos. Si una distancia es mayor que el umbral alto entonces

se predice que en ese momento los dispositivos estan separados. Si una distancia se

encuentra en medio de los dos umbrales entonces la informacion de ese momento queda

sin categorıa. Sin embargo, se lleva a cabo una segunda etapa usando un umbral en el

tiempo para que no existan elementos sin clasificar. Esta etapa es posible debido a que

los elementos sin categorıa suceden de forma dispersa como se aprecia en la figura 43

y se puede aplicar una especie de filtro pasabajas. Para ejemplificar el uso del umbral

en el tiempo supongase que se ha clasificado que dos dispositivos estan juntos por 10

ocasiones continuas, despues se tienen dos clasificaciones indeterminadas y luego se

continua clasificando que estan juntos. Un umbral en el tiempo de 4 indica que se requie-

ren al menos 5 clasificaciones continuas para poder cambiar de categorıa, de esta forma

las dos clasificaciones indeterminadas quedan absorbidas y todo el segmento serıa cla-

sificado como juntos. El umbral en el tiempo tambien sirve para eliminar valores atıpicos,

Page 97: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

84

D

GT

TH1

THT1

TH2

THT2

D

GT

TH1

THT1

TH2

THT2

A-B Base de datos 1

A-B Base de datos 2

1.70 254.29 510.29 766.29 1022.29

2 50 100 150 200

Segundos

Segundos

a)

b)

Figura 43: Resultados al comparar los sonidos grabados por los dispositivos A y B en las bases dedatos 1 y 2.

por ejemplo, que dada una clasificacion donde se considera que los dispositivos esten

juntos, exista un instante en medio que indique que estan separados.

Se probaron dos conjuntos de umbrales alto y bajo, al primer par le llamamos TH1 y al

segundo TH2. En la figura 43.a se muestra la comparacion de los sonidos grabados por

los dispositivos A y B de la base de datos 1 y en la figura 43.b se muestra la comparacion

entre los sonidos grabados por los dispositivos A y B de la base de datos 2. El renglon

D muestra las distancias, donde un color mas oscuro indica mayor similitud (es decir, los

dispositivos estan cerca) y un color mas claro indica que existe una diferencia (es decir,

los dispositivos estan en diferentes ubicaciones). El renglon GT corresponde a la ground

truth, aquı, el color negro indica que ambos dispositivos esta juntos y el color blanco indica

que estan separados. Los renglones TH1 y TH2 corresponden a la clasificacion al usar

los dos conjuntos de umbrales, aquı el color negro se refiere a la prediccion de que ambos

dispositivos se encuentran en la misma ubicacion, blanco significa que estan en lugares

Page 98: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

85

Tabla 11: Resultados de la clasificacion de llanto sostenido

Dispositivos de grabacion VP ( %) FN ( %)TH1 TH2 TH1 TH2

Base de datos 1 A-B 97.92 98.08 2.57 1.92A-C 94.37 84.20 3.11 1.91B-C 98.08 97.35 1.43 0.95

Base de datos 2 A-B 93.75 95.17 12.5 2.84

distintos y el color gris representa una clasificacion no determinada. Las lıneas THT1 y

THT2 corresponden a utilizar umbrales en el tiempo sobre los resultados de TH1 y TH2

para eliminar los valores indeterminados o atıpicos.

En la tabla 11 se muestran los VP y los FN al usar umbrales en el tiempo sobre TH1

y TH2. Usando nuestra propuesta logramos obtener una exactitud mayor al 90 %. Para

esta aplicacion, se busca disminuir los falsos negativos (i.e. el sistema indica que estan

juntos cuando estan separados) aunque esto implique aumentar los falsos positivos (i.e.

el sistema indica que estan separados cuando estan juntos) ya que se prefiere no perder

grabaciones a optimizar recursos de baterıa.

Los FN se producen principalmente cuando dos dispositivos se estan acercando o

separando. Este error se produce por la discretizacion del tiempo, recordamos que se

utiliza una ventana deslizante de 15 segundos la cual se puede reducir con el objetivo de

obtener mejores predicciones en las fronteras. Para esta aplicacion, se sugiere no dejar

de grabar hasta que se ha detectado que dos dispositivos han estado juntos por suficiente

tiempo.

Uno de los retos principales de este experimento se da por el retardo que tiene una

audio en llegar a los dispositivos dependiendo de su posicion relativa con respecto a la

fuente del sonido. Otro reto se da con la reverberacion que se produce en lugares ce-

rrados. Ademas, se detecto otro problema en la residencia de adultos mayores ya que

los cuartos se encuentran conectados por un pasillo lo que provoca que en algunas oca-

siones un audio producido en un cuarto se pueda escuchar en cuartos adyacentes. Por

ejemplo, si una persona se encuentra produciendo un ruido fuerte en el pasillo enfrente

de las puertas de dos cuartos esto podrıa provocar que el sistema piensa que los cuartos

separados en realidad son la misma ubicacion. Otro problema puede surgir si dos resi-

Page 99: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

86

dentes se encuentran viendo un mismo programa de television en cuartos separados ya

que el sistema estarıa escuchando el mismo sonido.

7.3.1. Discusion

Este proyecto es un ejemplo del uso de la informacion auditiva para conocer aspec-

tos de la vida de los adultos mayores donde no se requieren detectar eventos de sonido

especıficos. Mediante el audio capturado por sus dispositivos es posible detectar su so-

cializacion la cual podrıa utilizarse para mejorar sus relaciones interpersonales por medio

del sistema de intervenciones asistidas. Como se plantea, los beneficios otorgados con

el analisis del audio por medio de la firma tambien ayudan a optimizar recursos de espa-

cio, procesamiento y baterıa. Un algoritmo similar es utilizado por la companıa FOX como

prueba de compra de los servicios de cable para activar un servicio adicional gratuito

llamado foxplay (http://www.foxplay.com/mx/).

Page 100: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

87

Capıtulo 8. Conclusiones y trabajo futuro

En este trabajo de investigacion se desarrollo una firma de audio para reconocer so-

nidos ambientales. El objetivo de la firma consistio en mejorar el desempeno del estado

del arte para abordar los retos de: robustez al ruido, transparencia, generalizacion a otros

usuarios, tamano compacto y facilidad de calculo.

En una primer etapa, se evaluo el uso de la entropıa en bandas de frecuencia median-

te la MEL-MBSES y su version codificada binaria. A partir de los experimentos realizados

en esta etapa, se determino que es posible usar una firma de audio compacta para re-

presentar sonidos ambientales contaminados con ruido. Tambien se identifico que el uso

de las derivadas en las firmas de audio incrementa la eficiencia para el reconocimiento

de sonidos mezclados utilizando poco espacio de almacenamiento.

Debido a las variaciones de estructura en el tiempo y frecuencia que se producen en-

tre distintas instancias de sonidos de una misma clase, fue necesaria una siguiente etapa

de diseno para obtener una firma de audio transparente, robusta ante desfasamientos,

ruido y heterogeneidad. Por tal motivo, se diseno la firma H1DH2D-MEL-MBSES la cual

consiste en un vector sucinto formado por histogramas. Esta firma permite representar

sonidos de duracion variable en un vector de tamano fijo que se puede evaluar rapida-

mente usando un clasificador SVM. La evaluacion de esta firma indico una mejorıa al

comparar con el estado del arte en todos los retos presentados.

Una vez que se consiguio satisfacer los retos en el desarrollo de la firma de audio,

se evaluo la viabilidad de utilizar el reconocimiento automatico de sonidos ambientales

para desarrollar aplicaciones conscientes del contexto con el objetivo de asistir a adultos

mayores y a sus cuidadores. Esta evaluacion se realizo mediante experimentos usando

sonidos capturados en condiciones reales en una residencia geriatrica y de un departa-

mento habitado por un adulto mayor. Mediante el reconocimiento automatico de activida-

des y comportamientos es posible informar oportunamente sobre la condicion actual de

los adultos mayores a sus cuidadores. En esta tesis, ademas se desarrollo un componen-

te detector de comportamientos disruptivos audibles para un sistema de intervenciones

no farmacologicas. Con este sistema se busca actuar ante las necesidades de los adultos

Page 101: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

88

mayores evitando el uso de farmacos, los cuales pueden producir efectos secundarios.

Adicionalmente, se desarrollaron otros proyectos donde se realiza reconocimiento de

contexto por medio del audio. En estos proyectos se explora el analisis de audio para

reconocer otros elementos del contexto distintos a los sonidos ambientales. Por ejemplo,

se implemento un detector de voz, el cual puede servir para inferir la socializacion de

los usuarios. Otro proyecto consistio en utilizar el audio grabado por varios microfonos

para detectar si dos personas se encuentran en un mismo lugar. Finalmente, tambien se

trabajo con identificacion de llanto de bebes. Con estos proyectos se resalta la riqueza

de la informacion que provee el audio que se puede utilizar para desarrollar diferentes

aplicaciones.

8.1. Contribuciones

A continuacion se enumeran las principales contribuciones de este trabajo de investi-

gacion:

El diseno de una firma de audio compacta, robusta al ruido, transparente, generali-

zable a otros usuarios y facil de calcular.

La evaluacion de la firma de audio propuesta con sonidos reales provenientes de

escenarios habitados por adultos mayores.

La creacion de una base de datos con sonidos heterogeneos y mezclados para

evaluar las propuestas de firma de audio y clasificacion.

El desarrollo de un componente de reconocimiento de comportamientos disruptivos

audibles dirigido a un sistema de intervenciones no farmacologicas.

Adicionalmente, se realizaron publicaciones en diferentes foros las cuales se indican a

continuacion:

Publicaciones en revistas arbitradas:

• Scalable Identification of Mixed Environmental Sounds, Recorded from Hetero-

geneous Sources, Pattern Recognition Letters, (2015), pp. 153-160.

Page 102: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

89

Publicaciones en congresos:

• Abnormal Behavioral Patterns Detection from Activity Records of Institutionali-

zed Older Adults, 6th International Workshop on Human Behavior Understanding-

Behavior Analysis for the Eldery (Ubicomp), Osaka, Japan, September 7th

2015.

• Investigating Correlation between Verbal Interactions and Perceived Stress,

37th Annual International Conference of the IEEE Engineering in Medicine and

Biology Society, Milan, Italy, August 25-29th 2015.

• Detecting Disruptive Vocalizations for Ambient Assisted Interventions for De-

mentia, Workshop on User and Ambient Adaptive Gerontechnologies (WAGER)

in the 8th International Conference on Ubiquitous and Ambient Intelligence

(UCAMI), Belfast, Ireland, December 2-5th 2014.

• Collaborative Opportunistic Sensing of Human Behavior with Mobile Phones,

Workshop Smart Health systems and Applications (Ubicomp), Seattle, United

States, September13-17th 2014.

• A Context-Aware Baby Monitor for the Automatic Selective Archiving of the Lan-

guage of Infants, Mexican International Conference on Computer Science, Mo-

relia Michoacan, Mexico, October 30th 2013.

• Activity Recognition Using a Spectral Entropy Signature (Doctoral Colloquium),

14th ACM International Conference on Ubiquitous Computing, Pittsburgh, Pennsyl-

vania, United States, September 5-8th 2012.

• Environmental Sound Recognition by Measuring Significant Changes in the

Spectral Entropy, 4th Mexican, 4th Mexican Conference on Pattern Recogni-

tion, Huatulco, Mexico, June 27-30th 2012.

• Auditory Scene Analysis for Activity-Aware Computing Using Audio Features as

Text Cues (Doctoral Consortium), Pervasive, San Francisco, CA. United States,

June 12-15th 2011.

Page 103: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

90

8.2. Trabajo futuro

Si bien se lograron buenos resultados con la firma propuesta, aun existe buen mar-

gen de mejora. Por ejemplo, se puede mejorar el desempeno de la clasificacion sobre

sonidos mezclados. Estos sonidos tienen propiedades aditivas que provocan que la senal

corresponda a mas de una sola clase. Aunque una forma de mejorar los resultados es

mejorando la transparencia de la firma, se sugiere proponer diferentes tecnicas de clasi-

ficacion.

En la actualidad, los clasificadores reportados en la literatura no consideran este tipo

de senales mezcladas ya que estan disenados para asignar una y solo una clase a los

sonidos de entrada; sin embargo, para este tipo de sonidos se requiere de clasificadores

que se asignen multiples etiquetas a los sonidos de entrada ya que estos no se pueden

describir como de un solo tipo.

Con el objetivo de disenar aplicaciones en tiempo real sobre dispositivos moviles, se

requiere un buen desempeno en la obtencion de la firma y la clasificacion. Una forma

de incrementar el desempeno se puede conseguir al indexar las firmas de audio. Para

ello, como trabajo futuro se sugiere proponer metricas y procedimientos adecuados pa-

ra convertir el problema de reconocimiento de sonidos ambientales en un problema de

recuperacion de informacion.

Con el objetivo de desarrollar sistemas conscientes del contexto para apoyar a adultos

mayores, el siguiente paso consiste en incluir la firma H1dH2d-MEL-MBSES en disposi-

tivos moviles. Ademas, para conseguir mejores resultados de clasificacion, se sugiere

construir modelos a partir de una base de datos mas completa que incluya mas ins-

tancias de sonidos y mas casos donde se presenten sonidos mezclados correctamente

etiquetados para mejorar las evaluaciones.

Page 104: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

91

Lista de referencias bibliograficasAbowd, G. D., Dey, A. K., Brown, P. J., Davies, N., Smith, M., and Steggles, P. (1999).

Towards a better understanding of context and context-awareness. En: Proceedings ofthe 1st International Symposium on Handheld and Ubiquitous Computing, London, UK,UK. Springer-Verlag, HUC ’99, pp. 304–307.

Acree, L., Longfors, J., Fjeldstad, A., Fjeldstad, C., Schank, B., Nickel, K., Montgomery,P., and Gardner, A. (2006). Physical activity is related to quality of life in older adults.Health and Quality of Life Outcomes, 4(1): 37.

Active and Programme, A. L. (2015). Active and assisted living programme. Recuperadode http://www.aal-europe.eu.

Anusuya, M. and Katti, S. (2009). Speech recognition by machine: A review. InternationalJournal of Computer Science and Information Security , 6(3): 181–205.

Aucouturier, J.-J., Defreville, B., and Pachet, F. (2007). The bag-of-frames approach to au-dio pattern recognition: A sufficient model for urban soundscapes but not for polyphonicmusic. The Journal of the Acoustical Society of America, 122(2): 881–891.

B. Gygi, G. K. and Watson, C. (2004). Spectral-temporal factors in the identification ofenvironmental sounds. Acoustic Society of America, 115(3): 1252 – 1265.

Baldauf, M., Dustdar, S., and Rosenberg, F. (2007). A survey on context aware systems.Int. J. Ad Hoc Ubiquitous Comput., 2(4): 263–277.

Beranek, L. L. (1949). Acoustical Measurements. John Wiley and Sons Inc.

Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition.Data Min. Knowl. Discov., 2(2): 121–167.

Burns, K., Jayasinha, R., Tsang, R., and Brodaty, H. (2012). Behavior management, aguide to good practice: Managing behavioral and psychological symptoms of dementia.Dementia Collaborative Research Centre. Retrieved June, 3: 1–190.

Camarena-Ibarrola, J. A. (2008). Identificacion automatica de senales de audio. Tesis dedoctorado, Universidad Michoacana de San Nicolas de Hidalgo, Morelia, Michoacan,Mexico.

Chang, C.-C. and Lin, C.-J. (2015). Libsvm. Recuperado dehttps://www.csie.ntu.edu.tw/ cjlin/libsvm/.

Chen, G. and Kotz, D. (2000). A survey of context-aware mobile computing research.Reporte tecnico, Dartmouth College, Hanover, NH, USA.

Chen, J., Kam, A., Zhang, J., Liu, N., and Shue, L. (2005). Bathroom activity monitoringbased on sound. En: H.-W. Gellersen, R. Want, and A. Schmidt (eds.), Pervasive Com-puting, Vol. 3468 de Lecture Notes in Computer Science. Springer Berlin Heidelberg,pp. 47–61.

Chen, L., Nugent, C. D., and Wang, H. (2012). A knowledge-driven approach to activityrecognition in smart homes. IEEE Trans. on Knowl. and Data Eng, 6(24): 961–974.

Page 105: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

92

Choudhury, T., Consolvo, S., Harrison, B., Hightower, J., LaMarca, A., Legrand, L., Rahimi,A., Rea, A., Bordello, G., Hemingway, B., Klasnja, P., Koscher, K., Landay, J., Lester, J.,Wyatt, D., and Haehnel, D. (2008). The mobile sensing platform: An embedded activityrecognition system. Pervasive Computing, IEEE , 7(2): 32–41.

Cohen-Mansfield, J. (1997). Conceptualization of agitation: results based on the cohen-mansfield agitation inventory and the agitation behavior mapping instrument. Interna-tional Psychogeriatrics, 8(S3): 309–315.

Cohen-Mansfield, J. and Martin, L. S. (2010). Assessment of agitation in older adults.Handbook of assessment in clinical gerontology , pp. 381–404.

Cornejo, R., Tentori, M., and Favela, J. (2013). Ambient awareness to strengthen the familysocial network of older adults. Comput. Supported Coop. Work , 22(2-3): 309–344.

Cornwell, B., Laumann, E., and Schumm, L. (2008). The social connectedness of olderadults: A national profile. American sociological review , 73(2): 185–203.

Cummings, J. L., Mega, M., Gray, K., Rosenberg-Thompson, S., Carusi, D. A., and Gorn-bein, J. (1994). The neuropsychiatric inventory comprehensive assessment of psycho-pathology in dementia. Neurology , 44(12): 2308–2308.

de Cheveigne, A. and Kawahara, H. (2002). YIN, a fundamental frequency estimator forspeech and music. The Journal of the Acoustical Society of America, 111(4): 1917–1930.

Dennis, J., Dat, T., and Chng, E. (2012). Image feature representation of the subbandpower distribution for robust sound event classification. Audio, Speech, and LanguageProcessing, IEEE Transactions on, PP(99): 1.

Dennis, J., Tran, H., and Chng, E. (2013). Overlapping sound event recognition usinglocal spectrogram features and the generalised hough transform. Pattern RecognitionLetters, 34(9): 1085 – 1093.

Doukas, C. and Maglogiannis, I. (2008). Advanced patient or elder fall detection basedon movement and sound data. En: Pervasive Computing Technologies for Healthcare,2008. PervasiveHealth 2008. Second International Conference on, Jan. pp. 103–107.

Drake, L., Katsaggelos, A., Rutledge, J., and Zhang, J. (2002). Sound source separationvia computational auditory scene analysis-enhanced beamforming. En: Sensor Arrayand Multichannel Signal Processing Workshop Proceedings, 2002, Aug. pp. 259–263.

Ellis, D. P. and Lee, K. (2006a). Accessing minimal-impact personal audio archives. IEEEMultimedia, 13(4): 30–38.

Ellis, D. P. W. and Lee, K. (2006b). Accessing minimal-impact personal audio archives.IEEE MultiMedia, 13(4): 30–38.

Eronen, A., Peltonen, V., Tuomi, J., Klapuri, A., Fagerlund, S., Sorsa, T., Lorho, G., andHuopaniemi, J. (2006). Audio-based context recognition. Audio, Speech, and LanguageProcessing, IEEE Transactions on, 14(1): 321–329.

Page 106: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

93

Ferdous, R., Osmani, V., Beltran-Marquez, J., and Mayora, O. (2015). Investigating co-rrelation between verbal interactions and perceived stress. En: Proceedings of IEEEEngineering in Medicine and Biology Society (EMBS), August, Milan.

Fick, W., van der Borgh, J., Jansen, S., and Koopmans, R. (2014). The effect of a lollipopon vocally disruptive behavior in a patient with frontotemporal dementia: a case-study.International Psychogeriatrics, 26(12): 2023–2026.

Fogarty, J., Au, C., and Hudson, S. E. (2006). Sensing from the basement: A feasibilitystudy of unobtrusive and low-cost home activity recognition. En: Proceedings of the19th Annual ACM Symposium on User Interface Software and Technology , New York,NY, USA. ACM, UIST ’06, pp. 91–100.

Gyorbıro, N., Fabian, A., and Homanyi, G. (2009). An activity recognition system for mobilephones. Mob. Netw. Appl., 14(1): 82–91.

Handte, M., Iqbal, U., Apolinarski, W., and Marron, P. J. (2010). Challenges in ubiquitouscontext recognition with personal mobile devices. En: Proceedings of the 4th ACMInternational Workshop on Context-Awareness for Self-Managing Systems, New York,NY, USA. ACM, CASEMANS ’10, pp. 6:40–6:45.

Hartmann, W. M. (1998). Signals, Sound, and Sensation. Springer Science+BusinessMedia.

Hearst, M. A. (1998). Support vector machines. IEEE Intelligent Systems, 13(4): 18–28.

Hedelin, P. and Huber, D. (1990). Pitch period determination of aperiodic speech signals.En: Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 InternationalConference on, Apr. pp. 361–364 vol.1.

Heittola, T., Mesaros, A., Virtanen, T., and Eronen, A. (2011). Sound event detection inmulti-source environments using source separation. En: Workshop on machine listeningin Multisource Environments. pp. 36–40.

Heittola, T., Mesaros, A., Eronen, A., and Virtanen, T. (2013). Context-dependent soundevent detection. EURASIP Journal on Audio, Speech, and Music Processing, 2013(1).

Ibarrola, A. and Chavez, E. (2006). A robust entropy-based audio-fingerprint. En: Multi-media and Expo, 2006 IEEE International Conference on, July. pp. 1729–1732.

Institute, A. N. S. (1999). American national standards institute. Accessed: 2014-03-04.

Jalbert, J. J., Daiello, L. A., and Lapane, K. L. (2008). Dementia of the alzheimer type.Epidemiologic reviews, 30(1): 15–34.

Kedem, B. (1986). Spectral analysis and discrimination by zero-crossings. Proceedingsof the IEEE , 74(11): 1477–1493.

Kern, N. and Schiele, B. (2003). Context-aware notification for wearable computing. En:Proceedings of the 7th IEEE International Symposium on Wearable Computers, Wa-shington, DC, USA. IEEE Computer Society, ISWC ’03, pp. 223–.

Page 107: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

94

Kern, N., Schiele, B., and Schmidt, A. (2007). Recognizing context for annotating a livelife recording. Personal Ubiquitous Comput., 11(4): 251–263.

Kirk, R. and Newmarch, J. (2005). A location-aware, service-based audio system. En:Consumer Communications and Networking Conference, 2005. CCNC. 2005 SecondIEEE , Jan. pp. 343–347.

Lane, N. D., Miluzzo, E., Lu, H., Peebles, D., Choudhury, T., and Campbell, A. T. (2010). Asurvey of mobile phone sensing. Comm. Mag., 48(9): 140–150.

Lindsay, P. H. and Norman, D. A. (1977). Human information processing: An introductionto psychology . Academic Press.

Lu, L. and Hanjalic, A. (2008). Audio keywords discovery for text-like audio content analy-sis and retrieval. Multimedia, IEEE Transactions on, 10(1): 74–85.

Lukowicz, P., Ward, J., Junker, H., Stager, M., Troster, G., Atrash, A., and Starner, T.(2004). Recognizing workshop activity using body worn microphones and accelerome-ters. En: A. Ferscha and F. Mattern (eds.), Pervasive Computing, Vol. 3001 de LectureNotes in Computer Science. Springer Berlin Heidelberg, pp. 18–32.

Ma, L., Smith, D., and Milner, B. (2003). Environmental noise classification for context-aware applications. En: V. Marık, W. Retschitzegger, and O. Stepankova (eds.), Databa-se and Expert Systems Applications, Vol. 2736 de Lecture Notes in Computer Science.Springer Berlin Heidelberg, pp. 360–370.

Ma, L., Milner, B., and Smith, D. (2006). Acoustic environment classification. ACM Trans.Speech Lang. Process., 3(2): 1–22.

Maslach, C., Schaufeli, W. B., and Leiter, M. P. (2001). Job burnout. Annual review ofpsychology , 52(1): 397–422.

Meyer, S. and Rakotonirainy, A. (2003). A survey of research on context-aware homes. En:Proceedings of the Australasian Information Security Workshop Conference on ACSWFrontiers 2003 - Volume 21, Darlinghurst, Australia, Australia. Australian Computer So-ciety, Inc., ACSW Frontiers ’03, pp. 159–168.

Miao, Z. and Yuan, B. (2005). Discussion on pervasive computing paradigm. En: TENCON2005 2005 IEEE Region 10, Nov. pp. 1–6.

Mihailidis, A. and Fernie, G. R. (2002). Context-aware assistive devices for older adultswith dementia. Gerontechnology , 2(2): 173–188.

Miluzzo, E., Lane, N. D., Fodor, K., Peterson, R., Lu, H., Musolesi, M., Eisenman, S. B.,Zheng, X., and Campbell, A. T. (2008). Sensing meets mobile social networks: Thedesign, implementation and evaluation of the cenceme application. En: Proceedings ofthe 6th ACM Conference on Embedded Network Sensor Systems, New York, NY, USA.ACM, SenSys ’08, pp. 337–350.

Min, C.-h., Ince, N. F., and Tewfik, A. H. (2008a). Early Morning Activity Detection UsingAcoustics and Wearable Wireless Sensors.

Page 108: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

95

Min, C.-H., Ince, N. F., and Tewfik, A. H. (2008b). Early morning activity detection usingacoustics and wearable wireless sensors. En: Signal Processing Conference, 2008 16thEuropean. IEEE, pp. 1–5.

Morris, M., Lundell, J., Dishman, E., and Needham, B. (2003). New Perspectives on Ubi-quitous Computing from Ethnographic Study of Elders with Cognitive Decline. En: Ubi-comp, Berlin. pp. 227–242.

Muller, K., Mika, S., Ratsch, G., Tsuda, K., and Scholkopf, B. (2001). An introductionto kernel-based learning algorithms. Neural Networks, IEEE Transactions on, 12(2):181–201.

Navarretta, C. (2014). The automatic identification of the producers of co-occurring com-municative behaviours. Cognitive Computation, 6(4): 689–698.

Navarro, R. F., Rodriguez, M., and Favela, J. (2014). Intervention tailoring in augmentedcognition systems for elders with dementia. Biomedical and Health Informatics, IEEEJournal of , 18(1): 361–367.

Niessen, M., van Maanen, L., and Andringa, T. (2008). Disambiguating sounds throughcontext. En: Semantic Computing, 2008 IEEE International Conference on, Aug. pp.88–95.

Ntalampiras, S., Potamitis, I., and Fakotakis, N. (2008). Automatic recognition of urbanenvironmental sounds events. En: International Association for Pattern RecognitionWorkshop on Cognitive Information Processing, EURASIP.

of Waikato, T. U. (2015). Weka.

Oliver, N., Garg, A., and Horvitz, E. (2004). Layered representations for learning andinferring office activity from multiple sensory channels. Comput. Vis. Image Underst.,96(2): 163–180.

Ono, N., Yamagish, J., Ohsuga, T., Itahashi, S., and Ishimoto, Y. (2015). Real world com-puting partnership.

O’Shaughnessy, D. (1999). Speech Communications: Human and Machine. Wiley-IEEEPress.

Paciga, M. and Lutfiyya, H. (2005). Herecast:an open infrastructure for locationbased ser-vices using wifi. En: Wireless And Mobile Computing, Networking And Communications,2005. (WiMob’2005), IEEE International Conference on, Aug. Vol. 4, pp. 21–28.

Perttunen, M., Van Kleek, M., Lassila, O., and Riekki, J. (2008). Auditory context recog-nition using svms. En: Mobile Ubiquitous Computing, Systems, Services and Techno-logies, 2008. UBICOMM ’08. The Second International Conference on, Sept. pp. 102–108.

Philipose, M., Fishkin, K. P., Perkowitz, M., Patterson, D. J., Fox, D., Kautz, H., and Hahnel,D. (2004). Inferring activities from interactions with objects. IEEE Pervasive Computing,3(4): 50–57.

Page 109: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

96

Potamitis, I. and Ganchev, T. (2008). Generalized recognition of sound events: Approa-ches and applications. En: G. Tsihrintzis and L. Jain (eds.), Multimedia Services inIntelligent Environments, Vol. 120 de Studies in Computational Intelligence. SpringerBerlin Heidelberg, pp. 41–79.

Rabiner, L. R. (1989). A tutorial on hidden markov models and selected applications inspeech recognition. Proceedings of the IEEE , 77(2): 257–286.

Rialle, V., Ollivet, C., Guigui, C., and Herve, C. (2008). What do family caregivers of alz-heimer’s disease patients desire in smart home technologies? Methods of Informationin Medicine, 47: 63–69.

Rincon, E., Beltran, J., Tentori, M., Favela, J., and Chavez, E. (2013). A context-awarebaby monitor for the automatic selective archiving of the language of infants. En: Com-puter Science (ENC), 2013 Mexican International Conference on, Oct. pp. 60–67.

Rothwell, J. D. (2009). In the Company of Others: An Introduction to Communication.Oxford University Press.

Sadowsky, C. H. and Galvin, J. E. (2012). Guidelines for the management of cognitiveand behavioral problems in dementia. The Journal of the American Board of FamilyMedicine, 25(3): 350–366.

Sahidullah, M. and Saha, G. (2012). Design, analysis and experimental evaluation ofblock based transformation in {MFCC} computation for speaker recognition. SpeechCommunication, 54(4): 543 – 565.

Sawhney, N. and Schmandt, C. (1999). Nomadic radio: Scaleable and contextual notifi-cation for wearable audio messaging. En: Proceedings of the SIGCHI conference onHuman factors in computing systems. pp. 96–103.

Scheirer, E. and Slaney, M. (1997). Construction and evaluation of a robust multifeatu-re speech/music discriminator. En: Acoustics, Speech, and Signal Processing, 1997.ICASSP-97., 1997 IEEE International Conference on, Apr. Vol. 2, pp. 1331–1334 vol.2.

Schroeder, J., Wabnik, S., Hengel, P., and Goetze, S. (2011). Detection and classificationof acoustic events for in-home care. En: R. Wichert and B. Eberhardt (eds.), AmbientAssisted Living. Springer Berlin Heidelberg, pp. 181–195.

Shannon, C. E. (2001). A mathematical theory of communication. SIGMOBILE Mob.Comput. Commun. Rev., 5(1): 3–55.

Stager, M., Lukowicz, P., and Troster, G. (2004). Implementation and evaluation of a low-power sound-based user activity recognition system. En: Wearable Computers, 2004.ISWC 2004. Eighth International Symposium on, Oct. Vol. 1, pp. 138–141.

Stevens, S. S., Volkmann, J., and Newman, E. B. (1937). A scale for the measurement ofthe psychological magnitude pitch. The Journal of the Acoustical Society of America,8(3): 185–190.

Page 110: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

97

Surie, D., Lagriffoul, F., Pederson, T., and Sjolie, D. (2007). Activity recognition based onintra and extra manipulation of everyday objects. En: H. Ichikawa, W.-D. Cho, I. Satoh,and H. Youn (eds.), Ubiquitous Computing Systems, Vol. 4836 de Lecture Notes inComputer Science. Springer Berlin Heidelberg, pp. 196–210.

Tan, L. and Jiang, J. (2013). Digital signal processing: fundamentals and applications.Academic Press.

Temko, A. and Nadeu, C. (2009a). Acoustic event detection in meeting-room environ-ments. Pattern Recognition Letters, 30(14): 1281 – 1288.

Temko, A. and Nadeu, C. (2009b). Acoustic event detection in meeting-room environ-ments. Pattern Recogn. Lett., 30(14): 1281–1288.

Tesoriero, R., Tebar, R., Gallud, J., Lozano, M., and Penichet, V. (2010). Improving loca-tion awareness in indoor spaces using {RFID} technology. Expert Systems with Appli-cations, 37(1): 894 – 898.

Traunmuller, H. (1990). Analytical expressions for the tonotopic sensory scale. The Journalof the Acoustical Society of America, 88(1): 97–100.

Vacher, M., Portet, F., Fleury, A., and Noury, N. (2010). Challenges in the processing ofaudio channels for ambient assisted living. En: e-Health Networking Applications andServices (Healthcom), 2010 12th IEEE International Conference on, July. pp. 330–337.

Wang, D. and Brown, G. J. (2006). Computational Auditory Scene Analysis: Principles,Algorithms, and Applications. Wiley-IEEE Press.

Want, R., Hopper, A., Falcao, V., and Gibbons, J. (1992). The active badge location sys-tem. ACM Trans. Inf. Syst., 10(1): 91–102.

Wilson, D. H. (2005). Assistive Intelligent Environments for Automatic Health Monitoring.Tesis de doctorado, Carnegie Mellon University, Pittsburgh, PA, USA.

Wold, E., Blum, T., Keislar, D., and Wheaton, J. (1996). Content-based classification,search, and retrieval of audio. IEEE MultiMedia, 3(3): 27–36.

Wood, J. T. (2012). Interpersonal Communication: Everyday encounters. 4th, Belmont,CA: Wadsworth.

Zhang, T. and Kuo, C. C. (2001). Content-Based Audio Classification and Retrieval forAudiovisual Data Parsing. Kluwer Academic Publishers. Norwell, MA, USA.

Zuniga, E. and Vega, D. (2004). El envejecimiento en la poblacion mundial. D.F. ConsejoNacional de Poblacion.

Zwicker, E. (1961). Subdivision of the Audible Frequency Range into Critical Bands (Fre-quenzgruppen). Journal Acoustical Society of America, 33(2): 248.

Page 111: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

98

Apendice

En esta seccion se extiende mayor detalle sobre los clasificadores: Maquina de sopor-

te vectorial y modelos ocultos de Markov. Se repite la introduccion de ambos temas para

evitar confusion.

Maquina de soporte vectorial

Definicion La maquina de soporte vectorial (SVM por sus siglas en ingles), es un algo-

ritmo de aprendizaje para clasificacion y regresion. La SVM esta basada en el concepto

de proyectar un conjunto de datos a un espacio de caracterısticas de dimension muy alta

y entonces determinar hiperplanos optimos para separar los datos de clases diferentes

(Muller et al., 2001).

Intuicion Dados N puntos de entrenamiento con dimension d, los cuales provienen de

dos clases distintas yi = −1 o + 1,, es decir:

{xi , yi} donde i = 1...N, y ∈ {−1, 1} , x ∈ Rd (23)

El objetivo del algoritmo SVM consiste en encontrar un hiperplano con una orientacion

que permita separar ambas clases maximizando un margen entre el hiperplano y los

puntos mas cercanos de cada clase. En la figura 44 se ilustra un ejemplo en donde se

supone que puntos de dos clases son linealmente separables por el hiperplano w ·x + b =

0, donde w es normal al hiperplano y b|w| es la distancia perpendicular desde el hiperplano

hasta el origen. Cada uno de los semi-espacios definidos por este hiperplano corresponde

a una clase. Para encontrar a cual clase pretence un punto x se puede evaluar usando:

f (x) = sgn(w · x + b). El margen que se busca maximizar esta ilustrado en la figura como

el espacio entre las lıneas punteadas H1 y H2.

Page 112: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

99

Clase +1Clase -1

Vectores de soporte

-b|w|

Mar

gen

H1

H2

w

x1

x2

Figura 44: Hiperplano separando puntos de dos clases linealmente

Hiperplano El hiperplano se encuentra seleccionando las variables w y b de forma que

los datos de entrenamiento cumplan con las siguientes ecuaciones.

w · xi + b ≥ +1 para yi = +1 (24)

w · xi + b ≥ −1 para yi = −1 (25)

Estas ecuaciones combinadas producen la siguiente ecuacion:

yi (w · xi + b)− 1 ≥ 0 (26)

A los puntos que se encuentran mas cercanos al hiperplano, se les conoce como

vectores de soporte. Los planos H1 y H2 donde caen los vectores de soporte se pueden

describir como:

w · xi + b = +1 para H1 (27)

w · xi + b = −1 para H2 (28)

En la figura 11 los planos H1 y H2 se ilustran con lıneas punteadas y los vectores de

soporte se representan con los puntos con linea gruesa. Notese que H1 y H2 son paralelos

Page 113: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

100

y que ningun punto de entrenamiento cae entre ellos.

Si se consideran dos vectores de soporte x1 y x2 de distintas clases con (w·x1)+b ≥ +1

y (w · x2) + b ≥ +1 respectivamente, el margen esta dado por la distancia entre estos

dos puntos medidos perpendicularmente al hiperplano, es decir; w‖w‖ · (x1 − x2) = 2

‖w‖ .

El maximizar este margen es equivalente al problema de optimizacion de encontrar el

mınimo de w.

min ‖w‖ tal que yi (w · xi + b)− 1 ≥ 0 (29)

Problema de optimizacion Dado que la norma involucra el calculo de la raız cuadrada,

la optimizacion de ‖w‖ es difıcil de resolver. Sin embargo, se puede alterar la ecuacion

sustituyendo ‖w‖ por 12 ‖w‖

2 por conveniencia, esto debido a que minimizar el primer

termino es equivalente a minimizar el segundo. Con esta sustitucion es posible usar opti-

mizacion de Programacion Cuadratica. Ahora el problema consiste en encontrar:

min12‖w‖2 tal que yi (w · xi + b)− 1 ≥ 0 (30)

Se utiliza la formulacion Lagrangiana sobre este problema. Para ello se incluyen los

multiplicadores de Lagrange α donde αi ≥ 0 los cuales son mas faciles de manejar.

Ademas, con esta reformulacion los datos de entrenamiento solo apareceran en la for-

ma de producto punto entre vectores. Esto ultimo es una propiedad crucial que permite

generalizar el procedimiento a casos no lineales.

LP ≡12‖w‖2 −

N∑i=1

αiyi (w · xi + b) +N∑

i=1

αi (31)

Para mas informacion sobre como resolver este problema de optimizar LP , dirigirse a

(Burges, 1998).

Problemas no lineales En la practica, usualmente los puntos de distintas clases no

se pueden separar linealmente. Por este motivo, los datos se mapean a otro espacio

Page 114: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

101

Hiperplano separador

Separación compleja en dimensiones bajas Separación más fácil en dimensiones altas

Mapeo

F

Espacio de características F

Figura 45: Hiperplano separando puntos de dos clases linealmente en un espacio de caracterısticasde mayor dimension

denominado feature space mediante un mapeo no lineal.

Φ : RN → F

x 7→ Φ(x)(32)

Cada dato x1, ..., xd ∈ Rd se mapea a un espacio de caracterısticas F con una dimen-

sion mucho mayor. Ahora se trabaja con el problema de aprendizaje en el espacio F en

vez de Rd , es decir, ahora se trabaja con la muestra:

(Φ(x1), y1), ..., (Φ(xd ), yd ) ∈ F × Y (33)

En la figura 45 se ilustra un ejemplo de datos de dos dimensiones que no se pueden

separar, sin embargo al ser mapeados a una tercera dimension entonces si es posible

encontrar el hiperplano separador lineal. El mapeo queda expresado de la siguiente ma-

nera.

Φ : R2 → R3

(x1, x2) 7→ (z1, z2, z3) := (x21 ,√

2x1x2, x22 )

(34)

En este ejemplo, F ∈ R3, pero si la dimension es mucho mas grande entonces la

operacion producto punto es costosa de calcular. Ademas, el concepto estadıstico de

maldicion de la dimensionalidad, que indica que la estimacion de un problema incremen-

Page 115: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

102

ta drasticamente con la dimension N del espacio, introduce dudas respecto a la idea de

transformar los datos a un espacio de caracterısticas de mayor dimension para hacer el

aprendizaje. Sin embargo, la teorıa de aprendizaje estadıstico indica que el aprendizaje

en F puede ser mas simple si se usa baja complejidad, es decir, decisiones de clasi-

ficacion simples, tales como los clasificadores lineales. Para poder tener un funcion de

clasificacion eficiente se utiliza el tructo del kernel.

En vez de mapear cada uno de los datos al nuevo espacio de mayor dimension, lo cual

puede resultar muy caro computacionalmente (Hearst, 1998), el truco del kernel permite

obtener el producto punto entre dos vectores que se supone que ya estan mapeados a F

pero sin necesidad de haber hecho las operaciones de mapeo.

k (x, y) := (Φ(x) · Φ(y)) (35)

Ilustremos la ventaja de usar el truco de kernel usando un ejemplo de kernel polino-

mial, el cual se representa como:

k (x, y) = (x · y)d (36)

Si reformulamos el calculo de producto punto entre dos vectores en el espacio de

caracterısticas en terminos de una funcion kernel k.

(x1, x2) 7→ (z1, z2, z3) := (x21 ,√

2x1x2, x22 )

(Φ(x),Φ(y )) = (x21 ,√

2x1x2, x22 )(y2

1 ,√

2y1y2, y22 )

= ((x1, x2)(y1, y2)>)2

= (x · y)2

=: k(x, y)

(37)

Existen varios kernels, los cuales se pueden utilizar en el mapeo, en la siguiente tabla

se presentan sus formulas.

Page 116: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

103

Gaussian RBF k(x, y) = exp(−‖x−y‖2

c

)Polinomial ((x · y) + Θ)d

Sigmoindal tanh(k (x · y) + Θ)

Multicuadratico inverso 1√‖x−y‖2+c2

Ahora se tienen las herramientas para construir clasificadores no lineales, para ello

se sustituye Φ(xi) por cada punto de entrenamiento xi y se obtiene el hiperplano optimo

en F . Debido a que se utilizan kernels, la funcion de decision no lineal tiene la siguiente

forma

f (x) = sign(L∑

i=1

vi · k(x, xi) + b) (38)

cuyos parametros vi se pueden solucionar con el problema de programacion cuadratica.

Modelos Ocultos de Markov

Definicion Es una tecnica estadıstica que modela datos temporales y secuenciales que

se pueden utilizar para caracterizar las propiedades estadısticas de una senal. Esta tecni-

ca tiene aplicaciones en el area de reconocimiento de patrones. El sistema a ser modela-

do se supone como un proceso de Markov con estados no observables (ocultos).

Proceso de Markov Un proceso de Markov discreto es un proceso estocastico que

satisface la propiedad de Markov, esta propiedad indica que se pueden hacer prediccio-

nes del futuro basandose solamente en el estado presente sin necesidad de conocer la

historia completa de todo el proceso.

Para ejemplificar un proceso de Markov, supongase una serie temporal la cual da-

do un tiempo t puede tomar algun estado de un conjunto finito de N estados distintos

S1, S2, ..., SN como se ilustra en la figura 46. Al estado que ocurre en el tiempo t se le

conoce como qt .

Para describir un nuevo estado mediante una descripcion completa de la secuencia

temporal, se requiere que ademas de conocer el estado actual, se tenga informacion de

Page 117: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

104

S1

S2

SN

...

1 2 3 ... t ...............

Estado actual qt

Estados de una serie temporal

Figura 46: Proceso de Markov representando una serie temporal.

todos los estados anteriores.

P[qt = Sj |qt−1 = Si , qt−2 = Sk , ...

](39)

Sin embargo,un proceso de Markov discreto de primer orden indica que esta descrip-

cion se puede truncar y estar completamente determinada considerando solo el estado

actual y el estado inmediato anterior

P[qt = Sj |qt−1 = Si , qt−2 = Sk , ...

]= P

[qt = Sj |qt−1 = Si

](40)

Un modelo de Markov contiene las probabilidades de cambiar entre los estados, las

cuales se consideran constantes en el tiempo. Una forma de representar estas probabili-

dades es mediante la matriz de transicion de probabilidades A; cada elemento aij indica

la probabilidad de pasar del estado Si al estado Sj . La figura 47 ilustra un ejemplo.

Cada estado indica un evento observable fısico, por ejemplo el estado del clima (nubla-

do, soleado, lluvioso) o elementos de un diccionario (A,B,C,D). Cuando se ha observado

una serie de estados consecutivos, entonces se tiene una secuencia de observacion O,

por ejemplo O = {S2, S1, S1, S3} correspondientes a t = 1, 2, 3, 4. La probabilidad de una

observacion particular O dada un modelo se expresa:

Page 118: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

105

S1 S2 S3

a11

a22 a33

a12 a23

a21 a32

a13

a31

Probabilidad de transiciones

a11

a22

a33

a12

a21 a23

a32

a13

a31

A=

Matriz de probabilidadesde transición entre estados

Figura 47: Probabilidades de transicion entre estados en un modelo de Markov.

P(O|Modelo) = P [S2, S1, S1, S3|Modelo] (41)

Hasta este momento, se ha descrito un modelo de Markov observable, ya que los es-

tados son directamente observables en cada instante de tiempo y los unicos parametros

son las probabilidades de transicion, tal como se muestra en la figura 13. A continuacion

se explican los modelos ocultos de Markov.

8.2.0.1. Modelos ocultos de markov discretos

En los modelos ocultos de Markov los estados se encuentran ocultos mientras lo visi-

ble corresponde a lo que se conoce como las emisiones de los estados. El ejemplo clasico

para explicar HMM discretos es el modelo de la urna y las pelotas, (Rabiner, 1989). Se

supone que existen N urnas las cuales no son visibles para un observador. Cada una de

las urnas guarda cierta cantidad de pelotas coloredas con M colores distintos. Un genio

tiene acceso a las urnas y elige una de acuerdo un proceso aleatorio de seleccion de ur-

nas. Posteriormente extrae una pelota de dicha urna y le senala al observador el color de

la pelota. Despues regresa la pelota a la urna de la que fue seleccionada. A continuacion

selecciona nuevamente una urna de acuerdo al proceso aleatorio de seleccion de urnas

y vuelve a extraer una pelota. El proceso se repite y produce como resultado una obser-

vacion finita de colores. La eleccion de las urnas no depende de las urnas que fueron

elegidas con anterioridad, a esto se le conoce como proceso de Markov, sin embargo la

eleccion de las urnas esta oculta al observador y lo unico que puede ser observado son

los sımbolos emitidos por las urnas, es decir, los colores.

Page 119: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

106

Urna 1 Urna 2 Urna 3

0.5

0.4

0.6

0.3

0.1 0.5

0.1

0.2

0.3

A=

Símobolos emitidospor las urnas(estados) = { , , }

5/9

5/9

4/9

2/9

2/9 2/9

3/9

2/9

2/9

B=

1 2 3 ... t...

Secuencia observablede símbolos

Figura 48: Elementos de los modelos ocultos de Markov.

En la figura 48 se ilustran N=3 urnas que contienen pelotas con M=3 colores distintos

(rojo, verde y azul). Las urnas son los estados de un proceso de Markov con su respectiva

matriz de probabilidades de transicion A. En los HMMs Se introducen los valores B =

{bj(k )} que indican la distribucion de probabilidad de los sımbolos observados en cada

estado, para este ejemplo clasico, la matrix B indica la probabilidad de encontrar un color

especifico en una urna dada. La secuencia temporal observable O = O1O2...OT contiene

los sımbolos o colores emitidos por los estados.

Los elementos que conforman un modelo oculto de Markov son los siguientes:

1. N, el numero de estados en el modelo S1, S2, ..., SN .

2. M, la cantidad de sımbolos observados por estado.

3. A, la matriz de distribucion de probabilidad de transiciones entre estados.

4. B, la matriz de distribucion de probabilidad de observaciones de los sımbolos en

cada estado.

5. π, una distribucion inicial de los estados.

Page 120: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

107

Un HMM queda totalmente caracterizados por λ = (A, B, π)

Para la aplicacion practica de los HMMs, existen tres problemas algorıtmicos los cua-

les se explican a continuacion.

Problema de evaluacion. Dada una secuencia de observacion O = O1O2...OT y un

modelo particular λ, se requiere calcular P(O|λ). Este problema se resuelve con un al-

goritmo conocido como Forward-Backward Procedure. La solucion de este problema es

util cuando existen modelos para cada clase previamente entrenados y se quiere aquella

clase con la cual una observacion tiene mayor similitud.

Problema de decodificacion. Calcular la secuencia de estados optima que mejor expli-

ca una secuencia de observaciones. Este problema se resuelve con el algoritmo Viterbi.

La obtencion de la secuencia optima se puede usar para aprender cual es la estructura

del modelo u obtener estadısticas acerca de los estados individuales.

Problema de aprendizaje. Ajustar los parametros de un modelo para maximizar P(O|λ).

Para estimar la probabilidad maxima de la observacion dado un modelo se utiliza un al-

goritmo iterativo llamado Baum-Welch o su equivalente Expectation-Modification (EM). El

ajuste de los parametros del modelo se utiliza en la etapa de entrenamiento en donde

se generan modelos para las secuencias temporales de entrenamiento provenientes de

cada clase.

En el caso de los datos continuos, cuyos valores pueden ser infinitos, se lleva a cabo

una quantization vectorial. Para ello, se elige un diccionario de sımbolos y cada dato

continuo se compara contra todos los sımbolos, el valor continuo toma el sımbolo con el

que resulta mas cercano.

Solucion al problema de evaluacion Se desea calcular la probabilidad de que una

secuencia de observacion O = O1O2...OT es generada por un modelo λ, es decir:

P(O|λ) =∑

toda Q

P(O|Q,λ)P(Q|λ) (42)

Page 121: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

108

Donde Q indica una secuencia particular Q = q1, q2, ..., qT de todas las posibles se-

cuencias de longitud T existentes.

El primer termino de la ecuacion ?? indica que se debe calcular la probabilidad de O

dada cada una de las posibles Q.

P(O|Q,λ) =T∏

t=1

P(Ot |qt ,λ) (43)

Al asumir independencia estadıstica en las observaciones entonces se tiene:

P(O|Q,λ) = bq1(O1) · bq2(O2) · · · bqT (OT ) (44)

Que indica el producto de las densidades de probabilidad de las observaciones dada

una secuencia Q.

El segundo termino de la ecuacion 42 indica la probabilidad de una secuencia de

estados especıfica Q dado el modelo λ. Se puede rescribir de la siguiente manera:

P(Q|λ) = πq1aq1q2aq2q3...aqT−1qT (45)

Que indica el producto de las probabilidades de transicion entre estados de la secuen-

cia Q

La complejidad computacional del algoritmo descrito arriba es de orden O(NT T ). De-

bido a que por cada tiempo t = 1, 2, ..., T existen N estados posibles, el calculo de opera-

ciones no es factible incluso para valores pequenos, por ejemplo, para N=5 y T=100, se

requieren 5100 · 100 ≈ 7.8E71 calculos.

Afortunadamente existe un algoritmo llamado procedimiento de avance o Forward-

Bakcward procedure que permite resolver el problema de evaluacion en un tiempo factible

para aplicaciones practicas.

Page 122: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

109

Algoritmo de avance (Forward) Considerese la variable de avance αt (i) definida como

αt (i) = P(O1 O2 ... Ot , qt = Si |λ) (46)

donde se tiene la secuencia O1 O2 ... Ot que corresponde a una observacion parcial

(hasta un tiempo t) y un estado Si en un tiempo t dado un modelo λ. Para resolver αt (i)

de forma inductiva se sigue el siguiente algoritmo.

1. Inicializacion:

α1(i) = πibi(O1), 1 ≤ i ≤ N

2. Induccion:

αt+1(j) =[∑N

i=1 αt (i)aij

]bj(Ot+1) 1 ≤ t ≤ T − 1 1 ≤ j ≤ N

3. Terminacion:

P(O|λ) =∑N

i=1 αT (i)

Para calcular αt (j), 1 ≤ t ≤ T , 1 ≤ j ≤ N se requieren N(N + 1)(T − 1) + N

multiplicaciones y N(N + 1)(T − 1) sumas, por lo tanto, el orden del algoritmo de avance

es N2T en vez de TNT que tomarıa el calculo directo. Para N=5 y T=100, se requieren

≈ 3000 calculos, significativamente menos a los 7.8E71 necesarios con la forma directa.

Algoritmo de retroceso (Backward) Para el problema de evaluacion solo necesita la

parte de anvace del algoritmo forware-backware. Se introduce el algoritmo de retroceso

ya que es util para resolver el problema de aprendizaje.

De igual manera, se introduce la variable de retroceso:

βt (i) = P(Ot+1 Ot+2 ... OT , qt = Si |λ) (47)

que representa la probabilidad de la secuencia de observacion parcial desde t + 1

hasta T dado un estado j en el tiempo t y el modelo λ. Resolviendo de forma inductiva, el

Page 123: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

110

algoritmo es el siguiente:

1. Inicializacion:

βT (i) = 1, 1 ≤ i ≤ N

2. Induccion:

βt (i) =∑N

j=1 aijbj(Ot+1)βt+1(j) t = T − 1, T − 2, ..., 1, 1 ≤ i ≤ N

La cantidad de operaciones necesarias para βt (i) 1 ≤ t ≤ T , 1 ≤ i ≤ N es del orden

de N2T .

Solucion al problema de decodificacion Se desea obtener la ruta optima de se-

cuencias de estado q = (q1q2...qT ) asociada con una secuencia de observaciones O =

O1 O2 ... OT dado un modelo λ. La ruta optima se puede obtener usando el algoritmo de

Viterbi. Para esto, se define la siguiente cantidad:

δt (i) = maxq1,q2,...,qt−1

P [q1, q2, ..., qt−1, qt = i , O1O2...Ot |λ] (48)

que se refiere a la probabilidad mas alta a lo largo de un camino simple que toma en

cuenta las primeras t observaciones y finaliza en el estado Sj . Por induccion se tiene

δt+1(j) =[max

iδt (i)aij

]· bj(Ot+1) (49)

Para obtener la secuencia de estados, es necesario conservar el argumento que ma-

ximiza la ecuacion 49 para cada t y j; esto se logra con el arreglo ψt (j). El procedimiento

para encontrar la mejor secuencia de estados se establece de la siguiente manera:

1. Inicializacion:

δ1(i) = πibi(Oi), 1 ≤ i ≤ N ψ1(i) = 0

Page 124: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

111

2. Recursion:

δt (j) = max1≤i≤N

[δt−1(i)aij

]· bj(Ot ), 2 ≤ t ≤ T 1 ≤ j ≤ N

ψt (j) = argmax1≤i≤N

[δt−1(i)aij

], 2 ≤ t ≤ T 1 ≤ j ≤ N

3. Terminacion: p∗ = max1≤i≤N

[δT (i)]

q∗T = argmax1≤i≤N

[δT (i)]

4. Ruta inversa: q∗t = ψt+1(q∗t+1), t = T − 1, T − 1, ..., 1

El algoritmo de Viterbi esta basado en metodos de programacion dinamica. La com-

plejidad de este algoritmo es de orden O(N2T ).

Solucion al problema de aprendizaje La solucion de este problema consiste en encon-

trar el conjunto de parametros λ(A, B, π) que describen un modelo a partir de secuencias

de observacion que provienen de una misma clase. No hay una forma analıtica de solu-

cionar este problema, sino que se pueden estimar parametros y encontrar aquellos que

maximicen localmente la probabilidad de la secuencia de observacion dado el modelo, es

decir P(O|λ). Esto se puede lograr mediante un algoritmo iterativo llamado Expectation-

Maximization (EM) o su equivalente, el algoritmo Baum-Welch. La tecnica consiste en

inicializar los parametros con un estimado y despues ir actualizando los valores de forma

iterativa hasta que se satisfaga una condicion de terminacion. En la seccion anterior, se

definieron las variables de avance y retroceso αt (i) y βt (i). Para este problema, se defi-

ne ademas las variable ξt (i , j) y γt (i) las cuales quedan expresadas en terminos de las

variables de avance y retroceso:

ξt (i , j) =αt (i)aijbj(Ot+1)βt+1(j)

P(O|λ)

=αt (i)aijbj(Ot+1)βt+1(j)∑N

i=1

∑Nj=1 αt (i)aijbj(Ot+1)βt+1(j)

(50)

γt (i) =αt (i)βt (i)P(O|λ)

=αt (i)βt (i)∑Ni=1 αt (i)βt (i)

(51)

Page 125: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

112

donde esta ultima representa la probabilidad de estar en el estado Si en el tiempo t ,

dada una secuencia de observacion O y un modelo λ.

Es posible establecer una relacion entre γt (i) y ξt (i , j) mediante sumas en j, dando lo

siguiente:

γt (i) =N∑

j=1

ξt (i , j) (52)

A continuacion se describen las formulas para re-estimar los parametros π, A y B de

un HMM.

π = γ1(i)

aij =∑T−1

t=1 ξt (i , j)∑T−1t=1 γt (i)

¯bj(k ) =

∑Tt=1

Ot =vkγt (j)∑T−1

t=1 γt (j)

(53)

El algoritmo para el aprendizaje queda de la siguiente manera, donde ε es una condi-

cion de convergencia para terminar las iteraciones.

1. Inicializar aij y bjk

2. t=t+1

3. Calcular π, aij y ¯bj(k ) como se muestra en la ecuacion 53

4. aij = aij y bjk = ¯bj(k )

5. Realizar los pasos 2-4 hasta que argmaxi ,j ,k

[aij(t)− aij(t − 1), bjk (t)− bjk (t − 1)

]< ε

6. Regresar aij(t) y bjk (t)

Los valores iniciales de aij y bjk son crıticos para la re-estimacion; diferentes valores

iniciales pueden llevar diferentes resultados ya que el algoritmo no garantiza converger a

un mınimo global.

Page 126: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

113

8.2.0.2. Modelos ocultos de markov continuos

Hasta este punto, se ha considerado el caso cuando las observaciones son sımbo-

los discretos provenientes de un alfabeto finito de forma que es posible usar densidades

de probabilidad discretas. Sin embargo, para muchas de las aplicaciones, las observa-

ciones son continuas, por ejemplo, senales o vectores. Una forma de resolver esto, es

mediante codebooks, pero tienen la desventaja que puede introducir degradaciones im-

portantes asociadas a la cuantizacion. Otra forma de tratar este problema es reemplazar

las probabilidades de observacion discreta bj(k ) por funciones de densidad de probabili-

dad continua bj(O), donde O es el vector a ser modelado que posee dimension d . Una

practica comun es representar bj(O) como una mezcla de gaussianas.

bj(o) =M∑

m=1

cjmN(o,µjm,Σjm) 1 ≤ j ≤ S (54)

donde N denota una funcion de densidad de probabilidad Gaussiana, con vector de

medias µjm de dimension d y matriz de covarianza Σ de dimension dXd . Aquı, cjm son

los coeficientes de la mth mezcla en el estado j . La distribucion Gaussiana multi-variada

N(o,µjm,Σjm) de cada componente esta definida de la siguiente manera:

N(o,µjm,Σjm) =1√

(2π)K |Σjm|exp

[−1

2(o − µjm)TΣjm

−1(o − µjm)]

(55)

Page 127: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

114

Glosario de terminos

Amplitud La amplitud se refiere al tamano de las ondas acusticas y determina que tan

fuerte es el sonido. La percepcion subjetiva de la amplitud del sonido se conoce como

volumen y debido a que el rango auditivo del ser humano es muy grande se utiliza una

escala logarıtmica en decibeles para hacer las mediciones de volumen.

Burn out El sındrome burnout se describe como una respuesta prolongada al estres

cronico emocional e interpersonal debido a el trabajo, determinada por dimensiones de

cansancio, cinismo e ineficacia (Maslach et al., 2001).

Clasificacion supervisada En este tipo de clasificacion se tiene un conocimiento a

priori acerca de las class que se utilizan para el entrenamiento.

Clasificacion no supervisada En este tipo de clasificacion no se tiene un conocimiento

a priori acerca de las class que se utilizan para el entrenamiento.

Decibel El decibel es una unidad logarıtmica sin dimension que se usa para comparar

la relacion entre dos cantidades, por ejemplo la relacion entre dos potencias, dos intensi-

dades o entre dos voltajes. Matematicamente, es 10 veces el logaritmo de relacion entre

las potencias de dos senales. dB = 10log(P1/P0)

donde P0 se refiere a un valor de potencia de referencia que es comparado contra otro

valor P1.

Difuso (Fuzzy) Un conjunto se puede definir mediante la funcion indicadora. Si la fun-

cion indicadora vale 1, el objeto esta en el conjunto; si vale 0, no esta en el conjunto. El

conjunto de tecnicas borrosas (fuzzy) estan basados en la generalizacion de la funcion

indicadora; un objeto pertenece en principio a todos los conjuntos, con un grado mayor o

menor de pertenencia.

Page 128: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

115

Digitalizacion de la senal El sonido que encontramos en la vida real es continuo en

tiempo y en amplitud. Para poder procesar el sonido en microprocesadores, es necesario

convertir la senal analogica a un formato digital, lo cual se logra mediante un procedi-

miento llamado digitalizacion el cual se compone de dos pasos: muestreo y cuantizacion

(libro L Tan).

Dominio del tiempo y frecuencia Las senales sonoras en el dominio del tiempo contie-

nen la amplitud de la senal en cada instante de tiempo muestreado. Sin embargo, existen

aplicaciones que requieren descomponer la senal en tonos puros u ondas sinoidales. Es-

te tipo de informacion se encuentra en una representacion de la senal conocida como el

dominio de la frecuencia. En la figura se ilustra una senal en el dominio del tiempo con

sus componentes sinoidales, ası como una ilustracion de la senal en el dominio de la

frecuencia que representa con que cantidad ciertos componentes de frecuencia aportan

a la formacion de la senal completa.

Energıa La energıa para una senal de duracion finita x(n) esta definida como

E =N∑

n=1

|x(n)|2 (56)

Entropıa En el area de teorıa de la informacion, la entropıa de una senal mide que

tan impredecible es dicha senal (Shannon, 2001). La formula para obtener la entropıa de

una variable aleatoria x dada una distribucion de probabilidades P = p1, p2, ..., pn es la

siguiente:

H(X ) = −n∑i

P(xi)logbP(xi) (57)

donde b es la base del logaritmo.

La entropıa mınima se obtiene cuando una senal es un valor constante k, en este caso

su funcion de densidad de probabilidad es un impulso unitario en k, es decir; pi = k , lo

cual produce una entropıa de cero segun la formula 58. En el caso opuesto, si la senal

tiene una distribucion de probabilidad uniforme, entonces su entropıa es maxima, es decir,

Page 129: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

116

si pi = 1/n para todos los valores de n posibles, la entropıa resultante se muestra en la

formula 59.

Hmin = −∑

i

δ(k )logb[δ(k )] = −logb(1) = 0 (58)

Hmax = −∑

i

1n

logb1n

= −logb(1n

) = logb(n) (59)

Escala MEL En 1937, Stevens, Volkman y Newman obtuvieron una escala perceptual

para el tono llamada escala MEL (Stevens et al., 1937). Para ello realizaron un trabajo

de investigacion en donde cinco participantes fraccionaron subjetivamente diversos tonos

a varias frecuencias. La relacion de esta escala subjetiva con la frecuencia se define

asignando al tono de 1000Hz un tono de 1000 unidades mels. En la actualidad existen

varias formulas para la escala MEL que han surgido de distintas tablas y curvas obtenidas

en varios experimentos (Lindsay and Norman, 1977) (Beranek, 1949), aunque la mas

popular corresponde a la ecuacion 60 (O’Shaughnessy, 1999).

m = 2595log10

(1 +

f700

)(60)

donde f corresponde a la frecuencia en Hertz y m a las unidades mel.

Escala Bark La escala de frecuencia Bark, propuesta por Eberhard Zwicker en 1961, es

una escala psicoacustica que esta definida de forma que las bandas crıticas de la audicion

humana corresponden a un bark de ancho (Zwicker, 1961). Para convertir frecuencia en

Hertz a unidades en Bark se utiliza la ecuacion 61 (Traunmuller, 1990).

z = 13 arctan(0.00076f ) + 3.5 arctan((f

7500)2) (61)

donde f es la frecuencia en Hertz y z es la frecuencia en Barks.

Page 130: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

117

Espectrograma Una forma de mejorar la resolucion temporal consiste en lo que se

conoce como Transformada de Fourier en Tiempo Corto (STFT). La STFT consiste en

dividir la senal en pedazos o tramas, que ademas se pueden traslapar unos con otros con

el objetivo de reducir efectos de frontera. A cada pedazo se le calcula la FFT, obteniendo

como resultado una matriz compleja que puede expresarse de la siguiente manera:

STFT {x(n)} = X (m, w) =∞∑

n=−∞

x [n]w [n −m]e−jwn

(62)

Donde, x[n] es la senal y w[n] es una funcion ventana. Comunmente se usa una

ventana de Hamming, sin embargo existen diferentes tipos de ventanas,

A la magnitud cuadrada de la STFT se le denomina Spectrograma y es una de las

formas originales para representar la informacion auditiva

spectrograma {x(n))} = |X (m, w))|2 (63)

Fase La fase se refiere a una relacion en el tiempo entre dos o mas ondas acusticas en

un punto especifico en sus ciclos. Si dos ondas periodicas poseen la misma frecuencia y

empiezan al mismo tiempo, entonces ambas ondas se encuentra en fase. Si dos ondas

identicas empiezan en tiempos distintos entonces se encuentran fuera de fase con cierto

grado. La fase se mide en grados desde 0 hasta 360, donde 0 grados significa sincronıa y

180 grados implica que ambas senales son exactamente opuestas. Cuando dos sonidos

que estan en fase se mezclan, la combinacion produce un sonido mas fuerte. Cuando dos

sonidos fuera de fase se mezclan entonces se produce un sonido pequeno o ausencia de

sonido. A esto se le conoce como cancelacion de fase.

Frecuencia Es la tasa o numero de veces por segundo que una onda periodica comple-

ta un ciclo. La frecuencia se mide en ciclos por segundo o en Hertz. Para que el sonido

sea audible por el ser humano, la frecuencia de las vibraciones debe estar dentro del

espectro audible que corresponde a las ondas comprendidas entre los 20Hz y 20Khz.

Page 131: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

118

Funcion ventana Es una funcion matematica que vale cero fuera de un intervalo dado.

Un ejemplo de funcion ventana rectangular consiste en un valor constate dentro de un

intervalo y cero fuera de ese intervalo. Al multiplicar una funcion ventana con una senal

permite observar a la senal por un tiempo finito. Esta es la primer subseccion

Ground truth Conjunto etiquetado de clasificaciones confiables para entrenamiento.

Leakage El Leakage consiste en la formacion de nuevos componentes de frecuencia

en el espectro.

Muestreo Debido a que es imposible digitalizar una infinita cantidad de puntos, se re-

curre al muestreo que consiste en tomar mediciones o muestras de la senal auditiva en

un intervalo fijo de tiempo T. Al numero de muestras tomadas por segundo se le co-

noce como frecuencia de muestreo. fs = 1T muestras por segundo (HZ). El teorema de

Shannon-Nyquist indica que la frecuencia de muestreo debe tener al menos el doble de

la frecuencia de la senal original para evitar un fenomeno conocido como Aliasing el cual

produce datos incorrectos. Por ejemplo, las senales de voz humana pueden alcanzar fre-

cuencias de hasta 4kHz, por lo que la frecuencia de muestreo mınima debe ser de 8kHz;

para muestrear senales de audio con frecuencias hasta 20kHz, se necesita muestrear al

menos 40000 veces por segundo.

NMF- Non Negative Matrix Factorization Es un grupo de algoritmos que se utilizan

para descomponer datos multivariados donde una matriz no negativa V se factoriza en

las matrices no negativas W y H. Estos algoritmos

Pitch De acuerdo con el Instituto Nacional de Estandares Americanos (ANSI) (Institute,

1999), ”el tono o pitch es un atributo auditivo del sonido que permite ordenarlos de mas

bajos a mas altos en una escala. El tono depende principalmente del contenido frecuen-

cial del estimulo auditivo, pero tambien depende de la presion del sonido y de la forma de

onda del estimulo”. Aunque el tono puede cuantificarse en funcion a la frecuencia, este no

Page 132: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

119

es puramente una propiedad fısica sino un atributo psicologico del sonido. Normalmente,

el tono de los sonidos complejos se cuantifica como frecuencia en ciclos por segundo o

Hertz, mediante una comparacion del sonido con formas de onda sinoidales periodicas

(Hartmann, 1998).

Potencia La potencia para una senal de duracion finita x(n) esta definida como

P =1N

N∑n=1

|x(n)|2 (64)

Relacion senal ruido o Signal to Noise Ratio (SNR) La relacion ruido senal es una

especificacion que mide el nivel de sonido deseado presente en una senal auditiva com-

parado contra el nivel de ruido que tambien esta presenta en la senal.

SNRdB = 10logPsenal

Pruido(65)

donde P es la potencia de la senal.

P =1N

n∑i=1

(xi)2 (66)

Resolucion de bits La cuantizacion convierte a la variable dependiente de su forma

continua a discreta. Esto se logra representando la amplitud de las muestras individua-

les como enteros expresados en forma binaria, asi las muestras se pueden medir en un

numero finito de niveles discretos. El rango de posibles enteros esta determinado por la

profundidad de bits, es decir, el numero de bits usados por muestra. Una senal muestrea-

da con 8 bits de profundidad tiene un rango de 28 = 256 enteros posibles, mientras que

una muestreada con 16 bits de profundidad tiene 216 = 65536 lo cual brinda una mejor

resolucion que se traduce a una mejor calidad de sonido.

Page 133: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

120

Ruido En el dominio de la comunicacion, ”el ruido es cualquier cosa que provoca una

perdida de informacion mientras la informacion fluye desde la fuente hacia su destino”(Wood,

2012). Puede ser cualquier estimulo externo o ambiental que distrae la recepcion de un

mensaje enviado por un comunicador (Rothwell, 2009). Por ejemplo, en los trabajos de

reconocimiento del habla, el ruido son todos aquellos sonidos externos al parlante de

interes, por ejemplo la musica de fondo o incluso otras personas hablando. El audio am-

biental normalmente era considerado como ruido, sin embargo con el area de estudio

Computationally Auditory Scene Analysis (CASA) ha surgido importancia en el ambito

cientıfico y en vez de considerarse como ruido es considerado como informacion.

Sonido El termino sonido se refiere al fenomeno en el cual ondas acusticas producidas

por vibraciones mecanicas se propagan a traves de un medio elastico. Cuando la presion

de las ondas acusticas produce vibracion en el timpano, se envıan senales al cerebro que

pueden interpretarse como sonido.

La mas elemental de todas las senales acusticas es conocida como tono puro, que se

refiere a una onda senoidal, la cual es de suma importancia en la ciencia de la acustica.

Aunque es raro encontrar tonos puros en el mundo real, otros sonidos se pueden repre-

sentar como una combinacion de ondas senoidales. La formula de una onda senoidal

es:

y (x) = A× seno(2πfx − ϕ) (67)

donde A es la amplitud de oscilacion, f es la frecuencia y ϕ es la fase inicial.

Transformada del coseno La transformada discreta de coseno (DCT) es similar a la

DFT, pero expresando a la senal solo en terminos de funciones coseno de forma que solo

se tienen valores reales. La formula para obtener la DCT es:

Xk =N−1∑n=0

xncos[π

N

(n +

12

)k]

k = 0, ..., N − 1. (68)

Page 134: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

121

Transformada de Fourier Las senales sonoras en el dominio del tiempo contienen la

amplitud de la senal en cada instante de tiempo muestreado. Sin embargo, existen apli-

caciones que requieren descomponer la senal en tonos puros u ondas sinoidales. Este

tipo de informacion se encuentra en una representacion de la senal conocida como el

dominio de la frecuencia. En la figura se ilustra una senal en el dominio del tiempo con

sus componentes sinusoidales, ası como una ilustracion de la senal en el dominio de la

frecuencia que representa con que cantidad ciertos componentes de frecuencia aportan

a la formacion de la senal completa.

El analisis de Fourier es una familia de tecnicas matematicas que se basan en des-

componer las senales en ondas sinoidales. Para el caso de senales digitales se utiliza la

Transformada Discreta de Fourier cuya formula es:

En el dominio del tiempo, se aplica la DFT a una senal x que consiste de N puntos.

Esto produce dos senales en el dominio de la frecuencia, una parte real Re y una par-

te imaginaria Im. Para obtener la magnitud en el dominio de la frecuencia, se utiliza la

formula , mientras que para obtener la fase se usa

Existe un metodo para calcular la DFT conocido como Fast Fourier Transform el cual

es sumamente eficiente reduciendo el tiempo computacional, el orden es O(ln(n) (Tan

and Jiang, 2013). Este algoritmo ha permitido que muchas aplicaciones sean posibles de

realizar en tiempo real.

Mientras que la DFT produce buena resolucion en frecuencia, se pierde en su totalidad

la informacion de la senal en el espacio del tiempo. En la siguiente figura se muestra un

ejemplo, notese como ambas senales constan de una onda sinoidal a 60Hz y otra onda

de 20Hz. La DFT brinda la informacion en frecuencia pero no indica en que tiempo existen

estos componentes de frecuencia.

Una forma de mejorar la resolucion temporal consiste en lo que se conoce como Trans-

formada de Fourier en Tiempo Corto (STFT). La STFT consiste en dividir la senal en

pedazos o tramas, que ademas se pueden traslapar unos con otros con el objetivo de re-

ducir efectos de frontera. A cada pedazo se le calcula la FFT, obteniendo como resultado

una matriz compleja que puede expresarse de la siguiente manera:

Page 135: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

122

STFT {x(n)} = X (m, w) =∞∑

n=−∞

x [n]w [n −m]e−jwn

(69)

Donde, x[n] es la senal y w[n] es una funcion ventana. Comunmente se usa una

ventana de Hamming, sin embargo existen diferentes tipos de ventanas,

A la magnitud cuadrada de la STFT se le denomina espectrograma y es una de las

formas originales para representar la informacion auditiva

espectrograma {x(n))} = |X (m, w))|2 (70)

Page 136: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

123

Glosario de Acronimos

Page 137: Programa de Posgrado en Ciencias en Ciencias de la ... · v Agradecimientos A toda mi familia por su apoyo incondicional. Mis padres, hermanos, mis hermosos sobrinos y al resto de

124

Acronimo SignificadoAAL Ambient Assisted LivingAiP Aging in PlaceCDA Comportamientos Disruptivos AudiblesCPU Central Processor UnitDAV Detector de Actividad de VozdB Decibel

FFT Fast Fourier TransformFN Falsos NegativosFP Falsos PositivosGT Ground Truth

HMM Hidden Markov ModelsHz Hertz

IACM Intervenciones de Agitaciones Cohen-MansfieldINF Intervenciones No Farmacologicas

MBSE Multi Band Spectral EntropyMFCC Mel Frequency Cepstral CoefficientsNMF Non Negative Matrix FactorizationPC Personal ComputerPcD Paciente con DemenciaRAM Random Access MemoryRFID Radio Frequency IDentification

RWCP Real World Computing PartnershipSDPC Sıntomas de Demencia Psicologicos y de Comportamiento

SIA Sistema de Intervenciones AsistidasSNR Signal to Noise RatioSVM Support Vector MachineTES Time Entropy SignatureVN Verdaderos NegativosVP Verdaderos Positivos