Proyecto Fin de Carrera

download Proyecto Fin de Carrera

If you can't read please download the document

description

Diseño, implementación y evaluación de técnicas de estimación de fiabilidad en tareas de localización de locutores. Proyecto Fin de Carrera. Autor: David Morales Cervera Tutor: Javier Macías Guarasa. Introducción Estudio teórico Diseño e implementación Evaluación Conclusiones - PowerPoint PPT Presentation

Transcript of Proyecto Fin de Carrera

  • ndiceIntroduccin

    Estudio tericoDiseo e implementacinEvaluacin

    ConclusionesLneas futuras

  • Introduccin Motivacin y objetivosMarco: Sistemas de reconocimiento automtico del hablaCrecimiento espectacular del rendimientoTendencia a utilizar micrfonos alejados del locutorProblemas adicionales paliados usando arrays de micrfonos tareas de localizacin son fundamentalesLocalizacin: Problemas influyen en fiabilidad de resultadosObjetivos: Diseo e implementacin de tcnicas para la generacin de medidas de fiabilidad en las estimaciones de posicin de locutores en entornos acsticos reverberantesEvaluacin de los algoritmos de estimacin de fiabilidad implementados

  • ndiceIntroduccin

    Estudio tericoDiseo e implementacinEvaluacin

    ConclusionesLneas futuras

  • Estudio terico Tcnicas de LocalizacinBuscamos:PrecisinRapidezResolucin espacial y temporalTres tipos de mtodos en la literatura: Basados en diferencias de tiempo de llegada (TDOA)Maximizacin de la respuesta en potencia dirigida (SRP: Steered Response Power)Basados en subespacios de alta resolucin

  • Estudio terico Tcnicas de Localizacin

    TDOA se divide en dos etapas:Se estiman retardos entre pares de sealesSe combinan los resultados con la geometra del array

    SRP se basa en la distribucin de potencia de seal captada por el array apuntado:

  • Estudio terico Integracin en el sistemaFiabilidad total: Calcular grado de incertidumbre relacin entre la posicinreal y la estimada del locutor

    Fiabilidad parcial (de cada par de micros):Mejorar las estimaciones de posicin

  • Estudio terico Redes neuronales artificiales Conocimiento alcanzado tras aprendizajeDecisiones:TopologaFunc. ActivacinAlgoritmo aprendizaje

  • ndiceIntroduccin

    Estudio tericoDiseo e implementacinEvaluacin

    ConclusionesLneas futuras

  • Diseo e implementacin del sistemaMetodologa de trabajoCaractersticas del sistema a determinar:Posibles tcnicas de estimacin:DeterministasRedes neuronales Datos de entrada:Todos los disponibles en tiempo realDatos de salida:Todos los disponibles Fiabilidad parcialFiabilidad totalPosiciones SRPEnergas par de microsContenido espectral

    Cmo la calculamos?

  • Diseo e implementacin del sistemaMetodologa de trabajoCaractersticas del sistema a determinar:Herramientas disponibles:Software librePara redes: MUMEPara localizacin: SRPEstrategia experimental:RigurosaUso ptimo de recursosEvaluacin cuantitativa y grficas significativas:Comportamiento de la redRelacin con medidas de fiabilidad real

  • Diseo e implementacin del sistemaArquitectura propuestaSRPpos2taugenNNDataDAT.ascmakeLoos

    Loo_nMumetrainMumetest

  • Diseo e implementacin del sistemaSoluciones propuestasDatos de red neuronal:Entrada: Retardo de cada par de microsSalida:Fiabilidad total

    Fiabilidad parcial

    Conversin de datosEstrategias de codificacin

    pos2tau genNNData

  • Diseo e implementacin del sistemaSoluciones propuestasCodificacin de datos:Sin procesarEstandarizacin sin recorte

    Estandarizacin con recorte

    Multi neurona genNNDataEstimacin y ?

  • Diseo e implementacin del sistemaEstrategia de experimentacinUso ptimo de recursos (datos) disponiblesProblemtica:Tamaos entrenamiento y evaluacin:Buenos modelosFiabilidad resultados evaluacinDatos sucios

    Solucin: n-fold cross validation

    makeLoos

  • ndiceIntroduccin

    Estudio tericoDiseo e implementacinEvaluacin

    ConclusionesLneas futuras

  • Evaluacin del sistemaBases de datos

    Idiap AV16.316 micros3 cmaras6216 tramas

  • Evaluacin del sistemaBases de datos

    HIFI-MM11200 seq12 locutores7404 tramas

  • Evaluacin del sistemaExperimentos iniciales

    Comportamiento red neuronal

  • Evaluacin del sistemaExperimentos inicialesEvaluacin de valores de : Eliminamos extremosEvaluacin de # de neuronas intermedias:Resultados similaresConsideraciones sobre el tiempo de proceso:500 iteraciones 5s, 106 iteraciones 2 dasConsideraciones sobre tamao BD:

  • Evaluacin del sistemaExperimentos sobre HIFI-MM1

    Resultados prometedores

  • Evaluacin del sistemaExperimentos sobre HIFI-MM1

    Relacin con errores reales:Anomalas!

  • Evaluacin del sistemaExperimentos sobre AV16.3

    Comportamiento irregular: pocos datos

  • ndiceIntroduccin

    Estudio tericoDiseo e implementacinEvaluacin

    ConclusionesLneas futuras

  • ConclusionesAportacionesDefinicin metodologa rigurosa de trabajo:Validacin cruzada (n-fold cross validation)Redes neuronales (early stopping)Desarrollo de aplicaciones y herramientas de soporte:pos2tau, genNNData, makeLoos, tauMume, SRP, MUME, mumeLibExperimentacin:Scripts de soporte para facilitar trabajos posterioresResultados prometedores y anomalas detectadas

  • Lneas futurasRevisin de los resultados y datos en busca de posibles causas de las anomalasUso de nuevos datos de entradaImplementacin de nuevas estrategias en clculo fiabilidad parcialImplementacin de nuevas estrategias de normalizacinExperimentacin con otras BDIntegracin de estimacin de fiabilidad en SRP

  • Estudio terico Problemtica estimacin de posicinReverberacinMayor influencia del ruido aditivoCampo lejano / cercanoDirectividad de los arrays:Aliasing espacial y banda ancha

  • Diseo e implementacin del sistemaEstrategia de experimentacinSolucin: n-fold cross validationValidacin cruzadaLeave-one-out (loo)Criterios de parada (con set de validacin, early stopping) makeLoosBD01234567890123456789TrainValTest01234567890101234567899

  • Evaluacin del sistemaSistema de partidaSistema con buenos resultados (HIFI)

  • Posibles causas de anomalasDistribucin de datos

  • ConclusionesObjetivo fundamentalDisear, implementar y evaluar tcnicas para permitir la obtencin de medidas de fiabilidad en las estimaciones de posicin de locutores, para mejorar los sistemas de localizacin basados en la explotacin de la estructura espacio-temporal proporcionada por agrupaciones de micrfonos

    Primer trabajo del grupo en esa tarea

    El rendimiento de los sistemas de reconocimiento automtico de habla ha crecido espectacularmente en los ltimos aos, siendo capaces de hacer frente a tareas acsticas razonablemente complejas. Sin embargo, hay entornos acsticos donde las tasas de error conseguidas son todava demasiado altas. Si la captura de seal de habla se realiza con micro alejado (dist superiores a 1m) -> Reverberacin + Ruido aditivoEs preferible utilizar un mtodo no invasivo como ste, en el que el locutor no st ligado al micrfono sino que se puede situar a cierta distancia sin que el sistema de reconocimiento de habla deje de funcionar. Para estos entornos, se ha propuesto el uso de arrays1 de micrfonos como un mtodo para mejorar la calidad del habla capturada

    En situaciones en que el locutor est alejado del micrfono adems de la baja relacin seal a ruido aparece tambin la reverberacin. Una manera eficiente de disminuir los efectos de la reverberacin es utilizando un array de micrfonos. En general, lo ms frecuente es que el locutor no tenga una posicin fija sino que se pueda mover por el entorno. Es necesario realizar un seguimiento de la posicin del locutor para aprovechar de manera ptima las caractersticas del array de micrfonos. Por ejemplo, si consideramos el caso de la videoconferencia, la localizacin del locutor puede servir para enfocar el array hacia l para que el lbulo central de la directividadse situe en esa direccin y lograr as la captura de audio de mejor calidad. Adems, la informacin sobre la posicin tambin se puede aprovechar para enfocar la cmara hacia la fuente de sonido. En general, se puede utilizar la localizacin de fuente para centrar la recepcin del array en una direccin determinada y evitar fuentes de ruido u otras seales de audio que no nos interesan.

    Resultados mejores cuanto mayor sea el nmero de micrfonos, siendo especialmente til en presencia de interferencias acsticas. Se han construido arrays de un amplio nmero de elementos (hasta 512), pero se pueden conseguir buenos resultados con pocos micrfonos si se colocan adecuadamente. Otro factor a tener en cuenta es la geometra del array, que deber elegirse en funcin de la habitacin, la situacin que se va a analizar y las condiciones acsticas.

    A estos sistemas se les exige cierta precisin y tambin cierta rapidez para que la localizacin sea efectiva, ya que ha de adaptarse a los movimientos de la fuente en tiempo real. Adems, han de proporcionar una resolucin suficiente capaz de funcionar a una alta tasa de actualizacin.

    Estimacin de la posicin mediante filtrado, ponderacin y suma de las seales capturadasMxima Verosimilitud: Estimador ptimoDirige el array hacia varias direcciones y busca mximos en la potenciaSRP-PHAT:

    Buscan estimacin de potencia de la seal para detectar picosDivide la matriz de correlacin cruzada en dos subespacios utilizando autovalores:SealRuidoDistingue fuentes muy prximas entre sInconvenientes: Diseados para banda estrechaMenos robusto que SRP

    Los mtodos basados en diferencias de tiempo de llegada o TDOA (Time Difference of Arrival) son los ms usados en la prctica. Se descomponen en dos etapas diferentes. En primer lugar, se procesan las seales capturadas por los diferentes micrfonos paraestimar los retardos entre cada par. Una vez finalizada esta etapa, se combinan estos resultados con la geometra del array para generar curvas hiperblicas (en 2D) o superficies hiperboloides (en 3D) cuya interseccin habr que procesar para obtener una estimacin ptima de la posicin de la fuente de sonido. Los mtodos que desarrollan esta tcnica se diferencian entre ellos en su entorno de aplicacin (2D o 3D, campo lejano o campo cercano, etc.), el mtodo de derivacin y la manera de llegar a una solucin. En este proyecto se han implementado las tcnicas correspondientes a 2D y campo lejano. Estas tcnicas funcionan satisfactoriamente frente a ruido estacionario e incorrelado con la fuente de audio a travs de una versin de GCC (visto en 2.4.2) en la que los pesos son funcin de la relacin seal a ruido. Sin embargo, cuando la reverberacin alcanzaunos niveles determinados, los resultados empeoran considerablemente, haciendo queno sean tcnicas fiables. Una manera de tratar la distorsin producida por las versionesretardadas de la seal procedentes de la reverberacin es utilizar GCC-PHAT (ver apartado2.4.2), que aplica un nfasis idntico a cada componente de la fase de la correlacincruzada. De esta manera, reduce adecuadamente algunas de las degradaciones debidasa la reverberacin, aunque tambin acenta las componentes del espectro que tienen unarelacin seal a ruido baja. Es por ello que tiende a proporcionar unos resultados pobrescuando en entornos de poca reverberacin y mucho ruido [Fer79].Por regla general, los resultados mejoran cuanto mayor es la ventana de datos que seanaliza ya que el promedio se realiza sobre una cantidad de datos mayor, haciendo questa sea una medida ms realista. Por ejemplo, en las cmaras auto-dirigidas a la fuentede sonido utilizadas en videoconferencias se aplican tcnicas GCC-PHAT con ventanasde 200-300 miliseg que producen unas estimaciones fiables. Sin embargo, otras aplicacionescomo el seguimiento de mltiples locutores requieren una tasa de actualizacin detan solo 20-30 miliseg, lo que produce que los resultados obtenidos con estimacin deTDOA no sean tan precisos. Por tanto, existe un compromiso entre precisin y actualizacinque deber ser optimizado en funcin de la aplicacin que estemos considerando yque ser estudiado.

    Los mtodos basados en diferencias de tiempo de llegada o TDOA (Time Difference of Arrival) son los ms usados en la prctica. Se descomponen en dos etapas diferentes. En primer lugar, se procesan las seales capturadas por los diferentes micrfonos paraestimar los retardos entre cada par. Una vez finalizada esta etapa, se combinan estos resultados con la geometra del array para generar curvas hiperblicas (en 2D) o superficies hiperboloides (en 3D) cuya interseccin habr que procesar para obtener una estimacin ptima de la posicin de la fuente de sonido. Los mtodos que desarrollan esta tcnica se diferencian entre ellos en su entorno de aplicacin (2D o 3D, campo lejano o campo cercano, etc.), el mtodo de derivacin y la manera de llegar a una solucin. En este proyecto se han implementado las tcnicas correspondientes a 2D y campo lejano. Estas tcnicas funcionan satisfactoriamente frente a ruido estacionario e incorrelado con la fuente de audio a travs de una versin de GCC (visto en 2.4.2) en la que los pesos son funcin de la relacin seal a ruido. Sin embargo, cuando la reverberacin alcanzaunos niveles determinados, los resultados empeoran considerablemente, haciendo queno sean tcnicas fiables. Una manera de tratar la distorsin producida por las versionesretardadas de la seal procedentes de la reverberacin es utilizar GCC-PHAT (ver apartado2.4.2), que aplica un nfasis idntico a cada componente de la fase de la correlacincruzada. De esta manera, reduce adecuadamente algunas de las degradaciones debidasa la reverberacin, aunque tambin acenta las componentes del espectro que tienen unarelacin seal a ruido baja. Es por ello que tiende a proporcionar unos resultados pobrescuando en entornos de poca reverberacin y mucho ruido [Fer79].Por regla general, los resultados mejoran cuanto mayor es la ventana de datos que seanaliza ya que el promedio se realiza sobre una cantidad de datos mayor, haciendo questa sea una medida ms realista. Por ejemplo, en las cmaras auto-dirigidas a la fuentede sonido utilizadas en videoconferencias se aplican tcnicas GCC-PHAT con ventanasde 200-300 miliseg que producen unas estimaciones fiables. Sin embargo, otras aplicacionescomo el seguimiento de mltiples locutores requieren una tasa de actualizacin detan solo 20-30 miliseg, lo que produce que los resultados obtenidos con estimacin deTDOA no sean tan precisos. Por tanto, existe un compromiso entre precisin y actualizacinque deber ser optimizado en funcin de la aplicacin que estemos considerando yque ser estudiado.

    Los mtodos basados en diferencias de tiempo de llegada o TDOA (Time Difference of Arrival) son los ms usados en la prctica. Se descomponen en dos etapas diferentes. En primer lugar, se procesan las seales capturadas por los diferentes micrfonos paraestimar los retardos entre cada par. Una vez finalizada esta etapa, se combinan estos resultados con la geometra del array para generar curvas hiperblicas (en 2D) o superficies hiperboloides (en 3D) cuya interseccin habr que procesar para obtener una estimacin ptima de la posicin de la fuente de sonido. Los mtodos que desarrollan esta tcnica se diferencian entre ellos en su entorno de aplicacin (2D o 3D, campo lejano o campo cercano, etc.), el mtodo de derivacin y la manera de llegar a una solucin. En este proyecto se han implementado las tcnicas correspondientes a 2D y campo lejano. Estas tcnicas funcionan satisfactoriamente frente a ruido estacionario e incorrelado con la fuente de audio a travs de una versin de GCC (visto en 2.4.2) en la que los pesos son funcin de la relacin seal a ruido. Sin embargo, cuando la reverberacin alcanzaunos niveles determinados, los resultados empeoran considerablemente, haciendo queno sean tcnicas fiables. Una manera de tratar la distorsin producida por las versionesretardadas de la seal procedentes de la reverberacin es utilizar GCC-PHAT (ver apartado2.4.2), que aplica un nfasis idntico a cada componente de la fase de la correlacincruzada. De esta manera, reduce adecuadamente algunas de las degradaciones debidasa la reverberacin, aunque tambin acenta las componentes del espectro que tienen unarelacin seal a ruido baja. Es por ello que tiende a proporcionar unos resultados pobrescuando en entornos de poca reverberacin y mucho ruido [Fer79].Por regla general, los resultados mejoran cuanto mayor es la ventana de datos que seanaliza ya que el promedio se realiza sobre una cantidad de datos mayor, haciendo questa sea una medida ms realista. Por ejemplo, en las cmaras auto-dirigidas a la fuentede sonido utilizadas en videoconferencias se aplican tcnicas GCC-PHAT con ventanasde 200-300 miliseg que producen unas estimaciones fiables. Sin embargo, otras aplicacionescomo el seguimiento de mltiples locutores requieren una tasa de actualizacin detan solo 20-30 miliseg, lo que produce que los resultados obtenidos con estimacin deTDOA no sean tan precisos. Por tanto, existe un compromiso entre precisin y actualizacinque deber ser optimizado en funcin de la aplicacin que estemos considerando yque ser estudiado.

    El sistema est compuesto por:Libreras generales

    AplicacionesAnlisis de aspectos del sistemaEstimacin del retardoEstimacin de la posicin

    Scripts de automatizacinEl sistema est compuesto por:Libreras generales

    AplicacionesAnlisis de aspectos del sistemaEstimacin del retardoEstimacin de la posicin

    Scripts de automatizacinAplicacin farfield-tool, permite calcular la distancia del array o apertura lineala partir de la cual se considera que se dan condiciones de campo lejano, segnla frmula que se vi en el apartado 2.17. Se fija la longitud de la apertura o arraylineal y se calculan estos lmites para un rango de frecuencias o longitudes de onda.Los resultados de la ejecucin de farfield-tool son grficas que pueden servisualizadas mediante gnuplot, como la figura 3.2.Aplicacin spatial-aliasing-tool, calcula la mxima distancia entre elementosdel array para evitar el aliasing espacial, segn la ecuacin que vimos en 2.16. Ladistancia se calcula para un rango de frecuencias o longitudes de onda. Al igual queen farfield-tool, el resultado de la ejecucin est pensado para ser representadopor un programa de generacin de grficas como gnuplot, como la grfica 3.3.

    Aplicacin farfield-tool, permite calcular la distancia del array o apertura lineala partir de la cual se considera que se dan condiciones de campo lejano, segnla frmula que se vi en el apartado 2.17. Se fija la longitud de la apertura o arraylineal y se calculan estos lmites para un rango de frecuencias o longitudes de onda.Los resultados de la ejecucin de farfield-tool son grficas que pueden servisualizadas mediante gnuplot, como la figura 3.2.Aplicacin spatial-aliasing-tool, calcula la mxima distancia entre elementosdel array para evitar el aliasing espacial, segn la ecuacin que vimos en 2.16. Ladistancia se calcula para un rango de frecuencias o longitudes de onda. Al igual queen farfield-tool, el resultado de la ejecucin est pensado para ser representadopor un programa de generacin de grficas como gnuplot, como la grfica 3.3.

    Aplicacin farfield-tool, permite calcular la distancia del array o apertura lineala partir de la cual se considera que se dan condiciones de campo lejano, segnla frmula que se vi en el apartado 2.17. Se fija la longitud de la apertura o arraylineal y se calculan estos lmites para un rango de frecuencias o longitudes de onda.Los resultados de la ejecucin de farfield-tool son grficas que pueden servisualizadas mediante gnuplot, como la figura 3.2.Aplicacin spatial-aliasing-tool, calcula la mxima distancia entre elementosdel array para evitar el aliasing espacial, segn la ecuacin que vimos en 2.16. Ladistancia se calcula para un rango de frecuencias o longitudes de onda. Al igual queen farfield-tool, el resultado de la ejecucin est pensado para ser representadopor un programa de generacin de grficas como gnuplot, como la grfica 3.3.

    Aplicacin farfield-tool, permite calcular la distancia del array o apertura lineala partir de la cual se considera que se dan condiciones de campo lejano, segnla frmula que se vi en el apartado 2.17. Se fija la longitud de la apertura o arraylineal y se calculan estos lmites para un rango de frecuencias o longitudes de onda.Los resultados de la ejecucin de farfield-tool son grficas que pueden servisualizadas mediante gnuplot, como la figura 3.2.Aplicacin spatial-aliasing-tool, calcula la mxima distancia entre elementosdel array para evitar el aliasing espacial, segn la ecuacin que vimos en 2.16. Ladistancia se calcula para un rango de frecuencias o longitudes de onda. Al igual queen farfield-tool, el resultado de la ejecucin est pensado para ser representadopor un programa de generacin de grficas como gnuplot, como la grfica 3.3.

    Aplicacin farfield-tool, permite calcular la distancia del array o apertura lineala partir de la cual se considera que se dan condiciones de campo lejano, segnla frmula que se vi en el apartado 2.17. Se fija la longitud de la apertura o arraylineal y se calculan estos lmites para un rango de frecuencias o longitudes de onda.Los resultados de la ejecucin de farfield-tool son grficas que pueden servisualizadas mediante gnuplot, como la figura 3.2.Aplicacin spatial-aliasing-tool, calcula la mxima distancia entre elementosdel array para evitar el aliasing espacial, segn la ecuacin que vimos en 2.16. Ladistancia se calcula para un rango de frecuencias o longitudes de onda. Al igual queen farfield-tool, el resultado de la ejecucin est pensado para ser representadopor un programa de generacin de grficas como gnuplot, como la grfica 3.3.