APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE...
-
Upload
german-ayala-martin -
Category
Documents
-
view
212 -
download
0
Transcript of APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE...
APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA
Autor:Alex Ariel Arias Ríos
Director:Ing. Blanca Elvira Oviedo
Msc.
Aplicación Práctica
Agenda
Contextualización y ProblemáticaSolución propuestaObjetivos TGDesarrollo y ContribucionesConclusiones Trabajos futurosDemo
• Contextualización
Contextualización y Problemática
• Problemática
Contexto
Puente Aranda:
• Localidad ubicada al occidente de Bogotá.
• Tiene aproximadamente 288.890 habitantes.
• Se caracteriza por ser el centro de actividades industriales en Bogotá.
• Ranking de las ciudades más contaminadas de Colombia [1].
• Instituto de Hidrología, Meteorología y Estudios Ambientales
Red de Monitoreo de Calidad del Aire Bogotá (RMCAB)
Contexto
Base de datos de Registros Históricos
• Ozono troposférico (• Material Particulado ()• Dióxido de Nitrógeno ()• Oxidos de Nitrógeno ()• Partículas Suspendidas Totales (PST)• Dióxido de Azufre (
Concentraciones de los contaminantes
• Temperatura• Velocidad de los Vientos• Radiación Solar• Precipitación• Presión atmosférica• Humedad Relativa• Fecha y hora del día
Variables climatológicas Y temporales
• Contextualización
Contextualización y Problemática
• Problemáticao Perspectiva Ambientalo Perspectiva Tecnológica
Problemática – Perspectiva Ambiental
En Latinoamérica, cada año más de 70.000 personas mueren a consecuencia de la contaminación aérea por falta de conocimiento o prevención.
En Colombia cerca de 6.000 personas mueren al año por la contaminación del aire, se afirma que el alto costo de la contaminación no solo deja pérdidas humanas sino también económicas. [5]
Estudios realizados en diferentes partes del mundo demuestran que la exposición a mediano, corto o largo plazo a contaminantes como PM10 y O3 afectan la salud en ámbito cardiovascular y respiratorio, aumentando así la mortalidad prematura[5][6][7].
Estadísticas en Latinoamérica
• Contextualización
Contextualización y Problemática
• Problemáticao Perspectiva Ambientalo Perspectiva Tecnológica
• En la actualidad la RMCAB genera reportes e informes diarios del estado de contaminación en cada estación. Sin embargo estos reportes se muestran de forma numérica y no se sabe si es peligroso o no este reporte y como prevenirlo.
• Se han utilizado técnicas estadísticas (S.D) enfocadas en ST que son de tipo confirmatorio, requieren de un experto para su posterior análisis e implementación.
• Actualmente no hay ningún SI que genere pronóstico y alertas tempranas a la comunidad en Bogotá.
Problemática – Perspectiva Tecnológica
Solución propuesta
Solución propuesta
SI de Alertas tempranas
ContaminantesPM10
O3Pronóstico
• Temperatura• Velocidad de los
Vientos• Radiación Solar• hora del día• Mes • NOX• NO2
Variables de entradaAlertas acerca del estado
Modelos de MD
Modalidad que abarca
Investigativa
Aplicativa
• Objetivo General
Objetivos TG
• Objetivos Específicos
Objetivo General
Encontrar y aplicar técnicas de minería de datos, que permitan hacer relaciones entre variables atmosféricas y variables contaminantes (ozono y material Particulado) para la localidad de Puente Aranda con el fin de definir los valores asociados a eventos extremos de contaminación y desarrollar un prototipo de Sistema de Información de alertas tempranas de contaminación atmosférica a partir de las relaciones encontradas.
Objetivos específicos por fases metodológicas
Objetivos TG
Meto
dolo
gía
CR
ISP D
M
Fase 1 - 2Entender los
datos y el problema
Determinar la información de calidad del aire pertinente para este proyecto, de acuerdo con los datos suministrados por la SDA.
Fase 3 Preparar los datos
Establecer una vista minable, enfocándose en los rezagos en el tiempo que este acentuando la relación entre una variable y otra.
Fase 4 Modelar
Determinar los modelos apropiados de minería de datos para buscar la relación entre las variables atmosféricas y los contaminantes.
Fase 5Evaluar
Validar los resultados que provea el entrenamiento de los modelos de minería de datos con los resultados esperados y seleccionar los modelosde minería con más precisión.
Fase 6Desarrollo Crear un prototipo de Sistema de Información que se integre
con los resultados de los modelos de minería de datos seleccionada.
Metodología CRISP DM
Fase 1 de entender el problema• Plan del proyecto
Fase 2 entender los datos
• Resultados de correlaciones entre los atributos de la BD.• Resultados de las auto-correlaciones entre los contaminantes• Listado de los atributos mas influyentes de la BD.
Fase 3 Preparar los datos
• Listado de las técnicas de minería seleccionadas• Vista Minable de cada técnica
Metodología CRISP DM
Fase 4 Modelar• Modelos generados y aprobados
Fase 5 Evaluar
• Listado de los modelos seleccionados• Creación de la base de conocimiento
Fase 6 Desarrollo• SI Alertas tempranas
Contexto (Background) :
• Definir los stakeholders
• Investigar los recursos disponibles
• Identificar la situación actual
• Investigación de trabajos relacionados.
• Recopilación de información acerca de la calidad del aire.
• Recopilación de información acerca de los conceptos básicos de MD.
• Definir y planear la solución a los riesgos del proyecto
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Recopilación de la base de datos con los registros históricos
Descripción de los datos pertenecientes a los RH
Exploración de los datos
Control de calidad de los datos
Descripción de los datosNombre del Atributo Tipo de variable Tipo de Medición y/o formato
Fecha & Hora Datos Temporales dd/mm/aaaa h:mm
Ozono Continua Partes por billón (Ppb)
PM10 Continua Microgramos por metro cubico (µg/m3)
Velviento Continua Metros por segundo (m/s)
Temperatura Continua Grados celsius (°C)
Lluvia Continua Milímetros (mm)
NO2 Continua Partes por billón (Ppb)
NOX Continua Partes por billón
R_S Global Continua Watts por metro cuadrado ()
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Valores de cada atributo
Atributos de la base de datos Valores ejemplo
Ozono 123.65 – 123.64 ppb
PM10 223 – 224 µg/m3
Velocidad de los vientos 1.2 – 1.3 m/s
Temperatura 12.2 – 12.3 ºc
Radiación solar global 123-124
Precipitación 0 – 0,1 mm
NOX 123.65 – 123.64 ppb
NO2 12.12 – 12.13 ppb
Fecha&Hora 01/01/2002 13:00
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Exploración de los datos
Ozono 𝑃𝑀10
Correlaciones con rezagos de 1 y 2 horas
RadiaciónSG
Temperatura Velocidad de los Vientos
NOX y NO2
Velocidad de los Vientos
Temperatura
RadiaciónSG
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Verificar la calidad de los datos
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Atributo% Campos no
validos % Valores únicos
Ozono 10% 1%
PM10 6% 0%
Vel vientos 2% 0%
Temperatura 1% 0%
Lluvia 4% 0%
R_S Global 6% 0%
NO2 6% 1%
NOX 6% 4%
Objetivo 1 Cumplido
Fase preparación de los datos
Actividades
Integración de la base de datos
Limpieza de datos
Recopilación y selección de las técnicas de MD
Definir conjunto de preparación
Creación de variables derivadas
Creación del formato de los datos para cada técnica de MD
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Criterios de selección de las técnicas de MD usadas
Tipo de información obtenida
Cuál técnica contribuye a cumplir el objetivo
Investigar cuales técnicas no han sido trabajadas comúnmente
Las técnicas son de fácil representación
Forma de validar los resultados
Cubren las tareas de minería.
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Reglas de Asociación (Descriptiva)
Agrupamiento (Descriptiva)
Clasificación por Arboles de decisión (Predictiva)
Técnicas de minería seleccionadas
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
ClasificacionHora (madrugada, mañana, mediodía, tarde y noche)
PromRadiacionSG (mayor a promedio , menor a promedio, promedio)
Hora Pico (si o no)
Fin de semana (si o no)
Trimestres del año (4)
Creación de las variables derivadas
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Variables Ozono, PM10 y NO2 - Índice de la Agencia de protección Ambiental. (Bueno, Moderado y Desfavorable).
Velocidad de los vientos - Escala Beaufort (suave, ventolina, leve, regular y fuerte)
Lluvia - Escala de precipitación
Temperatura - índice de Missenard (Frio, menos tibio y tibio)
Radiación solar y NOX (Categorías de la funcionalidad de Analysis Services)
ClasificacionHora
Trimestres del Año
Formato de los datos para las técnicas de CA y RA
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Vista Minable para reglas de asociación y clasificación
Normalización lineal Uniforme ( 0 y 1)
v’ = (v - min)/ (max – min).
Discretización de los atributos continuos.
Formato de los datos para la técnica de Agrupamiento
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Vista Minable para Agrupamiento
Objetivo 2 cumplido
Fase Modelar
o Selección de los atributos de entrada de la VM
o Configuración de parámetros*
o Ejecución de los algoritmos de cada técnica*
Selección de los atributos de entrada
Función del método de selección de características
Función del método red de dependencias
Consultas con expertos en calidad del aire.
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Método de selección de características
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Variable Objetivo : PM10 Variable Objetivo : Ozono
Modelos generados
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Objetivo 3 cumplido
Fase de Evaluación
Evaluación de cada modelo
Seleccionar los modelos apropiados para implementar la aplicación
Analizar los resultados de los patrones generados
Creación de la base de conocimiento
Evaluación de los modelos
Se dividió el total de registros, en el conjunto de prueba y entrenamiento para conocer la precisión del modelo.(80%)
Los registros históricos del 2013 como segundo conjunto de prueba.
Analizar los resultados generados (comunes) con la experta en calidad del aire.
Se compararon algunos patrones generados por las técnicas con hipótesis de trabajos relacionados con calidad del aire validados previamente.
Se identificaron los patrones comunes extraídos de los modelos creados. Reafirmas la validez de los patrones.
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Selección de los modelos apropiados
Pruebas de rendimiento
Criterio de evaluación calificado en una escala de 1 a 10 teniendo en cuenta que 1 es la puntuación más baja y 10 la más alta.
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
• Vista detallada
Visualización de los patrones encontrados
• Vista gráfica
Visualización detallada
Vista previa modelo CAO3
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Vista previa modelo CAO3
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Modelo CAPM10
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Resultados del conjunto de pruebas
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Objetivo 4 cumplido
Fase de desarrollo
Definir los requerimientos de la aplicación
Crear el prototipo de alertas tempranas
Realizar pruebas funcionales, de usabilidad y de aceptación
Arquitectura MVC
Fase 1 Entender el problema
Fase 2 Entender los datos
Fase 3 Preparar los datos
Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo
Objetivo 5 cumplido
Conclusiones TG
Conclusiones
El objetivo general y los objetivos específicos se cumplieron a cabalidad y esto se ve reflejado en el desarrollo de cada fase metodológica.
Se observó que se pueden encontrar relaciones entre variables que responden a series de tiempo utilizando técnicas descriptivas y predictivas de minería de datos.
En el impacto económico hace que ofrecer un modelo de minería de datos que implica menos costo de operación que otros sea de utilidad para cualquier entidad que tome medidas políticas.
En el impacto tecnológico se basa en el uso de técnicas de Minería de Datos con series de tiempo como una alternativa viable para encontrar relaciones entre variables y pronosticar comportamientos de las mismas.
El impacto ambiental se enfoca en la prevención y cuidado del medio ambiente por medio del SI.
Trabajos futuros
Trabajos futuros
Analizar y si es el caso incluir como atributos de entrada tanto al modelo de minería como al prototipo la humedad relativa.
Replicar los modelos a todas las estaciones de medición de la RMCAB.
Conectar los modelos creados con la base de datos de la RMCAB que guarda los datos en tiempo real.
Prototipo