Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos...

32
Tendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada [email protected] http://www.unicauca.edu.co/~ccobos Universidad del Cauca 16, 17 y 18 de octubre 2019. Ibarra-Ecuador

Transcript of Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos...

Page 1: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Tendencias y Retos en la Minería de Datos

PhD. Carlos Alberto Cobos [email protected]

http://www.unicauca.edu.co/~ccobos

Universidad del Cauca

16, 17 y 18 de octubre 2019. Ibarra-Ecuador

Page 2: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Agenda

• Contexto

• Aplicaciones

• Tendencias• Enfoque multimedia• Basada en localización• De datos temporales y secuenciales• Inteligencia Artificial e Internet de las Cosas• Basada en meta datos• Minería móvil

Page 3: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Contexto

2018 Rank Job TitleJob

Score

Job

Satisfaction

Median

Base Salary

Job

Openings

1 Data Scientist 4.8 4.2 $110,000 4,524

2 DevOps Engineer 4.6 4.0 $105,000 3,369

3 Marketing Manager 4.6 4.0 $85,000 6,439

4 Occupational Therapist 4.5 4.0 $74,000 11,903

5 HR Manager 4.5 3.9 $85,000 4,458

18 Analytics Manager 4.4 3.9 $115,000 1,381

26Database

Administrator4.3 3.8 $94,000 2,370

33 Data Engineer 4.2 3.7 $100,000 2,816

38 Data Analyst 4.2 3.9 $60,000 4,729

Científico de datos 3 años seguidos como el trabajo mejor calificado en USA.

* Basada en Glassdoor

Page 4: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

ContextoHabilidades clave por rol (Inglés, blandas)

Científico de

datos

Analista de

Datos

Ingeniero

de datos

Programación (Python)

Comunicativas (dialogar con expertos del dominio de

aplicación y presentar resultados verbal y

visualmente)

Estadística

Captura (ETL), procesamiento, análisis de datos

estructurados (SQL) y no estructurados (NoSQL y

NLP) y visualización de datos.

Inteligencia artificial (machine learning (Deep

learning))) – aprendizaje supervisado y no

supervisado, reducción de dimensionalidad, análisis

de series temporales

Ingeniería de Software

Matemáticas (cálculo multivariable y algebra lineal)

Page 5: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Contexto• Gartner Group: es el proceso de descubrir nuevas y

significantes correlaciones, patrones y tendencias en grandescantidades de datos almacenados en repositorios usandotecnologías de reconocimiento de patrones así como técnicasestadísticas y matemáticas

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

CRISP-DM

Cross – Industry

Standard Process for

Data Mining

Page 6: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Contexto

• Tareas:• Descripción• Clasificación (~80%)

• Estimación

• Agrupación por similitud (Clustering)• Reglas de Asociación• Análisis de Series Temporales• Detección de valores atípicos (outliers)

Page 7: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Contexto

•Clasificación (Estimación)

Datos de entrenamiento

Necesitamos clasificar

Page 8: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Contexto•Agrupación por similitud (Clustering)

Datos disponibles Datos agrupados

Page 9: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Contexto•Reglas de Asociación

Datos Transaccionales

Reglas

Page 10: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Contexto•Análisis de Series Temporales

Datos de

entrenamiento

Datos ventaneados

Dato a predecir

Page 11: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Aplicaciones

• Identificar prospectos (posibles clientes)

• Escoger el canal de comunicación con los prospectos

• Retener clientes rentables

• Evitar clientes de alto riesgo (hipotecas, créditos)

• Prevenir fraudes

• Recuperar clientes

• Mejorar la satisfacción de los clientes

• Disminuir costos

• Incrementar ventas

• Mejorar la rentabilidad de sus clientes

• Venta cruzada (cross-selling) e venta mejorada (up-selling)

• Retener talento humano

• Definir líneas de capacitación y retención de talento humano

• Gestión de la cadena de suministro

Page 12: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Aplicaciones

• Industrias donde aplica:• Banca• Seguros• Telecomunicaciones• Venta al por menor (e-commerce)• Venta al por mayor• Turismo• Educación• Salud• Manufacturera• Astronomía• Bioinformática• …

Gente

Deptos.

AdministrativosAuditoria

Deptos.

Operativos

Productos

Otros

Proveedores

Clientes

Page 13: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Tendencias

“Ser tan ubicua como las tecnologías más usadas hoy en día”

1. Enfoque multimedia• Imágenes (Facebook, Instagram), videos (YouTube), texto, hipertexto, audio, etc.

2. Basada en localización• La ubicación y los datos geográficos cada día son más importantes.

3. De datos temporales y secuenciales• Ciclos de uso y comportamientos basado en tiempo

Page 14: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

Tendencias

“Ser tan ubicua como las tecnologías más usadas hoy en día”

4. Inteligencia Artificial e Internet de las Cosas• Muchos más datos de diversas fuentes (sensores)• Integración con otras técnicas. IA incluye entre otros, las redes neuronales (Deep learning), lógica

difusa, metaheurísticas, sistemas basados en conocimiento y procesamiento de lenguaje natural.

5. Basada en meta datos• Minería de datos sobre fuentes que incluyen datos que son resultados de previos trabajos de

minería de datos

6. Minería móvil• Minar datos recopilados en dispositivos móviles (todo mundo tiene uno) sin violar la Regulación

General de Protección de Datos

Page 15: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

1. Enfoque multimedia• Minería de datos en un Centro de Atención Telefónica Empresarial

BD Relacional

TextoVoz Representación

de voz

Representación

de datos

Representación

unificada

Algoritmo de

clasificación

K-NN

SVM

MLP

Naïve Bayes

Random

Forest

C 4.5

Page 16: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

1. Enfoque multimedia• Minería de datos para diagnostico médico

Historia clínica:

Estructurada + No

estructurada

Imagen Representación

de Imagen

Representación

unificada de

historia clínica

Representación

unificada

MedicoAlgoritmo de

clasificación

K-NN

SVM

MLP

Naïve Bayes

Random

Forest

C 4.5

Page 17: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

1. Enfoque multimedia

• Retos• Preprocesamiento de cada fuente de datos es diferente

• video, imagen, sonido, texto – no estructurado-, datos semiestructurados, datos estructurados

• En ciertos casos, las herramientas de procesamiento deben ser especializadas de acuerdo al contenido de la fuente• tumores en radiografías, • rompimiento de ligamentos en ecografías, • sentimientos basado en el tono de la voz

• Integración de los datos en una vista minable • representaciones no compatibles• alta dimensionalidad (PCA, W2V, SVD, otros)

Page 18: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

1. Enfoque multimedia• Recuperación de Procesos de Negocio

Start_TaskUser,

TaskUser_ExclusiveDecision,

ExclusiveDecision_TaskService

ExclusiveDecision_TaskService

Page 19: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

1. Enfoque multimedia• Selección de Atributos (reducción de dimensionalidad)

Page 20: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

1. Enfoque multimedia• Avances

• Deep Learning (Redes Neuronales Profundas) en Imágenes

Page 21: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

• Avances– Deep Learning (Redes Neuronales Profundas) en Imágenes

1. Enfoque multimediahttps://cloud.google.com/vision/

Page 22: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

1. Enfoque multimedia• Avances

• Deep Learning: De Voz a Texto

37%

18%

9%

0%

5%

10%

15%

20%

25%

30%

35%

40%

Sphinx-4 Microsoft SpeechAPI

Google SpeechAPI

Word Error

Comparación publicada en 2017 Comparación publicada en 2018

Microsoft Bing Speech API

Amazon Lex

Dragon Speech

Google Cloud Speech API

AV Voice Changer

Page 23: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

2. Basada en localización• Encontrar el restaurante más apropiado a una situación especifica

• Cercanía: localización actual del cliente y del restaurante

• Estilo del restaurante• Experiencias previas con el

restaurante o similares• Menú (carta) disponible y costos• Comentarios de otros clientes• Seguridad de la zona• Tiempo real:

• Disponibilidad en el restaurante• Antojos• Dinero disponible• Transporte disponible

Page 24: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

2. Basada en localización• Predicción de desastres (inundaciones en India, terremotos,

tsunamis, incendios, deslizamientos)

El modelo predice dónde y cuándo se producirán inundaciones.Envía alertas a las Entidades Responsables de la Gestión del Riesgo. Usa datos georreferenciados de lo ocurrido en el pasado (niveles de los ríos, tipo de terreno, altitud del área, entre otros) e información obtenida en tiempo real.

Page 25: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

2. Basada en localización• Retos

• Gestión dinámica de la dimensiones (columnas) de la vista minable• Los productos cambian con el tiempo

• Captura de información en tiempo real• Costos y disponibilidad de los dueños de los datos en actualizar la

información

• Cada tarea (clasificación, estimación, agrupación y asociación) es muy especifica … generalización?• Predecir inundaciones no es igual a predecir tsunamis• El servicio para recomendar restaurantes no es igual a la búsqueda

de hotel o al alquiler de autos

Page 26: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

3. De datos temporales y secuenciales• Predicción del clima (temperatura, precipitaciones,

viento) … exactitud de la predicción, otras variables

Page 27: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

3. De datos temporales y secuenciales• Definir que hacer en la bolsa de valores o en la

compraventa de monedas

Page 28: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

3. De datos temporales y secuenciales• Predicción de diversas variables climáticas … calidad de aire

Fecha (hora)

Temperatura

Humedad

Punto de Rocío

Viento

Presión

Lluvia

Radiación Solar

Evo transpiración

Variable objetivo a 6 horas

24 Temperaturas previas

24 Humedades previas

24 Puntos de Rocío previos

24 Vientos previos

24 Presiones previas

24 Lluvias previas

24 Radiaciones solares previas

24 Evo transpiraciones previas

ClasificadorClasificador(Temperatura)

Correlación Error Absoluto Normalizado

7-NN 0,8711 0,0655

Random Forest 0,8900 0,0612

varias estaciones

de bajo costo en

la ciudad

Vantage Pro2

4 meses

Page 29: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

3. De datos temporales y secuenciales• Retos

• La captura de mayor cantidad de datos, desde sensores en el sitio (localización)• Internet of things (IoT) con sensores de bajo costo y técnicas

tradicionales de minería de datos que pueden mejorar la calidad de la predicción

• Almacenamiento de datos en la nube (costo) -> acceso libre -> nuevas aplicaciones Smart City

• Las técnicas tradicionales de minería de datos solas NO son suficientes• Deep Learning y Reinforce Learning muestran los mejores

resultados a la fecha en trading … integrar AI

Page 30: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

4. Inteligencia Artificial e Internet de las Cosas• Optimización del rendimiento de los cultivos de maíz

(32) 21 Prácticas agrícolas

2 Geolocalización

1 Rendimiento (MASAGRO)

+ 8 Clima (INIFAP)

+ 8 Suelo (INEGI + GIS)

383 granjas x 37 variables

Chiapas 2012-2016

Ranking Model RMSE R2

1 Random Forest (RF) 0.8702 0.7417

2 Ensemble (RF, CF, MLP) 0.8800 0.7370

3 Conditional Inference Forest (CF) 0.9958 0.6584

4 Linear Multiple regression (LM) 1.1314 0.5763

5 Multi-Layer Perceptron (MLP) 1.1702 0.6075

Minería de datos

clásica con

CRISP-DM

Optimización basada en la

Mejor Búsqueda Armónica Global

Avg. +1.770 ton/ha

Page 31: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

4. Inteligencia Artificial e Internet de las Cosas

• Retos• El conocimiento requerido cada vez es más amplio / el

trabajo colaborativo cada vez es más necesario• Sistemas expertos• Redes Neuronales y Deep Learning (CNN, BRM, RNN, …)• Lógica difusa• Optimización basada en metaheurísticas• Reinforce Learning• Sistemas IoT (hardware -> gestión)• Procesamiento distribuido

• Como Inteligencia artificial, ciencia de datos, ingeniería de datos se incluyen en los currículos

Page 32: Tendencias y Retos en la Minería de DatosTendencias y Retos en la Minería de Datos PhD. Carlos Alberto Cobos Lozada ... difusa, metaheurísticas, sistemas basados en conocimiento

GraciasCarlos Alberto Cobos L.

[email protected]

Universidad del Cauca