Minería de Datos: Qué significa realmente y ejemplos de utilización

Julio Iglesias12 Junio 2014

Cuando Nemo encontró a (su) patrón

Minería de datos

Definición y características

Algoritmos

Metodología

• Demos

Objetivos y agenda

Cuando Nemo encontró a su patrón

Evolución

Informes

barras verdes

Herramientas

primarias

Documentar

el negocio

E-comm

Merchandising

analítico

Reporting

Basado en

Data Mining

1990s1980s

Primeros DWs

Data Marts

Hojas de cálculo

Informes

Big Data

Data Streaming

Comprender

el negocioMejorar

el negocioPredecir

el negocio

Qué pasa

con el negocio

TECNOLOGIAS QUE PERMITEN “ABSTRAER” LA INFORMACION EN CONOCIMIENTO

Tecnologías de BI

¿Qué buscamos?

Análisis Predictivo

Predictive Analysis

Presentation Exploration Discovery

Passive

Interactive

Proactive

Role of Software

Business

Insight

Canned reporting

Ad-hoc reporting

Data mining

Self-service Analysis

(What)

(Where)

CUANDO

(When)

(Which)

POR QUE?

Otras tecnologías de BI no dan respuesta…

Minería de datos

Extracción y análisis de información oculta y predecible de grandes bases

de datos mediante identificación de modelos, patrones y relaciones.

Definición

También conocida por (KDD- Knowledge Discovery in Databases)

Ejemplo supermercado

Mediante el Data Mining seremos capaces de realizar acciones

específicas y personalizadas:

• Descubrir patrones de comportamiento

• Fidelizar a los “mejores” clientes

• Motivos de éxito o fracaso de un nuevo producto/medicamento

• Distinguir los clientes/pacientes potencialmente más compradores o usuarios

de un servicio/producto

• Predecir automáticamente los comportamientos y futuras compras de un

cliente comparando con clientes del mismo perfil

• Detección de fraude

• Conocer las características de los clientes desvinculados y sus motivos de

abandono

• Qué productos tienden a venderse con otros

• ¿A qué grupos de clientes debo lanzar una campaña específica?

• …

Posibles utilidades

Minería de datos

Componentes

Algoritmos(estadística)

Datos Modelo

Datos, necesito datos….

Tarjetas perforadas5 ¼

3 ½ 20 Mb

100 Mb

600 Mb

1 Gb4 Gb

4,7 Gb

<20 años 1 millón

Evolución capacidad

Datos, necesito datos…

Datos, muchos datos…

Algoritmos

Algoritmos(estadística)

Conjunto de herramientas y

técnicas para buscar

patrones.

Componente estadística

Algunos pueden producir

más de un resultado

Utilizar diferentes

algoritmos para diferentes

tareas

Combinar algoritmos para

solucionar un problema

particular

Decision Trees

Naïve Bayesian

Clustering

Sequence Clustering

Association Rules

Neural Network

Time Series

Algoritmos de minería

Qué clientes comprarán un determinado producto con una

probabilidad X?

Clasificación (Predicción)

Probabilidad de que un cliente tenga un determinado perfil?

Segmentación

Recomendar un producto a un cliente que realiza una determianda

compra

Asociación

Probabilidad de que un cliente compre un producto en el futuro

Predicción de secuencias

Predecir la venta de los próximos 5 meses y su error

Forecasting

Escenarios

√ √ √ √ √ √

√ √ √ √ √

√ √ √

√ √ √ √ √ √

√ √ √

Classification

Regression

Segmentaion

Assoc. Analysis

Anomaly Detect.

Seq. Analysis

Time series

√ - second choice√ - first choice

¿Cuál escoger?

Algorithm Description

Decision Trees Finds the odds of an outcome based on values in a training set

Association Rules

Identifies relationships between cases

Clustering Classifies cases into distinctive groups based on any attribute sets

Naïve Bayes Clearly shows the differences in a particular variable for various data elements

Sequence Clustering

Groups or clusters data based on a sequence of previous events

Time Series Analyzes and forecasts time-based data combining the powerof ARTXP (developed by Microsoft Research) for short-term predictionswith ARIMA (in SQL 2008) for long-term accuracy.

Neural Nets Seeks to uncover non-intuitive relationships in data

Linear Regression

Determines the relationship between columns in order to predict an outcome

Logistic Regression

Determines the relationship between columns in order to evaluate the probability that a column will contain a specific state

Algoritmos/Técnicas

Veamos algunos ejemplos…

Arboles de decisión

262626

Arboles de Decisión (modelos predictivos)

Son útiles para predecir el valor de ciertos valores

a partir de otros datos

Se realiza una clasificación, empezando por los atributos más

significativos hasta terminar por los menos significativos.

De esta manera es posible establecer una serie de reglas

sobre qué factores (atributos) afectan a cada caso del modelo

y tener una base a partir de la cual estimar como responderán

otros casos en el futuro (predicción)

Riesgo

Crediticio

CasadosBajo : 55%Alto : 45%

SolterosBajo : 45%Alto : 55%

AsalariadosBajo : 65%Alto : 35%

CasadosBajo : 45%Alto : 55%

SolterosBajo : 40%Alto : 60%

AutónomosBajo : 50%Alto : 50%

Deudas BajasBajo : 80%Alto : 20%

Deudas Altas100%

Todos100%

Componentes

Arboles de decisión

Asociación

Amazon y Netflix

Amazon: 35% de las ventas del producto

provienen de recomendaciones

Netflix: 75% del streaming de vídeo

viene de recomendaciones

Asociación

Cesta compra

Navegación Web

Componentes

Asociación

Series temporales

Análisis de Series Temporales

Se utilizan para hallar predecir el comprotamiento de variables que

dependen del tiempo.

Se necesita una base de datos histórica.

Se utiliza para la pevisión de demanda o stocks en un almacén o

para la previsión del número de periódicos a enviar a un quiosco, etc.

tiempo

Ene Feb Mar Abr May Jun Jul Aug Sep Oct Nov Dic Ene

PresentePasado Futuro

Series temporales

Componentes

Previsión

Clústering

Clustering

Utilizado para realizar agrupaciones de registros de acuerdo a

características comunes, obteniendo grupos de registros con

comportamiento o características parecidas entre entre ellos y

diferenciadas con los otros grupos..

El clustering es útil especialmente para realizar tareas de Marketing

tales como segmentación de clientes.

Clase1

Clase2Clase3

Ingresos anuales

Clase1

Clase2Clase3

Ingresos anuales

Clase1

Clase2Clase3

Ingresos anuales

Clustering

Clústering

Componentes

Clustering

No todo es comercial….

Componentes

Breast Cancer

Modelo

¿ Como se realiza el proceso de DM ?

Modelo

MotorDM

Datosa tratar

MotorDM

Datos tratados

Datos deentrenamiento

Modelo

Creación de un modelo

Uno de los pasos más importantes en un estudio es obtener la

base de datos para el estudio.

Las bases de datos o muestras de estudio no sólo se elaboran con

información interna de la empresa, sino que muchas veces se

necesita de información externa.

Si no se dispone de la información correcta o de la información

necesaria, el estudio o análisis puede resultar un fracaso o inducir a

conclusiones equivocadas. Importante dedicar un extenso tiempo en

obtener la información y también en validarla.

A tener en cuenta

El siguiente paso a realizar para obtener la base preparada para el

estudio es realizar unos procesos de calidad de los datos y de la

muestra.

• Comprobar que la muestra sea representativa (que represente a la población

que queremos analizar)

• Conocer cómo se han obtenido los datos, si han sido tratados o

manipulados con anterioridad, etc.

• Que no haya valores o registros erróneos

• Que no haya valores perdidos o missing

• …

Todos aquellos registros erróneos no se deben tener en cuenta en el

estudio.

Calidad de los datos

Estandarización Puntos de Tiempo

• Examinar los últimos meses antes de abandono

• Abandono de diferentes clientes ocurren en diferentes momentos

Interpretar los resultados

Resumen

Interpretar los resultados

“…no disponer de la información correcta / necesaria,

puede ser peor…”

Cuando Nemo encontró a (su) patrón

“…no disponer de la información es malo…”

Correlación vs Causalidad

La causalidad es una relación entre un evento (causa) y un segundo

evento (efecto), en la cual el segundo evento se entiende como

consecuencia del primero

Causalidad

Se considera que dos variables cuantitativas están correlacionadas cuando

los valores de una de ellas varían sistemáticamente con respecto a los

valores homónimos de las otras.

Correlación

Correlación vs Causalidad

http://www.tylervigen.com/

He visto la luz… ¿?

Conclusiones

• No es ciencia ficción, pero hay que trabajarlo

• VOLUMEN: Grandes volúmenes de datos.

• Minería no es necesariamente Big Data

• ALGORITMO:

• Cada algoritmo pudiera necesitar la información de entrada de una forma

determinada.

• Respuesta = ¿+? De un algoritmo

• INTERPRETACION: Se deben hacer preguntas concretas y saber interpretar las

respuestas.

• MODELO: Importante contar con alguien experto en el tema para validarlo

• MADUREZ en la empresa en proyectos de BI

www.eug.es

julio.iglesias@eug.es

Minería de Datos: Qué significa realmente y ejemplos de utilización

Technology

Transcript of Minería de Datos: Qué significa realmente y ejemplos de utilización

Un Saber Realmente Util

Qué Significa Calidad Realmente

¿ES REALMENTE NECESARIA

Gluten y etiquetado de alimentos · impide la absorción de nutrientes vitales, ... significa realmente esa declaración en las etiquetas de los alimentos. ... salvo en el caso de:

¿Somos realmente sustentables?

(2) ¿Qué Somos Realmente

Año 36 2014 número 4 - rosacruzaurea.org · presentó a Europa un espejo de moralidad y Paracelso demostró lo que significa realmente el verdadero servicio al prójimo. Lo que

Cuaderno de Morfología - IES FLORIDABLANCA Murcia · Interjección significa “intercalación”, y eso es realmente la interjección: algo que se injerta en una estructura oracional

Tomar partido...Odio a los indiferentes. Creo que “vivir significa tomar partido”. No pueden existir quienes sean solamente hombres, extraños a la ciudad. Quien realmente vive

Imagenes realmente espectaculares

G CONSEJERÍA DE SALUD Y BIENESTAR … cuidados ni profundizar en el juicio enfermero, pero si nos parecía importante identificar la prescripción con lo que realmente significa para

Dónde compites realmente

GUÍA DIDACTICA Éxito para perdedores 2012 · significa en el fondo emprender, realmente consigue trasladarte al corazón de un emprendedor que en poco tiempo pasó de un gran éxito

Cuaderno de Morfología - Enseñar es un ejercicio de … · Interjección significa “intercalación”, y eso es realmente la interjección: algo que se injerta en una estructura

Marzo 2017 - Fedearrozentes gubernamentales, quienes deben recapacitar sobre lo que realmente significa la vocación agrícola del país y sobre la defensa que debe hacerse de cualquier

Minería en el Perú. Contenido 1.Presentación: ¿Qué le significa al Perú la Minería? 2.Recursos: ¿Qué tiene? 3.Diagnóstico: ¿Cómo está? a)La escala empresarial:

Enseñanzas de la Biblia Popular...trabajode mayordomía. La palabramayordomo realmente significa “administrador”. Enla Biblia, unmayordomo es alguien que administra una casa para

Www.drsforamerica.org La Nueva Ley de la Nueva Reforma de la Salud: ¿ Qué Significa Realmente? ANNA LIZAMA, MD.

Lectura Crítica. SIGNIFICA SIGUIENTE ESTO SIGNIFICA ANTERIOR ESTO SIGNIFICA CLIC ESTO INICIO.

Ori: ¿Realmente una Deidad?