Mineria de Datos

Rafael Zamora Garrido

Julio 2009

2

Ejemplos de objetivos de Minería de Datos

Reducir las bajas de clientes actuales en un 5%.

Aumentar las contrataciones de nuevos clientes en un 8%.

Aumentar la facturación de venta cruzada de productos a clientes actuales en un 3%.

Predecir los clientes más propensos a contratar un nuevo producto con un 75% de precisión.

Predecir qué clientes nos abandonarán en los próximos 6 meses.

3

¿Qué es Data Mining?

La minería de datos es un proceso de análisis de datos cuyo objetivo es la identificación y extracción de conocimiento a partir de los datos.

La minería de datos analiza datos con herramientas sofisticadas, que permiten la búsqueda de relaciones complejas en los datos.

La minería de datos se caracteriza por el descubrimiento de nuevo conocimiento, la cual contrasta con el enfoque de SQL, por ejemplo, que se limita a procesar y presentar los datos ya existentes en la base de datos.

4

¿Qué es Data Mining?

Estadística clásicaAlgoritmos de aprendizaje

para clasificación y predicción

Exploración de datos usando herramientas para su visualización gráfica y manipulación (Weka)

La minería de datos utiliza diversas técnicas para analizar y

procesar los datos:

5

Técnicas de Minería de Datos

Clustering

El objetivo del clustering es definir grupos (o clusters) dentro de los

cuales los casos (o los clientes) sean lo más parecidos posible. Por otra

parte, los diferentes clusters deben ser, entre sí, lo más distintos posible.

Ejemplo:

Podemos definir dos clusters: los clientes más rentables y los clientes menos rentables. Dentro

del cluster de los clientes más rentables, todos los clientes deben tener una rentabilidad por

encima de un determinado umbral.

Segmentación

La segmentación es la división (o partición) de la totalidad de los datos en segmentos, según

determinados criterios.

Ejemplo: Clientes de banca

Como ejemplo de segmentación, podemos considerar una base de datos de clientes de banca. Una segmentación útil sería en términos de

rentabilidad: podríamos identificar tres grupos, los más rentables, los de rentabilidad media y los menos rentables. Para cada grupo

podríamos identificar una serie de características. Por ejemplo, en el grupo de los clientes más rentables, la media de edad del cliente es de

49 años, mientras que en el grupo de los clientes menos rentables, la media de edad es de 27 años..

Nota: No hay que confundir clustering con segmentación. La segmentación se usa para identificar grupos que tienen características comunes.

6


Clasificación

Consiste en examinar las características de una entidad nueva y asignarle una clase predefinida. Por

ejemplo: Clasificar a un nuevo cliente según su riesgo de crédito (alto, medio, bajo).

Ejemplo:

Un ejemplo de una técnica de clasificación es la inducción de reglas; otro ejemplo es la red neuronal.

La inducción de reglas

La inducción de reglas crea un modelo construido a partir de reglas tipo if-then-else (si-entonces-si no). En general funciona tanto para

valores numéricos como para valores categóricos. Los modelos tienen una serie de variables de entrada y una o más variables de

salida, pero en contraste con las redes neuronales, se puede ver cómo llegan al resultado o salida.

Por ejemplo, un modelo muy sencillo tendría tres variables de entrada, edad, estado civil, cuenta de ahorro, y una de salida, contrata

hipoteca.

Las dos reglas de proceso (el modelo de datos) podrían ser:

"Si edad es entre 18 y 40 años y

estado civil es casado

y cuenta de ahorro = si

entonces contrata hipoteca

⇒ si (18450,78%)"

o

"Si edad es mayor de 40 años

y estado civil es casado

y tiene cuenta de ahorro = no

entonces contrata hipoteca

⇒ no (17490,66%)".

7


Predicción

A partir de un conjunto de datos históricos con resultado conocido, se pretende modelizar estos datos

para conocer resultados futuros.

Ejemplo:

Los clientes más probables a comprar un nuevo producto,

el pronóstico de un paciente,

las agrupaciones de clientes más rentables, etc.

Un modelo predictivo tiene unas variables de entrada, tiene una o más variables de salida, y tiene un proceso intermedio que actúa sobre

las entradas para producir la salida.

Variables

de EntradaProceso Variables

de Entrada

Asociación

Las asociaciones se identifican basándose en frecuencias entre los casos.

Se pueden identificar manualmente, pero hay herramientas que pueden hacerlo de

forma automática.

Es una técnica particularmente útil en el análisis tipo "cesta de la compra" de

ventas en supermercados y tiendas en general, y permite identificar productos que se

suelen comprar juntos.

8

Modelos CRM

Propensión de Compra Prospección de clientes nuevos. Identificar a los clientes más propensos en comprar

producto/servicio.

Venta Cruzada Clientes actuales, potenciar sus compras, ofrecerles otros productos/servicios.

Retención Identificar clientes con más riesgo de darse de baja y realizar acciones para

retenerles.

Otros Modelos • Win-Back: Recuperar clientes inactivos

• Detección de fraude: Identificar patrones atípicos

• Estudios de casuística: Identificar perfiles que diferencian a los clientes (regalo,

descuento)

9

Creación de Modelos de Datos

Definición de un objetivo de

negocio

Definición de un conjunto de

datos

Selección de variables

Análisis de los datos usando

diferentes técnicas.

Creación de modelos de

datos

Pasos para la creación de modelos de datos:

Ahora deberíamos disponer de un

conjunto de datos con las

variables seleccionadas, que

podríamos dar como entradas a

las técnicas de modelización

10

Ejemplo creación de Modelos de Datos

Las dos reglas de proceso (el modelo de datos) podrían ser:

"Si edad es joven

y estado civil es soltero

y tiene vivienda propia = no

entonces compra coche deportivo

⇒ si (1500,65%)"

o

"Si edad es mediana

y estado civil es casado

y tiene vivienda propia = si

entonces compra coche monovolumen

⇒ si (2800,72%)"

Ejemplo (Proceso de inducción de C4.5)

Suponemos que disponemos de un fichero de datos de

clientes con una serie de variables descriptivas sobre

ellos: edad; estado civil con posibles valores casado,

soltero, divorciado, viudo y sin especificar; vivienda

propia con posibles valores sí y no.

Para cada cliente, también disponemos de una variable

de salida que indica el tipo de coche que ha comprado

con posibles valores coche deportivo, monovolumen, etc.

La idea es entrenar un modelo predictivo con estos datos

para que sea capaz de predecir con una alta precisión el

tipo de coche que una persona comprará, únicamente a

partir de los datos de entrada.

La inducción de reglas crea un modelo construido a partir

de reglas tipo "if-then-else" (si-entonces-si no). En general

funciona tanto con valores numéricos como para valores

categóricos. Los modelos otra vez tienen una serie de

variables de entrada y una o más variables de salida, pero

se diferencian de las redes neuronales en que se puede

ver cómo llegan al resultado o salida. Suponemos que

hemos dado los datos de entrada a la técnica C4.5, y ha

producido un modelo de datos predictivo a partir de ellos.

Por ejemplo, un modelo muy sencillo tendría las tres

variables de entrada, edad, estado civil, vivienda propia, y

una de salida, compra coche tipo....

11

Muchas gracias

Mineria de Datos

Technology

Transcript of Mineria de Datos