Técnicas Avanzadas de Data Mining

8/18/2019 Técnicas Avanzadas de Data Mining

1/80

1

Técnicas Avanzadas de Data Mining

Comunidad Analytics Cono SurSAS Educación


2/80

2

Agenda

¿Porqué deberías conocer técnicas avanzadas de

Data Mining?

¿Qué aportan a los análisis tradicionales?

¿En qué escenarios deberían usarse?

¿Cuáles son las bondades y limitaciones?


3/80

3

Agenda

Hace ya mucho que existe una variedad de técnicas

avanzadas de data mining que aportan valor más allá

de las clásicas regresiones.

Sin embargo, encontramos que en el día a día se

usan muy poco o por debajo de sus posibilidades.

Creemos que estas técnicas son un valioso aporte a

la “caja de herramientas” de cualquier Profesional de

Analytics


4/80

4

Temario

Falacia del libro de cocina y sus consecuencias

Usos inapropiados de las técnicas tradicionales:

regresion logística

Usos insuficientes de las técnicas tradicionales: reglas

de asociación

Errores de concepción de las técnicas tradicionales:

redes neuronales

Necesidad de un upgrade al data mining “tradicional”: Análisis de supervivencia y Análisis de redes sociales

(SNA)


5/80

5

Falacia del libro de cocina

Data Mining consiste en seleccionar y aplicar una

herramienta apropiada al problema

Data Mining, en tanto disciplina, no sería más que un

conjunto de “herramientas”

Esta creencia errónea suele ser propiciada por la mayoría de los libros de texto, por las

curricula de carreras universitarias relacionadas con estos temas e incluso por la propia práctica de los

profesionales de Analytics.


6/80

6

La falacia es incorrecta porque…

Las herramientas no se encuentran

aisladas entre sí. Más bien mantienen

relaciones complejas en la forma de clases

generales de técnicas y otras más

específicas. La base de estas relaciones es

el cuerpo de conceptos de la estadística.

Raramente un problema hace posible que

sea suficiente la única y exclusiva

aplicación de un solo método o elparadigma ingenuo de “modelo ganador”

Ejemplos de algunas relaciones: el análisis de varianza es un modelo lineal, al igual que

el análisis de regresión; los modelos lineales son un caso especial de los modelos lineales generalizados y

también del modelo lineal general (extensión multivariada); la regresión logística es un modelo lineal

generalizado y es también una forma simple de red neuronal (perceptrón simple); los modelos aditivosgeneralizados generalizan de un modo diferente; los métodos no paramétricos relajan algunos de los

supuestos de los tests paramétricos clásicos, etc. Las técnicas de modelización pueden conceptualizarse

según su ubicación respecto de algunos ejes conceptuales como modelización local vs. global, el tipo de

búsqueda de un modelo “apropiado”, e incluso una dimensión inducción-deducción.


7/80

7

Consecuencias de la falacia

Uso inapropiado de técnicas

Uso insuficiente de técnicas

Errores de concepción sobre las técnicas

Aplicación de técnicas inapropiadas: necesidad de un

“upgrade”

En síntesis, el conocimiento y aplicación de las

técnicas tradicionales carece de “profundidad”conceptual y de eficacia práctica


8/80

8

Entonces, que son “ técnicas avanzadas”

Conocimiento y aplicación de las técnicastradicionales con suficiente “profundidad”, lejos delparadigma ingenuo de “modelo ganador”.

Métodos que intentan superar las limitaciones de lastécnicas “tradicionales”:

– Supuesto de observaciones independientes entresí

– Análisis exclusivamente de atributos norelacionales

– El objetivo es minimizar los errores deentrenamiento (lleva a MLE)

– En un contexto de un conjunto limitado de datos,resolver un problema más general


9/80

9

Entonces que son “ técnicas avanzadas”

Los casos son

independientes entre sí

Atributos no relacionales

El objetivo es minimizar

los errores de

entrenamiento (lleva a

MLE)

y, en un contexto de un

conjunto limitado de

datos, resolver un

problema más general

Incluir en la

modelización las

relaciones entre los

casos y entre atributos

Formular una nueva

teoría estadística del

aprendizaje y generar

algoritmos simples en

base a ella

Técnicas tradicionales Técnicas avanzadas


10/80

10


Los casos son




los errores de


MLE)



datos, resolver un


Data Mining Relacional

– Modelización de sucesos en

el tiempo (Análisis de

supervivencia)

– Modelización de relaciones

(SNA y otros)

Nueva teoría estadística

del aprendizaje

– Principio de minimizacióndel riesgo empírico

– Estimación de una función

en base a un conjunto

limitado de ejemplos



11/80

11


Los casos son




los errores de


MLE)



datos, resolver un


Nuevos paradigmas

conceptuales

Nuevos métodos

– Grafos de vínculos

– Curvas de riesgo

– SVM

– Etc.



12/80

12

Ejemplos


13/80

13

Usos inapropiados de las técnicastradicionales: regresión logística

logit(p) p

1

0x1

x2 x1x2

0


14/80

14


La regresión logística es una técnica paramétrica de

modelización

Es decir, adopta supuestos sobre la distribución de las

variables involucradas

Un supuesto de la regresión logística es que la relación

entre la variable target transformada (el logit) y las

variables predictoras es lineal Consecuencia de vulnerar el supuesto de linealidad:

Deterioro de la capacidad predictiva del modelo


15/80

15


En el análisis de regresión es una práctica estándar

examinar gráficos de dispersión de la variable target contra

cada variable predictora

Cuando la variable target es binaria estos gráficos no son

apropiados


16/80

16

Logits empíricos

donde

mi= número de eventos

M i = número de casos

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

+−

+

2

2lni

ii

i

i

M m M

M m


17/80

17

Gráficos de logits empíricos

Verificar linealidad

17


18/80

18

Gráficos de Logits Empíricos

Si el supuesto de linealidad del modelo de regresión se satisfice, todos los

gráficos aparecerían como líneas aproximadamente rectas. Por lo menos, los suavizamientos

LOESS (“Predicted Elogit”) de los logits empíricos graficados (“Elogit”) serían rectos. Esto no

ocurre para algunas variables como GiftCnt36 , DemMedHomeValue y PromCntCard12.


19/80

19


Patrón asociado con variables sesgadas. Binning de la variable y su linealización.


20/80

20



21/80

21


Relación cuadrática de la variable PromCntCard12 con el logit. Un binning de

la variable no alcanza para generar una relación lineal. Entonces, incluir la variable al cuadrado

en la regresión.


22/80

22


La generación de estos gráficos debe hacerse luego

de una etapa de selección de variables y anterior a la

generación del modelo de regresión logística (el

cálculo es costoso como para hacerlo para gran

cantidad de variables)

No existe un nodo del Miner que genere estos

gráficos

Deben realizarse con código


23/80

23

Usos insuficientes de técnicas tradicionales:análisis de reglas de asociación


24/80

24

Paradigma general

Generar reglas de asociación limitando soporte y

confianza

Seleccionar las reglas “interesantes” usando lift,

confianza y soporte

Usar la lógica del ítem ausente: recomendar el ítem

ausente en una regla aplicada a un segmento de

clientes


25/80

25

Problemas y limitaciones del análisis dereglas simples

La cantidad de reglas obtenidas es función de la

cantidad de transacciones, la cantidad de ítems y la

composición de las transacciones

Cuanto mayor el número de reglas obtenido, más

difícil es la selección de las reglas útiles o relevantes

Para la selección se utilizan las medidas de soporte,

confianza y lift representadas en tablas o gráficos


26/80

26

Insuf iciencia de lift, confianza y soporte

Las reglas interesantes no pueden determinarse automáticamente apartir de lift, confianza o soporte

Las reglas con lift elevado frecuentemente representan “rarezas” queno son generales o suficientemente confiables (efectos de nicho)

Las reglas con confianza elevada frecuentemente representanpatrones conocidos por un especialista de dominio

Las reglas con soporte elevado son usualmente triviales o nointeresantes

Las reglas que tienen lift, soporte y confianza elevados usualmenteson raras

Suele ser conveniente alguna tarea adicional: ordenamiento de lasreglas por rango en base a su valor potencial o real para el negocio,focalización en ítems o combinación de ítems de interés, etc.

Las tareas adicionales requieren manipulación de la tabla de reglas(vía programación probablemente)

Datos relevantes en las transacciones no suelen incorporarse, aunque pueden ser

muy valiosos: monto de la transacción, costo o ganancia de los ítems de la transacción, cantidad

de ítems comprados, etc.


27/80

27

Fuerte dependencia del dominio: ejemplos

Las reglas de asociación no son muy útiles en sectoresdonde la adquisición o tenencia de ítems dependefuertemente de campañas de marketing

No son útiles en sectores con adquisición o tenencia depocos productos

En fraude, seguros y otros se buscan lascombinaciones infrecuentes

Algunos problemas requieren identificar lasasociaciones negativas, no las positivas

Problemas médicos requieren encontrar asociacionespositivas y negativas

Las reglas de asociación no son buena elección para construir modelos de cross-

selling en industrias como bancos minoristas porque las reglas terminan describiendo

promociones previas. También en la industria bancaria minorista, los clientes típicamente inician

con uno o dos productos. La diferenciación entre productos solo aparece cuando los clientestienen más productos. Recién en ese momento puede ser interesante la aplicación de un análisis

de reglas de asociación.

Problema de seguridad: Qué tipos de instalaciones eléctricas no están asociadas

con incendios (asociaciones negativas)

Problemas de análisis clínico: Síntomas (presentes y ausentes) en enfermedades

(asociaciones positivas y negativas)


28/80

28

Ejemplo: la lógica de ítem ausente esinsuficiente

Este es un ejemplo de una regla que parecería sumamente aplicable, sin

embargo, en base al negocio no lo es. Por qué la regla no es exitosa: es necesario más que una

señal de “oportunidad”. Se necesita mucho más…


29/80

29

Ejemplo: la lógica de ítem ausente funciona

Ejemplo de aplicación potencialmente exitosa en bancos.


30/80

30

Jerarquía de ítems

Los análisis de reglas de asociación producen los mejores resultados

cuando los ítems ocurren en aproximadamente el mismo número detransacciones en los datos. Esto ayuda a impedir que las reglas estén

dominadas por los ítems más comunes

Asociaciones significativas y potencialmente útiles pueden no ser

detectadas cuando itemsets con ítems específicos que corresponden a

categorías fuertemente asociadas no alcanzan un soporte mínimo

– Esto tiende a ocurrir cuando hay un número importante de ítems

distintos que pertenecen a una misma categoría

Una jerarquía puede ayudar a evitar los efectos de ítems con frecuencia

muy desigual. Se agregan los ítems infrecuentes usando la jerarquía

para generar clases de ítems más frecuentes, mientras que los ítemsfrecuentes se mantienen en su nivel

El nodo Market Basket Analysis en SAS Enterprise Miner utiliza una

jerarquía de ítems

Las técnicas simples de análisis de asociación calculan el soporte

para la combinación de tipos específicos de ítems. Estos soportes podrían no ser

suficientemente grandes como para generar una regla. Este problema no puederesolverse modificando el umbral de soporte:

•Umbral demasiado bajo: posiblemente un número grande de reglas

irrelevantes que habrá que filtrar

•Umbral demasiado alto: menor número de reglas probablemente obvias y

por lo tanto inútiles

Este problema es tanto más probable cuanto mayor sea la

diversidad de ítems en categorías dadas. Sin embargo, si se calcula el soporte de

la combinación de cualquier tipo de ítem dentro de categorías dadas, el valor

obtenido podría superar el umbral de soporte.

El nivel apropiado depende del ítem, de su importancia para

producir resultados “accionables” y de su frecuencia en el conjunto de

transacciones. Por ejemplo, ítems costosos podrían quedar en un nivel inferior en

la jerarquía, mientras que ítems menos costosos podrían encontrarse en un nivel

más general. Este enfoque híbrido es útil también cuando se consideran productos

individuales de interés dentro de un conjunto grande de ítems. Se generalizan

todos los ítems excepto los de interés.


31/80

31

Items virtuales

Los ítems virtuales son características o propiedades queno forman parte de los ítems considerados o de una jerarquía de los mismos

Pueden ser características vinculadas a las transacciones(p. ej., día de la semana, modo de pago, etc.), a losclientes que realizaron las transacciones (característicasdemográficas) o clases de ítems que atraviesan la jerarquía (por ejemplo, marcas, fabricantes, etc.)

Tiene sentido incluir ítems virtuales cuando las reglas quese producirán (que incluirán a estos ítems) resultarán en

acciones concretas vinculadas con los ítems virtuales El peligro frecuente de incluir ítems virtuales es que puede

generar reglas triviales o reglas que oscurecen laasociación entre los ítems

El propósito de los ítems virtuales es permitir que el análisis pueda

usar información que va más allá de la jerarquía de productos. Los ítems virtuales

no aparecen en la jerarquía de los ítems originales porque cruzan sus divisiones. No es buena idea usar muchos ítems virtuales ya que pueden

generar fácilmente reglas triviales. Por ejemplo, sin usamos un ítem virtual para

“producto dietético” y otro para “gaseosa”, podría fácilmente surgir la regla

Gaseosa & Producto Dietético Coca-Cola dietética. La regla es trivial porque

cada vez que aparece el antecedente de la regla, aparecerá el consecuente. La

regla tiene un lift muy alto porque es prácticamente la definición del

consecuente. Cuando se usan ítems virtuales, es conveniente verificar

detenidamente que no estén surgiendo reglas triviales.

Otro peligro es cuando el lado derecho de la regla no incluye el

ítem asociado y genera reglas con un sentido oscuro. Por ejemplo, una reglaGaseosa & Producto dietético entonces Papas fritas, puede ocultar la relación

entre Coca-Cola light y Papas fritas.


32/80

32

Caracterizar diferencialmente grupos deconsumidores

Identificar grupos distintos y caracterizarlos permite reconocer características

importantes de cada grupo que puede aprovecharse para diseñar estrategias de CRM

(promociones, descuentos, etc.). Una manera de hacerlo es primero generar segmentos usando

alguna técnica de clustering y luego aplicar un análisis de asociación para caracterizar cada grupomediante las asociaciones de productos más importantes. Caracterizamos cada grupo en base a su

patrón de compras, tal como lo describen las reglas de asociación más relevantes (p. ej. de mayor

lift).


33/80

33

Modelo predictivo de segmentos de clientes

Se determinan las aprox. 100 asociaciones más relevantes en base

al soporte. Probablemente se deba explorar diferentes valores de soporte. Estas

asociaciones se usan en un nodo de código (Profile training data) para marcarcada cliente según posea o no cada asociación. La salida del nodo consiste de un

registro por cliente con 100 o más variables binarias, cada una de las cuales

indica si el cliente posee la asociación representada por la variable. Se puede

agregar a cada cliente información demográfica. También se agrega información

de segmentación. Luego se construye un árbol de decisiones para predecir la

pertenencia de los clientes a los distintos segmentos en función, principalmente,

de su patrón transaccional representado por las asociaciones.


34/80

34

Modelo de regresión

Se selecciona un conjunto de reglas de asociación

A cada regla se le asocian características vinculadas

con la aplicación o dominio del problema (por ejemplo,

valor total, ganancia, etc.)

Cada regla se representa mediante un conjunto de

variables dummy que indican la presencia o ausencia

de un ítem (pueden incluirse reglas negativas)

Se construye un modelo de regresión, usando como

variable target alguna característica relevante (p. ej.valor total o gasto)

A partir del modelo puede predecirse el costo o gasto de

distintas combinaciones de ítems, su elasticidad, etc.


35/80

35

Errores de concepción: redes neuronales


36/80

36


Diversos errores de concepción sobre las redes

neuronales hacen que estas no se apliquen en los

contextos apropiados:

- Qué limitaciones de los métodos tradicionales

superan

- Son métodos ineficientes (computacionalmente

complejos) para hacer predicciones (scoring)

- Son difíciles de interpretar


37/80

37

37

Limitaciones de los enfoques tradicionales

Los métodos tradicionales son muy limitados respecto

del número de variables predictoras que pueden

considerar:

– es difícil especificar la forma funcional de modelos

no lineales y polinomiales con más de unas pocas

variables

– la regresión no paramétrica puede fallar debido a la

escasez relativa de datos en altas dimensiones

En cambio, una red neuronal tiene, por lo general,

buena performance en espacios ralos de dimensión

elevada

37373737

1-38


38/80

38

38

No se requiere especificar una forma funcional

La función que describe la relación de entrada-salida nonecesita ser especificada… ni siquiera comprendida.

38383838


39/80

39

39

Aproximador universal Dada una cantidad suficiente de unidades y tiempo,

una red neuronal puede modelizar cualquier relaciónde I/O, con cualquier grado deseado de precisión.

Es decir, las redes neuronales son “aproximadores

universales”.

39393939


40/80

40

40

Desencanto

“Se muestra que, al menos para los datos usados en este

estudio, el ajuste logrado [por una regresión] es

aproximadamente el mismo, pero el proceso de

configurar y ajustar una red neuronal para una aplicación

de marketing en bases de datos no es simple, y puede

requerir una experimentación extensa y considerables

recursos computacionales”.

Zahavi and Levin (1997), “Applying Neural Computing to Target Marketing,”

Journal of Direct Marketing.

40404040


41/80

4141

Impacto de datos ruidosos

414141

Red neuronal

regresión

Red neuronal

regresión

señal68

ruido= señal 0.76

ruido=


42/80

42

42

Velocidad

Una red neuronal es uno de los algoritmos más veloces

para scoring, lo que lo hace muy apropiado para

predicciones en línea, filtrado de grandes volúmenes de

datos, etc.

42424242


43/80

43

43

Dificultad de interpretación

Famosa objeción de la caja negra, usada

frecuentemente para evitar el uso de redes neuronales.

Dos modos de responder a la objeción:

1. Admitir que las redes neuronales son más relevantes

para tareas puramente predictivas

2. Aplicar otras técnicas de modelización, como árboles

de decisiones, para tratar de “abrir” la caja negra

(modelos subrogantes)

43434343


44/80

44

Modelos subrrogantes

44

Frontera de decisión

Red neuronal

Frontera de decisión

Modelo subrrogante

Aproximar un modelo

inescrutable con un árbol

de decisión

44


45/80

45

Descripción mediante modelos subrogantes


46/80

46

Necesidad de un upgrade al data mining“tradicional”

Modelización de sucesos en el tiempo: Analisis de

supervivencia

Modelización de casos no independientes: Análisis de

redes sociales (SNA)


47/80

47

Análisis de supervivencia


48/80

48

Enfoque tradicional de data mining enmodelización predictiva

4 3 2 1 +1

Jan Feb Mar Apr May Jun Jul Aug Sep

Data set de modelización

Data set de scor ing 4 3 2 1 +1

La tabla de modelización proviene del pasado

El scoring se hace en el presente para nuevos datos

Las predicciones se hacen para algún periodo fijo en el futuro Los modelos se construyen mediante árboles de decisiones, redes

neuronales, regresión logística, etc.


49/80

49

Limitación del data mining tradicional

Predice la ocurrencia de sucesos específicos en un cierto

intervalo (relativamente breve) de tiempo futuro, no

cuándo ocurrirán:

Sí: Qué clientes probablemente desertarán el mes que

viene

No: Cuándo desertarán durante los próximos dos

años


50/80

50


Análisis del tiempo transcurrido hasta un suceso o hasta la

repetición n-ésima de un suceso

Conceptos, herramientas y terminología provienen de la

medicina

– Estimar cuánto sobrevivirán los pacientes en base a

alguna intervención médica

Puede medir los efectos de variables (covariables iniciales o

covariables dependientes del tiempo) sobre el tiempo desupervivencia

Herramienta natural para comprender la relación con los

clientes

El data mining basado en análisis de supervivencia agrega el elemento de cuándo ocurren

las cosas. La supervivencia es particularmente valiosa para ganar comprensión de los clientes y cuantificar

esa comprensión. Una estimación de cuánto durarán los clientes es útil para cálculos de valor, además de

comparaciones directas entre diversos grupos La estimación de la duración de la relación con el cliente puede refinarse en base a las características del periodo inicial de análisis, además de con los sucesos que

ocurren durante el ciclo de vida de un cliente.

El enfoque tradicional y el de supervivencia son complementarios. Ningún enfoque es

mejor que el otro. Para una campaña específica de marketing basada en el ROI, el enfoque tradicional

usualmente funciona mejor que el enfoque de supervivencia, porque la campaña ocurre durante un periodo

particular de tiempo. Para la comprensión de los clientes y cuantificar resultados en el tiempo, el análisis de

supervivencia es preferible.

El análisis de supervivencia tiene su origen a finales del siglo XVII, fue utilizado por

diversas disciplinas a lo largo del siglo XX (medicina, industria, actuarios, finanzas, marketing, etc.) e

introducido en data mining a comienzos del siglo XXI por Michael Berry y Gordon Linoff. La referencia

básica es Berry; Michael J.A. y Linoff; Gordon S. Data Mining Techniques - For Marketing, Sales, and

Customer Relationship Management. Wiley, Indianapolis, Indiana, 2004, 2a ed., Cap. 12.


51/80

51

Algunas aplicaciones del análisis de supervivencia

¿Cuánto durarán los clientes?

¿Cuándo empezar a preocuparse si un cliente no se

reactiva?

¿Cómo cuantificar el valor de un programa de fidelización?

¿Cuánto más valioso es un cliente con tarjeta dorada que

uno con tarjeta ordinaria?

¿Cuál será la tasa futura de churn?

¿Cuándo será la próxima transacción de un cliente? ¿Cuál es el efecto de diversos factores sobre la duración

de la relación con el cliente?


52/80


53/80

53

Novedades

Conceptos: – Tenure (antigüedad o permanencia)

– Riesgo y su estimación no sesgada

– Supervivencia

– Censura

– Truncado a izquierda

– Efecto y tipos de covariables

– Predicción por tipo de cliente

Herramientas:

– Gráficos de función de riesgo

– Gráficos de función de supervivencia – Estratificación

– Regresión de Cox

– Tiempo mediano residual

¡Cuidado con el

muestreo!


54/80

54

Clientes en tiempo calendario y censura

Tiempo

Inicio clientes

Ex clientes (círculos

blancos)

Clientes todavía

activos (circ.

llenos).

Hoy

(fecha censura)

Ana, Permanencia 12, Activa

Rober, Permanencia 6,cesó

Cora, Permanencia 6, cesó

Diana, Permanencia3, cesó

Ema, Permanencia 3, Activa

Fede, Permanencia 5,Cesó

Gus, Permanencia 6,

cesó

Juan Permanencia 9, Activo

La censura significa eliminar (no incluir) a algunos clientes de algunos de los cálculos de riesgo. Es

uno de los conceptos más importantes en el análisis de supervivencia. El ejemplo más básico de censura es que los

clientes que cesaron no se incluyen en los cálculos después de que lo hicieron. Otro ejemplo es el de los clientes cuya

permanencia es t, pero están actualmente activos. Estos clientes no se incluyen en la población para el riesgo de permanencia t, porque los clientes podrían todavía cesar antes de t + 1. Estos clientes son eliminados para el cálculo de

ese riesgo particular, aunque son incluidos en los cálculos de los riesgos para valores más pequeños de t. Además de los

dos tipos de censura anteriores (riesgos para clientes después de que cesaron y riesgos para clientes que todavía están

activos) existen muchos otros tipos relevantes en los cálculos en distintas clases de fenómenos, tipos de productos o

servicios, etc.

El gráfico muestra clientes que iniciaron y cesaron en diferentes momentos. Tres de los clientes

cesaron en el pasado. Dos cesaron hoy, y tres están todavía activos. Conocemos la permanencia de los ex-clientes,

porque tenemos una fecha de inicio y una fecha de finalización. Para los clientes activos, no conocemos si cesarán

mañana o continuarán durante los próximos diez años. Es decir, solo tenemos una cota inferior de su permanencia.

Decimos que su permanencia está censurada.

Cuando examinamos los datos más recientes, la fecha de censura es hoy (o la fecha de

actualización más reciente). Para algunos propósitos, como testeo, a veces es deseable fijar la fecha de censura en un

punto en el pasado. Cuando hacemos esto, debemos estar seguros de excluir toda información futura. Por ejemplo, si la

fecha de censura fuera fijada en la barra de más a la izquierda, los datos cambiarían. La permanencia de Ana sería

menor. Rober, Cora, Ema, Fede y Juan no serían clientes porque no habrían comenzado. Gus todavia estaría activo,

pero con una menor permanencia. El único cliente que quedaría igual sería Diana.


55/80

55

Tenure

Clientes en el tiempo de permanencia

Ann, Tenure 12, Active

Bob, Tenure 6, Stopped

Cora, Tenure 6, Stopped

Diane, Tenure 3,

Stopped

Emma, Tenure 3,

Active

Fred, Tenure 5, Stopped

Gus, Tenure 6, Stopped

Hal, Tenure 9, Active 09Hal

16Gus

15Fred

03Emma

13Diane

16Cora

16Bob

012 Ann

Stop?TenureCust

El cálculo de riesgo cambia de línea de tiempo: en lugar del tiempo calendario usa el

tiempo de permanencia. En esta escala, todos los clientes inician en el tiempo 0 y continúan hasta que

cesan o son censurados. Nótese que los clientes activos son censurados en diferentes momentos. Desde esta

perspectiva podemos obtener los dos datos necesarios para el cálculo de los riesgos: la antigüedad delcliente y si cesó.


56/80

56

Riesgos

El riesgo, h(t), en el tiempo t es la probabilidad de que uncliente que sobrevivió en el tiempo t no sobreviva en el

tiempo t+1.

h(t) =

El valor del riesgo depende de la unidad de tiempo: días,

semanas, meses, años.

Difiere de la definición tradicional porque el tiempo es

discreto, es la probabilidad de riesgo, no la tasa de riesgo

# clientes que cesan exactamente en t

# clientes en riesgo de cesar en t

El riesgo (en realidad la probabilidad de riesgo) es la probabilidad en cualquier punto en

el tiempo de que un cliente deje de serlo en el tiempo t y antes del tiempo t + 1. El riesgo es una

probabilidad (condicional), de modo que siempre tiene un valor entre 0 y 1. El valor específico depende de

las unidades de tiempo usadas.

Cuando usamos todos los datos, la probabilidad de riesgo es el número de clientes que

dejaron de serlo con una permanencia particular dividido por el número de clientes con esa permanencia o

mayor. Esto hace al cálculo particularmente fácil de comprender y visualizar.

Un supuesto sobre este cálculo es que la tasa de riesgo es estable en el tiempo. Una

cuestión importante con los clientes es cómo cambian los riesgos. Diversos fenómenos como cambios en la

política de una empresa pueden hacer que las tasas de riesgo sean inestables.


57/80

57

Función empírica de riesgo

0.00%

0.05%

0.10%

0.15%

0.20%

0.25%

0.30%

0 60 120 180 240 300 360 420 480 540 600 660 720

Permanencia (días)

R i e s g o d i a r i o

d e c h u r n

LasLas irregularidadesirregularidades sese

debendeben aa variacivariacióónn

intrasemanalintrasemanal

BajasBajas por por nono

pagopago

LaLa declinacideclinacióónn gradualgradual

de largode largo plazoplazo eses unauna

medidamedida dede fidelidadfidelidad

RiesgoRiesgo alto enalto en

tiempotiempo 00

Fin de laFin de la

promocipromocióónn

Ejemplo de los clientes suscriptos a un servicio particular (por ejemplo, telefoníacelular). Los riesgos se calculan sobre una base diaria. Miden la probabilidad de que un cliente termine lasuscripción un número dado de días después de haberla contratado. Una unidad diaria de tiempo suele

tener problemas debido a la irregularidad de las observaciones diarias, su susceptibilidad al ruido(fluctuaciones debidas a cuestiones aleatorias), etc. Muchas veces conviene una perspectiva con unagranularidad un poco menor (p. ej. semanal).

El análisis de las características de la curva permite una verdadera radiografía de laconducta de los clientes. Algunas de estas características son:

•Riesgo inicial alto en tiempo cero. La razón de esto es que algunos clientes nunca inician la relación ocesan inmediatamente después de haber iniciado. En algunos casos, podría no quererse incluir a estosclientes. En otros casos, por ejemplo cuando la tasa de clientes que no inician varía por producto, servicio ocanal de adquisición, esta puede ser una medida interesante.

•Entre los días 60 y 120 hay dos picos cercanos. El primer pico es de terminación por no pago. Los clientesque nunca pagan reciben cartas de cobranza en escalada en relación con su grado de morosidad. Este es unejemplo de un riesgo causado por una política comercial específica.

•El segundo de estos picos se debe a la finalización de la promoción inicial. La mayoría de los clientes son

atraídos por una promoción durante un periodo de tiempo. Los clientes que no están suficientementecomprometidos toman la promoción pero no tienen la intención de pagar el precio completo de lasuscripción.

•Los dos riesgos anteriores se basan en la fecha de compromiso del cliente, el primer día en que incurre encargos. Debido a esto, los picos de no pago y fin de promoción son bastante claros. Si hubiésemos usadootro día, como la fecha de contacto del cliente, los picos podrían no estar tan bien definidos.

•Además de estos picos, los riesgos tienen una tendencia general con irregularidades. Parte de estas sedeben a la variación intrasemanal. También, hay picos que corresponden al ciclo de facturación típico. Esmás probable que los clientes cesen cuando reciben sus facturas.

•La tendencia general de los riesgos es una disminución gradual en el tiempo. Esto significa que cuantomás permanecen los clientes en la compañía, menos probable es que cesen. Esta es una buena medida defidelidad.


58/80

58

Curva de retención (no monotónica)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 10 20 30 40 50 60 70 80 90 100 110

Permanencia (Semanas)

R e t e n c i ó n

Una curva de retención proporciona información sobre cuántos clientesfueron retenidos durante una cierta cantidad de tiempo. Una forma de calcularla es: paralos clientes que iniciaron hace una unidad de tiempo, medir la retención de 1 unidad detiempo, para los clientes que iniciaron hace dos unidades de tiempo, medir la retenciónde dos unidades de tiempo, etc.

Nótese que la curva es bastante dentada y no monotónica. A veces vahacia arriba y a veces hacia abajo. ¿Qué significa que la retención en las 21 semanas seamás alta que la retención a las 20 semanas? Esperaríamos que el número de personas con

permanencia de 21 semanas que cesaron incluirían a los que cesaron a las veinte semanasmás un número adicional.

Una razón podria ser el error de muestreo. Sin embargo, hay otras causas.Por ejemplo, la mezcla de clientes que están siendo adquiridos podrían cambiar entre lasdos semanas. Considérese un centro de telemarketing que utiliza para priorizar sus

llamadas un puntaje de “buen cliente”. Tal vez los mejores de los buenos clientes fueronllamados hace 21 semanas. Estos son clientes que esperaríamos que tengan una mejor retención. Una semana después (hace 20 semanas) se llamaron a clientes no tan buenos yestos tienen una tasa mayor de cese.

Otro factor que podría variar en el tiempo es el número de clientes queestán siendo adquiridos. Tal vez el número de inicios descendió a 0 en una de lassemanas. En este caso, la variación del muestreo puede jugar un papel importante en lavariabilidad de la retención.

Este tipo de curvas ofrece algunas dificultades para algunos cálculos: eltiempo de vida mediano podría no ser uno solo o la retención promedio con una

permanencia dada podría ser mayor que la retención promedio con una permanencia

menor.


59/80

59

Supervivencia vs. retención

Retención solo usa clientes de un periodo de tiempo estrecho para

calcular cualquier punto

Supervivencia usa tanta información como sea posible de todos los

clientes para calcular cada punto

0%

10%

20%

30%

40%

50%

60%

70%

80%90%

100%

0 10 20 30 40 50 60 70 80 90 100 110

Permanencia (Semanas)

R e t e n c i ó n / S u p e r v i v e n c i a

1)0(

))1(1()(1

=

−−= ∏=

S

t hT S T

t

Los riesgos dan la probabilidad de que un cliente pueda cesar en un punto particular del tiempo. La

supervivencia da la probabilidad de que un cliente sobreviva hasta ese momento. En cualquier punto del tiempo, la

probabilidad de que un cliente sobreviva hasta la siguiente unidad de tiempo es 1 – riesgo, lo que se llama

supervivencia condicional en el tiempo t (condicional porque se supone que el cliente sobrevivió hasta el tiempo t).Para calcular la supervivencia total en un momento t dado, se multiplican todas las supervivencias condicionales hasta

ese punto del tiempo. La curva de supervivencia es siempre monotónica decreciente.

El gráfico muestra dos curvas, una para retención y otra para supervivencia, basadas en los mismos

días. La curva de supervivencia parece una media móvil de la retención, pero no lo es. Un buen modo de comparar las

dos curvas es definir lo que significan. La curva de supervivencia provee un benchmark de la conducta de churn de los

clientes. Cada punto en la curva de supervivencia incorpora información de todo el data set. La curva de retención, por

otro lado, provee la información más reciente sobre cada punto. Por ejemplo, para la medición de retención de 50

semanas la información más reciente es la de los clientes que iniciaron hace 50 semanas.

Desde esta perspectiva, se pueden interpretar las dos curvas de arriba. Durante las primeras

semanas, la retención es más elevada que la supervivencia. Esto significa que los nuevos clientes de las últimas

semanas tuvieron una mejor performance que los clientes como un todo durante las primeras semanas de permanencia.

La adquisición de clientes está atrayendo clientes de mejor calidad. Gran parte de la diferencia ocurre durante la

primera semana. Tal vez la diferencia se deba a una reducción grande del fenómeno llamado “remordimiento inicial del

comprador”.

Durante otros períodos, la retención es inferior a la supervivencia. Esto implica que los clientes

durante esas semanas fueron peores que los clientes en general. En el ejemplo, la curva de retención y la curva de

supervivencia son bastante similares. Las diversas diferencias son pequeñas y podrían deberse solamente a variaciones

aleatorias.

Debido a que el cálculo de supervivencia usa todos los datos, los valores son más estables que los

cálculos de retención. Cada punto en una curva de retención se limita a los clientes que iniciaron en un punto particular

del tiempo. También debido a que una curva de supervivencia es monotónica decreciente, los cálculos de tiempo de

vida mediano y permanencia promedio son más precisos. Al incorporar más información, la supervivencia provee una

imagen más precisa de la retención de los clientes. Como la supervivencia es acumulativa, produce un buen valor de

resumen para comparar diferentes grupos de clientes y mejores estimaciones de retención para los cálculos de valor de

tiempo de vida del cliente.

Por otro lado los riesgos hacen más evidentes las causas específicas. Es posible identificar sucesosdurante el ciclo de vida del cliente que son causas de riesgos. Las curvas de supervivencia no destacan esos sucesos tan

claramente como los riesgos. Pero no tiene sentido comparar riesgos para diferentes grupos de clientes. El enfoque

apropiado es transformar los riesgos en supervivencia y comparar los valores en las curvas de supervivencia.


60/80

60

Supervivencia versus Retención

Retención dice qué ocurrió a un grupo particular declientes.

– Por ejemplo, los que iniciaron su relación hace

exactamente 24 semanas

Cada valor de supervivencia incluye información

sobre todos los clientes.

– Porque la supervivencia es el producto de (1-h(t))

para todos los tiempos, y se usan todos losclientes en h(0)


61/80

61

Tiempo hasta la próxima compra, estratificado por

número de compras previas

Otro ejemplo de la aplicación de supervivencia es el tiempo hasta la próxima compra

para sucesos de retail. En este caso, el inicio es cuando el cliente hace una compra. El fin es cuando (si

ocurre) el cliente hace otra compra. Como supervivencia aquí mide la probabilidad de que un cliente no

haga una compra, tiene más sentido considerar la inversa, la probabilidad de que un cliente hará unacompra.

El gráfico muestra el tiempo hasta la próxima compra, estratificado por el número de

compras en el pasado. La línea gruesa gris es el promedio global para cualquier número de compras.


62/80

62

Regresión de riesgos proporcionales (Cox)

La regresión de Cox considera la verosimilitud paratodas las permanencias

Esta es la verosimilitud de que exactamente esosclientes cesaron cuando lo hicieron, y no en cualquier otro momento

Gracias a algunos pocos supuestos es posible eliminar los términos relacionados con la permanencia, y soloquedan las covariables

Los valores de los parámetros se estiman mediantemáxima verosimilitud


63/80

63

360

420

480

540

600

660

0 60 120 180 240 300 360 420 480 540

Tenure

R e m a i n i n g T e n u r e

Tiempo de vida residual mediano

Al Al deshacersedeshacerse dede loslos queque

nono intentanintentan pagar pagar , el, el

tiempotiempo dede vidavida residualresidual

medianomediano aumentaaumenta

LaLa permanenciapermanencia medianamediana

bajabaja debidodebido al churn deal churn de

aniversarioaniversario

LaLa permanenciapermanencia medianamedianaaumentaaumenta luegoluego del churndel churn

dede aniversarioaniversario


64/80

64

Predicción de supervivencia para dos grupos

0

20

40

60

80

100

120

140

0 6 0

1 2 0

1 8 0

2 4 0

3 0 0

3 6 0

4 2 0

4 8 0

5 4 0

6 0 0

6 6 0

7 2 0

7 8 0

8 4 0

9 0 0

9 6 0

1 0 2 0

1 0 8 0

Days in the Future

C u s t o m e r s


65/80

65

Existing

Customer

Base

New Start

Forecast

Do Existing Base

Forecast (EBF)

Do New Start

Forecast (NSF)

Do Existing Base

Churn Forecast

(EBCF)

Do New Start Churn

Forecast (NSCF)

Existing Customer

Base Forecast

New Start

Forecast

Churn

Forecast

Churn

Actuals

Compare

Combinación de la base de nuevos clientescon la existente

Parte de la predicción se basa en predecir que ocurrirá con la base existente, pero este es

solo un componente. La parte más difícil es pronosticar qué ocurrirá con los clientes que iniciarán en el

futuro. Esto requiere una predicción de los inicios a lo largo del tiempo, pero también de los ceses en esos

tiempos.


66/80

66

Técnicas de Análisis de

redes sociales

El análisis de redes sociales surge como un paradigma clave en la sociología, tecnología y ciencias

de la información modernas. El paradigma surge de la concepción de que los atributos de un individuo inmerso en una

red social son menos importantes que sus vínculos (relaciones) con otros individuos en la red. Explorar la naturaleza y

fuerza de estos vínculos puede ayudar a comprender la estructura y dinámica de las redes sociales y explicar fenómenosdel mundo real, que van desde cuestiones de eficiencia de una organización hasta la difusión de la información y las

enfermedades, pasando por distintas cuestiones relevantes al mundo de BI como fraude, churn, marketing y otras.

•Barabasi, A.-L. Linked – The new science of networks. Perseus Publishing, Cambridge, 2002.

•Breiger, R. et al. (comps.). Dynamic Social Network Modeling and Analysis. National Academies Press, Washington

D.C., 2003.

•Galaskiewicz, J. y Wasserman, S. “Social Network Analysis – Concepts, Methodology, and Directions for the 1990s”.

Sociological Methods and Research, Vol. 22, No. 1, August 1993, pp. 3-22

•Hanneman, Robert A. Introduction to Social Network Methods. http://faculty.ucr.edu/~hanneman/nettext/


67/80

67

Fraude

Delito sofisticado, se manifiesta en forma distinta endiferentes industrias

Produce pérdidas millonarias

Permanentemente se desarrollan nuevas estrategiasde fraude

Los ataques suelen ser veloces, en intervalos detiempo cortos

Suele no haber datos supervisados disponibles o muypocos datos

Frecuentemente involucran a varias personas y otrosobjetos en relación

Son necesarias técnicas híbridas y relacionales dedata mining

Hay muchos tipos de fraude: “first party”, fraude con tarjetas de crédito, fraude

impositivo, fraude con seguros de salud, fraudes en denuncias de seguros, etc. Otras conductas que pueden

analizarse de modos similares: churn/adopción por contagio, cross-selling, financiamiento de terrorismo,

lavado de dinero, marketing viral, marketing B2B, etc.


68/80

68

Fraude “ first party”

Fraude cometido por los propios clientes de una

institución

Usualmente abren una cuenta corriente, realizan muchas

transacciones y luego solicitan créditos sin garantía

prendaria que nunca pagan

La unidad de análisis es una red con diversos tipos de

entidades (clientes, cuentas, números de teléfonos,

direcciones, transacciones)

Fraude “First party” es cuando uno o más individuos establecen una relación con un

banco (usualmente abren una cuenta corriente), realizan muchas transacciones para incrementar su puntaje

como clientes y luego solicitan créditos sin cobertura que nunca pagan.

Se usan diversos tipos de indicadores: la red se cierra sobre si misma debido al reciclado

de direcciones y teléfonos; tasa grande de cuentas sin garantía que se abren rápidamente; evolución en el

tiempo; métricas sobre el grafo; reglas.


69/80

69

Red de fraude “ third party”

Cuentas

s/garantía

Individuo

Fono

Dirección


70/80

70

Evolución en el tiempo


71/80

71

SNA (Análisis de redes sociales)

SNA es un conjunto de métodos relacionales paracomprender e identificar conexiones entre actores(puntos, nodos o agentes)

Enfoque que intenta superar las limitaciones de lastécnicas no relacionales (independencia entre loscasos, atributos en lugar de relaciones, etc.)

Utiliza técnicas matemáticas (esp. teoría de grafos) eimportantes recursos computacionales

Las redes sociales pueden involucran un gran número

de objetos (p. ej., 60 millones de celulares, 300-400millones de vínculos, 7-9 millones de subredes, etc.) yestructuras (subredes) anidadas

Otras características:

•Dado la relación entre los actores, es difícil implementar muestreos aleatorios de observaciones

independientes.

•Estructura “multimodal”: subredes anidadas en otras (red de relaciones familiares anidada en la red de

relaciones sociales de grupos, anidada en la red de relaciones sociales de comunidades, etc.)

•Muchos análisis solo representan una relación o vínculo entre los actores. Algunos pocos análisis son

multirrelacionales.

•Las relaciones pueden ser binarias, nominales, ordinales o de intervalo.

•El análisis de redes sociales surge de la sociología matemática (inicialmente de los sociogramas).


72/80

72

Novedades

Conceptos

– Varios niveles de análisis (no solo los casos

individuales)

– Contagio, difusión, cohesión, roles

– Muestreo agrupado en lugar de muestreo simple o

estratificado, y en muchos casos, toda la población

– Investigación (en lugar de modelización)

– Conceptos de teoría de grafos

Herramientas

– Grafos (muy grandes) – Graficación interactiva

– Alarmas basadas en métricas

– Inferencia colectiva


73/80

73

Actores y relaciones

Los actores se describen por sus relaciones, no por

sus atributos

Las relaciones son tan fundamentales como los

actores a los que conectan (mucho menos los

atributos de los actores)


74/80

74

Niveles de análisis de una red

Redes-ego: actor y actores (alter) conectados con él

– Roles (líder, seguidor, marginal, antagonista)

– Métricas: densidad de conexiones, centralidad

Redes parciales: redes ego más conexiones entre

esas redes

– Métricas: diámetro, densidad de conexiones, etc.

Red global

– Métricas: diámetro, densidad de conexiones, etc.

•Densidad de conexiones (coeficiente de clustering): tasa entre el número efectivo de conexiones

y las posibles

•Diámetro: distancia máxima entre dos nodos

Las métricas sobre comunidades se aplican sobre subredes determinadas

previamente mediante algún algoritmo de detección de comunidades.

Coeficiente de clustering: http://en.wikipedia.org/wiki/Clustering_coefficient

Centralidad: http://en.wikipedia.org/wiki/Centrality


75/80

75

Métodos de recolección de datos

Como los métodos de redes se concentran en las relaciones

entre los actores, estos no pueden muestrearse

independientemente de los actores con los que están

vinculados

Métodos de red completa

Métodos en cascada (“snowball”)

Redes egocéntricas (conexiones alter)

Redes egocéntricas (solo ego)

•Métodos de red completa: produce un máximo de información, pero es costoso, difícil de realizar y puede

ser difícil de generalizar. La definición y medición de muchos conceptos estructurales del análisis de redes

requiere de información completa.

•Métodos en cascada (“snowball”): Se parte de un actor o conjunto de actores focales. La recolección de

datos continúa con los actores vinculados a los actores focales y así siguiendo hasta un criterio de

detención. Particularmente útil para registrar datos de poblaciones “especiales”. Problemas: Actores no

conectados (aislados) no pueden localizarse con este método; sesgo hacia las conexiones; no se garantiza

encontrar todos los actores conectados en la población (esto puede depender de la elección de los actores

focales).

•Redes egocéntricas (conexiones alter): Similar a los métodos en cascada pero se parte de una muestra de

nodos focales y se determina que actores están vinculados entre sí. Puede ser bastante efectivo en

poblaciones grandes y puede combinarse con enfoques basados en atributos. Sin embargo, muchas

propiedades de una red como distancia, centralidad, etc. no pueden evaluarse con este tipo de datos.

•Redes egocéntricas (solo ego): Recogen información de los nodos focales, pero no de los vínculos entre

los alter. En principio pierden mucha información sobre la red, pero pueden ser métodos útiles para tiposespeciales de redes (redes egocéntricas).


76/80

76

Tareas del investigador

Desde las entidades hacer drill down a reportes de

detalle

Examinar detalles de un alerta

Explorar y anotar redes sociales

Responder a las alertas

Referir las alertas a un manejo de casos

Detección de comunidades (descubrir subestructuras)

Detección de roles


77/80

77

Análisis bottom-up vs. top-down

Bottom-up: Una entidad dispara una alerta. El

investigador expande los vínculos para examinar una

o dos capas alrededor de la entidad.

Top-down: La red globalmente dispara una alerta

dibido a asociaciones entre múltiples entidades de

varios tipos. Se analiza la red globalmente.


78/80

78

Conceptos de teoría de grafos

Cliques

Subredes desconectadas

Bloques y puntos de corte

Facciones

Vecindades de un paso

Etc.

•Cliques: red donde cada nodo está conectado con todos los demás.

•Bloques y puntos de corte: componentes que quedarían desconectados si se eliminase un nodo o relación.

•Facciones: componente en el que los miembros están más estrechamente conectados entre sí que conmiembros de otras facciones

•Vecindades de un paso: componente generado seleccionando un nodo, los nodos conectados con ese nodo

y las conexiones entre estos otros nodos.


79/80

79

Diagrama conceptual genérico

ExploreExploreexistingexisting

informationinformation

ExtractExtract datadata MeasureMeasure

social linkssocial links A B

Assign Assign rolesroles

DetectDetectcommunitiescommunities

QualifyQualifycommunitiescommunities

Entirenetwork

Communities (maxmodularity)

Results

Apply Apply SNASNAmetricsmetrics

Entirenetwork

Community

Actors

1

2

3 4

567


80/80

80

Cursos apropiados

Usos inapropiados de las tecnicas tradicionales: regresion logística

Modelización predictiva con regresión logística

Modelizacion predictiva avanzada con SAS Enterprise Miner

Usos insuficientes de tecnicas tradicionales: reglas de asociación

Análisis de reglas de asociación


Modelización con redes neuronales


Análisis de supervivencia en Data Mining

Análisis de redes socialesTécnicas de análisis de redes sociales

http://www.sas.com/argentina/educacion

Técnicas Avanzadas de Data Mining

Documents

Transcript of Técnicas Avanzadas de Data Mining

Data Mining Curso, PeruStat - 2014-II Lima, Perú

Clase 6 Data Mining

Data Mining Para C.R.M. · 1. ¿Qué es Data Mining? Data Mining (DM) es: “El proceso de exploración y análisis, por medios automáticos o semi-automáticos, de grandes cantidades

Algoritmos-Herramientas Data Mining

Presentasi Data Mining (2)

Data Mining en E Learning

Gerenciar el Conocimiento -CRM - Data Mining

1 Data Mining

2008 Data Mining

libro Data Mining v5.pdf

Fundamentos de Data Mining con R

REALTIME DATA MINING APLICADO A LA PREDICCIÓN DE …

Maching learning vs SSAS Data mining

Data Mining Snoop Consulting Arg

Data Mining - Introducción

DATA MINING decisiones

Data Mining y Aplicaciones en Riesgo de Crédito

Introducción a Data Mining

Algoritmos- Comparativa Herramientas Data Mining

Principios de Data Mining