Post on 07-Jul-2018
8/18/2019 Técnicas Avanzadas de Data Mining
1/80
1
Técnicas Avanzadas de Data Mining
Comunidad Analytics Cono SurSAS Educación
8/18/2019 Técnicas Avanzadas de Data Mining
2/80
2
Agenda
¿Porqué deberías conocer técnicas avanzadas de
Data Mining?
¿Qué aportan a los análisis tradicionales?
¿En qué escenarios deberían usarse?
¿Cuáles son las bondades y limitaciones?
8/18/2019 Técnicas Avanzadas de Data Mining
3/80
3
Agenda
Hace ya mucho que existe una variedad de técnicas
avanzadas de data mining que aportan valor más allá
de las clásicas regresiones.
Sin embargo, encontramos que en el día a día se
usan muy poco o por debajo de sus posibilidades.
Creemos que estas técnicas son un valioso aporte a
la “caja de herramientas” de cualquier Profesional de
Analytics
8/18/2019 Técnicas Avanzadas de Data Mining
4/80
4
Temario
Falacia del libro de cocina y sus consecuencias
Usos inapropiados de las técnicas tradicionales:
regresion logística
Usos insuficientes de las técnicas tradicionales: reglas
de asociación
Errores de concepción de las técnicas tradicionales:
redes neuronales
Necesidad de un upgrade al data mining “tradicional”: Análisis de supervivencia y Análisis de redes sociales
(SNA)
8/18/2019 Técnicas Avanzadas de Data Mining
5/80
5
Falacia del libro de cocina
Data Mining consiste en seleccionar y aplicar una
herramienta apropiada al problema
Data Mining, en tanto disciplina, no sería más que un
conjunto de “herramientas”
Esta creencia errónea suele ser propiciada por la mayoría de los libros de texto, por las
curricula de carreras universitarias relacionadas con estos temas e incluso por la propia práctica de los
profesionales de Analytics.
8/18/2019 Técnicas Avanzadas de Data Mining
6/80
6
La falacia es incorrecta porque…
Las herramientas no se encuentran
aisladas entre sí. Más bien mantienen
relaciones complejas en la forma de clases
generales de técnicas y otras más
específicas. La base de estas relaciones es
el cuerpo de conceptos de la estadística.
Raramente un problema hace posible que
sea suficiente la única y exclusiva
aplicación de un solo método o elparadigma ingenuo de “modelo ganador”
Ejemplos de algunas relaciones: el análisis de varianza es un modelo lineal, al igual que
el análisis de regresión; los modelos lineales son un caso especial de los modelos lineales generalizados y
también del modelo lineal general (extensión multivariada); la regresión logística es un modelo lineal
generalizado y es también una forma simple de red neuronal (perceptrón simple); los modelos aditivosgeneralizados generalizan de un modo diferente; los métodos no paramétricos relajan algunos de los
supuestos de los tests paramétricos clásicos, etc. Las técnicas de modelización pueden conceptualizarse
según su ubicación respecto de algunos ejes conceptuales como modelización local vs. global, el tipo de
búsqueda de un modelo “apropiado”, e incluso una dimensión inducción-deducción.
8/18/2019 Técnicas Avanzadas de Data Mining
7/80
7
Consecuencias de la falacia
Uso inapropiado de técnicas
Uso insuficiente de técnicas
Errores de concepción sobre las técnicas
Aplicación de técnicas inapropiadas: necesidad de un
“upgrade”
En síntesis, el conocimiento y aplicación de las
técnicas tradicionales carece de “profundidad”conceptual y de eficacia práctica
8/18/2019 Técnicas Avanzadas de Data Mining
8/80
8
Entonces, que son “ técnicas avanzadas”
Conocimiento y aplicación de las técnicastradicionales con suficiente “profundidad”, lejos delparadigma ingenuo de “modelo ganador”.
Métodos que intentan superar las limitaciones de lastécnicas “tradicionales”:
– Supuesto de observaciones independientes entresí
– Análisis exclusivamente de atributos norelacionales
– El objetivo es minimizar los errores deentrenamiento (lleva a MLE)
– En un contexto de un conjunto limitado de datos,resolver un problema más general
8/18/2019 Técnicas Avanzadas de Data Mining
9/80
9
Entonces que son “ técnicas avanzadas”
Los casos son
independientes entre sí
Atributos no relacionales
El objetivo es minimizar
los errores de
entrenamiento (lleva a
MLE)
y, en un contexto de un
conjunto limitado de
datos, resolver un
problema más general
Incluir en la
modelización las
relaciones entre los
casos y entre atributos
Formular una nueva
teoría estadística del
aprendizaje y generar
algoritmos simples en
base a ella
Técnicas tradicionales Técnicas avanzadas
8/18/2019 Técnicas Avanzadas de Data Mining
10/80
10
Entonces que son “ técnicas avanzadas”
Los casos son
independientes entre sí
Atributos no relacionales
El objetivo es minimizar
los errores de
entrenamiento (lleva a
MLE)
y, en un contexto de un
conjunto limitado de
datos, resolver un
problema más general
Data Mining Relacional
– Modelización de sucesos en
el tiempo (Análisis de
supervivencia)
– Modelización de relaciones
(SNA y otros)
Nueva teoría estadística
del aprendizaje
– Principio de minimizacióndel riesgo empírico
– Estimación de una función
en base a un conjunto
limitado de ejemplos
Técnicas tradicionales Técnicas avanzadas
8/18/2019 Técnicas Avanzadas de Data Mining
11/80
11
Entonces que son “ técnicas avanzadas”
Los casos son
independientes entre sí
Atributos no relacionales
El objetivo es minimizar
los errores de
entrenamiento (lleva a
MLE)
y, en un contexto de un
conjunto limitado de
datos, resolver un
problema más general
Nuevos paradigmas
conceptuales
Nuevos métodos
– Grafos de vínculos
– Curvas de riesgo
– SVM
– Etc.
Técnicas tradicionales Técnicas avanzadas
8/18/2019 Técnicas Avanzadas de Data Mining
12/80
12
Ejemplos
8/18/2019 Técnicas Avanzadas de Data Mining
13/80
13
Usos inapropiados de las técnicastradicionales: regresión logística
logit(p) p
1
0x1
x2 x1x2
0
8/18/2019 Técnicas Avanzadas de Data Mining
14/80
14
Usos inapropiados de las técnicastradicionales: regresión logística
La regresión logística es una técnica paramétrica de
modelización
Es decir, adopta supuestos sobre la distribución de las
variables involucradas
Un supuesto de la regresión logística es que la relación
entre la variable target transformada (el logit) y las
variables predictoras es lineal Consecuencia de vulnerar el supuesto de linealidad:
Deterioro de la capacidad predictiva del modelo
8/18/2019 Técnicas Avanzadas de Data Mining
15/80
15
Usos inapropiados de las técnicastradicionales: regresión logística
En el análisis de regresión es una práctica estándar
examinar gráficos de dispersión de la variable target contra
cada variable predictora
Cuando la variable target es binaria estos gráficos no son
apropiados
8/18/2019 Técnicas Avanzadas de Data Mining
16/80
16
Logits empíricos
donde
mi= número de eventos
M i = número de casos
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
+−
+
2
2lni
ii
i
i
M m M
M m
8/18/2019 Técnicas Avanzadas de Data Mining
17/80
17
Gráficos de logits empíricos
Verificar linealidad
17
8/18/2019 Técnicas Avanzadas de Data Mining
18/80
18
Gráficos de Logits Empíricos
Si el supuesto de linealidad del modelo de regresión se satisfice, todos los
gráficos aparecerían como líneas aproximadamente rectas. Por lo menos, los suavizamientos
LOESS (“Predicted Elogit”) de los logits empíricos graficados (“Elogit”) serían rectos. Esto no
ocurre para algunas variables como GiftCnt36 , DemMedHomeValue y PromCntCard12.
8/18/2019 Técnicas Avanzadas de Data Mining
19/80
19
Gráficos de Logits Empíricos
Patrón asociado con variables sesgadas. Binning de la variable y su linealización.
8/18/2019 Técnicas Avanzadas de Data Mining
20/80
20
Gráficos de Logits Empíricos
8/18/2019 Técnicas Avanzadas de Data Mining
21/80
21
Gráficos de Logits Empíricos
Relación cuadrática de la variable PromCntCard12 con el logit. Un binning de
la variable no alcanza para generar una relación lineal. Entonces, incluir la variable al cuadrado
en la regresión.
8/18/2019 Técnicas Avanzadas de Data Mining
22/80
22
Gráficos de Logits Empíricos
La generación de estos gráficos debe hacerse luego
de una etapa de selección de variables y anterior a la
generación del modelo de regresión logística (el
cálculo es costoso como para hacerlo para gran
cantidad de variables)
No existe un nodo del Miner que genere estos
gráficos
Deben realizarse con código
8/18/2019 Técnicas Avanzadas de Data Mining
23/80
23
Usos insuficientes de técnicas tradicionales:análisis de reglas de asociación
8/18/2019 Técnicas Avanzadas de Data Mining
24/80
24
Paradigma general
Generar reglas de asociación limitando soporte y
confianza
Seleccionar las reglas “interesantes” usando lift,
confianza y soporte
Usar la lógica del ítem ausente: recomendar el ítem
ausente en una regla aplicada a un segmento de
clientes
8/18/2019 Técnicas Avanzadas de Data Mining
25/80
25
Problemas y limitaciones del análisis dereglas simples
La cantidad de reglas obtenidas es función de la
cantidad de transacciones, la cantidad de ítems y la
composición de las transacciones
Cuanto mayor el número de reglas obtenido, más
difícil es la selección de las reglas útiles o relevantes
Para la selección se utilizan las medidas de soporte,
confianza y lift representadas en tablas o gráficos
8/18/2019 Técnicas Avanzadas de Data Mining
26/80
26
Insuf iciencia de lift, confianza y soporte
Las reglas interesantes no pueden determinarse automáticamente apartir de lift, confianza o soporte
Las reglas con lift elevado frecuentemente representan “rarezas” queno son generales o suficientemente confiables (efectos de nicho)
Las reglas con confianza elevada frecuentemente representanpatrones conocidos por un especialista de dominio
Las reglas con soporte elevado son usualmente triviales o nointeresantes
Las reglas que tienen lift, soporte y confianza elevados usualmenteson raras
Suele ser conveniente alguna tarea adicional: ordenamiento de lasreglas por rango en base a su valor potencial o real para el negocio,focalización en ítems o combinación de ítems de interés, etc.
Las tareas adicionales requieren manipulación de la tabla de reglas(vía programación probablemente)
Datos relevantes en las transacciones no suelen incorporarse, aunque pueden ser
muy valiosos: monto de la transacción, costo o ganancia de los ítems de la transacción, cantidad
de ítems comprados, etc.
8/18/2019 Técnicas Avanzadas de Data Mining
27/80
27
Fuerte dependencia del dominio: ejemplos
Las reglas de asociación no son muy útiles en sectoresdonde la adquisición o tenencia de ítems dependefuertemente de campañas de marketing
No son útiles en sectores con adquisición o tenencia depocos productos
En fraude, seguros y otros se buscan lascombinaciones infrecuentes
Algunos problemas requieren identificar lasasociaciones negativas, no las positivas
Problemas médicos requieren encontrar asociacionespositivas y negativas
Las reglas de asociación no son buena elección para construir modelos de cross-
selling en industrias como bancos minoristas porque las reglas terminan describiendo
promociones previas. También en la industria bancaria minorista, los clientes típicamente inician
con uno o dos productos. La diferenciación entre productos solo aparece cuando los clientestienen más productos. Recién en ese momento puede ser interesante la aplicación de un análisis
de reglas de asociación.
Problema de seguridad: Qué tipos de instalaciones eléctricas no están asociadas
con incendios (asociaciones negativas)
Problemas de análisis clínico: Síntomas (presentes y ausentes) en enfermedades
(asociaciones positivas y negativas)
8/18/2019 Técnicas Avanzadas de Data Mining
28/80
28
Ejemplo: la lógica de ítem ausente esinsuficiente
Este es un ejemplo de una regla que parecería sumamente aplicable, sin
embargo, en base al negocio no lo es. Por qué la regla no es exitosa: es necesario más que una
señal de “oportunidad”. Se necesita mucho más…
8/18/2019 Técnicas Avanzadas de Data Mining
29/80
29
Ejemplo: la lógica de ítem ausente funciona
Ejemplo de aplicación potencialmente exitosa en bancos.
8/18/2019 Técnicas Avanzadas de Data Mining
30/80
30
Jerarquía de ítems
Los análisis de reglas de asociación producen los mejores resultados
cuando los ítems ocurren en aproximadamente el mismo número detransacciones en los datos. Esto ayuda a impedir que las reglas estén
dominadas por los ítems más comunes
Asociaciones significativas y potencialmente útiles pueden no ser
detectadas cuando itemsets con ítems específicos que corresponden a
categorías fuertemente asociadas no alcanzan un soporte mínimo
– Esto tiende a ocurrir cuando hay un número importante de ítems
distintos que pertenecen a una misma categoría
Una jerarquía puede ayudar a evitar los efectos de ítems con frecuencia
muy desigual. Se agregan los ítems infrecuentes usando la jerarquía
para generar clases de ítems más frecuentes, mientras que los ítemsfrecuentes se mantienen en su nivel
El nodo Market Basket Analysis en SAS Enterprise Miner utiliza una
jerarquía de ítems
Las técnicas simples de análisis de asociación calculan el soporte
para la combinación de tipos específicos de ítems. Estos soportes podrían no ser
suficientemente grandes como para generar una regla. Este problema no puederesolverse modificando el umbral de soporte:
•Umbral demasiado bajo: posiblemente un número grande de reglas
irrelevantes que habrá que filtrar
•Umbral demasiado alto: menor número de reglas probablemente obvias y
por lo tanto inútiles
Este problema es tanto más probable cuanto mayor sea la
diversidad de ítems en categorías dadas. Sin embargo, si se calcula el soporte de
la combinación de cualquier tipo de ítem dentro de categorías dadas, el valor
obtenido podría superar el umbral de soporte.
El nivel apropiado depende del ítem, de su importancia para
producir resultados “accionables” y de su frecuencia en el conjunto de
transacciones. Por ejemplo, ítems costosos podrían quedar en un nivel inferior en
la jerarquía, mientras que ítems menos costosos podrían encontrarse en un nivel
más general. Este enfoque híbrido es útil también cuando se consideran productos
individuales de interés dentro de un conjunto grande de ítems. Se generalizan
todos los ítems excepto los de interés.
8/18/2019 Técnicas Avanzadas de Data Mining
31/80
31
Items virtuales
Los ítems virtuales son características o propiedades queno forman parte de los ítems considerados o de una jerarquía de los mismos
Pueden ser características vinculadas a las transacciones(p. ej., día de la semana, modo de pago, etc.), a losclientes que realizaron las transacciones (característicasdemográficas) o clases de ítems que atraviesan la jerarquía (por ejemplo, marcas, fabricantes, etc.)
Tiene sentido incluir ítems virtuales cuando las reglas quese producirán (que incluirán a estos ítems) resultarán en
acciones concretas vinculadas con los ítems virtuales El peligro frecuente de incluir ítems virtuales es que puede
generar reglas triviales o reglas que oscurecen laasociación entre los ítems
El propósito de los ítems virtuales es permitir que el análisis pueda
usar información que va más allá de la jerarquía de productos. Los ítems virtuales
no aparecen en la jerarquía de los ítems originales porque cruzan sus divisiones. No es buena idea usar muchos ítems virtuales ya que pueden
generar fácilmente reglas triviales. Por ejemplo, sin usamos un ítem virtual para
“producto dietético” y otro para “gaseosa”, podría fácilmente surgir la regla
Gaseosa & Producto Dietético Coca-Cola dietética. La regla es trivial porque
cada vez que aparece el antecedente de la regla, aparecerá el consecuente. La
regla tiene un lift muy alto porque es prácticamente la definición del
consecuente. Cuando se usan ítems virtuales, es conveniente verificar
detenidamente que no estén surgiendo reglas triviales.
Otro peligro es cuando el lado derecho de la regla no incluye el
ítem asociado y genera reglas con un sentido oscuro. Por ejemplo, una reglaGaseosa & Producto dietético entonces Papas fritas, puede ocultar la relación
entre Coca-Cola light y Papas fritas.
8/18/2019 Técnicas Avanzadas de Data Mining
32/80
32
Caracterizar diferencialmente grupos deconsumidores
Identificar grupos distintos y caracterizarlos permite reconocer características
importantes de cada grupo que puede aprovecharse para diseñar estrategias de CRM
(promociones, descuentos, etc.). Una manera de hacerlo es primero generar segmentos usando
alguna técnica de clustering y luego aplicar un análisis de asociación para caracterizar cada grupomediante las asociaciones de productos más importantes. Caracterizamos cada grupo en base a su
patrón de compras, tal como lo describen las reglas de asociación más relevantes (p. ej. de mayor
lift).
8/18/2019 Técnicas Avanzadas de Data Mining
33/80
33
Modelo predictivo de segmentos de clientes
Se determinan las aprox. 100 asociaciones más relevantes en base
al soporte. Probablemente se deba explorar diferentes valores de soporte. Estas
asociaciones se usan en un nodo de código (Profile training data) para marcarcada cliente según posea o no cada asociación. La salida del nodo consiste de un
registro por cliente con 100 o más variables binarias, cada una de las cuales
indica si el cliente posee la asociación representada por la variable. Se puede
agregar a cada cliente información demográfica. También se agrega información
de segmentación. Luego se construye un árbol de decisiones para predecir la
pertenencia de los clientes a los distintos segmentos en función, principalmente,
de su patrón transaccional representado por las asociaciones.
8/18/2019 Técnicas Avanzadas de Data Mining
34/80
34
Modelo de regresión
Se selecciona un conjunto de reglas de asociación
A cada regla se le asocian características vinculadas
con la aplicación o dominio del problema (por ejemplo,
valor total, ganancia, etc.)
Cada regla se representa mediante un conjunto de
variables dummy que indican la presencia o ausencia
de un ítem (pueden incluirse reglas negativas)
Se construye un modelo de regresión, usando como
variable target alguna característica relevante (p. ej.valor total o gasto)
A partir del modelo puede predecirse el costo o gasto de
distintas combinaciones de ítems, su elasticidad, etc.
8/18/2019 Técnicas Avanzadas de Data Mining
35/80
35
Errores de concepción: redes neuronales
8/18/2019 Técnicas Avanzadas de Data Mining
36/80
36
Errores de concepción: redes neuronales
Diversos errores de concepción sobre las redes
neuronales hacen que estas no se apliquen en los
contextos apropiados:
- Qué limitaciones de los métodos tradicionales
superan
- Son métodos ineficientes (computacionalmente
complejos) para hacer predicciones (scoring)
- Son difíciles de interpretar
8/18/2019 Técnicas Avanzadas de Data Mining
37/80
37
37
Limitaciones de los enfoques tradicionales
Los métodos tradicionales son muy limitados respecto
del número de variables predictoras que pueden
considerar:
– es difícil especificar la forma funcional de modelos
no lineales y polinomiales con más de unas pocas
variables
– la regresión no paramétrica puede fallar debido a la
escasez relativa de datos en altas dimensiones
En cambio, una red neuronal tiene, por lo general,
buena performance en espacios ralos de dimensión
elevada
37373737
1-38
8/18/2019 Técnicas Avanzadas de Data Mining
38/80
38
38
No se requiere especificar una forma funcional
La función que describe la relación de entrada-salida nonecesita ser especificada… ni siquiera comprendida.
38383838
8/18/2019 Técnicas Avanzadas de Data Mining
39/80
39
39
Aproximador universal Dada una cantidad suficiente de unidades y tiempo,
una red neuronal puede modelizar cualquier relaciónde I/O, con cualquier grado deseado de precisión.
Es decir, las redes neuronales son “aproximadores
universales”.
39393939
8/18/2019 Técnicas Avanzadas de Data Mining
40/80
40
40
Desencanto
“Se muestra que, al menos para los datos usados en este
estudio, el ajuste logrado [por una regresión] es
aproximadamente el mismo, pero el proceso de
configurar y ajustar una red neuronal para una aplicación
de marketing en bases de datos no es simple, y puede
requerir una experimentación extensa y considerables
recursos computacionales”.
Zahavi and Levin (1997), “Applying Neural Computing to Target Marketing,”
Journal of Direct Marketing.
40404040
8/18/2019 Técnicas Avanzadas de Data Mining
41/80
4141
Impacto de datos ruidosos
414141
Red neuronal
regresión
Red neuronal
regresión
señal68
ruido= señal 0.76
ruido=
8/18/2019 Técnicas Avanzadas de Data Mining
42/80
42
42
Velocidad
Una red neuronal es uno de los algoritmos más veloces
para scoring, lo que lo hace muy apropiado para
predicciones en línea, filtrado de grandes volúmenes de
datos, etc.
42424242
8/18/2019 Técnicas Avanzadas de Data Mining
43/80
43
43
Dificultad de interpretación
Famosa objeción de la caja negra, usada
frecuentemente para evitar el uso de redes neuronales.
Dos modos de responder a la objeción:
1. Admitir que las redes neuronales son más relevantes
para tareas puramente predictivas
2. Aplicar otras técnicas de modelización, como árboles
de decisiones, para tratar de “abrir” la caja negra
(modelos subrogantes)
43434343
8/18/2019 Técnicas Avanzadas de Data Mining
44/80
44
Modelos subrrogantes
44
Frontera de decisión
Red neuronal
Frontera de decisión
Modelo subrrogante
Aproximar un modelo
inescrutable con un árbol
de decisión
44
8/18/2019 Técnicas Avanzadas de Data Mining
45/80
45
Descripción mediante modelos subrogantes
8/18/2019 Técnicas Avanzadas de Data Mining
46/80
46
Necesidad de un upgrade al data mining“tradicional”
Modelización de sucesos en el tiempo: Analisis de
supervivencia
Modelización de casos no independientes: Análisis de
redes sociales (SNA)
8/18/2019 Técnicas Avanzadas de Data Mining
47/80
47
Análisis de supervivencia
8/18/2019 Técnicas Avanzadas de Data Mining
48/80
48
Enfoque tradicional de data mining enmodelización predictiva
4 3 2 1 +1
Jan Feb Mar Apr May Jun Jul Aug Sep
Data set de modelización
Data set de scor ing 4 3 2 1 +1
La tabla de modelización proviene del pasado
El scoring se hace en el presente para nuevos datos
Las predicciones se hacen para algún periodo fijo en el futuro Los modelos se construyen mediante árboles de decisiones, redes
neuronales, regresión logística, etc.
8/18/2019 Técnicas Avanzadas de Data Mining
49/80
49
Limitación del data mining tradicional
Predice la ocurrencia de sucesos específicos en un cierto
intervalo (relativamente breve) de tiempo futuro, no
cuándo ocurrirán:
Sí: Qué clientes probablemente desertarán el mes que
viene
No: Cuándo desertarán durante los próximos dos
años
8/18/2019 Técnicas Avanzadas de Data Mining
50/80
50
Análisis de supervivencia
Análisis del tiempo transcurrido hasta un suceso o hasta la
repetición n-ésima de un suceso
Conceptos, herramientas y terminología provienen de la
medicina
– Estimar cuánto sobrevivirán los pacientes en base a
alguna intervención médica
Puede medir los efectos de variables (covariables iniciales o
covariables dependientes del tiempo) sobre el tiempo desupervivencia
Herramienta natural para comprender la relación con los
clientes
El data mining basado en análisis de supervivencia agrega el elemento de cuándo ocurren
las cosas. La supervivencia es particularmente valiosa para ganar comprensión de los clientes y cuantificar
esa comprensión. Una estimación de cuánto durarán los clientes es útil para cálculos de valor, además de
comparaciones directas entre diversos grupos La estimación de la duración de la relación con el cliente puede refinarse en base a las características del periodo inicial de análisis, además de con los sucesos que
ocurren durante el ciclo de vida de un cliente.
El enfoque tradicional y el de supervivencia son complementarios. Ningún enfoque es
mejor que el otro. Para una campaña específica de marketing basada en el ROI, el enfoque tradicional
usualmente funciona mejor que el enfoque de supervivencia, porque la campaña ocurre durante un periodo
particular de tiempo. Para la comprensión de los clientes y cuantificar resultados en el tiempo, el análisis de
supervivencia es preferible.
El análisis de supervivencia tiene su origen a finales del siglo XVII, fue utilizado por
diversas disciplinas a lo largo del siglo XX (medicina, industria, actuarios, finanzas, marketing, etc.) e
introducido en data mining a comienzos del siglo XXI por Michael Berry y Gordon Linoff. La referencia
básica es Berry; Michael J.A. y Linoff; Gordon S. Data Mining Techniques - For Marketing, Sales, and
Customer Relationship Management. Wiley, Indianapolis, Indiana, 2004, 2a ed., Cap. 12.
8/18/2019 Técnicas Avanzadas de Data Mining
51/80
51
Algunas aplicaciones del análisis de supervivencia
¿Cuánto durarán los clientes?
¿Cuándo empezar a preocuparse si un cliente no se
reactiva?
¿Cómo cuantificar el valor de un programa de fidelización?
¿Cuánto más valioso es un cliente con tarjeta dorada que
uno con tarjeta ordinaria?
¿Cuál será la tasa futura de churn?
¿Cuándo será la próxima transacción de un cliente? ¿Cuál es el efecto de diversos factores sobre la duración
de la relación con el cliente?
8/18/2019 Técnicas Avanzadas de Data Mining
52/80
8/18/2019 Técnicas Avanzadas de Data Mining
53/80
53
Novedades
Conceptos: – Tenure (antigüedad o permanencia)
– Riesgo y su estimación no sesgada
– Supervivencia
– Censura
– Truncado a izquierda
– Efecto y tipos de covariables
– Predicción por tipo de cliente
Herramientas:
– Gráficos de función de riesgo
– Gráficos de función de supervivencia – Estratificación
– Regresión de Cox
– Tiempo mediano residual
¡Cuidado con el
muestreo!
8/18/2019 Técnicas Avanzadas de Data Mining
54/80
54
Clientes en tiempo calendario y censura
Tiempo
Inicio clientes
Ex clientes (círculos
blancos)
Clientes todavía
activos (circ.
llenos).
Hoy
(fecha censura)
Ana, Permanencia 12, Activa
Rober, Permanencia 6,cesó
Cora, Permanencia 6, cesó
Diana, Permanencia3, cesó
Ema, Permanencia 3, Activa
Fede, Permanencia 5,Cesó
Gus, Permanencia 6,
cesó
Juan Permanencia 9, Activo
La censura significa eliminar (no incluir) a algunos clientes de algunos de los cálculos de riesgo. Es
uno de los conceptos más importantes en el análisis de supervivencia. El ejemplo más básico de censura es que los
clientes que cesaron no se incluyen en los cálculos después de que lo hicieron. Otro ejemplo es el de los clientes cuya
permanencia es t, pero están actualmente activos. Estos clientes no se incluyen en la población para el riesgo de permanencia t, porque los clientes podrían todavía cesar antes de t + 1. Estos clientes son eliminados para el cálculo de
ese riesgo particular, aunque son incluidos en los cálculos de los riesgos para valores más pequeños de t. Además de los
dos tipos de censura anteriores (riesgos para clientes después de que cesaron y riesgos para clientes que todavía están
activos) existen muchos otros tipos relevantes en los cálculos en distintas clases de fenómenos, tipos de productos o
servicios, etc.
El gráfico muestra clientes que iniciaron y cesaron en diferentes momentos. Tres de los clientes
cesaron en el pasado. Dos cesaron hoy, y tres están todavía activos. Conocemos la permanencia de los ex-clientes,
porque tenemos una fecha de inicio y una fecha de finalización. Para los clientes activos, no conocemos si cesarán
mañana o continuarán durante los próximos diez años. Es decir, solo tenemos una cota inferior de su permanencia.
Decimos que su permanencia está censurada.
Cuando examinamos los datos más recientes, la fecha de censura es hoy (o la fecha de
actualización más reciente). Para algunos propósitos, como testeo, a veces es deseable fijar la fecha de censura en un
punto en el pasado. Cuando hacemos esto, debemos estar seguros de excluir toda información futura. Por ejemplo, si la
fecha de censura fuera fijada en la barra de más a la izquierda, los datos cambiarían. La permanencia de Ana sería
menor. Rober, Cora, Ema, Fede y Juan no serían clientes porque no habrían comenzado. Gus todavia estaría activo,
pero con una menor permanencia. El único cliente que quedaría igual sería Diana.
8/18/2019 Técnicas Avanzadas de Data Mining
55/80
55
Tenure
Clientes en el tiempo de permanencia
Ann, Tenure 12, Active
Bob, Tenure 6, Stopped
Cora, Tenure 6, Stopped
Diane, Tenure 3,
Stopped
Emma, Tenure 3,
Active
Fred, Tenure 5, Stopped
Gus, Tenure 6, Stopped
Hal, Tenure 9, Active 09Hal
16Gus
15Fred
03Emma
13Diane
16Cora
16Bob
012 Ann
Stop?TenureCust
El cálculo de riesgo cambia de línea de tiempo: en lugar del tiempo calendario usa el
tiempo de permanencia. En esta escala, todos los clientes inician en el tiempo 0 y continúan hasta que
cesan o son censurados. Nótese que los clientes activos son censurados en diferentes momentos. Desde esta
perspectiva podemos obtener los dos datos necesarios para el cálculo de los riesgos: la antigüedad delcliente y si cesó.
8/18/2019 Técnicas Avanzadas de Data Mining
56/80
56
Riesgos
El riesgo, h(t), en el tiempo t es la probabilidad de que uncliente que sobrevivió en el tiempo t no sobreviva en el
tiempo t+1.
h(t) =
El valor del riesgo depende de la unidad de tiempo: días,
semanas, meses, años.
Difiere de la definición tradicional porque el tiempo es
discreto, es la probabilidad de riesgo, no la tasa de riesgo
# clientes que cesan exactamente en t
# clientes en riesgo de cesar en t
El riesgo (en realidad la probabilidad de riesgo) es la probabilidad en cualquier punto en
el tiempo de que un cliente deje de serlo en el tiempo t y antes del tiempo t + 1. El riesgo es una
probabilidad (condicional), de modo que siempre tiene un valor entre 0 y 1. El valor específico depende de
las unidades de tiempo usadas.
Cuando usamos todos los datos, la probabilidad de riesgo es el número de clientes que
dejaron de serlo con una permanencia particular dividido por el número de clientes con esa permanencia o
mayor. Esto hace al cálculo particularmente fácil de comprender y visualizar.
Un supuesto sobre este cálculo es que la tasa de riesgo es estable en el tiempo. Una
cuestión importante con los clientes es cómo cambian los riesgos. Diversos fenómenos como cambios en la
política de una empresa pueden hacer que las tasas de riesgo sean inestables.
8/18/2019 Técnicas Avanzadas de Data Mining
57/80
57
Función empírica de riesgo
0.00%
0.05%
0.10%
0.15%
0.20%
0.25%
0.30%
0 60 120 180 240 300 360 420 480 540 600 660 720
Permanencia (días)
R i e s g o d i a r i o
d e c h u r n
LasLas irregularidadesirregularidades sese
debendeben aa variacivariacióónn
intrasemanalintrasemanal
BajasBajas por por nono
pagopago
LaLa declinacideclinacióónn gradualgradual
de largode largo plazoplazo eses unauna
medidamedida dede fidelidadfidelidad
RiesgoRiesgo alto enalto en
tiempotiempo 00
Fin de laFin de la
promocipromocióónn
Ejemplo de los clientes suscriptos a un servicio particular (por ejemplo, telefoníacelular). Los riesgos se calculan sobre una base diaria. Miden la probabilidad de que un cliente termine lasuscripción un número dado de días después de haberla contratado. Una unidad diaria de tiempo suele
tener problemas debido a la irregularidad de las observaciones diarias, su susceptibilidad al ruido(fluctuaciones debidas a cuestiones aleatorias), etc. Muchas veces conviene una perspectiva con unagranularidad un poco menor (p. ej. semanal).
El análisis de las características de la curva permite una verdadera radiografía de laconducta de los clientes. Algunas de estas características son:
•Riesgo inicial alto en tiempo cero. La razón de esto es que algunos clientes nunca inician la relación ocesan inmediatamente después de haber iniciado. En algunos casos, podría no quererse incluir a estosclientes. En otros casos, por ejemplo cuando la tasa de clientes que no inician varía por producto, servicio ocanal de adquisición, esta puede ser una medida interesante.
•Entre los días 60 y 120 hay dos picos cercanos. El primer pico es de terminación por no pago. Los clientesque nunca pagan reciben cartas de cobranza en escalada en relación con su grado de morosidad. Este es unejemplo de un riesgo causado por una política comercial específica.
•El segundo de estos picos se debe a la finalización de la promoción inicial. La mayoría de los clientes son
atraídos por una promoción durante un periodo de tiempo. Los clientes que no están suficientementecomprometidos toman la promoción pero no tienen la intención de pagar el precio completo de lasuscripción.
•Los dos riesgos anteriores se basan en la fecha de compromiso del cliente, el primer día en que incurre encargos. Debido a esto, los picos de no pago y fin de promoción son bastante claros. Si hubiésemos usadootro día, como la fecha de contacto del cliente, los picos podrían no estar tan bien definidos.
•Además de estos picos, los riesgos tienen una tendencia general con irregularidades. Parte de estas sedeben a la variación intrasemanal. También, hay picos que corresponden al ciclo de facturación típico. Esmás probable que los clientes cesen cuando reciben sus facturas.
•La tendencia general de los riesgos es una disminución gradual en el tiempo. Esto significa que cuantomás permanecen los clientes en la compañía, menos probable es que cesen. Esta es una buena medida defidelidad.
8/18/2019 Técnicas Avanzadas de Data Mining
58/80
58
Curva de retención (no monotónica)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 10 20 30 40 50 60 70 80 90 100 110
Permanencia (Semanas)
R e t e n c i ó n
Una curva de retención proporciona información sobre cuántos clientesfueron retenidos durante una cierta cantidad de tiempo. Una forma de calcularla es: paralos clientes que iniciaron hace una unidad de tiempo, medir la retención de 1 unidad detiempo, para los clientes que iniciaron hace dos unidades de tiempo, medir la retenciónde dos unidades de tiempo, etc.
Nótese que la curva es bastante dentada y no monotónica. A veces vahacia arriba y a veces hacia abajo. ¿Qué significa que la retención en las 21 semanas seamás alta que la retención a las 20 semanas? Esperaríamos que el número de personas con
permanencia de 21 semanas que cesaron incluirían a los que cesaron a las veinte semanasmás un número adicional.
Una razón podria ser el error de muestreo. Sin embargo, hay otras causas.Por ejemplo, la mezcla de clientes que están siendo adquiridos podrían cambiar entre lasdos semanas. Considérese un centro de telemarketing que utiliza para priorizar sus
llamadas un puntaje de “buen cliente”. Tal vez los mejores de los buenos clientes fueronllamados hace 21 semanas. Estos son clientes que esperaríamos que tengan una mejor retención. Una semana después (hace 20 semanas) se llamaron a clientes no tan buenos yestos tienen una tasa mayor de cese.
Otro factor que podría variar en el tiempo es el número de clientes queestán siendo adquiridos. Tal vez el número de inicios descendió a 0 en una de lassemanas. En este caso, la variación del muestreo puede jugar un papel importante en lavariabilidad de la retención.
Este tipo de curvas ofrece algunas dificultades para algunos cálculos: eltiempo de vida mediano podría no ser uno solo o la retención promedio con una
permanencia dada podría ser mayor que la retención promedio con una permanencia
menor.
8/18/2019 Técnicas Avanzadas de Data Mining
59/80
59
Supervivencia vs. retención
Retención solo usa clientes de un periodo de tiempo estrecho para
calcular cualquier punto
Supervivencia usa tanta información como sea posible de todos los
clientes para calcular cada punto
0%
10%
20%
30%
40%
50%
60%
70%
80%90%
100%
0 10 20 30 40 50 60 70 80 90 100 110
Permanencia (Semanas)
R e t e n c i ó n / S u p e r v i v e n c i a
1)0(
))1(1()(1
=
−−= ∏=
S
t hT S T
t
Los riesgos dan la probabilidad de que un cliente pueda cesar en un punto particular del tiempo. La
supervivencia da la probabilidad de que un cliente sobreviva hasta ese momento. En cualquier punto del tiempo, la
probabilidad de que un cliente sobreviva hasta la siguiente unidad de tiempo es 1 – riesgo, lo que se llama
supervivencia condicional en el tiempo t (condicional porque se supone que el cliente sobrevivió hasta el tiempo t).Para calcular la supervivencia total en un momento t dado, se multiplican todas las supervivencias condicionales hasta
ese punto del tiempo. La curva de supervivencia es siempre monotónica decreciente.
El gráfico muestra dos curvas, una para retención y otra para supervivencia, basadas en los mismos
días. La curva de supervivencia parece una media móvil de la retención, pero no lo es. Un buen modo de comparar las
dos curvas es definir lo que significan. La curva de supervivencia provee un benchmark de la conducta de churn de los
clientes. Cada punto en la curva de supervivencia incorpora información de todo el data set. La curva de retención, por
otro lado, provee la información más reciente sobre cada punto. Por ejemplo, para la medición de retención de 50
semanas la información más reciente es la de los clientes que iniciaron hace 50 semanas.
Desde esta perspectiva, se pueden interpretar las dos curvas de arriba. Durante las primeras
semanas, la retención es más elevada que la supervivencia. Esto significa que los nuevos clientes de las últimas
semanas tuvieron una mejor performance que los clientes como un todo durante las primeras semanas de permanencia.
La adquisición de clientes está atrayendo clientes de mejor calidad. Gran parte de la diferencia ocurre durante la
primera semana. Tal vez la diferencia se deba a una reducción grande del fenómeno llamado “remordimiento inicial del
comprador”.
Durante otros períodos, la retención es inferior a la supervivencia. Esto implica que los clientes
durante esas semanas fueron peores que los clientes en general. En el ejemplo, la curva de retención y la curva de
supervivencia son bastante similares. Las diversas diferencias son pequeñas y podrían deberse solamente a variaciones
aleatorias.
Debido a que el cálculo de supervivencia usa todos los datos, los valores son más estables que los
cálculos de retención. Cada punto en una curva de retención se limita a los clientes que iniciaron en un punto particular
del tiempo. También debido a que una curva de supervivencia es monotónica decreciente, los cálculos de tiempo de
vida mediano y permanencia promedio son más precisos. Al incorporar más información, la supervivencia provee una
imagen más precisa de la retención de los clientes. Como la supervivencia es acumulativa, produce un buen valor de
resumen para comparar diferentes grupos de clientes y mejores estimaciones de retención para los cálculos de valor de
tiempo de vida del cliente.
Por otro lado los riesgos hacen más evidentes las causas específicas. Es posible identificar sucesosdurante el ciclo de vida del cliente que son causas de riesgos. Las curvas de supervivencia no destacan esos sucesos tan
claramente como los riesgos. Pero no tiene sentido comparar riesgos para diferentes grupos de clientes. El enfoque
apropiado es transformar los riesgos en supervivencia y comparar los valores en las curvas de supervivencia.
8/18/2019 Técnicas Avanzadas de Data Mining
60/80
60
Supervivencia versus Retención
Retención dice qué ocurrió a un grupo particular declientes.
– Por ejemplo, los que iniciaron su relación hace
exactamente 24 semanas
Cada valor de supervivencia incluye información
sobre todos los clientes.
– Porque la supervivencia es el producto de (1-h(t))
para todos los tiempos, y se usan todos losclientes en h(0)
8/18/2019 Técnicas Avanzadas de Data Mining
61/80
61
Tiempo hasta la próxima compra, estratificado por
número de compras previas
Otro ejemplo de la aplicación de supervivencia es el tiempo hasta la próxima compra
para sucesos de retail. En este caso, el inicio es cuando el cliente hace una compra. El fin es cuando (si
ocurre) el cliente hace otra compra. Como supervivencia aquí mide la probabilidad de que un cliente no
haga una compra, tiene más sentido considerar la inversa, la probabilidad de que un cliente hará unacompra.
El gráfico muestra el tiempo hasta la próxima compra, estratificado por el número de
compras en el pasado. La línea gruesa gris es el promedio global para cualquier número de compras.
8/18/2019 Técnicas Avanzadas de Data Mining
62/80
62
Regresión de riesgos proporcionales (Cox)
La regresión de Cox considera la verosimilitud paratodas las permanencias
Esta es la verosimilitud de que exactamente esosclientes cesaron cuando lo hicieron, y no en cualquier otro momento
Gracias a algunos pocos supuestos es posible eliminar los términos relacionados con la permanencia, y soloquedan las covariables
Los valores de los parámetros se estiman mediantemáxima verosimilitud
8/18/2019 Técnicas Avanzadas de Data Mining
63/80
63
360
420
480
540
600
660
0 60 120 180 240 300 360 420 480 540
Tenure
R e m a i n i n g T e n u r e
Tiempo de vida residual mediano
Al Al deshacersedeshacerse dede loslos queque
nono intentanintentan pagar pagar , el, el
tiempotiempo dede vidavida residualresidual
medianomediano aumentaaumenta
LaLa permanenciapermanencia medianamediana
bajabaja debidodebido al churn deal churn de
aniversarioaniversario
LaLa permanenciapermanencia medianamedianaaumentaaumenta luegoluego del churndel churn
dede aniversarioaniversario
8/18/2019 Técnicas Avanzadas de Data Mining
64/80
64
Predicción de supervivencia para dos grupos
0
20
40
60
80
100
120
140
0 6 0
1 2 0
1 8 0
2 4 0
3 0 0
3 6 0
4 2 0
4 8 0
5 4 0
6 0 0
6 6 0
7 2 0
7 8 0
8 4 0
9 0 0
9 6 0
1 0 2 0
1 0 8 0
Days in the Future
C u s t o m e r s
8/18/2019 Técnicas Avanzadas de Data Mining
65/80
65
Existing
Customer
Base
New Start
Forecast
Do Existing Base
Forecast (EBF)
Do New Start
Forecast (NSF)
Do Existing Base
Churn Forecast
(EBCF)
Do New Start Churn
Forecast (NSCF)
Existing Customer
Base Forecast
New Start
Forecast
Churn
Forecast
Churn
Actuals
Compare
Combinación de la base de nuevos clientescon la existente
Parte de la predicción se basa en predecir que ocurrirá con la base existente, pero este es
solo un componente. La parte más difícil es pronosticar qué ocurrirá con los clientes que iniciarán en el
futuro. Esto requiere una predicción de los inicios a lo largo del tiempo, pero también de los ceses en esos
tiempos.
8/18/2019 Técnicas Avanzadas de Data Mining
66/80
66
Técnicas de Análisis de
redes sociales
El análisis de redes sociales surge como un paradigma clave en la sociología, tecnología y ciencias
de la información modernas. El paradigma surge de la concepción de que los atributos de un individuo inmerso en una
red social son menos importantes que sus vínculos (relaciones) con otros individuos en la red. Explorar la naturaleza y
fuerza de estos vínculos puede ayudar a comprender la estructura y dinámica de las redes sociales y explicar fenómenosdel mundo real, que van desde cuestiones de eficiencia de una organización hasta la difusión de la información y las
enfermedades, pasando por distintas cuestiones relevantes al mundo de BI como fraude, churn, marketing y otras.
•Barabasi, A.-L. Linked – The new science of networks. Perseus Publishing, Cambridge, 2002.
•Breiger, R. et al. (comps.). Dynamic Social Network Modeling and Analysis. National Academies Press, Washington
D.C., 2003.
•Galaskiewicz, J. y Wasserman, S. “Social Network Analysis – Concepts, Methodology, and Directions for the 1990s”.
Sociological Methods and Research, Vol. 22, No. 1, August 1993, pp. 3-22
•Hanneman, Robert A. Introduction to Social Network Methods. http://faculty.ucr.edu/~hanneman/nettext/
8/18/2019 Técnicas Avanzadas de Data Mining
67/80
67
Fraude
Delito sofisticado, se manifiesta en forma distinta endiferentes industrias
Produce pérdidas millonarias
Permanentemente se desarrollan nuevas estrategiasde fraude
Los ataques suelen ser veloces, en intervalos detiempo cortos
Suele no haber datos supervisados disponibles o muypocos datos
Frecuentemente involucran a varias personas y otrosobjetos en relación
Son necesarias técnicas híbridas y relacionales dedata mining
Hay muchos tipos de fraude: “first party”, fraude con tarjetas de crédito, fraude
impositivo, fraude con seguros de salud, fraudes en denuncias de seguros, etc. Otras conductas que pueden
analizarse de modos similares: churn/adopción por contagio, cross-selling, financiamiento de terrorismo,
lavado de dinero, marketing viral, marketing B2B, etc.
8/18/2019 Técnicas Avanzadas de Data Mining
68/80
68
Fraude “ first party”
Fraude cometido por los propios clientes de una
institución
Usualmente abren una cuenta corriente, realizan muchas
transacciones y luego solicitan créditos sin garantía
prendaria que nunca pagan
La unidad de análisis es una red con diversos tipos de
entidades (clientes, cuentas, números de teléfonos,
direcciones, transacciones)
Fraude “First party” es cuando uno o más individuos establecen una relación con un
banco (usualmente abren una cuenta corriente), realizan muchas transacciones para incrementar su puntaje
como clientes y luego solicitan créditos sin cobertura que nunca pagan.
Se usan diversos tipos de indicadores: la red se cierra sobre si misma debido al reciclado
de direcciones y teléfonos; tasa grande de cuentas sin garantía que se abren rápidamente; evolución en el
tiempo; métricas sobre el grafo; reglas.
8/18/2019 Técnicas Avanzadas de Data Mining
69/80
69
Red de fraude “ third party”
Cuentas
s/garantía
Individuo
Fono
Dirección
8/18/2019 Técnicas Avanzadas de Data Mining
70/80
70
Evolución en el tiempo
8/18/2019 Técnicas Avanzadas de Data Mining
71/80
71
SNA (Análisis de redes sociales)
SNA es un conjunto de métodos relacionales paracomprender e identificar conexiones entre actores(puntos, nodos o agentes)
Enfoque que intenta superar las limitaciones de lastécnicas no relacionales (independencia entre loscasos, atributos en lugar de relaciones, etc.)
Utiliza técnicas matemáticas (esp. teoría de grafos) eimportantes recursos computacionales
Las redes sociales pueden involucran un gran número
de objetos (p. ej., 60 millones de celulares, 300-400millones de vínculos, 7-9 millones de subredes, etc.) yestructuras (subredes) anidadas
Otras características:
•Dado la relación entre los actores, es difícil implementar muestreos aleatorios de observaciones
independientes.
•Estructura “multimodal”: subredes anidadas en otras (red de relaciones familiares anidada en la red de
relaciones sociales de grupos, anidada en la red de relaciones sociales de comunidades, etc.)
•Muchos análisis solo representan una relación o vínculo entre los actores. Algunos pocos análisis son
multirrelacionales.
•Las relaciones pueden ser binarias, nominales, ordinales o de intervalo.
•El análisis de redes sociales surge de la sociología matemática (inicialmente de los sociogramas).
8/18/2019 Técnicas Avanzadas de Data Mining
72/80
72
Novedades
Conceptos
– Varios niveles de análisis (no solo los casos
individuales)
– Contagio, difusión, cohesión, roles
– Muestreo agrupado en lugar de muestreo simple o
estratificado, y en muchos casos, toda la población
– Investigación (en lugar de modelización)
– Conceptos de teoría de grafos
Herramientas
– Grafos (muy grandes) – Graficación interactiva
– Alarmas basadas en métricas
– Inferencia colectiva
8/18/2019 Técnicas Avanzadas de Data Mining
73/80
73
Actores y relaciones
Los actores se describen por sus relaciones, no por
sus atributos
Las relaciones son tan fundamentales como los
actores a los que conectan (mucho menos los
atributos de los actores)
8/18/2019 Técnicas Avanzadas de Data Mining
74/80
74
Niveles de análisis de una red
Redes-ego: actor y actores (alter) conectados con él
– Roles (líder, seguidor, marginal, antagonista)
– Métricas: densidad de conexiones, centralidad
Redes parciales: redes ego más conexiones entre
esas redes
– Métricas: diámetro, densidad de conexiones, etc.
Red global
– Métricas: diámetro, densidad de conexiones, etc.
•Densidad de conexiones (coeficiente de clustering): tasa entre el número efectivo de conexiones
y las posibles
•Diámetro: distancia máxima entre dos nodos
Las métricas sobre comunidades se aplican sobre subredes determinadas
previamente mediante algún algoritmo de detección de comunidades.
Coeficiente de clustering: http://en.wikipedia.org/wiki/Clustering_coefficient
Centralidad: http://en.wikipedia.org/wiki/Centrality
8/18/2019 Técnicas Avanzadas de Data Mining
75/80
75
Métodos de recolección de datos
Como los métodos de redes se concentran en las relaciones
entre los actores, estos no pueden muestrearse
independientemente de los actores con los que están
vinculados
Métodos de red completa
Métodos en cascada (“snowball”)
Redes egocéntricas (conexiones alter)
Redes egocéntricas (solo ego)
•Métodos de red completa: produce un máximo de información, pero es costoso, difícil de realizar y puede
ser difícil de generalizar. La definición y medición de muchos conceptos estructurales del análisis de redes
requiere de información completa.
•Métodos en cascada (“snowball”): Se parte de un actor o conjunto de actores focales. La recolección de
datos continúa con los actores vinculados a los actores focales y así siguiendo hasta un criterio de
detención. Particularmente útil para registrar datos de poblaciones “especiales”. Problemas: Actores no
conectados (aislados) no pueden localizarse con este método; sesgo hacia las conexiones; no se garantiza
encontrar todos los actores conectados en la población (esto puede depender de la elección de los actores
focales).
•Redes egocéntricas (conexiones alter): Similar a los métodos en cascada pero se parte de una muestra de
nodos focales y se determina que actores están vinculados entre sí. Puede ser bastante efectivo en
poblaciones grandes y puede combinarse con enfoques basados en atributos. Sin embargo, muchas
propiedades de una red como distancia, centralidad, etc. no pueden evaluarse con este tipo de datos.
•Redes egocéntricas (solo ego): Recogen información de los nodos focales, pero no de los vínculos entre
los alter. En principio pierden mucha información sobre la red, pero pueden ser métodos útiles para tiposespeciales de redes (redes egocéntricas).
8/18/2019 Técnicas Avanzadas de Data Mining
76/80
76
Tareas del investigador
Desde las entidades hacer drill down a reportes de
detalle
Examinar detalles de un alerta
Explorar y anotar redes sociales
Responder a las alertas
Referir las alertas a un manejo de casos
Detección de comunidades (descubrir subestructuras)
Detección de roles
8/18/2019 Técnicas Avanzadas de Data Mining
77/80
77
Análisis bottom-up vs. top-down
Bottom-up: Una entidad dispara una alerta. El
investigador expande los vínculos para examinar una
o dos capas alrededor de la entidad.
Top-down: La red globalmente dispara una alerta
dibido a asociaciones entre múltiples entidades de
varios tipos. Se analiza la red globalmente.
8/18/2019 Técnicas Avanzadas de Data Mining
78/80
78
Conceptos de teoría de grafos
Cliques
Subredes desconectadas
Bloques y puntos de corte
Facciones
Vecindades de un paso
Etc.
•Cliques: red donde cada nodo está conectado con todos los demás.
•Bloques y puntos de corte: componentes que quedarían desconectados si se eliminase un nodo o relación.
•Facciones: componente en el que los miembros están más estrechamente conectados entre sí que conmiembros de otras facciones
•Vecindades de un paso: componente generado seleccionando un nodo, los nodos conectados con ese nodo
y las conexiones entre estos otros nodos.
8/18/2019 Técnicas Avanzadas de Data Mining
79/80
79
Diagrama conceptual genérico
ExploreExploreexistingexisting
informationinformation
ExtractExtract datadata MeasureMeasure
social linkssocial links A B
Assign Assign rolesroles
DetectDetectcommunitiescommunities
QualifyQualifycommunitiescommunities
Entirenetwork
Communities (maxmodularity)
Results
Apply Apply SNASNAmetricsmetrics
Entirenetwork
Community
Actors
1
2
3 4
567
8/18/2019 Técnicas Avanzadas de Data Mining
80/80
80
Cursos apropiados
Usos inapropiados de las tecnicas tradicionales: regresion logística
Modelización predictiva con regresión logística
Modelizacion predictiva avanzada con SAS Enterprise Miner
Usos insuficientes de tecnicas tradicionales: reglas de asociación
Análisis de reglas de asociación
Errores de concepción: redes neuronales
Modelización con redes neuronales
Análisis de supervivencia
Análisis de supervivencia en Data Mining
Análisis de redes socialesTécnicas de análisis de redes sociales
http://www.sas.com/argentina/educacion