Data Mining Snoop Consulting Arg
-
Upload
snoop-consulting -
Category
Technology
-
view
1.767 -
download
2
Transcript of Data Mining Snoop Consulting Arg
Minería de Datos
y
Análisis Predictivo
Fernando Das NevesInvestigación y Desarrollo
www.snoopconsulting.com
Agenda
Data Mining y Análisis Predictivo: ¿Qué y para qué?
Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining
www.snoopconsulting.com
Snoop: Quienes somos
Snoop Consulting se especializa en:
Ingeniería de Software con tecnologías de orientación a objetos, UML, JAVA & J2EE
Bases de Datos
Soluciones de Inteligencia de Negocios
Data Mining y Análisis Predictivo
Usabilidad
www.snoopconsulting.com
Snoop: Quienes somos
www.snoopconsulting.com
Data Mining: ¿Cuál es el problema?
Muchos datos, poca información:
Cada transacción genera un registro, pero…
¿Son éstas transacciones un posible fraude?
¿Qué grupos de clientes tenemos?
¿A qué clientes retener, qué producto le puede interesar?
¿Dónde ubicar la próxima sucursal?
Intuición y análisis básico usualmente no son suficientes para contestar estas preguntas.
www.snoopconsulting.com
Información básica sobre un evento
Diferentes maneras de encontrar información
Técnica de
consultaNecesidades de reporte Ejemplo
Reporte de operaciones
Encontrar el destino de un vendedor en una fecha determinada.
Ad-hoc El usuario define las consultas para ayudar a entender un evento.
¿El vendedor V, ha tenido éxito en el pasado con este tipo de clientes?
OLAP Condensar información de eventos a través de diferentes dimensiones
¿Cuál es el porcentaje de exito de este producto en esta región? ¿Qué pasa a nivel local, regional, estacional?
Data Mining Asociación de atributos, modelado predictivo, agregado (clustering) de informaciónInvolucra diferentes atributos, registros y bases de datos.
¿Cuál es el potencial de ventas de este cliente? ¿Como se dividen los clientes en base al éxito de ventas?
Com
plejidad
www.snoopconsulting.com
¿Qué hay de nuevo?
Business Intelligence es entendido y aceptado. Las empresas toman como algo normal recolectar y agregar datos.
Capacidad de procesamiento y memoria.
Todo esto hace que Minería de Datos y Análisis Predictivo sean posibles y efectivos hoy en día.
No es necesario tener un warehouse para hacer data mining.
www.snoopconsulting.com
¿Qué es exactamente Minería de Datos?
El descubrimiento de reglas y patrones útiles de información en un vasto conjunto de datos que de otra manera parece caótico.
Frases clave:
reglas y patrones útiles...: Una regla evidente no es útil; una regla con poco valor (y muy poco frecuente) tampoco.
...que de otra manera: Quienes son mis mejores clientes no es un problema de data mining; que define a mis mejores clientes sí lo es.
Data Mining usualmente involucra varios pasos: decisión de metas de interés, limpieza y unificación de datos, búsqueda exploratoria, y desarrollo y validación de un modelo, entre otros.
www.snoopconsulting.com
Dos vistas de Data Mining
Reglas
0
10
20
30
40
50
60
70
80
90
100
?
?
?
Muy frecuentes(fáciles de detectar)
Muy raras(no son un patrón)
Reglas Novedosas y Utiles(difíciles de detectar)
¿nuevo tipo defraude?
www.snoopconsulting.com
Análisis Descriptivo y Predictivo
Las técnicas de data mining se pueden usar de dos maneras:
Para entender el por qué de una tendencia o evento, o encontrar nuevas relaciones entre los datos (análisis descriptivo).
Para sacar conclusiones a futuro a partir de tendencias complejas en las relaciones entre los datos existentes (análisis predictivo).
www.snoopconsulting.com
¿Es magia?
No. Las técnicas de data mining tienen limitaciones y suposiciones sobre los datos.
Data mining no es probar algoritmos para ver que resulta.
Cuando éstas técnicas se combinan con un objetivo claro de negocios, son muy efectivas.
“Cualquier tecnología suficientemente avanzada es indistinguible de la magia”.
Arthur C. Clarke
www.snoopconsulting.com
Aplicaciones concretas de Data Mining
En Farmacia:Segmentación de clientes e identificación de potenciales nuevos clientes de alto valor mediante loyalty card.
En Petróleo:Predicción de permeabilidad de pozo a partir del well log.
En banca:Predecir la probabilidad de que un cliente vaya a cerrar la cuenta o la vaya a transferir a otro banco con 60 días de anticipación.
En Retail:Identificar clientes que es mas probable que respondan a una oferta de productos.
En Salud:Identificación de pacientes con alta predisposición a hipertensión.
www.snoopconsulting.com
¿Qúe se puede hacer con Data Mining?
Más Ejemplos:Crear un ranking de expertos por tema en la empresa, a partir del análisis de tráfico de email.
Identificar "early buyers" a partir del historial de ventas, y ver que los caracteriza.
Estimar lo que cada cliente van a tener en la lista de compras a partir de sus compras en el pasado.
Sumarizar las opiniones negativas y positivas de clientes en la web.
www.snoopconsulting.com
¿Qúe más se puede hacer con Data Mining?
...y más ejemplos...Estimar el esfuerzo de retener a un cliente versus el beneficio de retenerlo.
Estimar la gravedad de un ataque en internet (con o sin ataques previos).
Encontrar productos y servicios inesperados (diferentes de los que ofrecemos) ofrecidos por la competencia analizando su website.
Analizar cómo el publico usa el website de la compañia, que busca y que encuentra.
www.snoopconsulting.com
¿Qúe más se puede hacer con Data Mining?
… y más ejemplos:Qué productos ofrecer a qué clientes para maximizar la inversión de marketing.
Usar los comentarios en la llamadas a call centers para determinar que casos son los mas caros de responder.
Qué combinación de productos pueden maximizar cross-selling.
www.snoopconsulting.com
Data Mining y Análisis Predictivo: ¿Qué y para qué?
Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining
www.snoopconsulting.com
¿Cómo hacen?
Las técnicas de data mining aplicables a problemas empresariales se puede dividir en:
Descriptivos:Reglas de Asociación
Sumarización y Generalización
Clustering
Predictivos:Clasificación y Regresión
Optimización
Detección de Anomalías
www.snoopconsulting.com
¿Cómo hacen?
Las técnicas de data mining aplicables a problemas empresariales se puede dividir en:
Descriptivos:Reglas de Asociación
Sumarización y Generalización
Clustering
Predictivos:Clasificación y Regresión
Optimización
Detección de Anomalías
www.snoopconsulting.com
Reglas de Asociación
Ciertos valores aparecen asociados tan frecuentemente, que la presencia de algunos valores sirve para predecir otros, con una cierta probabilidad.
Ejemplos:Hombres y edad [20,35] y sueldo_mes ≥ $6580 reproductor_mp3 con soporte=2% y confianza=0,67
“Salavando al Soldado Ryan” y “El Patriota” y meses ≤ 6 “Band of Brothers” con soporte=1% y confianza=0,9
Aplicadas a maximizar cross-selling
www.snoopconsulting.com
Reglas de Asociación
Ventajas de Reglas de Asociación: simples de interpretar.
Pueden restringirse por: Confidencia
Reglas con probabilidad alta
Soporte Reglas con alto número de ocurrencias
Contenido Reglas que incluyen un atributo en particular
Complejidad (longitud) de la regla
www.snoopconsulting.com
Resumen y Generalización
Dado un conjunto de casos, resumir es encontrar una descripción corta que cubra la mayor cantidad de casos con la mínima pérdida de información.
Ejemplos:Describir brevemente a un conjunto de papers de la competencia para encontrar temas comunes y estrategias.Capturar la relaciones entre equipos y miembros de diferentes equipos a partir del intercambio de emails. ¿Quién es el líder? ¿Quién el experto?
www.snoopconsulting.com
Clustering
Clustering consiste en agregar datos en grupos cuyos elementos tengan características comunes que sean útiles.
Ejemplos:Encontrar clientes con hábitos de compras similares.
Asignar temas a documentos a partir de encontrar temas comunes automáticamente.
www.snoopconsulting.com
Clustering en ODM
Por centroide
Edad
Ingreso
C2
EdadC1
Ingreso
C1
C2
Edad
Ingreso
Por Histograma
www.snoopconsulting.com
Clustering en ODM
K-Means
Usa una medida de similaridad basada en distancia
Puede crear jerarquías balanceadas o inbalanceadas.
Puede manejar grandes volúmenes via sumarización.
www.snoopconsulting.com
Enhanced K-Means
La versión de Oracle construye un agrupamiento jerárquico de clusters de arriba hacia abajo.
Los atributos catergóricos se dividen en bins de aprox. igual cantidad de items.
El nodo con mayor varianza se divide para formar 2 clusters.
Para cada cluster, el algoritmo retorna: el centroide, histogramas por atributo, y una regla que define la “caja” que delimita al cluster, y un score de pertenencia de cada item a cada cluster.
www.snoopconsulting.com
Clustering en ODM
O-Clustering: Algoritmo de clustering basado en densidad
Particiones ortogonales Encuentra clusters naturales
www.snoopconsulting.com
O-Clustering
Funciona con un número alto de dimensiones y ruido
Combina atributos numéricos y categóricos
Datos con distribuciónmultinomial
0 20 40 60 80 100
0
20
40
60
80
100
www.snoopconsulting.com
Clasificación y Regresión
Aproximar la relación desconocida entre pares (dato, resultado) para predecir el resultado dado un dato nuevo.
Ventaja: No hace falta saber cual es la relación.
Desventaja: Dependiendo del método, las relaciones encontradas pueden ser difíciles de transformar en explicaciones.
Ejemplos: Predecir demanda de un producto en el corto plazo.
Predecir si un server esta por necesitar pasar a mantenimiento.
www.snoopconsulting.com
Clasificación: ArbolesEdad Empleo Crédito Compró
<25 público bajo No
25…40 privado alto Sí
<25 privado medio Sí
…
Edad Sí
Crédito
Empleo
Sí
No
Empleo
Sí
No
No
<25
25…40
>40
bajo
medio,alto
público
público
privado
privado
0,9 0,9
0,78
0,8
0,9
0,96
www.snoopconsulting.com
ODM: Naive Bayes
Basado en probabilidades: rápido de calcularAsume independencia de atributosNo es afectado seriamente por la dimensión (columnas) de la tabla
Puede excluir casos con bajas probabilidades para aumentar precisión y performance
Produce probabilidades de predicciónResultado: Categorías y criterios
www.snoopconsulting.com
ODM: Support Vector Machines
Aprenden a separan grupos no basadas en maximizar la separación (margen) entre los elementos de cada grupo (requieren ejemplos)
Precisas como Redes Neuronales, sin los problemas de overfitting
Lentas para aprender, el proceso es computacionalmente caro.
El algoritmo de SVM en ODM aprende a clasificar elementos en grupos y estima parámetros.
www.snoopconsulting.com
Regresión en ODM
Regresión permite predecir series temporales.
El tuning automático de parámetros en ODM simplifica la optimización de la predicción.
www.snoopconsulting.com
Optimización
Encontrar la mejor solución a un problema combinatorio, dados una serie de datos, un objetivo y un conjunto de limitaciones.
Ejemplo:Dado un nivel de venta estimado, y un conjunto de relaciones entre productos, encontrar el la asignación de precios que maximiza la ganancia.
www.snoopconsulting.com
Detección de Anomalías
Tradicionalmente, detectar anomalías (p.ej. Posibles fraudes) significaba definir que es una anomalía, y dar ejemplos.
Problemas:– Los ejemplos de anomalías son muy raros– Las anomalías van cambiando, y los ejemplos se
vuelven insuficientes. Alternativa:
Definir que es lo normal (de lo cual hay un montón de ejemplos), y que todo lo que es muy diferente, es una anomalía.
www.snoopconsulting.com
ODM: One-Class SVM
origen
Espacio del problema Como el algoritmo ve el problema
www.snoopconsulting.com
One-Class SVM en ODM
ODM incorpora avances para simplificar la búsqueda de anomalías:
El usuario puede especificar el % de outliers; ODM se encarga de ajustar los parámetros.
La transformación de datos para el algoritmo se realiza automáticamente.
www.snoopconsulting.com
Reducción de atributos
ODM implementa NMF (Non-Negative Matrix Factorization),un método para crear nuevos atributos que representen la misma información, pero en menor cantidad de atributos originales.
Puede funcionar con alta dimensionalidad y pocos valores por dimensión.
En ODM, NMF encuentra los vectores descriptores para clasificar nuevos elementos.
www.snoopconsulting.com
Text Mining y Data Mining
El objetivo de Data Mining es descubrir o derivar nueva información de los datos existentes.
Text Mining es descubrir información nueva y útil extrayendo información a partir de textos, aplicando una serie de algoritmos para convertir texto sin estructura en información estructurada.
www.snoopconsulting.com
Text Mining
Text Mining es más complicado que data mining porque:
Las computadoras no pueden leer (comprender) texto.
El texto no tiene estructura bien definida (campos).
Un documento trata varios temas.
El significado de las palabras es ambiguo, y depende del contexto y del idioma.
Posible explosión combinatoria de conexiones potencialmente válidas.
www.snoopconsulting.com
Aplicaciones Prácticasde Text Mining
Dentro de empresas, text mining se usa para identificar expertos y relaciones entre empleados y proyectos, tecnologías y clientes.
En atención a clientes, text mining se usa para incorporar las notas del operador de call center como parte del modelo predictivo.
En marketing, text mining se usa para resumir la opinión (positiva/negativa) de la gente con respecto a un producto.
En editoriales, text mining se usa para clasificar automáticamente las noticias y leyes, identificando los temas clave.
www.snoopconsulting.com
Text Mining y visión del cliente
Text mining complementa a data mining para dar una vista completa del cliente: lo que dice el texto se puede analizar cuantitativamente para contestar:
¿Cómo agrupan los comentarios de los clientes? ¿Qué causó picos de demanda en el call center? (text mining de
los logs de operadores) ¿Qué opinan la gente de mi producto? ¿Cuál es el rumor en la
web? ¿Cuáles son los términos claves asociados a las opiniones positivas y negativas?
Text mining puede reducir el churn en hasta 50% cuando se implementa correctamente como parte de una estrategia global de satisfacción del cliente. (Fuente: Nucleus Research)
www.snoopconsulting.com
Web Mining
Web Mining es la aplicación de data mining sobre Word Wide Web, para buscar patrones en el contenido, la estructura y el uso del web site.
¿De dónde vienen los visitantes a mi web site? ¿A dónde van cuando se van? ¿Cuánto tiempo se quedan? ¿Qué porcentaje de las sesiones resultaron en compras? ¿Qué páginas “espantan” clientes, haciendo que el usuario se
detenga y se vaya del web site? ¿Cuál porcentaje de gente deja el web site con items
seleccionados para compra? ¿En dónde ocurre más frecuentemente?
¿Cuál es el camino más transitado dentro del web site? ¿Qué tan exitosos son las publicidades? ¿Cuánto tiempo invierten los visitantes de mi web site cuando
llegan desde una determinada publicidad?
www.snoopconsulting.com
Recomendación
Recomendación es la aplicación de data mining para inferir los intereses de un usuario y adaptar el website a esos intereses.
¿Cuáles son los productos que el cliente estaría más interesado en comprar?
¿En cuáles otros productos similares o relacionados puede estar interesado el cliente ?
www.snoopconsulting.com
Data Mining y Análisis Predictivo: ¿Qué y para qué?
Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining
www.snoopconsulting.com
Oracle Data Miner
www.snoopconsulting.com
¿Por qué Oracle Data Miner?
El motor de data mining es parte de la BD
No hay problemas de seguridad: La información se queda en donde está guardada. Simplifica el procesamiento de datos, elimina movimiento de datos, asegura escalabilidad.
La interfaz de usuario genera el código necesario para el proyecto de data mining.
Es mucho más fácil conseguir un programador PL/SQL que uno SPSS o SAS.
Es posible comenzar a usar ODM fácilmente, mediante DBMS_PREDICTIVE_ANALYTICS.PREDICT y EXPLAIN.
Contiene además una biblioteca de mas de 50 funciones estádisticas escritas para funcionar sobre cantidades masivas de datos.
www.snoopconsulting.com
Oracle Data Miner
Selección y asignación de peso a los atributos Clasificación y Predicción (supervisados)
Naive Bayes Support Vector MachinesRegresión Logística
Clustering y Asociaciones (sin supervición)Reglas de AsociaciónClustering Ortogonal Clustering con k-means
Selección de AtributosMinimum Description Length, chi cuadrado
Extracción de AtributosNon Negative Matrix Factorization
RegresiónRegresión MúltipleSupport Vector Regression
www.snoopconsulting.com
Beneficios de ODMCarácteristica Beneficio
Algoritmos de DM en la BD
• Elimina movimiento y exposición de datos
Amplio rango de algoritmos de data mining
• Pueden aplicarse a la mayoría de los problemas de DM
Corre en diferentes platformas
• Las aplications pueden ser desarrolladas y luego instaladas en otra plataforma
Parte de la Tecnología Oracle
• Grid, RAC, BI,…• Java (DM4J) y PL/SQL
www.snoopconsulting.com
Data Mining y Análisis Predictivo: ¿Qué y para qué?
Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining
www.snoopconsulting.com
El Proceso de Data Mining
¿Qué hace a data mining complicado? La realidad.
Conjuntos MUY grandes de datos
Alta dimensionalidad de los datos
Interpretación
Overfitting
Outliers
www.snoopconsulting.com
Proceso de Data Mining ¿Qué se necesita?
Objetivos claros sobre qué averiguar, y que se espera obtener.
Un conjunto de datos significativo sobre el que basar la tarea de data mining.
Personal que entienda las limitaciones y ventajas de los distintos métodos de data mining.
Un proceso para que los resultados sean repetibles.
www.snoopconsulting.com
CRISP-DM: Proceso de Data Mining
Standard Industrial para el proceso de data mining.
Diseñado a partir de la experiencia común de varias firmas consultoras de data mining.
Iterativo, dado que el proceso de data mining es iterativo por definición.
Suficientemente general como para describir todos los procesos de data mining.
Suficientemente específico como para detallar todos los pasos a seguir.
www.snoopconsulting.com
Fases de CRISP-DM
Comprensión delproblema de negocios
Comprensión de los datos disponibles
Preparación de los datos
Evaluación de la Solución
Puesta en Producción
Construcción deun modelo de DM
www.snoopconsulting.com
Fase del Proceso de Desarrollo de Software (RUP)
Incepción (Inicio)Incepción (Inicio) ElaboraciónElaboración ConstrucciónConstrucción TransiciónTransición
Comprometer recursos para la fase de elaboración
Hito: Objetivo del ciclo de vida del producto
Comprometer recursos para construcción
Hito: Arquitectura del ciclo de vida
del producto
El producto está maduro como para entregarlo al cliente
Hito: Puesta en operación inicial
del producto
El cliente acepta el producto, o el producto es terminado
Lanzamientodel producto
tiempo
www.snoopconsulting.com
CRISP-DM y RUPComprensió
n del Negocio
Comprensión de los Datos
Preparación de los Datos
Modelado Evaluación Lanzamiento
Determinacióndel problema de Negocios
Estimación de situaciónactual
Determinaciónde objetivos de usar DM
Producción deun Plan deProyecto
Recoleccióninicial de datos
Descripción Inicial de datos
Exploraciónde datos
Verificación de calidad de datos
Selección de datos
Limpiezade datos
Construcción de una vista coherente de los datos
Integración de datos
Dar formato apropiado a los datos
Selección de un modelo de DM
Generaciónde un diseñode prueba
Construcciónde un modelo
Evaluacióndel modelo
Evaluación deresultados
Revisión delproceso
Determinaciónde lospróximospasos
Plan de distribución ypuesta en marcha
Planeación demonitoreo ymantenimiento
Producción dereporte final
Revisión Finaldel proyecto
Elaboració
nIncepción
Construcción Transición
www.snoopconsulting.com
1. Comprensión del Problema de Negocios
Relevamiento de requerimientos Definición del problema en términos de
data mining. Identificación de limitaciones y
presunciones. Identificación de riesgos y posibles
contingencias. Plan Preliminar de cómo solucionar el
problema.
www.snoopconsulting.com
2. Comprensión de los Datos Disponibles
Recolectar un conjunto inicial y representativo de los datos.
Familiarizarse con la estructura de los datos.
Identificar problemas con la calidad de los datos (repeticiones, valores faltantes, valores ambiguos).
Desarrollar hipótesis de relaciones entre los datos.
www.snoopconsulting.com
3. Preparación de los Datos
Esta etapa consume más del 30% (hasta el 70%) del tiempo de un proyecto de DM.
Desarrollar un modelo para reemplazar/eliminar valores faltantes.
Cómo tratar valores ambiguos. Cómo tratar outliers. Transformar datos de discretos a continuos o al
revés. Computar valores para los algoritmos de DM,
posiblemente combinando diferentes conjuntos de datos.
Dar formato a los datos para que puedan ser usados por los algoritmos de DM.
www.snoopconsulting.com
3. Preparación de los Datos
¿Qué porcentaje de tiempo ocupa la limpieza y preparación de datos en su proyecto de DM?
Sobre 187 proyectos:Más del 80% (46) 25%61 a 80% (73) 39%41 a 60% (46) 25%21 a 40% (7) 4%20% o menos (15) 8%
Fuente: http://www.kdnuggets.com/polls/2003/data_preparation.htm
www.snoopconsulting.com
4. Construcción del Modelo de Data Mining
Seleccionar un conjunto de algoritmos que se pueden aplicar a distintas partes del problema. La solución usualmente implica a varios algoritmos.
Armar casos de prueba. Con los datos de la etapa anterior,
computar parámetros necesarios para los algoritmos.
Recolectar resultados de los algoritmos y evaluar performance, evitando overfitting.
www.snoopconsulting.com
5. Evaluación de la Solución
Tomar los modelos con mejores resultados y aplicarlos a la totalidad de los datos.
Verificar que la solución ofrecida es la solución buscada por el cliente, antes de la puesta en producción.
www.snoopconsulting.com
6. Puesta en Producción
Planear la puesta en producción. Entrenar usuarios para el funcionamiento en
producción, si así lo requiere la solución acordada.
Ejecutar el plan de puesta en producción. Monitorear el funcionamiento en producción
para detectar cualquier problema resultante de circunstancias no previstas.
Revisión final del proyecto.
www.snoopconsulting.com
Data Mining y Análisis Predictivo: ¿Qué y para qué?
Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining
www.snoopconsulting.com
Proyectos de Data Mining
Hay 3 tipos de proyectos de DM:1) Proyectos precisos, que comienzan con una
necesidad concreta del cliente y un resultado esperado. Menos riesgosos.
2) Proyectos de tipo exploratorio, usando herramientas de DM. Interesantes y valiosos, de más alto riesgo.
3) Proyectos que no son exactamente DM (OLAP, Reportes, “administración de conocimiento”)
www.snoopconsulting.com
Cómo ejecutar un proyecto de Data Mining
1. No confundir a DM con un oráculo.
2. Preguntar las preguntas de negocios que se pueden responder.
3. Los datos existen en calidad y cantidad, y son suficientes.
4. El analista entiende el problema; el cliente entiende la solución.
5. No ignorar el entendimiento a partir de los resultado parciales. Evitar "llámenme cuando funcione".
6. No subestimar la complejidad del preprocesamiento, integración, y adopción.
www.snoopconsulting.com
Cómo ejecutar un proyecto de Data Mining
1. No confundir a DM con un oráculo.
“No necesito entender que hace, que supuestos tiene, que límites tiene: me entrega una respuesta que en testeo es bastante cierta”.
(haga justo lo opuesto)
www.snoopconsulting.com
Cómo ejecutar un proyecto de Data Mining
2. Preguntar las preguntas de negocios que se pueden responder.
No todos los problemas se pueden resolver, y no todos son problemas de Data Mining. Muchos problemas se pueden solucionar con OLAP, o son en realidad problemas de predicción económica, o la solución en realidad es magia, no data mining.
Aún cuando se puede aplicar DM, es posible que el fenómeno sea aleatorio, o muy complicado para explicar con las herramientas disponibles.
www.snoopconsulting.com
Cómo ejecutar un proyecto de Data Mining
3. Los datos existen en calidad y cantidad, y son suficientes.
No es posible estimar un % de éxito sin saber el estado de los datos. DM depende de los datos existentes.
Ejemplo: Si se quiere usar DM para predecir churn, hace falta una BD con registros que tengan el historial del cliente, y que la información del log del call center sea correcta (p.ej. razón de la llamada).
www.snoopconsulting.com
Cómo ejecutar un proyecto de Data Mining
6. No subestimar la complejidad del preprocesamiento, integración, y adopción.
Transformar los datos a la forma correcta es a veces tener el 50% del éxito del proyecto.
¿Quienes están involucrados en el proyecto? ¿Cuál es el plan para dar acceso a los
usuarios finales al resultado de data mining?
www.snoopconsulting.com
ROI y Data Mining
El beneficio de DM, en términos generales: Es la habilidad de extraer información con la que tomar decisiones a partir de datos, de una manera que no era posible antes. Tomar de decisiones con mayor confidencia. Mejor Uso de Recursos.
DM puede ser usado para calcular el ROI de otros proyectos, porque puede dar
respuestas concretas.
www.snoopconsulting.com
ROI de Data Mining
Comparar contra el costo de “no hacer nada” y la pérdida asociada (en clientes, oportunidades), y calcular el retorno posible al identificar esta tendencia antes de que suceda.
Ejemplo: Cada mes en un banco , un X% de los clientes cierran las cuentas y se van a otro banco. El análisis de costo/beneficio puede calcularse examinando cuanto se pierde en esos clientes versus el costo del proyecto de DM y un porcentaje de predicción exitosa.
www.snoopconsulting.com
ROI y Data Mining
¿Cual fue el ROI promedio de sus proyectos de DM en 2008?
El proyecto está en producción, pero no sé el ROI: 25
Negativo o cero: 4
1-10%: 2
11-25%: 1
26-50%: 5
51-100%: 8
101-250%: 9
251-1000%: 8
Mas de 1000%: 7 La mediana de ROI está en el rango 26-50%.
Fuente: Encuesta 2008 de Kdnuggets
www.snoopconsulting.com
¿Por qué aplicar data mining en su empresa?
Las relaciones de interdependencia hacen que intuición y observación no sean más suficientes para entender y predecir.
Hoy en día existen algoritmos y técnicas que, cuando son usados efectivamente, pueden identificar patrones y tendencias relevantes a los objetivos del negocio.
La información ya está ahí, en la forma de bases de datos y data warehouses, pero no es aprovechada al máximo. Tomar ventaja de ella o no, depende de usted.
www.snoopconsulting.com
Cómo Podemos Ayudar
Definición del problema y factibilidad. Definición de proyecto piloto realista con
posibilidades de éxito. Ejecución del Proyecto. Coaching y mentoring en data mining.
www.snoopconsulting.com
Compromiso de Snoop
Aumentar el valor aportado por la inversión en sistemas.
Mejorar la calidad, disponibilidad y escalabilidad de sus aplicaciones.
Ofrecer el Respaldo permanente de consultores especializados.
Ayudar a mantener bajo control los costos de desarrollo, mantenimiento y de recursos humanos.
www.snoopconsulting.com
Mentoring & Coaching
Servicio de alto valor agregado. Ventaja de dedicar los esfuerzos y el tiempo a las
necesidades de mayor demanda. La transferencia de conocimientos se hace efectiva a
través del apoyo para solucionar problemas reales de la propia organización.
Este esquema de trabajo se basa en la colaboración y el trabajo en equipo con el personal de la empresa.
Al inicio del proyecto se planifica y coordinan las actividades para lograr que el equipo pueda aprovechar de la mejor manera la transferencia de conocimientos.
El equipo de la empresa desarrollará sus habilidades en proyectos piloto.
www.snoopconsulting.com
RP&
PREGUNTASPREGUNTASRESPUESTASRESPUESTAS
Muchas Gracias