Data Mining

23
DataMining Bernardo A. Robelo Jirón bernardorobelo.blogspo t.com

description

 

Transcript of Data Mining

Page 1: Data Mining

DataMining

Bernardo A. Robelo Jirón

bernardorobelo.blogspot.com

Page 2: Data Mining

TEORÍA

Grandes empresas tienen valiosa información oculta y almacenada en sus bases de datos proveniente de la acumulación de info a lo largo de su historia.

CERTEZAS

Esos datos no pueden ser extraídos por métodos informáticos convencionales ni por técnicas estadísticas tradicionales. Se requiere de algoritmos y técnicas más complejas provenientes del área de la Inteligencia Artificial y la Matemática Compleja, como ser Redes Neuronales, Árboles de Decisión, Regresión Logística, Algoritmos Genéticos y Análisis Fractal.

VALOR

Su valor radica, en que el descubrimiento de dichos patrones puede convertirse en el activo más importante para una empresa a la hora de toma de decisiones en sus negocios. Conociendo de esta manera con más detalle a sus clientes, la dinámica de sus productos en el mercado, realizando modelos eficientes de predicción y determinando la influencia de las variables involucradas.

SEGÚN EL MIT

Para el Massachusetts Institute Technology, el Data Mining es una de las diez tecnologías emergentes que cambiará al Mundo.

Qué es el Data Mining

Page 3: Data Mining

DEFINICIÓN

La Minería de Datos, es un conjunto de técnicas provenientes de la Inteligencia Artificial y la Matemática Compleja, cuya finalidad, en el ambiente empresarial, es la de encontrar en grandes bases de datos patrones ocultos, no triviales e imposibles de detectar mediante otros

mecanismos estadísticos; para luego extraer dicha información, la cual puede convertirse en el activo más importante de una empresa a la hora de toma de

decisiones y encarar futuras estrategias de negocios.

Qué es el Data Mining

Page 4: Data Mining

A. Redes Neuronales

Características:

- Sistema Artificial que emula el funcionamiento del cerebro humano.- Son capaces de aprender mediante diferentes algoritmos de entrenamiento.- Existen diferentes tipos de Redes Neuronales Artificiales. Su utilización y entrenamiento depende del problema que estén encomendadas a resolver.- Son flexibles y resistentes a errores. - Pueden procesarse en tiempo real.- Sus principales usos se dan en el reconocimiento de patrones y en los modelos de predicción.- Son aplicables por ejemplo en el Mercado Bursátil, en los sistemas OCR, en la Segmentación de Clientes, en predicciones de Demanda y especialmente en Detección de Fraudes y Riesgos.

Neurona Humana Neurona Artificial Red Neuronal Artificial

Tecnicas

Page 5: Data Mining

B. Árboles de Decisión

Características:

- Sistema de Predicción basado en reglas.- Llevan a cabo tests complejos que se ramifican hasta llegar al resultado óptimo.- Reflejan las consecuencias de las decisiones tomadas a partir de los resultados obtenidos.- Su aplicación fundamental se da en grandes tiendas de supermercados o retail y en campañas dirigidas de Marketing. Analizando las bases de datos de una de estas industrias se puede segmentar a la perfección a que tipo de clientes se les va a ofrecer un nuevo producto.

EJEMPLO:

Una empresa líder en electrodomésticos decide hacer una campaña para ofrecer un nuevo producto, un reproductor de música portátil de gran capacidad y con un precio accesible. Dicha empresa posee una gran base de datos con todas las ventas realizadas a lo largo de 15 años de historia. Se desea explorar esta base para encontrar patrones y así segmentar a sus clientes y realizar una campaña de marketing dirigida.

A continuación la solución al problema

Tecnicas

Page 6: Data Mining

B. Árboles de Decisión

Solución al problema anterior:

Se plantea un árbol de decisión, el cual determina de manera inteligente (es parte del algoritmo) que la variable fundamental a considerar es la edad. A partir de allí se comienza a ramificar el árbol. La edad se divide en tres rangos. La segunda variable de mayor peso es el Nivel Socio Económico de la persona y su profesión. El árbol, mostrará en cada una de sus ramas un número entre 0 y 1 que indica la probabilidad de que una persona en dicho segmento compre el producto que se está ofreciendo. De esta manera, se convierte en una herramienta fundamental en la toma de decisiones para encarar una campaña de marketing eficiente. La potencia de un algoritmo de AD radica en su capacidad de ordenar y segmentar las variables de mayor a menor. Aquí los resultados en este análisis.

EDAD

> 3828-3818-27

NSE ALTO

NSE MED

NSE BAJO

Profesional Tecnico/Analista

Emplado Estudiante

NSE ALTO

NSE MED

NSE BAJO

P=0,81P=0,51 P=0,42

P=0,65 P=0,61

P=0,76 P=0,67P=0,29 P=0,37 P=0,12

Notas:El árbol puede ramificarse mucho más aún y poseer un mayor número de variables.

En este caso, el responsable de la campaña de Marketing, tiene buenas herramientas para optar por dirigir su campaña a personas entre 18 y 27 años de clase media, y a empleados de entre 28 y 38 años.

Tecnicas

Page 7: Data Mining

C. Regresión Logística

Características:

- Poderosa herramienta estadística, que en un análisis de Data Mining se conecta a bases de datos para encontrar patrones de dependencia de variables.

- Sus principales aplicaciones se dan en los modelos de scoring:

Bancos: Utilizan el modelo de scoring para el análisis de riesgo a la hora de otorgar un crédito.Seguros: Utilizan el modelo de scoring para clasificar clientes y diferenciar el valor de una póliza dependiendo probabilísticamente de los riesgos de cada una de las personas analizadas.

En estas dos industrias, el análisis de Data Mining para los modelos de puntaje o scoring, se ha convertido en una herramienta de uso crítico.

Tecnicas

Page 8: Data Mining

D. Análisis Fractal

Características:

- Los Fractales son elementos matemáticos que poseen dos propiedades básicas:

Una dimensión fractal Autosimilitud a diferentes escalas.

El Análisis Fractal se aplica hoy en día en varios sectores científicos y de negocios. En el análisis bursátil, en los estudios de series de tiempo complejas, en la medición y dinámica del tráfico de redes y en detección de fraudes.

Sus características de poseer una dimensión no entera o fraccionaria, y el de ser autosimilares, hace que se pueda modelar y describir con mayor realismo un sistema natural, financiero o social; y por sobre todo, es una excelente técnica para crear modelos de predicción.

En FractalTec nos especializamos en este tipo de análisis.

Tecnicas

Page 9: Data Mining

Si bien un estudio o análisis de Data Mining es aplicable a cualquier empresa con grandes o medianas bases de datos, se destaca en los siguientes rubros:

A. Aplicaciones con éxito en el campo de la empresa y los negocios:

- Análisis de Riesgo (Bancos, Empresas Financieras, Seguros)- Detección de Fraudes (Bancos, Empresas Financieras, Seguros, Telecomunicaciones)- Segmentación de Clientes (Diferentes industrias a la hora de encarar campañas de Marketing)- Investigación Pura (Laboratorios, Empresas de Tecnología Médica, Sociología, Psicología)- Predicción de la Demanda (Logística, Distribución de productos varios: alimentos, diarios, revistas, etc…)- Tráfico de Redes. (Grandes proveedores de Internet, Sistemas formados por redes de distribucíon física compleja)

B. Campos de Investigación

- Si bien se aplica hoy en día con éxito en la simulación y predicción del Mercado Bursátil, aún queda un amplio campo por investigar, tanto en Redes Neuronales de Kohonen (mapas autoorganizados) como en el Análisis Fractal.- Sistemas de detección de intrusos y contra el robo de identidad, es otro campo en auge en el mundo de la Seguridad Informática. En estos casos, se utilizan potentes Redes Neuronales.

C. Ciencia

- Medicina, Biología y Psicología. Cualquier estudio de investigación, en practicamente cualquier área, hoy utiliza técnicas de Data Mining para evaluar resultados. Éxito de una nueva droga es un ejemplo clásico- Geología y Geografía. Compresión de imágenes, estudios de superficies y terrenos (ampliamente aplicado en el sector de petróleo).

D. Aplicaciones en el Gobierno

- Anti-terrorismo (Sistemas para el entrecruzamiento de llamadas telefónicas, celulares, e-mails, tarjetas de crédito, etc … , exploración web, el software ). - Análisis de índices macroeconómicos y estudios de distribución social.

Aplicaciones

Page 10: Data Mining

La Inteligencia de Negocios, disciplina más conocida por su nombre en inglés como Business Intelligence, tiene las siguientes características fundamentales:

Acceso a la InformaciónObtener Reportes de calidadApoyo en la toma de decisiones

Las herramientas más destacadas para conseguir dichos puntos son:

Data Mining y Data WarehouseSistemas de Predicción y Modelado (Análisis Fractal es un ejemplo de ello)Cubos OLAP

El proceso de Data Mining, consta de varios pasos, los mismos abarcan:

Etapa de consultoría: Comprender el problema y determinar de las técnicas a aplicar.Limpieza de las Bases de Datos.Correr los análisis determinados en la primera etapa (redes neuronales, árboles de decisión, etc.)Comprensión de los resultados.Validación de los mismos.

Por todo lo expresado en el presente documento, Data Mining es la herramienta más potente que acompaña a los responsables de una empresa o cualquier tipo de proyecto, en el momento de la toma de decisiones de negocios y en el análisis de resultados presentes, pasados y aún futuros.

Data Mining como Inteligencia de Negocios

Page 11: Data Mining

DataMining

SQL Server Analysis ServicesDataMining

Page 12: Data Mining

Como trabaja? Tipos de Algoritmos Problemas Negocios Clustering = grouping

Asociacion de segmentos y atributos. Ej: E-Commerce WebSite Clustering Algorithm

Classification = predecir un valor especifico Gran volumen de datos, Hight-Quality Historical Data Decision Trees Naïve Bayes Neural Network

Association = correlacion Ej: Vendedores de detalles ( Cervezas y Panales) Association Algorithm

Regression = Prevision a un numero continuo Time Series Logistic Regression

Sequences = Proceso y Rutas ( websites) Sequence Clustering

Deviation = Valores Extremos (fraudes, credit card) Decision Tree Clustering

Page 13: Data Mining

Como trabaja?

Case Tables Fuente Datos Lista de Valores que utilizara el algoritmo

Nested Tables Informacion adicional Ejemplo: Customer Table

9 Algoritmos Mining Structures contienen Mining Models

Page 14: Data Mining

Algoritmos

1. Association Rules 2. Clustering 3. Sequence Clustering 4. Decision Trees 5. Linear Regression 6. Time Series 7. Naive Bayes 8. Neural Network 9. Logistic Regression

Page 15: Data Mining

Association Rules

Algoritmo genera reglas indicando como los items deben aparecer juntos.

Ejemplo: Permite predecir cuando un cliente seleccionara un

item, el cliente seleccionara tambien otro tipo de item.

Page 16: Data Mining

Clustering

El algoritmo corre muchas iteraciones buscando grupos de items que tengan propiedades similares.

Ejemplo: Buscar Clientes con un cierto nivel de educacion que tengan

ingresos similares. Esto nos definira un Cluster.

Page 17: Data Mining

Sequence Clustering

El algoritmo combina analisis de secuencias con cluster para analizar la transicion o cambios entre estados.

Ejemplo: La prediccion del cluster indicara cual transicion es la

que ocurrira en base a patrones pasados

Page 18: Data Mining

Decision Trees

Organiza los datos en un Arbol de Red en el cual cada nodo representa una decision acerca de una caracteristica de la informacion.

El algoritmo soporta la prediccion de los atributos o caracteristicas.

Page 19: Data Mining

Linear Regression

Es una aplicacion particular del Decision Tree para crear un arbol de decisiones con una raiz sencilla.

Page 20: Data Mining

Time Series

Analiza el tiempo relacionado con datos usando una regresion lineal.

Ejemplo: Predecir las ventas futuras en base a las ventas en el

pasado.

Page 21: Data Mining

Naive Bayes

Examina un atributo en el tiempo para analizar como el atributo se relaciona a otro atributo para ser predecido.

Para ejecutarlo es muy facil pero ignora la influencia de la combinaciones de otros atributos.

Page 22: Data Mining

Neural Network

Similar al sistema nervioso trabajando para analizar las entradas (input) al sistema, cada nodo en la red tiene un peso para determinar las salidas (output) del sistema de cada nodo

Page 23: Data Mining

Logistic Regression

Es una aplicacion del algoritmo Neural Network, soporta la prediccion de atributos de manera discrete y continous