Data Mining
description
Transcript of Data Mining
DataMining
Bernardo A. Robelo Jirón
bernardorobelo.blogspot.com
TEORÍA
Grandes empresas tienen valiosa información oculta y almacenada en sus bases de datos proveniente de la acumulación de info a lo largo de su historia.
CERTEZAS
Esos datos no pueden ser extraídos por métodos informáticos convencionales ni por técnicas estadísticas tradicionales. Se requiere de algoritmos y técnicas más complejas provenientes del área de la Inteligencia Artificial y la Matemática Compleja, como ser Redes Neuronales, Árboles de Decisión, Regresión Logística, Algoritmos Genéticos y Análisis Fractal.
VALOR
Su valor radica, en que el descubrimiento de dichos patrones puede convertirse en el activo más importante para una empresa a la hora de toma de decisiones en sus negocios. Conociendo de esta manera con más detalle a sus clientes, la dinámica de sus productos en el mercado, realizando modelos eficientes de predicción y determinando la influencia de las variables involucradas.
SEGÚN EL MIT
Para el Massachusetts Institute Technology, el Data Mining es una de las diez tecnologías emergentes que cambiará al Mundo.
Qué es el Data Mining
DEFINICIÓN
La Minería de Datos, es un conjunto de técnicas provenientes de la Inteligencia Artificial y la Matemática Compleja, cuya finalidad, en el ambiente empresarial, es la de encontrar en grandes bases de datos patrones ocultos, no triviales e imposibles de detectar mediante otros
mecanismos estadísticos; para luego extraer dicha información, la cual puede convertirse en el activo más importante de una empresa a la hora de toma de
decisiones y encarar futuras estrategias de negocios.
Qué es el Data Mining
A. Redes Neuronales
Características:
- Sistema Artificial que emula el funcionamiento del cerebro humano.- Son capaces de aprender mediante diferentes algoritmos de entrenamiento.- Existen diferentes tipos de Redes Neuronales Artificiales. Su utilización y entrenamiento depende del problema que estén encomendadas a resolver.- Son flexibles y resistentes a errores. - Pueden procesarse en tiempo real.- Sus principales usos se dan en el reconocimiento de patrones y en los modelos de predicción.- Son aplicables por ejemplo en el Mercado Bursátil, en los sistemas OCR, en la Segmentación de Clientes, en predicciones de Demanda y especialmente en Detección de Fraudes y Riesgos.
Neurona Humana Neurona Artificial Red Neuronal Artificial
Tecnicas
B. Árboles de Decisión
Características:
- Sistema de Predicción basado en reglas.- Llevan a cabo tests complejos que se ramifican hasta llegar al resultado óptimo.- Reflejan las consecuencias de las decisiones tomadas a partir de los resultados obtenidos.- Su aplicación fundamental se da en grandes tiendas de supermercados o retail y en campañas dirigidas de Marketing. Analizando las bases de datos de una de estas industrias se puede segmentar a la perfección a que tipo de clientes se les va a ofrecer un nuevo producto.
EJEMPLO:
Una empresa líder en electrodomésticos decide hacer una campaña para ofrecer un nuevo producto, un reproductor de música portátil de gran capacidad y con un precio accesible. Dicha empresa posee una gran base de datos con todas las ventas realizadas a lo largo de 15 años de historia. Se desea explorar esta base para encontrar patrones y así segmentar a sus clientes y realizar una campaña de marketing dirigida.
A continuación la solución al problema
Tecnicas
B. Árboles de Decisión
Solución al problema anterior:
Se plantea un árbol de decisión, el cual determina de manera inteligente (es parte del algoritmo) que la variable fundamental a considerar es la edad. A partir de allí se comienza a ramificar el árbol. La edad se divide en tres rangos. La segunda variable de mayor peso es el Nivel Socio Económico de la persona y su profesión. El árbol, mostrará en cada una de sus ramas un número entre 0 y 1 que indica la probabilidad de que una persona en dicho segmento compre el producto que se está ofreciendo. De esta manera, se convierte en una herramienta fundamental en la toma de decisiones para encarar una campaña de marketing eficiente. La potencia de un algoritmo de AD radica en su capacidad de ordenar y segmentar las variables de mayor a menor. Aquí los resultados en este análisis.
EDAD
> 3828-3818-27
NSE ALTO
NSE MED
NSE BAJO
Profesional Tecnico/Analista
Emplado Estudiante
NSE ALTO
NSE MED
NSE BAJO
P=0,81P=0,51 P=0,42
P=0,65 P=0,61
P=0,76 P=0,67P=0,29 P=0,37 P=0,12
Notas:El árbol puede ramificarse mucho más aún y poseer un mayor número de variables.
En este caso, el responsable de la campaña de Marketing, tiene buenas herramientas para optar por dirigir su campaña a personas entre 18 y 27 años de clase media, y a empleados de entre 28 y 38 años.
Tecnicas
C. Regresión Logística
Características:
- Poderosa herramienta estadística, que en un análisis de Data Mining se conecta a bases de datos para encontrar patrones de dependencia de variables.
- Sus principales aplicaciones se dan en los modelos de scoring:
Bancos: Utilizan el modelo de scoring para el análisis de riesgo a la hora de otorgar un crédito.Seguros: Utilizan el modelo de scoring para clasificar clientes y diferenciar el valor de una póliza dependiendo probabilísticamente de los riesgos de cada una de las personas analizadas.
En estas dos industrias, el análisis de Data Mining para los modelos de puntaje o scoring, se ha convertido en una herramienta de uso crítico.
Tecnicas
D. Análisis Fractal
Características:
- Los Fractales son elementos matemáticos que poseen dos propiedades básicas:
Una dimensión fractal Autosimilitud a diferentes escalas.
El Análisis Fractal se aplica hoy en día en varios sectores científicos y de negocios. En el análisis bursátil, en los estudios de series de tiempo complejas, en la medición y dinámica del tráfico de redes y en detección de fraudes.
Sus características de poseer una dimensión no entera o fraccionaria, y el de ser autosimilares, hace que se pueda modelar y describir con mayor realismo un sistema natural, financiero o social; y por sobre todo, es una excelente técnica para crear modelos de predicción.
En FractalTec nos especializamos en este tipo de análisis.
Tecnicas
Si bien un estudio o análisis de Data Mining es aplicable a cualquier empresa con grandes o medianas bases de datos, se destaca en los siguientes rubros:
A. Aplicaciones con éxito en el campo de la empresa y los negocios:
- Análisis de Riesgo (Bancos, Empresas Financieras, Seguros)- Detección de Fraudes (Bancos, Empresas Financieras, Seguros, Telecomunicaciones)- Segmentación de Clientes (Diferentes industrias a la hora de encarar campañas de Marketing)- Investigación Pura (Laboratorios, Empresas de Tecnología Médica, Sociología, Psicología)- Predicción de la Demanda (Logística, Distribución de productos varios: alimentos, diarios, revistas, etc…)- Tráfico de Redes. (Grandes proveedores de Internet, Sistemas formados por redes de distribucíon física compleja)
B. Campos de Investigación
- Si bien se aplica hoy en día con éxito en la simulación y predicción del Mercado Bursátil, aún queda un amplio campo por investigar, tanto en Redes Neuronales de Kohonen (mapas autoorganizados) como en el Análisis Fractal.- Sistemas de detección de intrusos y contra el robo de identidad, es otro campo en auge en el mundo de la Seguridad Informática. En estos casos, se utilizan potentes Redes Neuronales.
C. Ciencia
- Medicina, Biología y Psicología. Cualquier estudio de investigación, en practicamente cualquier área, hoy utiliza técnicas de Data Mining para evaluar resultados. Éxito de una nueva droga es un ejemplo clásico- Geología y Geografía. Compresión de imágenes, estudios de superficies y terrenos (ampliamente aplicado en el sector de petróleo).
D. Aplicaciones en el Gobierno
- Anti-terrorismo (Sistemas para el entrecruzamiento de llamadas telefónicas, celulares, e-mails, tarjetas de crédito, etc … , exploración web, el software ). - Análisis de índices macroeconómicos y estudios de distribución social.
Aplicaciones
La Inteligencia de Negocios, disciplina más conocida por su nombre en inglés como Business Intelligence, tiene las siguientes características fundamentales:
Acceso a la InformaciónObtener Reportes de calidadApoyo en la toma de decisiones
Las herramientas más destacadas para conseguir dichos puntos son:
Data Mining y Data WarehouseSistemas de Predicción y Modelado (Análisis Fractal es un ejemplo de ello)Cubos OLAP
El proceso de Data Mining, consta de varios pasos, los mismos abarcan:
Etapa de consultoría: Comprender el problema y determinar de las técnicas a aplicar.Limpieza de las Bases de Datos.Correr los análisis determinados en la primera etapa (redes neuronales, árboles de decisión, etc.)Comprensión de los resultados.Validación de los mismos.
Por todo lo expresado en el presente documento, Data Mining es la herramienta más potente que acompaña a los responsables de una empresa o cualquier tipo de proyecto, en el momento de la toma de decisiones de negocios y en el análisis de resultados presentes, pasados y aún futuros.
Data Mining como Inteligencia de Negocios
DataMining
SQL Server Analysis ServicesDataMining
Como trabaja? Tipos de Algoritmos Problemas Negocios Clustering = grouping
Asociacion de segmentos y atributos. Ej: E-Commerce WebSite Clustering Algorithm
Classification = predecir un valor especifico Gran volumen de datos, Hight-Quality Historical Data Decision Trees Naïve Bayes Neural Network
Association = correlacion Ej: Vendedores de detalles ( Cervezas y Panales) Association Algorithm
Regression = Prevision a un numero continuo Time Series Logistic Regression
Sequences = Proceso y Rutas ( websites) Sequence Clustering
Deviation = Valores Extremos (fraudes, credit card) Decision Tree Clustering
Como trabaja?
Case Tables Fuente Datos Lista de Valores que utilizara el algoritmo
Nested Tables Informacion adicional Ejemplo: Customer Table
9 Algoritmos Mining Structures contienen Mining Models
Algoritmos
1. Association Rules 2. Clustering 3. Sequence Clustering 4. Decision Trees 5. Linear Regression 6. Time Series 7. Naive Bayes 8. Neural Network 9. Logistic Regression
Association Rules
Algoritmo genera reglas indicando como los items deben aparecer juntos.
Ejemplo: Permite predecir cuando un cliente seleccionara un
item, el cliente seleccionara tambien otro tipo de item.
Clustering
El algoritmo corre muchas iteraciones buscando grupos de items que tengan propiedades similares.
Ejemplo: Buscar Clientes con un cierto nivel de educacion que tengan
ingresos similares. Esto nos definira un Cluster.
Sequence Clustering
El algoritmo combina analisis de secuencias con cluster para analizar la transicion o cambios entre estados.
Ejemplo: La prediccion del cluster indicara cual transicion es la
que ocurrira en base a patrones pasados
Decision Trees
Organiza los datos en un Arbol de Red en el cual cada nodo representa una decision acerca de una caracteristica de la informacion.
El algoritmo soporta la prediccion de los atributos o caracteristicas.
Linear Regression
Es una aplicacion particular del Decision Tree para crear un arbol de decisiones con una raiz sencilla.
Time Series
Analiza el tiempo relacionado con datos usando una regresion lineal.
Ejemplo: Predecir las ventas futuras en base a las ventas en el
pasado.
Naive Bayes
Examina un atributo en el tiempo para analizar como el atributo se relaciona a otro atributo para ser predecido.
Para ejecutarlo es muy facil pero ignora la influencia de la combinaciones de otros atributos.
Neural Network
Similar al sistema nervioso trabajando para analizar las entradas (input) al sistema, cada nodo en la red tiene un peso para determinar las salidas (output) del sistema de cada nodo
Logistic Regression
Es una aplicacion del algoritmo Neural Network, soporta la prediccion de atributos de manera discrete y continous