Mineria de datos

7
MINERIA DE DATOS [Escribir el subtítulo del documento] La minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimientos procesables implícitos en las bases de datos. Edison Romero V. 30/07/2010

Transcript of Mineria de datos

Page 1: Mineria de datos

MINERIA DE DATOS [Escribir el subtítulo del documento] La minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimientos procesables implícitos en las bases de datos. Edison Romero V. 30/07/2010

Page 2: Mineria de datos

MINERIA DE DATOS

La minería de datos (Data Mining) consiste en la extracción no trivial de información que reside de manera

implícita en los datos. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar

información oculta en ellos.

Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de

conocimientos procesables implícitos en las bases de datos. Esta fuertemente ligado con la supervisión de

procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Las bases de la minería de datos se encuentran en la inteligencia arti ficial y en el análisis estadístico. Mediante

los modelos extraídos utilizando técnicas de minerías de datos que aborda la solución a problemas de

predicción, clasificación y segmentación.

¿Minería de datos o descubrimiento de información o descubrimiento de conocimiento?

Minería de datos o descubrimiento de conocimiento son los nombres más utilizados y más apropiados para este

tipo de análisis, ya que lo que se busca es la obtención de modelos de conocimientos.

Nota: En adelante llamaremos Minería de Datos MD por efecto de simpli ficación.

¿De dónde nació la MD?

Nace de la necesidad de explicar el porqué de unos sucesos, de unos comportamientos, los cuales están

ocultos en datos históricos.

Ahora, la MD no solo tiene un enfoque descriptivo o explicativo, sino también un enfoque predictivo, que suele

ser muy importante en algunos casos de negocio.

¿Para que la MD?

La minería de datos es el proceso sistemático que tiene como objetivo la exploración y la explotación de datos

para la generación de patrones y modelos de conocimientos. Está encaminada hacia el análisis de aquellas

bases de datos y conjuntos de datos cuya función está relacionada con otros intereses.

Por ejemplo, análisis a bases de datos transaccionales que almacenan información relevante a la operación de

la empresa:

Bases de datos bancarias.

De registro académico.

De ventas.

De inventarios.

De bibliotecas.

De créditos, entre ot ras.

Es precisamente, un estudio y manipulación secuencial y organizada de las estructuras y relaciones que

presentan los datos, para la obtención de resultados que desde el punto de vista funcional de la empresa o

institución, puedan apoyar la toma de decisiones.

¿Cómo se lleva a cabo las MD?

Se puede afirmar que es una confluencia de las áreas estadística, inteligencia artificial y bases de datos pues

en cada una de sus etapas, varios conceptos pertenecientes a estas áreas, son involucrados. Como se ha

mencionado, es un proceso claro en el sentido de que se encuentran definidas cada una de las etapas a seguir

desde la identificación del problema hasta la obtención de los resultados. Y además es un proceso flexible en el

Page 3: Mineria de datos

sentido de que no existe una única receta con la cual pueda llevarse a cabo dicho estudio. Así, la exploración

es uno de los aspectos más relevantes en dicho proceso, ya pe rmite la combinación de diversas estrategias y

técnicas a fin de consolidar un modelo final que intente resolver el problema inicialmente planteado.

Procesos de la MD.

Un proceso típico de minería de datos consta de los siguientes pasos generales:

1. Selección del conjunto de datos

Variables Objetivos: Aquellas que se quiere predecir, calcular o inferir.

Variables dependientes: Las que sirven para hacer el cálculo o procesos.

Muestreo: De los registros disponibles.

2. Análisis de las propiedades de los datos

En especial de los histogramas, diagramas de dispersión y ausencia de datos (valores nulos).

3. Transformación del conjunto de datos de entrada

Se realizara de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la

técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce

como pre procesamiento de los datos.

4. Seleccionar y aplicar las técnicas de minerías de datos

Se construye el modelo predictivo, de clasificación o segmentación.

5. Extracción de conocimientos

Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representan patrones

de comportamiento observado en los valores de las variables del problema o relación de asociación de dichas

variables.

6. Interpretación y evaluación de datos

Una vez obtenido el modelo se debe proceder a su validación comprobando que las conclusiones que arrojan

son validas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de

distintas técnicas, se deben compara los modelos en busca de aquel que se ajuste mejor al problema.

Las técnicas de minería de datos se pueden clasificar en dos tipos:

Técnicas Descriptivas

Segmentación Análisis de asociaciones

Técnicas Predictivas Clasificación/predicción

Análisis de secuencias/similitud de series temporales

Page 4: Mineria de datos

La segmentación es muy importante, ya que sirve para detectar agrupamientos o estructuras intrínsecas en el conjunto de datos. Puede llegar a identificar grupos homogéneos, propiedades que los caracterizan y prototipos representativos de cada grupo. La idea básica es agrupar en un mismo grupo a todos los objetos muy parecidos

entre si y muy diferente a los demás. En cuanto a la clasificación y a la predicción que es lo que a nosotros más nos interesa, se basa en que partiendo de un conjunto de datos, tenemos que conseguir un modelo que clasifique objetos en función de sus

características y un modelo que permita calcular valores desconocidos de variables de salida.

Sistemas y herramientas de minerías de datos

Lo que se pretende conseguir es proporcionar información detallada sobre algunos ejemplos de software diseñados para implementar la Minería de Datos.

Librerías: Las librerías de minerías de datos son un conjunto de métodos que implementan funcionalidades y utilidades básicas como el acceso a datos, modelos de redes neuronales, métodos bayesianos, exportación de resultados.

Las librerías se encargan principalmente de facilitar el desarrollo de las tareas de minerías de datos que son más complejas, como el diseño de experimentos. El problema de las librerías, es que es precisa la comprensión de conocimientos de programación.

Algunas de las librerías más importantes son:

XELOPES (extended library for prudys embedded solution) Es una librería con licencia pública GNU para el desarrollo de aplicaciones de minerías de datos. Principales características de las Minerías de Datos:

Acceso a datos

Modelos de redes neuronales

Métodos de agrupación

Métodos de reglas de asociación

Arboles lineales

Arboles no lineales

Exportación de datos

MLC++ (Machine learning library in c++) Es un conjunto de librerías que fueron desarrolladas por la Universidad de Standford. Principales características:

Acceso a datos (archivos con formato plano)

Transformaciones de datos

Métodos de aprendizaje mediante objetos

SUITES Las suites se destacan porque existe una interfaz que facilita la interacción entre el usuario y las herramientas.

SPSS CLEMENTINE Es uno de los sistemas de Minería de Datos más conocidos, posee una herramienta visual desarrollada por ISL que tiene una arquitectura cliente/servidor.

Este sistema se caracteriza por:

Acceso a datos (fuentes de datos archivos ASCII)

Procesamiento de datos

Técnicas de aprendizaje (redes neuronales, reglas de asociación)

Técnicas de evaluación de modelos

Visualización de resultados (histogramas, diagramas de dispersión) WEKA (Waikato environment for knowledge analysis)

Page 5: Mineria de datos

Es una herramienta visual de libre distribución desarrollada por los investigadores de la Universidad de waikato en Nueva Zelanda. Sus principales característica son:

Acceso de los datos desde un archivo en formato ARFF (es un archivo de texto plano organizado en filas y columnas)

Preprocesador de datos (selección, transformación de atributos)

Visualización del entorno

STATISTICA DATA MINER

Es una potente herramienta con un sistema visual desarrollado y comercializado, en las que se destacas.

Base de datos: Permite t rabajar con un gran volumen de información, así como importar los datos en formatos Excel, Oracle, SQL.

Preprocesado de datos: A través de la cual seleccionamos las característica, el muestreo de datos, realizamos operaciones de filtrado. Etc.

Ejemplo de uso de las Minería de Datos

Negocio._ Las empresas que emplean Minerías de Datos ven rápidamente el retorno de la inversión, pero también reconoce que el número de modelos predictivos desarrollados pueden crecer rápidamente. En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para

cada región y/o para cada tipo de cliente. Hábitos de compra en supermercado:

Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que

adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

Patrones de fuga

Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. Existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindi r sus contratos para, posiblemente, pasarse a la competencia. La minería de datos

ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

Fraudes

Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco.

Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.

Recursos Humanos

La minería de datos también puede ser útil para los departamentos de recursos humanos en la identificación de

las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de

ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra.

Page 6: Mineria de datos

ANEXOS

Page 7: Mineria de datos

BIBLIOGRAFIA

http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

http://www.sinnexus.com/business_intelligence/datamining.aspx

http://www.sinnexus.com/business_intelligence/datamining.aspx/

http://www.daedalus.es/mineria-de-datos/