Mineria de datos

37
MINERÍA DE DATOS Modelado de Sistemas de Información y Bases de Datos Febrero 2010 Claves ocultas en los datos

description

Mineria de datos. Claves ocultas en los datos

Transcript of Mineria de datos

Page 1: Mineria de datos

MINERÍA DE DATOS

Modelado de Sistemas de

Información y Bases de Datos

Febrero 2010

Claves ocultas en los datos

Page 2: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos2

¿QUIÉN SOY?

Néstor González Ferná[email protected]

Page 3: Mineria de datos

INDICE

1. Introducción2. En busca de una definición3. Claves ocultas en los datos4. Características principales5. Fases de un proceso de minería de datos6. Aplicaciones en la empresa. Casos prácticos7. Tecnologías análogas8. Productos vs software

Page 4: Mineria de datos

1

Introducción

Page 5: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos5

INTRODUCCIÓN.

Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales.

En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par.

El data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos.

+

-

Page 6: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos6

INTRODUCCIÓN.

El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos. Encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores.

Ej.

Page 7: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos7

INTRODUCCIÓN.

Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos, en el entorno comercial, ambos términos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos.

Page 8: Mineria de datos

2

En busca de una definición

Page 9: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos9

EN BUSCA DE UNA DEFINICIÓN

Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996)

La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001).

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

1

2

3

Page 10: Mineria de datos

3

Claves ocultas en los datos

Page 11: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos11

CLAVES OCULTAS EN LOS DATOS

Los datos, origen de la información

Es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos crecen hasta límites insospechados.

Page 12: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos12

CLAVES OCULTAS EN LOS DATOS

Estructuración de los datos

Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuración y coherencia entre los mismos.

Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha provocado uno de los mayores problemas informáticos es la representación de la fecha, donde el año se puede guardar con 2 o con 4 dígitos.

Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un código de cliente propio o por su NIF.

Ej.

Ej.

La cuestión no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informáticos y soportes diferentes.

Page 13: Mineria de datos

4

Características principales

Page 14: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos14

CLAVES OCULTAS EN LOS DATOS

Punto de partida

Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

1. Recolección masiva de datos.2. Potentes computadoras con

multiprocesadores.3. Algoritmos de Data Mining.

Page 15: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos15

CLAVES OCULTAS EN LOS DATOS

Características y objetivos

1. Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.

2. El entorno de la minería de datos suele tener una arquitectura cliente-servidor.

3. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.

4. La minería de datos produce cinco tipos de información:

1. Asociaciones.2. Secuencias.3. Clasificaciones.4. Agrupamientos.5. Pronósticos.

Page 16: Mineria de datos

5

Fases de un proceso de minería de datos

Page 17: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos17

FASES DE UN PROCESO DE MINERÍA DE DATOS

El proceso de minería de datos pasa por las siguientes fases:

1. Filtrado de datos.2. Selección de Variables.3. Extracción de Conocimiento.4. Interpretación y Evaluación.

Page 18: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos18

FASES DE UN PROCESO DE MINERÍA DE DATOS

Filtrado de datos

Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).

Selección de variables

Los métodos para la selección de características son básicamente dos:1. Aquellos basados en la elección de los mejores

atributos del problema,2. Y aquellos que buscan variables independientes

mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

Page 19: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos19

FASES DE UN PROCESO DE MINERÍA DE DATOS

Algoritmos de Extracción de Conocimiento

Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.

Interpretación y evaluación

Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Page 20: Mineria de datos

6

Aplicaciones en la empresa. Casos prácticos

Page 21: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos21

APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS

El objetivo final de cualquier proyecto de minería de datos puede resumirse en uno de estos dos objetivos:1. Ahorrar dinero mejorando la eficacia de

sus actividades, o bien,2. Ganar dinero descubriendo nuevas

fuentes de beneficios.

¿cómo se traducen los resultados de un proyecto de minería de datos en beneficios tangibles para la empresa?

Los resultados suponen una mejora de la información disponible y será al aplicar dicha información cuando se obtengan los beneficios.

Page 22: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos22

APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS

MARKETING

Cuanto más precisa sea la información que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al máximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quién comprará qué, cuándo y dónde.

Fidelización de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho más costoso que mantener uno que ya lo es. Detectan aquéllos que parece más probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha pérdida.

Ej.

Page 23: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos23

APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS

PREDICCIÓN

A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.

1. Detección de oportunidades.2. Prevención de problemas.3. Gestión óptima del personal.4. Optimización de stocks.

Ej.

Page 24: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos24

APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS

PREDICCIÓN

A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.

1. Detección de oportunidades.2. Prevención de problemas.3. Gestión óptima del personal.4. Optimización de stocks.

Ej.

Page 25: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos25

APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS

CONTROL DE CALIDAD

Detención más precisa de productos defectuososA menudo el control de calidad se realiza de forma manual y, por tanto, depende de una evaluación subjetiva por parte del personal encargado del mismo. El principal problema de este método es que el criterio de calidad no es estable sino que depende de la persona que realiza el análisis. al aumentar la exactitud de la evaluación se ahorran los costes derivados de las clasificaciones erróneas: productos defectuosos que se consideraron correctos por error y productos correctos, desechados por un exceso de precaución.

Localización precoz de defectosA menudo no resulta fácil medir la variable que determina la calidad del producto en tiempo real o en la cadena de producción. En estos casos, es imprescindible utilizar técnicas de minería de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso.

Ej.

Ej.

Page 26: Mineria de datos

7

Tecnologías análogas

Page 27: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos27

TECNOLOGÍAS ANÁLOGAS

Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible.

Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y disciplinas análogas:

1. Estadística 2. Inteligencia artificial3. Sistemas Expertos 4. Redes neuronales5. …

¿Por qué?El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos.

Page 28: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos28

TECNOLOGÍAS ANÁLOGAS

Integración con Data Warehouse

El punto de inicio ideal es:

1. Un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores.

2. Información histórica sobre potenciales clientes también provee una excelente base para prospectiva.

3. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.

El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.

Page 29: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos29

TECNOLOGÍAS ANÁLOGAS

Extensiones del Data Mining: Web mining

Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log).

Las herramientas de web mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea.

1. Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.

2. Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.

3. Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.

Page 30: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos30

TECNOLOGÍAS ANÁLOGAS

Extensiones del Data Mining: Text mining

1. Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos.

2. Este campo de estudio es muy vasto, por lo que se utilizan diferentes técnicas como: la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático

3. Se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo (Nasukawa y otros, 2001).

Page 31: Mineria de datos

8

Productos vs software

Page 32: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos32

PRODUCTOS VS SOFTWARE

R-project (www.cran.r-project.org)

Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras.

KNIME (www.knime.org)

Es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse y programado, esencialmente, en java.

Page 33: Mineria de datos

MINERÍA DE DATOS, claves ocultas en los datos33

PRODUCTOS VS SOFTWARE

SPSS (www.spss.com)

Statistical Package for the Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado.

Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño.

OTROS DE PROGRAMAS DE INTERÉS…

1. SAS Enterprise Miner2. RapidMiner3. Weka4. KXEN5. Orange

Page 34: Mineria de datos

Bibliografía

1. Minería de Datos. Trabajo de adscripción. Sofía J. Vallejos. 2006

2. Minería de Datos. Documento Básico DAEDALUS. www.daedalus.es

3. Minería de Datos. Wikipedia

4. INTRODUCCIÓN A LA MINERÍA DE DATOS. Editorial Pearson, 2004.

ISBN: 84 205 4091 9

Page 35: Mineria de datos

Ahora es tu turno

¿tienes alguna pregunta?

Page 36: Mineria de datos

Gracias por tu atención

plas,plas,plas,…

Page 37: Mineria de datos