OpenAnalytics - Minería de datos por Diego García (Unican)
-
Upload
openanalytics-spain -
Category
Technology
-
view
1.865 -
download
1
description
Transcript of OpenAnalytics - Minería de datos por Diego García (Unican)
Introducción a la Minería de DatosDiego García Saiz
Grupo de Lenguajes y Sistemas InformáticosDepartamento de Matemáticas, Estadística y ComputaciónUniversidad de Cantabria
Estructura de la presentación• Una pequeña introducción al contexto.
• Qué es Minería de Datos…
– … y qué no es Minería de Datos.
• No sólo se trata de modelar: CRISP-DM.
• Los 3 grandes pilares: ejemplos en el mundo real.
– Agrupación (clustering).
– Reglas de Asociación.
– Predicción: clasificación.
• Herramientas de uso libre: Weka, RapidMiner y Knime.
Introducción al contexto• Gran cantidad de datos almacenados.
– Por parte de empresas: marketing, hipermercados, servicios, banca, etc.
– Redes Sociales: Facebook, Twitter, Tuenti, LinkedIn y otras muchas.
– Y en muchos otros ámbitos: educativo (cursos online), institucional (gobierno), médico, etc.
• ¿Qué hacer con todos esos datos?.
– Podríamos utilizarlos para extraer información relevante con el objeto de ayudar a la toma de decisiones en el negocio, el gobierno, la sanidad, la educación, las ventas, etc.
– Para esto tenemos la Minería de Datos.
¿Minería de datos?. Definición formal
• El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explotar grandes cantidades de datos, de forma automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Más simple: La minería de datos es un proceso consistente en entender y extraer información relevante para el desarrollo del negocio, que no podría extraerse de otra forma.
Qué es y qué no es Minería de Datos
• Extracción de los datos de una Base de Datos.
• Preparación de los datos para extraer información.
• Generación de gráficos estadísticos de los datos.
• Extracción del conocimiento “oculto” en los datos.
No sólo de extraer patrones viven los “datamineros”: CRIPS-DM
Los 3 grandes pilares
• Reglas de asociación.
• Agrupamiento (clustering).
• Predicción: clasificación.
Reglas de asociación
• Conjunto de técnicas que retornan todos los patrones encontrados en el conjunto de datos que cumplan los parámetros de entrada.
• Usado cuando no se tiene un objetivo específico sobre la información que se busca.
• Algunos de los algoritmos más conocidos:
• Apriori
• PredictiveApriori
• Tertitus
• Yacaree
Reglas de asociación: Ejemplo
• Cesta de la compra (problema típico de marketing y ventas): ¿qué productos se compran usualmente juntos?.
• El conjunto de datos contiene, por cada compra de un cliente, que productos adquirió y cual fue el precio final de su compra.
• Ejemplo de productos:
• Comestibles (pan, agua, fruta…)
• Consumibles electrónicos (tóners, baterías…)
• Electrodomésticos (lavadoras, laptops, reproductores…)
• …
Reglas de asociación: Ejemplo
• Resultado parcial de aplicar el algoritmo Apriori con una restricción de las reglas de un 70% en confianza.
• baking needs & biscuits & cheese & fruit & vegetables ==> bread and cake confianza: 90%
• fruit & potatoes ==> vegetables confianza: 89%
• milk-cream & beef & vegetables ==> fruit confianza: 78%
• Conjunto de técnicas de Minería de Datos que determinan y asignan a los individuos a grupos de similares características.
• Ejemplo: Perfil de los alumnos en un curso online según la actividad que desarrollan.
• Como datos, tenemos su actividad en el curso medida en:
• Tiempo dedicado
• Número de sesiones
• Mensajes leídos y escritos en el foro
• Etc.
Agrupamiento (clustering)
Agrupamiento: Ejemplo
• Resultado de aplicar el algoritmo Kmeans:
…
Attribute Full Data (resumen)
Cluster (Grupo) 1
Cluster (Grupo) 2
Cluster (Grupo) 3
Nº of students 67 21 31 15Age 22 22 23 19Gender Man Man Woman ManTotal Time 1138 1394 104 2917Number of Sessions 74 94 8 180
Predicción: Clasificación
• Consiste en la clasificación de individuos en una determinada clase según sus características, para poder inferir predicciones en un futuro.
• Ejemplos: conocer si…
• … un cliente realizará una hipoteca con el banco.
• … las acciones de una empresa subirán o bajarán en un momento determinado.
• … un fruto del bosque o una seta es comestible o venenosa.
• … un alumno aprobará o suspenderá una asignatura.
• … un paciente tiene una enfermedad concreta según sus síntomas y datos personales.
• … una campaña de marketing tendrá éxito.
Clasificación: Ejemplo 1
• Doctor, ¿tengo hipertiroidismo?
• Conjunto de datos: contiene la información de pacientes reales con sus síntomas, niveles de hormonas y diagnóstico.
• Resultados (algoritmo Jrip):
(tumor = t) and (T3level >= 2.9) and (TT4level <= 147) => class=goitre
(T3level >= 3.3) and (age >= 54) and (TT4level <= 142) and (age <= 63) and (T4Ulevel >= 0.95) => class=t3toxic
(FTIlevel >= 168) and (T3level >= 3.5) => class=hyperthyroid
…
(FTIlevel >= 209) and (age <= 41) => class=hyperthyroid
=> class=negative
Clasificación: Ejemplo 2
• Campaña de marketing telefónico de un banco portugués para atraer clientes de depósitos
• Conjunto de datos: contiene información personal de los clientes, incluida información bancaria.
• Estado civil (soltero, casado, viudo)
• Sexo
• Edad
• Mes de la llamada
• Hipotecas del cliente en el banco
• Créditos del cliente en el banco
• Y muchos otros…
• Resultados (algoritmo C4.5)
Duration
Age
Married
Credit
<= 211
> 211 and <=645
Clasificación: Ejemplo 2 (2)
> 645
> 60
yes
yesno
no
…
…
…
NO
YESNO
Herramientas libres
• Weka
• Pionera en su género.
• Multitud de algoritmos.
• http://www.cs.waikato.ac.nz/ml/weka/
• RapidMiner
• Interfaz Gráfica sencilla de utilizar.
• Hace uso de todos los algoritmos ofrecidos por Weka y de los suyos propios.
• http://rapid-i.com/content/view/181/190/
• KNIME
• Herramienta joven. Interfaz Gráfico de uso sencillo.
• Implementada como plugin en Eclipse. Fácil de extender con nuevos algoritmos “ad hoc”.
• http://www.knime.org/
Weka: un caso de uso
Weka: un caso de uso
Weka: Tratamiento de datos
Weka: Técnicas de tratamiento
Weka: Clasificación
Weka: Clustering
Weka: Reglas de asociación
Weka: Visualización
Weka: ejemplo de clasificación
Weka: escogiendo la técnica
Weka: clasificación con J48
Weka: resumen de resultados
Las preguntas no son nunca indiscretas. Las respuestas, a veces sí. Oscar Wilde