Minería de Datos - tamps.cinvestav.mxhmarin/Mineria/EC1.pdf · Cómo hacer el mejor uso de los...

38
1 Minería de Datos Universidad Politécnica de Victoria

Transcript of Minería de Datos - tamps.cinvestav.mxhmarin/Mineria/EC1.pdf · Cómo hacer el mejor uso de los...

1

Minería de Datos

Universidad Politécnica de Victoria

2

• El aumento del volumen y variedad de información que seencuentra informatizada en bases de datos digitales ha crecidoespectacularmente en la última década.

• Gran parte de esta información es histórica, es decir,representa transacciones o situaciones que se han producido.

• Aparte de su función de “memoria de la organización”, lainformación histórica es útil para predecir la informaciónfutura.

MotivaciónNuevas Necesidades del Análisis de

Grandes Volúmenes de Datos

3

• La mayoría de decisiones de empresas, organizaciones einstituciones se basan también en información de experienciaspasadas extraídas de fuentes muy diversas.

• las decisiones colectivas suelen tener consecuencias muchomás graves, especialmente económicas, y, recientemente, sedeben basar en volúmenes de datos que desbordan lacapacidad humana.

Motivación

El área de la extracción (semi-)automática de conocimiento de bases de datos ha adquirido recientemente una importancia científica y

económica inusual

4

• Tamaño de datos poco habitual para algoritmos clásicos:• número de registros (ejemplos) muy largo (108-1012 bytes).• datos altamente dimensionales (nº de columnas/atributos):

102-104.• El usuario final no es un experto en aprendizaje automático ni

en estadística.• El usuario no puede perder más tiempo analizando los datos:

• industria: ventajas competitivas, decisiones más efectivas.• ciencia: datos nunca analizados, bancos no cruzados, etc.• personal: “information overload”...

Los sistemas clásicos de estadística son difíciles de usar y no escalan al número de datos típicos en bases de datos.

Motivación

5

Qué es la minería de datos?Witten y Frank 2000 Es el proceso de extraer conocimiento útil (patrones

útiles) y comprensible, previamente desconocido desde grandes cantidades de datos almacenados en distintas fuentes (bases de datos, textos, la web, imágenes) y formatos.

La minería de datos es también llamada Descubrimiento del Conocimiento (KDD)

Nombres alternativos Descubrimiento de conocimiento

(minando) en bases de datos (KDD), extracción de conocimiento, análisis de datos/patrones, arqueología de datos, recolección de información, inteligencia de negocios, etc.

Qué no es minería de datos? Procesamiento de consultas. Sistemas expertos o pequeños programas estadisticos

6

7

Minería de datos vs. consulta de datosConsulta de datos: e.g.

Una lista de todos los clientes quienes usan una tarjeta de crédito para comprar una PC

Una lista de todos los estudiantes que tienen un promediofinal de 7.5 o más alto y han estudiado 4 o menos semestres

Problemas de Minería de Datos: e.g. ¿Cuál es la probabilidad de que un cliente compre una PC

con tarjeta de crédito? Dadas las características de los estudiantes predecir su

promedio final ¿Cuáles son las características de los estudiantes que no se

gradúan?

Ejemplos: Qué no es minería de datos?

Qué no es minería de datos?

– Buscar un número telefónico en el directorio telefónico

–Consultar un motor de busqueda web por información acerca de “Amazon”

Qué es la minería de datos?

– Ciertos nombres tienden a prevalecer más en ciertas locaciones de USA (O’Brien, O’Rurke, O’Reilly… in Boston area)– Agrupar documentos similares obtenidos por el motor de búsqueda de acuerdo a su contexto (e.g. Amazon rainforest, Amazon.com,)

9

Ejemplo de patrones descubiertos

Reglas de asociación:“80% de los clientes que compra queso y

leche también compra pan, y el 5% de los clientes que compra los 3 articulos juntos

Queso, leche Pan [sup =5%, confid=80%]

Campo multidiciplinario Es un campo multidisciplinario de las ciencias de la

computación que puede ayudarse de los sistemas de bases de datos para el manejo de grandes volúmenes de datos, el apoyo de métodos estadísticos para el diseño de hipótesis y modelos matemáticos que con la ayuda de algunas técnicas de la inteligencia artificial, llevan a cabo la generación y refinamiento de tales modelos.

10

¿Qué es la minería de datos?

11

Minería de datosDr. Francisco J. Mata

Campos relacionados

Minería de datos

InteligenciaArtificial(“MachineLearning”)

Estadística

Bases deDatos

Graficación yvisualización

Ciencias dela información

Otrasdisciplinas

12

La minería de datos es un subconjunto de la inteligencia de negocios

13

Minería de datosDr. Francisco J. Mata

Principales tareas de la minería de datos

Problemas de minería de datos pueden clasificarse en las siguientes categorías Clasificación Estimación Pronóstico Asociación Agrupación o segmentación

14

Principales tareas de la minería de datos

Clasificación:Patrones de minería que puedan clasificar

futuros datos en clases conocidas.

Reglas de asociaciónEn minería cualquier reglas de la forma X

Y, donde X y Y son conjuntos de elementos (datos).

Clustering o agrupaciónIdentificando un conjunto de grupos

similares en los datos

15

Principales tareas de la minería de datos

Patrones secuenciales en minería:Una regla secuencias: A B, establece que el

evento A será inmediantemante seguido por el evento B con cierta confianza

Detección de desviación o estimación: Descubrimiento de los cambios más significativos en

los datos

Visualización de datos: Usando metodos gráficos para mostrar patrones en los datos.

16

Clasificación

Examinar las características de un nuevo objeto y asignarle una clase o categoría de acuerdo a un conjunto de tales objetos previamente definido

Ejemplos: Clasificar clientes como bueno y malo Detectar reclamos fraudulentos de seguros

17

Estimación

Relacionado con clasificación Mientras clasificación asigna un valor

discreto, estimación produce un valor continuo

Ejemplos: Estimar el precio de una vivienda Estimar el ingreso total de una familia

18

Pronóstico

Predecir un valor futuro con base a valores pasados

Ejemplos: Predecir cuánto efectivo requerirá un

cajero automático en un fin de semana

19

Asociación

Determinar cosas u objetos que van juntos

Ejemplo: Determinar que productos se adquieren

conjuntamente en un supermercado

20

Agrupación o segmentación

Dividir una población en un número de grupos más homogéneos

No depende de clases pre-definidas a diferencia de clasificación

Ejemplo: Dividir la base de clientes de acuerdo con

los hábitos de consumo

21

¿Porqué la minería de datos es importante?

Las empresas producen gran cantidad de datos y necesitan de sistemas de computarización rápida

Cómo hacer el mejor uso de los datos? Una creciente toma de conciencia: el

descubrimiento de conocimiento a partir de datos se puede utilizar para obtener una ventaja competitiva

22

¿Porqué la minería de datos es necesaria?

Hay una gran brecha entre los datos almacenados y el conocimiento; y la transición no se produce de forma automática.

Muchas cosas interesantes que se desean encontrar no se puede encontrar usando consultas de bases de datos “¿Qué personas que podrían comprar mis productos ? " "¿Quiénes son propensos a responder a mi promoción ? "

¿Qué motivó a la minería de datos?

Coleccion de datos y disponibilidad de datos

Herramientas de coleccion de datos automatizadas, sistemas de bases de datos, la Web, la sociedadcomputarizada

Fuentes principals de datos abundantes

Negocios: Web, e-commerce, transacciones, …

Ciencia: Remote sensing, bioinformatics, scientific simulation, …

Society and everyone: news, digital cameras, YouTube

23

¿Qué motivó a la minería de datos?

Nos estamos ahogando en datos, pero estamos hambrientos de conocimiento!

24

25

¿Porqué aplicar la minería de datos?

Los datos se encuentran disponibles Los datos son almacenados El poder de computo es cada vez

menos costoso Las presiones competitivas son enormes Software para minería de datos se

encuentra disponible

Aplicaciones de la minería de datos

Marketing, perfiles y retención de clientes, identificación de clientes potenciales, segmentación del mercado.

Detección de fraudes Identificación de fraude de tarjetas de

crédito, detección de intrusos Texto y minería web Análisis de datos científicos Cualquier aplicación que implica una

gran cantidad de datos 26

AplicacionesEjemplo 1: Análisis de créditos bancariosUn banco desea obtener reglas para predecir cuales de sus nuevos clientes que solicitan un crédito tienen mayor probabilidad de devolverlo con la finalidad de reducir sus perdidas. Para ello se desea construir un modelo a partir de la historia crediticia de sus clientes anteriores.

27

Una técnica de minería de datos podría generar algunas reglas, por ejemplo:

El banco podría entonces determinar las acciones a realizar en el trámite de los créditos: si se concede o no el crédito solicitado

28

AplicacionesEjemplo 2: Análisis de la cesta de la compra En un supermercado se desea ubicar a los productos

tal que los clientes puedan ubicar en zonas cercanas los productos que generalmente compran en conjunto. Se cuenta con una tabla que contiene como campos a los productos principales y registros si el cliente i-esimo compro o no tal producto.

29

Un modelo de minería de datos podría encontrar que siempre que se compran pañales también se compra leche, lo mismo con el vino y sodas, por lo que esos productos podrían ubicarse cerca, pero pueden estar lejos del aceite, el huevo y la mantequilla, otros productos que se acostumbran comprar juntos. 30

AplicacionesEjemplo 3: Determinar ventas de un productoEn una tienda de electrodomésticos se desea optimizar el funcionamiento de su almacén para satisfacer a los clientes, sin generar costos extras por el almacenaje innecesario de productos, es decir se desea tener los productos solo en el momento adecuado. Para ello se cuenta con el registro de ventas mensuales de cada producto de los últimos doce meses.

31

Un modelo de minería de datos podría determinar que en diciembre de cada año las ventas se incrementan.

También podría encontrar que cuando comienza el año las ventas bajan, con excepcion del iPod Touch, que posiblemente es causa de que es un regalo común para los jóvenes el de reyes.

Del mismo modo se incrementan conforme el mes de mayo se acerca por motivo del día de las madres.

Un modelo de regresión permitiría realizar un estimado adecuado de la cantidad de productos a almacenar por mes. 32

33

Ejemplo 4: Determinar grupos diferenciados de empleados•Una empresa desea categorizar a sus empleados en distintos grupos con el objetivo de entender mejor su comportamiento y tratarlos de manera adecuada•Tenemos estos datos de los empleados:

#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Prop Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Prop Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M9 20000 Sí Sí 3 Prop No 7 5 H10 30000 Sí Sí 2 Prop No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Prop No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H

34

Un modelo de minería de datos podría obtener tres grupos con la siguiente descripción:

cluster 1: 5 examplesSueldo : 22600Casado : No -> 0.8

Sí -> 0.2Coche : No -> 0.8

Sí -> 0.2Hijos : 0Alq/Prop : Alquiler -> 1.0Sindic. : No -> 0.8

Sí -> 0.2Bajas/Año : 8Antigüedad : 8Sexo : H -> 0.6

M -> 0.4

cluster 2: 4 examplesSueldo : 22500Casado : No -> 1.0Coche : Sí -> 1.0Hijos : 0Alq/Prop : Alquiler -> 0.75

Prop -> 0.25Sindic. : Sí -> 1.0Bajas/Año : 2Antigüedad : 8Sexo : H -> 0.25

M -> 0.75

cluster 3: 6 examplesSueldo : 18833Casado : Sí -> 1.0Coche : Sí -> 1.0Hijos : 2Alq/Prop : Alquiler -> 0.17

Prop -> 0.83Sindic. : No -> 0.67

Sí -> 0.33Bajas/Año : 5Antigüedad : 8Sexo : H -> 0.83

M -> 0.17

• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.

• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.

Ejercicio

Equipos: 3 personas máximo Objetivos:

Identificar situaciones concretas para utilizar la minería de datos (10 minutos)

Reportar a la clase verbalmente (3 minutos) Las situaciones identificadas Tipo de aplicación o problema de minería de

datos relacionado Los beneficios esperados de aplicar la minería

de datos35

36

Comercio/Marketing: - Identificar patrones de compra de los clientes.- Buscar asociaciones entre clientes y características demográficas. - Predecir respuesta a campañas de mailing.- Análisis de cestas de la compra.

Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito. - Identificar clientes leales.- Predecir clientes con probabilidad de cambiar su afiliación. - Determinar gasto en tarjeta de crédito por grupos.- Encontrar correlaciones entre indicadores financieros.- Identificar reglas de mercado de valores a partir de históricos.

Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. - Predecir qué clientes compran nuevas pólizas.- Identificar patrones de comportamiento para clientes con riesgo. - Identificar comportamiento fraudulento.

Transportes: - Determinar la planificación de la distribución entre tiendas.- Analizar patrones de carga.

Áreas de Aplicación. Problemas Tipo.KDD para toma de decisiones (Dilly 96)

37

Medicina:- Identificación de terapias médicas satisfactorias para diferentes enfermedades.- Asociación de síntomas y clasificación diferencial de patologías.- Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de

riesgo/salud en distintas patologías.- Segmentación de pacientes para una atención más inteligente según su grupo.- Predicciones temporales de los centros asistenciales para el mejor uso de

recursos, consultas, salas y habitaciones.- Estudios epidemiológicos, análisis de rendimientos de campañas de

información, prevención, sustitución de fármacos, etc.

Áreas de Aplicación. Problemas Tipo.KDD para toma de decisión

38

- Extracción de modelos sobre comportamiento de compuestos.- Detección de piezas con trabas.- Predicción de fallos- Modelos de calidad.- Estimación de composiciones óptimas en mezclas.- Extracción de modelos de coste.- Extracción de modelos de producción.- Simulación costes/beneficios según niveles de calidad

Áreas de Aplicación. Problemas Tipo.KDD para Procesos Industriales