Minería de Datos M.C. Juan Carlos Olivares Rojas.

Minería de Datos

M.C. Juan Carlos Olivares Rojas

Agenda

Introducción

El proceso de extracción del conocimiento

Algoritmos utilizados en el proceso de minería de datos

Ejemplos

Introducción

• Se define como un análisis de datos exploratorio.

• El propósito es buscar patrones interesantes en los datos. Se aplican muchas técnicas estadísticas para buscar estos patrones.

• Se pretende buscar reglas de asociación entre las dimensiones de una tabla.

Introducción

• Al conjunto de todas las transacciones se le llama población.

• Cualquier regla de asociación tiene un nivel de soporte y uno de confianza.

• Soporte es el fragmento de la población que satisface la regla.

Introducción

• El soporte es la fracción de la población, en la cual se cumple el antecedente, también se cumple el consecuente.

• Se pueden encontrar en otro tipo de patrones: “Si un cliente compra zapatos es probable que compre calcetines no necesariamente en la misma transacción”.

El proceso de extracción del conocimiento

• Para la extracción del conocimiento se tiene que hacer un preprocesado de los datos. Generalmente dicho preprocesamiento contiene un filtro de información, es decir, sólo se tienen los campos y datos para nuestro almacén de datos.

• Este es un proceso único dependiente del problema a resolver.


• Existen una gran infinidad de algoritmos generalmente clasificados en dos tipos: estadístico y probabilísticos.

• Los estadísticos funcionan con los datos de nuestra tabla de hechos y deben devolver un resultado expresado en probabilidad o no obtenible mediante expresiones SQL básicas.


• El algoritmo mejor conocido es el de reglas de asociación que encuentra dependencia entre elementos, pero existen otros algoritmos como los de agrupamiento (clustering) como los vecinos más cercanos o k-means que encuentran relaciones entre grupos de objetos con ciertas afinidades.


• Los algoritmos probabilísticos se encuentran con técnicas en la mayoría de los casos más avanzadas, como son las redes bayesianas, las máquinas de soporte vectorial entre otros.

• Los resultados de la minería de datos pueden diferir según la técnica empleada aunque los datos sean los mismos.

Weblog Mining• La Minería Web es simplemente

aprovechar las técnicas de Minería de Datos para obtener conocimiento de la información disponible en Internet.

• Algunas áreas de aplicación:

• Mejorar el diseño de la estructura de un sitio Web.

Weblog Mining

• Planear campañas de marketing orientadas al comercio electrónico.

• Mejorar sistemas, ya sea en la calidad del desempeño o la seguridad.

• Identificar patrones de acceso a recursos Web con el objetivo de seleccionar archivos para el acaparamiento en dispositivos inalámbricos.

Weblog Mining

Desconexión

Internet

Dispositivo Móvil

Punto Acceso

Servidor

Weblog Mining

Computadora Cliente

Bitácoras a nivel de cliente

Modem

Proveedor de Servicios De Interne Servidor Web

Bitácora a nivel de servidor Web

Contenido del Servidor Web

“Internet”

Línea Telefónica

Bitácora a nivel de Proxy

Bitácora a nivel de contenido

Weblog MiningMinería Web

Minería de estructura Web

Inteligencia de negociosModificación de sitiosMejora de sistemas Caracterización de usoPersonalización

Minería de uso WebMinería de contenido Web

SpeedTracerShahabi

SiteHelperLetiziaWeb WatcherWebPersonalizer

RexfordSchechterAggarwal

PageGather SurfAidBuchnerTuhzilinWebLogMiner

PitkowArlitt

WM CenidetWUM

WebSIFT

Weblog Mining

Logs de Proxy y servidor Web Identificación de sesiones y

usuarios

Reglas, ítems frecuentes, patrones

Conocimiento Interesante

Pre-procesamiento

Descubrimiento de Patrones

Análisis de Patrones

Weblog Mining

Identificación del formato de

la bitácora

Limpieza de bitácoras

Fase 1. Recolección y Pre-procesamientoRecolección de

archivos log

Recolección de bitácoras a nivel de

servidor Proxy

Recolección de bitácoras a nivel de

servidor Web Base de Datos

Repositorio

Fase 2. Identificación de Sesiones

Identificación de sesiones

Enfoque basado en heurística

Enfoque basado en número de peticiones

Enfoque basado en tiempo de duración

Fase 3. Minería de Datos

Ítems Frecuentes

Reglas de

Asociación

Motor de minería

Fase 4. Recolección de estructuras

Recolección de Estructuras Web

Almacenamiento

de estructuras

Recolector de

estructuras

Fase 5. Análisis gráfico de los

resultados

Visor de Patrones de Navegación

Visor de Estructuras

Web

Fase 6. Aplicación del conocimiento

Mercadotecnia

Mejora de sistemas

Pre-carga de archivos

Weblog Mining

• Una vez que se tienen objetos minables, la gama de métodos para descubrir patrones va desde el simple análisis estadístico hasta métodos complejos como algoritmos de minería de datos.

• Para este trabajo se implementó el algoritmo de minería de reglas de asociación A-priori e ítems frecuentes.

Weblog Mining

Weblog Mining

Bitacora

PK Clave

HostrUsuarioFechaRecursoStatusBytesReferenciaNavegadorCookieMilisegMetodoHtmlVId_Sesion

FK1 Id_pagWebId_pagWeb(Referencia)

Catalogo

PK Id_pagWeb

Descripcion

Items

PK Id_PagWeb

Decripcion

Regla

PK Id_Regla

ConfianzaSoporteconf_minsop_min

Consecuentes

PK,FK1 Id_ReglaPK,FK2 Id_PagWeb

Antecedentes

PK,FK1 Id_PagWebPK,FK2 Id_Regla

Esquema de almacenamiento de bitácoras

Esquema de almacenamiento de reglas

Weblog Mining

Carga de estructuras de sitios Web Un grafo recortado

Estructura de un sitio Web

Weblog Mining

Método Regla Soporte Confianza

10 Minutos [/subaca/electron/index.html]--->[/index.html] 8.92% 86.69%

15 Minutos [/subaca/electron/index.html]--->[/index.html] 9.51% 88.56%

Heurística [/subaca/web-dcc/index.html]--->[/index.html] 11.24% 85.07%

15 Peticiones [/subaca/electron/index.html]--->[/index.html] 9.03% 86.19%

cenidet.edu.mx

Agosto 2004

ClusteringNombre Proteína Vitamina Grasa Azúcar Mineral

Hamburguesa 10 0 10 0 0

Papas 5 3 15 12 0

Refresco 0 0 0 23 0.5

Helado 0 1 7 33 0

Malteada 4 2 10 37 0

Clusteringd(yi, Cj) = (yi - Cj)

T (yi - Cj) = ∑d l=1 (yli – Clj)

2

d(y1 – c1) = (y1 – c1)T(y1 – c1) = ∑2l=1(yl1,cl1) = (y11 – C11)2 + (y21 – C21)2

Gráfica de la relación Y

0

0.5

1

1.5

2

2.5

3

3.5

0 1 2 3 4 5 6 7 8 9 10 11

d1 (Proteína)

d2

(Vitam

ina)

Elementos

Centroides

Referencias

• Date C. (2001), “Introducción a los sistemas de base de datos”, 7a. Edición, Pearson educación, México, 2001, ISBN: 968-444-419-2, pp. 709-725.

• Hernández, G. (2005) “Generador de patrones de navegación de usuario aplicando Web Log Mining en cliente/servidor”, Tesis de Maestría, CENIDET 2005.

Referencias

• Olivares, J. y Ponce I. (2005). Programación del algoritmo de agrupamiento K-means en SQL. CENIDET Laboratorio de Sistemas Distribuidos.

¿Preguntas, dudas y comentarios?

Minería de Datos M.C. Juan Carlos Olivares Rojas.

Documents

Transcript of Minería de Datos M.C. Juan Carlos Olivares Rojas.