Minería de Datos M.C. Juan Carlos Olivares Rojas.
-
Upload
tomas-islas -
Category
Documents
-
view
227 -
download
3
Transcript of Minería de Datos M.C. Juan Carlos Olivares Rojas.
Minería de Datos
M.C. Juan Carlos Olivares Rojas
Agenda
Introducción
El proceso de extracción del conocimiento
Algoritmos utilizados en el proceso de minería de datos
Ejemplos
Introducción
• Se define como un análisis de datos exploratorio.
• El propósito es buscar patrones interesantes en los datos. Se aplican muchas técnicas estadísticas para buscar estos patrones.
• Se pretende buscar reglas de asociación entre las dimensiones de una tabla.
Introducción
• Al conjunto de todas las transacciones se le llama población.
• Cualquier regla de asociación tiene un nivel de soporte y uno de confianza.
• Soporte es el fragmento de la población que satisface la regla.
Introducción
• El soporte es la fracción de la población, en la cual se cumple el antecedente, también se cumple el consecuente.
• Se pueden encontrar en otro tipo de patrones: “Si un cliente compra zapatos es probable que compre calcetines no necesariamente en la misma transacción”.
El proceso de extracción del conocimiento
• Para la extracción del conocimiento se tiene que hacer un preprocesado de los datos. Generalmente dicho preprocesamiento contiene un filtro de información, es decir, sólo se tienen los campos y datos para nuestro almacén de datos.
• Este es un proceso único dependiente del problema a resolver.
Algoritmos utilizados en el proceso de minería de datos
• Existen una gran infinidad de algoritmos generalmente clasificados en dos tipos: estadístico y probabilísticos.
• Los estadísticos funcionan con los datos de nuestra tabla de hechos y deben devolver un resultado expresado en probabilidad o no obtenible mediante expresiones SQL básicas.
Algoritmos utilizados en el proceso de minería de datos
• El algoritmo mejor conocido es el de reglas de asociación que encuentra dependencia entre elementos, pero existen otros algoritmos como los de agrupamiento (clustering) como los vecinos más cercanos o k-means que encuentran relaciones entre grupos de objetos con ciertas afinidades.
Algoritmos utilizados en el proceso de minería de datos
• Los algoritmos probabilísticos se encuentran con técnicas en la mayoría de los casos más avanzadas, como son las redes bayesianas, las máquinas de soporte vectorial entre otros.
• Los resultados de la minería de datos pueden diferir según la técnica empleada aunque los datos sean los mismos.
Weblog Mining• La Minería Web es simplemente
aprovechar las técnicas de Minería de Datos para obtener conocimiento de la información disponible en Internet.
• Algunas áreas de aplicación:
• Mejorar el diseño de la estructura de un sitio Web.
Weblog Mining
• Planear campañas de marketing orientadas al comercio electrónico.
• Mejorar sistemas, ya sea en la calidad del desempeño o la seguridad.
• Identificar patrones de acceso a recursos Web con el objetivo de seleccionar archivos para el acaparamiento en dispositivos inalámbricos.
Weblog Mining
Desconexión
Internet
Dispositivo Móvil
Punto Acceso
Servidor
Weblog Mining
Computadora Cliente
Bitácoras a nivel de cliente
Modem
Proveedor de Servicios De Interne Servidor Web
Bitácora a nivel de servidor Web
Contenido del Servidor Web
“Internet”
Línea Telefónica
Bitácora a nivel de Proxy
Bitácora a nivel de contenido
Weblog MiningMinería Web
Minería de estructura Web
Inteligencia de negociosModificación de sitiosMejora de sistemas Caracterización de usoPersonalización
Minería de uso WebMinería de contenido Web
SpeedTracerShahabi
SiteHelperLetiziaWeb WatcherWebPersonalizer
RexfordSchechterAggarwal
PageGather SurfAidBuchnerTuhzilinWebLogMiner
PitkowArlitt
WM CenidetWUM
WebSIFT
Weblog Mining
Logs de Proxy y servidor Web Identificación de sesiones y
usuarios
Reglas, ítems frecuentes, patrones
Conocimiento Interesante
Pre-procesamiento
Descubrimiento de Patrones
Análisis de Patrones
Weblog Mining
Identificación del formato de
la bitácora
Limpieza de bitácoras
Fase 1. Recolección y Pre-procesamientoRecolección de
archivos log
Recolección de bitácoras a nivel de
servidor Proxy
Recolección de bitácoras a nivel de
servidor Web Base de Datos
Repositorio
Fase 2. Identificación de Sesiones
Identificación de sesiones
Enfoque basado en heurística
Enfoque basado en número de peticiones
Enfoque basado en tiempo de duración
Fase 3. Minería de Datos
Ítems Frecuentes
Reglas de
Asociación
Motor de minería
Fase 4. Recolección de estructuras
Recolección de Estructuras Web
Almacenamiento
de estructuras
Recolector de
estructuras
Fase 5. Análisis gráfico de los
resultados
Visor de Patrones de Navegación
Visor de Estructuras
Web
Fase 6. Aplicación del conocimiento
Mercadotecnia
Mejora de sistemas
Pre-carga de archivos
Weblog Mining
• Una vez que se tienen objetos minables, la gama de métodos para descubrir patrones va desde el simple análisis estadístico hasta métodos complejos como algoritmos de minería de datos.
• Para este trabajo se implementó el algoritmo de minería de reglas de asociación A-priori e ítems frecuentes.
Weblog Mining
Weblog Mining
Bitacora
PK Clave
HostrUsuarioFechaRecursoStatusBytesReferenciaNavegadorCookieMilisegMetodoHtmlVId_Sesion
FK1 Id_pagWebId_pagWeb(Referencia)
Catalogo
PK Id_pagWeb
Descripcion
Items
PK Id_PagWeb
Decripcion
Regla
PK Id_Regla
ConfianzaSoporteconf_minsop_min
Consecuentes
PK,FK1 Id_ReglaPK,FK2 Id_PagWeb
Antecedentes
PK,FK1 Id_PagWebPK,FK2 Id_Regla
Esquema de almacenamiento de bitácoras
Esquema de almacenamiento de reglas
Weblog Mining
Carga de estructuras de sitios Web Un grafo recortado
Estructura de un sitio Web
Weblog Mining
Método Regla Soporte Confianza
10 Minutos [/subaca/electron/index.html]--->[/index.html] 8.92% 86.69%
15 Minutos [/subaca/electron/index.html]--->[/index.html] 9.51% 88.56%
Heurística [/subaca/web-dcc/index.html]--->[/index.html] 11.24% 85.07%
15 Peticiones [/subaca/electron/index.html]--->[/index.html] 9.03% 86.19%
cenidet.edu.mx
Agosto 2004
ClusteringNombre Proteína Vitamina Grasa Azúcar Mineral
Hamburguesa 10 0 10 0 0
Papas 5 3 15 12 0
Refresco 0 0 0 23 0.5
Helado 0 1 7 33 0
Malteada 4 2 10 37 0
Clusteringd(yi, Cj) = (yi - Cj)
T (yi - Cj) = ∑d l=1 (yli – Clj)
2
d(y1 – c1) = (y1 – c1)T(y1 – c1) = ∑2l=1(yl1,cl1) = (y11 – C11)2 + (y21 – C21)2
Gráfica de la relación Y
0
0.5
1
1.5
2
2.5
3
3.5
0 1 2 3 4 5 6 7 8 9 10 11
d1 (Proteína)
d2
(Vitam
ina)
Elementos
Centroides
Referencias
• Date C. (2001), “Introducción a los sistemas de base de datos”, 7a. Edición, Pearson educación, México, 2001, ISBN: 968-444-419-2, pp. 709-725.
• Hernández, G. (2005) “Generador de patrones de navegación de usuario aplicando Web Log Mining en cliente/servidor”, Tesis de Maestría, CENIDET 2005.
Referencias
• Olivares, J. y Ponce I. (2005). Programación del algoritmo de agrupamiento K-means en SQL. CENIDET Laboratorio de Sistemas Distribuidos.
¿Preguntas, dudas y comentarios?