Web Usage Mining - Temas Avanzados

33
WEB MINING Web Usage Mining Juan Azcurra

Transcript of Web Usage Mining - Temas Avanzados

Page 1: Web Usage Mining - Temas Avanzados

WEB MINING

Web Usage MiningJuan Azcurra

Page 2: Web Usage Mining - Temas Avanzados

Introducción2

Web Usage Mining: descubrimiento automáticode patrones en los clicks realizados sobre unsitio Web y los datos recolectados o generadoscomo resultado de las interacciones de losusuarios con uno o más sitios Web.

Objetivo: analizar los patrones decomportamiento de los usuarios interactuandocon un sitio Web.

Los patrones descubiertos son generalmenterepresentados como colecciones de páginas,objetos o recursos que son accedidos por ungrupo de usuarios con un objetivo en común.

Page 3: Web Usage Mining - Temas Avanzados

Introducción3

Los datos utilizados para Web Usage Mining:

Logs de servidores web.

Contenido del sitio.

Datos acerca de los visitantes, obtenidos de fuentes

externas.

Datos de otras aplicaciones.

No siempre están disponibles todos.

Cuando si están, deben ser integrados.

Page 4: Web Usage Mining - Temas Avanzados

Logs de servidores Web4

1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221

HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)

http://dataminingresources.blogspot.com/

2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096

HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)

http://maya.cs.depaul.edu/~classes/cs589/papers.html

3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200

318814 HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)

http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey

4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794

HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)

http://maya.cs.depaul.edu/~classes/cs480/

5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636

HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)

http://maya.cs.depaul.edu/~classes/cs480/announce.html

6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027

HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)

http://maya.cs.depaul.edu/~classes/cs480/announce.html

Page 5: Web Usage Mining - Temas Avanzados

Proceso de Web Usage Mining5

Page 6: Web Usage Mining - Temas Avanzados

Fase de preparación de datos6

Page 7: Web Usage Mining - Temas Avanzados

Preprocesamiento de datos7

Page 8: Web Usage Mining - Temas Avanzados

Limpieza de datos8

Data cleaning / cleansing

Eliminar referencias irrelevantes y campos en

logs

Eliminar referencias a navegaciones de robots

Eliminar referencias erroneas

Agregar referencias faltanets debido a caching

(una vez realizada la sesionización)

Page 9: Web Usage Mining - Temas Avanzados

Identificar sesiones

(sesionización)9

En el análisis de uso de la Web, los datos están

en sesiones de visitas al sitio: la actividad

realizada por un usuario desde el momento que

ingresa al sitio hasta que lo deja.

Dificultad para obtener datos confiables de uso

debido a servidores proxy y aplicaciones de

ocultamiento, referencias pérdidas debido a

cache y la imposibilidad de los servidores de

distinguir entre diferentes visitas.

Page 10: Web Usage Mining - Temas Avanzados

Estrategias de sesionización10

Page 11: Web Usage Mining - Temas Avanzados

Heurísticas de sesionización11

Page 12: Web Usage Mining - Temas Avanzados

Ejemplo de sesionización12

Page 13: Web Usage Mining - Temas Avanzados

Identificación de usuario13

Page 14: Web Usage Mining - Temas Avanzados

Ejemplo de identificación de

usuario14

Page 15: Web Usage Mining - Temas Avanzados

PageView15

Un pageview es una representación agregada

de una colección de páginas Web

contribuyendo a visualizar en el navegador del

usuario el resultado de una acción simple (un

click).

Conceptualmente, cada pageview puede ser

visualizado como una colección de objetos o

recursos representando un especifico “evento

de usuario”, ej: leyendo un artículo, mirando una

páginad e producto o agregando un producto al

carrito de compras.

Page 16: Web Usage Mining - Temas Avanzados

Path completion16

Caché en el cliente o servidor puede derivar enreferencias de accesos perdidas para laspáginas que se encuentran en el caché.

Por ejemplo:

Si un usuario regresa a una página A durante lamisma sesión, probablemente podrá ver laversión descargada anteriormente de A que seencuentra en el caché de su computadora y porlo tanto no se vuelve a solicitar al servidor.

Esto ocasiona que la segunda referencia a A nosea registrada en el log del servidor Web.

Page 17: Web Usage Mining - Temas Avanzados

Referencias perdidas por caché17

Page 18: Web Usage Mining - Temas Avanzados

Path completion18

El problema es inferir referencias perdidas

debido a uso de caché.

Conocer caminos de navegación efectivos

requiere conocimiento extensivo de la

estructura de links dentro del sitio.

Información de referencia en los logs del

servidor puede ser usada en la desambiguación

de inferencias de caminos.

Page 19: Web Usage Mining - Temas Avanzados

Integración con eventos de e-

commerce19

Puede ser orientado a productos o visitas

Utilizados para trackear y analizar conversión

de navegadores a compradores.

La mayor dificultad para eventos de e-commerce

es definir e implementar los eventos para un sitio.

Otro desafio importante es la integración exitosa

de los datos obtenidos de la navegación.

Page 20: Web Usage Mining - Temas Avanzados

Eventos orientados a producto20

Vista de producto

Ocurre cada vez que un producto aparece en una

visita a una página.

Tipos típicos: imagen, link, texto.

Click a productos

Ocurre cada vez que un usuario hace click en un

producto para obtener mayor información.

Page 21: Web Usage Mining - Temas Avanzados

Eventos orientados a productos21

Cambios en carritos de compra

Agregar o eliminar productos del carrito

Modificar productos en el carrito (cantidad u otracaracteristica)

Compra de producto u oferta

Los eventos de compra ocurren separadamentepara cada producto en el carrito de compras.

Los sitios de subastas pueden rastrear eventosde oferta además de las compras de productos.

Page 22: Web Usage Mining - Temas Avanzados

Proceso de Web Usage Mining22

Page 23: Web Usage Mining - Temas Avanzados

Integración con el contenido del

sitio23

Page 24: Web Usage Mining - Temas Avanzados

Integración con la estructura de

links24

Page 25: Web Usage Mining - Temas Avanzados

Análisis de e-commerce25

Page 26: Web Usage Mining - Temas Avanzados

Análisis de sesiones26

Forma más simple de análisis: examinar

inviduos o grupos de individuos desde el log del

server y datos de e-commerce.

Ventajas:

Obtener información sobre los clientes tipicos.

Trazar problemas específicos en el sitio.

Desventajas:

Volumen alto de datos.

Dificil de generalizar.

Page 27: Web Usage Mining - Temas Avanzados

Análisis de sesiones: reportes

agregados27

Forma más común de análisis

Los datos son agregados a niveles

predeterminados (días o sesiones).

Ventajas:

Vista general de utilización del sitio.

Minimo espacio en disco para procesamiento.

Desventajas:

Problemas para bucear en los datos.

Page 28: Web Usage Mining - Temas Avanzados

OLAP28

Permite cambios en los niveles de agregación

para múltiples dimensiones.

Generalmente asociado a un Data Warehouse.

Pros y contras

Muy flexible.

Requiere más recursos que los reportes

estáticos.

Page 29: Web Usage Mining - Temas Avanzados

Data Mining29

Itemset frecuente

La Home Page y el Carrito de Compras sonvisitados juntos por el 20% de las sesiones.

Las categorias Libros y Música son visitadosjuntos en 1.5% de las sesiones.

Reglas de asociación

Cuando la Home Page es visitada, el Carrito deCompras es visto tambien el 90% del tiempo.

Cuando la categoria Libros es visitada en unasesión, la categoria Música también es visitadael 5% del tiempo.

Page 30: Web Usage Mining - Temas Avanzados

Data Mining (cont)30

Patrones secuenciales

Agrega una dimensión extra a las dos anteriores, el

tiempo.

El x% del tiempo, cuando A aparece en una

transacción, B también aparece.

Ejemplo: La página PlayStation PSP Vita es visitada

despues de PlayStation PSP el 50% de las veces,

esto ocurre en el 5% de las sesiones.

Clustering: basado en contenido o uso

Segmentación cliente / visitante

Categorización de páginas y productos

Page 31: Web Usage Mining - Temas Avanzados

Aplicaciones de Data Mining31

Page 32: Web Usage Mining - Temas Avanzados

Personalización32

Personalización Web: “personalizar laexperiencia de navegación de un usuarioajustando el look and feel y contenidodependiendo los intereses y necesidades delusuario.

Motivos:

Mejorar y profundizar la relación con el cliente.

Proveer relación continua para mejorar la lealtaddel cliente.

Proveer la habilidad de medir el comportamientodel cliente e identificar como el cliente responde alos esfuerzos de marketing.

Page 33: Web Usage Mining - Temas Avanzados

Enfoques tipicos33

Filtros basados en reglas Proveer contenido basado en reglas predefinidas (ej.,

si el usuario hace click en A y utiliza X navegador,agregar el link C)

Filtros colaborativos Brindar recomendaciones a los usuarios basado en

las respuestas de otros usuarios similares.

Filtros basados en contenidos Analizar las páginas que visita el usuario y

recomendar aquellas con contenido similar.

Métodos hibridos Combinación de filtros colaborativos y de contenidos.