Mineria de Sesiones en Motores de Busqueda Web

Minerıa de Sesiones enMotores de Busqueda Web

Marcelo MendozaYahoo! Research Latin America

Como buscar en la Web?

Los usuarios nos dan feedback

Los motores de busqueda registran la actividad delusuario en logs (consultas, clicks, navegacion).

Podemos usar los logs para mejorar la efectividad delmotor de busqueda.

El feedback de los usuarios

Las sesiones de los usuarios: consultas

Las sesiones de los usuarios: directorios

Las sesiones de los usuarios

Motor de consulta: (q, (URL, r , t)∗)

Directorio: (c , (URL, r , t)∗)

q: consulta (terminos que la componen).

c : categoria del directorio (texto del path).

URL: documento seleccionado (pagina / sitio).

r : ubicacion del documento en la lista derecomendaciones.

t: tiempo que el usuario permanece revisando eldocumento.

Minerıa de sesiones como proceso

Actividad en la Web

Relacion terminos documentos / consultas

| Q | = 27,766, | D | = 359,056, | Q ∩ D | = 22,692

Modelos de Sesiones de Usuarios

[BYHMD05]

Las sesiones de los usuarios: Que sabemos?

Las consultas son cortas (2 a 3 terminos en promedio).

No siempre un termino frecuentemente usado enconsultas es frecuentemente usado en documentos.

Los clicks se concentran preferentemente en las primerasposiciones del ranking.

En general, los usuarios no revisan exhaustivamente losresultados (se concentran en los top-10).

Los directorios son poco usados pero son muy efectivos.

Relaciones entre consultas

[DM06]

q2 puede mejorar q1!!! (se induce un grafo dirigido)

[DM06]

Grupos de consultas (clustering)

Construir representaciones vectoriales de sesiones deconsultas.

Introducir una funcion de distancia entre vectores yagrupar usando un algoritmo de clustering estandar (e.g.k-means).

Explotar las relaciones definidas en cada grupo:

consulta ←→ consultaconsulta ←→ documentodocumento ←→ documento

Usar caracterısticas de las sesiones para construir vectores.

Vectores basados en terminos de consultas, terminos dedocumentos, ranking de documentos clickeados, numerode clicks, tiempo de permanencia en documento, etc...

Relaciones entre documentos / consultas

Vectores de consultas

Terminos de consultas: q[i ] = Tfi ,q · Idfi ,Q

Tfi ,q: numero de ocurrencias de ti en q (normalizado).

Idfi ,Q : log(NQni

Limitacion: q generalmente tiene pocos terminos (i.e.Tfi ,q = 0).

Version suavizada: q[i ] = (0.5 + 0.5 · Tfi ,q) · Idfi ,Q .

Co-citacion: dos consultas son similares si haycoincidencias entre los docs clickeados en sus sesiones.

Alternativas para los pesos: booleanos, ranking, clicks.

Consultas: usamos variables generadas en las sesionesdonde q ha sido formulada (que reflejan la actividad delusuario).

Tf-Pop

q[i ] =∑

URLs u Tfi ,u · C (u, s),

C (u, s): numero de clicks a u (sobre total de clicks).

[BYHM04a]

Vectores de sesiones de consultas

Sesiones: usamos variables generadas en cada sesion (quereflejan la actividad del usuario).

No usamos clicks (C (u, s) es 1 o 0 en la sesion).

Usamos tiempo (tu: tiempo en el doc u, ts : duracion dela sesion).

Tf-Idf-Timeqs[i ] =

∑URLs u Tfi ,u · Idfi ,Q · tu

[BYHM07]

Distribucion de distancias

Usamos distancia coseno.

[BYHM07]

Clusters de consultas

[BYHM04b]

Usando clusters de consultas

Mejorar el ranking! (usar los documentos mas clickeadosdel cluster).

Clasificacion de palabras:

Terminos en el cluster: sinonimia.Mismo termino en distintos clusters: polisemia.

Recomendar consultas (usar las consultas que retornan losdocumentos con mas clicks y en mejores posiciones).

Minerıa de Sesiones en Directorios

Los directorios estan limitados en su crecimiento.

Idea: usando sesiones de usuario, producirautomaticamente recomendaciones de documentos en eldirectorio 7−→ crecimiento.

Usamos el log del directorio para construirrepresentaciones vectoriales de sesiones en el directorio.

Las asociamos a sesiones de consultas 7−→ recomendamosdocumentos seleccionados en las sesiones de consultas enel directorio 7−→ tambien asociamos consultas.

Categorias de Directorios

vc [i ] =∑

cs∈c vcs [i ]× 1r

MinSupp Relevant Recommended Precision Recall F-measure0.1 356 499 71.34% 63.46% 67.17%0.2 386 437 88.33% 68.81% 77.35%0.3 378 401 94.26% 67.38% 78.59%0.4 331 352 94.03% 59.01% 72.51%0.5 290 302 96.03% 51.69% 67.21%

Set Relevant Recommended Precision Recall F-measureA 378 401 94.26% 67.38% 78.59%H 470 500 94.01% 83.78% 88.61%

H ∩ A 289 297 97.31% 51.52% 67.37%H - A 181 203 89.16% 32.26% 47.38%A - H 89 104 85.58% 15.86% 26.77%

Category Queries Recommended

literature poetry, Chilean tales, Chilean poetry, Pablo Neruda, value added taxmuseums Bellas Artes museum, Historical museum, San Francisco church,

Claudio Bravo, Pablo Nerudaarchitecture architecture, architects, architecture’s information,

history of the Chilean architecture, Maipu templeAstronomy observatory, telescope, Paranal, pisco, wine tourBiology native plants, birds, flora and fauna, Chilean flora, insectsGeology Valdivia’s earthquake, 1960 earthquake, vulcanos, earthquakes, tremorHistory history of Chile, local history, naval battle of Iquique, Chilean folkloretechnologies nuclear physics, birds, telescopes, energy, Chilean climatehardware printers, optic fiber, lexmark, toner, CPUInternet e-business, e-commerce, P2P, web development, hostagesoftware free software, software errors, bar code’s sofware, sofwareinformatics computer networks install, networks, used notebooks, tutorialsreal estate properties, apartments, sales, rentals in Chile, housesarts master, tatoos, photography, Violeta Parra, Violeta Parra biographyphotography photography, digital photography, Chilean photography, photos,

Photography’s coursesrestaurants Vegetarian food, Mexican food, Japanese food, chiken, Chinese foodcommerce duty free Iquique, duty free Punta Arenas, duty free areas, taxestoys & games games, board games, PC games, PS2 tricks, PS2 gamesvideo & dvd DVD, DVD R, movie sales, DVD recording, CD R

Intensiones detras de las consultas

Los usuarios manifiestan intensiones detras de susconsultas.

Quiero aprender acerca de algo:

batalla naval del Iquique

Quiero ir a una pagina / sitio especıfica:

Amazon

Quiero realizar una accion en particular:

Accesar un servicio: codigo postal de SantiagoDownload: mp3 King CrimsonComprar / vender: memorias RAM oferta

Broder ’02: informacion, navegacion, transaccion.

Informacion: el texto del documento es lo masimportante para la consulta.

Navegacion: la URL del documento es lo mas importantepara la consulta.

Transaccion: la funcionalidad del sitio es lo masimportante.

RankingSi conocemos la intension de la consulta, le damos masrelevancia al texto, URL u otro tipo de caracterısticas deldocumento.

Identificacion automatica usando SVMsMethod Measures

TP Rate FP Rate Precision F-Measure

Informational - Other(0) tf-idf 0.6538 0.0292 0.9623 0.7786(1) tf-pop 0.58576 0.13281 0.84186 0.69084(2) tf-idf-time 0.92614 0.05141 0.89071 0.90808(3) tf-idf-pop-time 0.65000 0.23711 0.31138 0.42105Navigational - Other(0) tf-idf 0.9655 0.2597 0.6109 0.7483(1) tf-pop 0.92131 0.13475 0.88088 0.90064(2) tf-idf-time 0.99485 0.06870 0.87727 0.93237(3) tf-idf-pop-time 0.45455 0.01603 0.83333 0.58824Transactional - Other(0) tf-idf 0.91 0.0165 0.9192 0.9146(1) tf-pop 0.75692 0.05344 0.94615 0.84103(2) tf-idf-time 0.98438 0.05316 0.90000 0.94030(3) tf-idf-pop-time 0.70000 0.13153 0.41880 0.52406

[MZ09b]

Identificacion automatica usando C 4.5

[MZ09a]

Que hemos aprendido?

Es posible identificar intensiones tras las consultas (esmas difıcil en el caso de transaccionales).

Lıneas de investigacion: mejorar el ranking.

Minerıa de sesiones para distribucion de

documentos

Query routing

documentos

Query routing

[MFM+09a]

documentos

0) HIT, a) Contencion exacta, b) Contencion aproximada, c)Contencion por region, d) Diferencias de n-terminos.

[MFM09b]

documentos

Caching + Machine LearningUsar el location cache como training set para una maquina deaprendizaje.

Cuan probable es la maquina para una consulta enparticular?

P(y = ±1 | x, w) =1

1 + e−y(wT x+w0),

x : terminos de las consultas, y : id de los procs, w :modelo.

2wT w + C

l∑i=1

log(1 + e−yi (wT xi +w0)),

documentos

INTER5%

8 16 32 64 128RANDOM 6.21 12.51 24.81 49.81 100PCAP 16.48 23.58 36.64 64.03 100SEMCACHE 11.68 19.17 32.55 57.66 100LOGRES 16.81 24.46 37.72 65.88 100

INTER10%

INTER20%

Conclusiones

Podemos aprender del pasado!Las sesiones de los usuarios son muy utiles para mejorar laeficacia de los motores de busqueda

Ranking de documentos

Recomendacion de consultas

Mantencion de directorios

Clasificacion de consultas segun intension

Query routing

Referencias I

R. Baeza-Yates, C. Hurtado, and M. Mendoza.

Query clustering for boosting web page ranking.

In AWIC ’04, 2004.

Query recommendation using query logs in search engines.

In CLUSWEB ’04, 2004.

Improving search engines by query clustering.

In Journal of the American Society for Information Systemsand Technology, 58(12):1793-1804, 2007.

Referencias II

R. Baeza-Yates, C. Hurtado, M. Mendoza, and G. Dupret.

Modeling user search behavior.

In LA-WEB ’05, 2005.

G. Dupret and M. Mendoza.

Automatic query recommendation using click-through data.

In WCC ’06, 2006.

M. Marin, F. Ferrarotti, M. Mendoza, C. Gomez, andV. Gil-Costa.

Location cache for web queries.

In CIKM ’09, 2009.

Referencias III

M. Mendoza, F. Ferrarotti, and M. Marin.

A last-resort semantic cache for web queries.

In SPIRE ’09, 2009.

M. Mendoza and J. Zamora.

Building decision trees to identify the intent of a user query.

In KES ’09, 2009.

M. Mendoza and J. Zamora.

Identifying the intent of a user query using support vectormachines.

In SPIRE ’09, 2009.

Gracias!

Mineria de Sesiones en Motores de Busqueda Web

Technology

Transcript of Mineria de Sesiones en Motores de Busqueda Web

Motores de busqueda

Presentación motores de busqueda

Motores De Busqueda

Guia optimizacion motores busqueda

Motores busqueda

Guia Motores Busqueda

Motores de Busqueda Listo

Busqueda en motores

Presentacion motores de busqueda

Motores De Busqueda 2

Motores de busqueda (2)

Motores de busqueda vv