Mineria de Sesiones en Motores de Busqueda Web

Post on 05-Jul-2015

336 views 0 download

description

Se describen metodos de mineria de datos aplicados a query logs de motores de busqueda los cuales permiten mejorar el ranking de documentos asi como recomendar consultas o mantener automaticamente directorios.

Transcript of Mineria de Sesiones en Motores de Busqueda Web

Minerıa de Sesiones enMotores de Busqueda Web

Marcelo MendozaYahoo! Research Latin America

2009

Como buscar en la Web?

Como buscar en la Web?

Los usuarios nos dan feedback

Los motores de busqueda registran la actividad delusuario en logs (consultas, clicks, navegacion).

Podemos usar los logs para mejorar la efectividad delmotor de busqueda.

El feedback de los usuarios

Las sesiones de los usuarios: consultas

Las sesiones de los usuarios: consultas

Las sesiones de los usuarios: directorios

Las sesiones de los usuarios: directorios

Las sesiones de los usuarios

Motor de consulta: (q, (URL, r , t)∗)

Directorio: (c , (URL, r , t)∗)

q: consulta (terminos que la componen).

c : categoria del directorio (texto del path).

URL: documento seleccionado (pagina / sitio).

r : ubicacion del documento en la lista derecomendaciones.

t: tiempo que el usuario permanece revisando eldocumento.

Minerıa de sesiones como proceso

Minerıa de sesiones como proceso

Actividad en la Web

Relacion terminos documentos / consultas

| Q | = 27,766, | D | = 359,056, | Q ∩ D | = 22,692

Modelos de Sesiones de Usuarios

[BYHMD05]

Modelos de Sesiones de Usuarios

[BYHMD05]

Modelos de Sesiones de Usuarios

[BYHMD05]

Modelos de Sesiones de Usuarios

[BYHMD05]

Las sesiones de los usuarios: Que sabemos?

Las consultas son cortas (2 a 3 terminos en promedio).

No siempre un termino frecuentemente usado enconsultas es frecuentemente usado en documentos.

Los clicks se concentran preferentemente en las primerasposiciones del ranking.

En general, los usuarios no revisan exhaustivamente losresultados (se concentran en los top-10).

Los directorios son poco usados pero son muy efectivos.

Relaciones entre consultas

[DM06]

q2 puede mejorar q1!!! (se induce un grafo dirigido)

Relaciones entre consultas

[DM06]

Relaciones entre consultas

[DM06]

Grupos de consultas (clustering)

Construir representaciones vectoriales de sesiones deconsultas.

Introducir una funcion de distancia entre vectores yagrupar usando un algoritmo de clustering estandar (e.g.k-means).

Explotar las relaciones definidas en cada grupo:

consulta ←→ consultaconsulta ←→ documentodocumento ←→ documento

Usar caracterısticas de las sesiones para construir vectores.

Vectores basados en terminos de consultas, terminos dedocumentos, ranking de documentos clickeados, numerode clicks, tiempo de permanencia en documento, etc...

Relaciones entre documentos / consultas

Vectores de consultas

Terminos de consultas: q[i ] = Tfi ,q · Idfi ,Q

Tfi ,q: numero de ocurrencias de ti en q (normalizado).

Idfi ,Q : log(NQni

).

Limitacion: q generalmente tiene pocos terminos (i.e.Tfi ,q = 0).

Version suavizada: q[i ] = (0.5 + 0.5 · Tfi ,q) · Idfi ,Q .

Vectores de consultas

Co-citacion: dos consultas son similares si haycoincidencias entre los docs clickeados en sus sesiones.

Alternativas para los pesos: booleanos, ranking, clicks.

Vectores de consultas

Consultas: usamos variables generadas en las sesionesdonde q ha sido formulada (que reflejan la actividad delusuario).

Tf-Pop

q[i ] =∑

URLs u Tfi ,u · C (u, s),

C (u, s): numero de clicks a u (sobre total de clicks).

[BYHM04a]

Vectores de sesiones de consultas

Sesiones: usamos variables generadas en cada sesion (quereflejan la actividad del usuario).

No usamos clicks (C (u, s) es 1 o 0 en la sesion).

Usamos tiempo (tu: tiempo en el doc u, ts : duracion dela sesion).

Tf-Idf-Timeqs[i ] =

∑URLs u Tfi ,u · Idfi ,Q · tu

ts.

[BYHM07]

Distribucion de distancias

Usamos distancia coseno.

[BYHM07]

Clusters de consultas

[BYHM04b]

Usando clusters de consultas

Mejorar el ranking! (usar los documentos mas clickeadosdel cluster).

Clasificacion de palabras:

Terminos en el cluster: sinonimia.Mismo termino en distintos clusters: polisemia.

Recomendar consultas (usar las consultas que retornan losdocumentos con mas clicks y en mejores posiciones).

Minerıa de Sesiones en Directorios

Los directorios estan limitados en su crecimiento.

Idea: usando sesiones de usuario, producirautomaticamente recomendaciones de documentos en eldirectorio 7−→ crecimiento.

Usamos el log del directorio para construirrepresentaciones vectoriales de sesiones en el directorio.

Las asociamos a sesiones de consultas 7−→ recomendamosdocumentos seleccionados en las sesiones de consultas enel directorio 7−→ tambien asociamos consultas.

Categorias de Directorios

vc [i ] =∑

cs∈c vcs [i ]× 1r

Minerıa de Sesiones en Directorios

Minerıa de Sesiones en Directorios

MinSupp Relevant Recommended Precision Recall F-measure0.1 356 499 71.34% 63.46% 67.17%0.2 386 437 88.33% 68.81% 77.35%0.3 378 401 94.26% 67.38% 78.59%0.4 331 352 94.03% 59.01% 72.51%0.5 290 302 96.03% 51.69% 67.21%

Set Relevant Recommended Precision Recall F-measureA 378 401 94.26% 67.38% 78.59%H 470 500 94.01% 83.78% 88.61%

H ∩ A 289 297 97.31% 51.52% 67.37%H - A 181 203 89.16% 32.26% 47.38%A - H 89 104 85.58% 15.86% 26.77%

Minerıa de Sesiones en Directorios

Category Queries Recommended

literature poetry, Chilean tales, Chilean poetry, Pablo Neruda, value added taxmuseums Bellas Artes museum, Historical museum, San Francisco church,

Claudio Bravo, Pablo Nerudaarchitecture architecture, architects, architecture’s information,

history of the Chilean architecture, Maipu templeAstronomy observatory, telescope, Paranal, pisco, wine tourBiology native plants, birds, flora and fauna, Chilean flora, insectsGeology Valdivia’s earthquake, 1960 earthquake, vulcanos, earthquakes, tremorHistory history of Chile, local history, naval battle of Iquique, Chilean folkloretechnologies nuclear physics, birds, telescopes, energy, Chilean climatehardware printers, optic fiber, lexmark, toner, CPUInternet e-business, e-commerce, P2P, web development, hostagesoftware free software, software errors, bar code’s sofware, sofwareinformatics computer networks install, networks, used notebooks, tutorialsreal estate properties, apartments, sales, rentals in Chile, housesarts master, tatoos, photography, Violeta Parra, Violeta Parra biographyphotography photography, digital photography, Chilean photography, photos,

Photography’s coursesrestaurants Vegetarian food, Mexican food, Japanese food, chiken, Chinese foodcommerce duty free Iquique, duty free Punta Arenas, duty free areas, taxestoys & games games, board games, PC games, PS2 tricks, PS2 gamesvideo & dvd DVD, DVD R, movie sales, DVD recording, CD R

Intensiones detras de las consultas

Los usuarios manifiestan intensiones detras de susconsultas.

Quiero aprender acerca de algo:

batalla naval del Iquique

Quiero ir a una pagina / sitio especıfica:

Amazon

Quiero realizar una accion en particular:

Accesar un servicio: codigo postal de SantiagoDownload: mp3 King CrimsonComprar / vender: memorias RAM oferta

Intensiones detras de las consultas

Broder ’02: informacion, navegacion, transaccion.

Informacion: el texto del documento es lo masimportante para la consulta.

Navegacion: la URL del documento es lo mas importantepara la consulta.

Transaccion: la funcionalidad del sitio es lo masimportante.

RankingSi conocemos la intension de la consulta, le damos masrelevancia al texto, URL u otro tipo de caracterısticas deldocumento.

Identificacion automatica usando SVMsMethod Measures

TP Rate FP Rate Precision F-Measure

Informational - Other(0) tf-idf 0.6538 0.0292 0.9623 0.7786(1) tf-pop 0.58576 0.13281 0.84186 0.69084(2) tf-idf-time 0.92614 0.05141 0.89071 0.90808(3) tf-idf-pop-time 0.65000 0.23711 0.31138 0.42105Navigational - Other(0) tf-idf 0.9655 0.2597 0.6109 0.7483(1) tf-pop 0.92131 0.13475 0.88088 0.90064(2) tf-idf-time 0.99485 0.06870 0.87727 0.93237(3) tf-idf-pop-time 0.45455 0.01603 0.83333 0.58824Transactional - Other(0) tf-idf 0.91 0.0165 0.9192 0.9146(1) tf-pop 0.75692 0.05344 0.94615 0.84103(2) tf-idf-time 0.98438 0.05316 0.90000 0.94030(3) tf-idf-pop-time 0.70000 0.13153 0.41880 0.52406

[MZ09b]

Identificacion automatica usando C 4.5

[MZ09a]

Intensiones detras de las consultas

Que hemos aprendido?

Es posible identificar intensiones tras las consultas (esmas difıcil en el caso de transaccionales).

Lıneas de investigacion: mejorar el ranking.

Minerıa de sesiones para distribucion de

documentos

Minerıa de sesiones para distribucion de

documentos

Query routing

Minerıa de sesiones para distribucion de

documentos

Query routing

[MFM+09a]

Minerıa de sesiones para distribucion de

documentos

0) HIT, a) Contencion exacta, b) Contencion aproximada, c)Contencion por region, d) Diferencias de n-terminos.

[MFM09b]

Minerıa de sesiones para distribucion de

documentos

Caching + Machine LearningUsar el location cache como training set para una maquina deaprendizaje.

Cuan probable es la maquina para una consulta enparticular?

P(y = ±1 | x, w) =1

1 + e−y(wT x+w0),

x : terminos de las consultas, y : id de los procs, w :modelo.

minw

1

2wT w + C

l∑i=1

log(1 + e−yi (wT xi +w0)),

Minerıa de sesiones para distribucion de

documentos

INTER5%

8 16 32 64 128RANDOM 6.21 12.51 24.81 49.81 100PCAP 16.48 23.58 36.64 64.03 100SEMCACHE 11.68 19.17 32.55 57.66 100LOGRES 16.81 24.46 37.72 65.88 100

INTER10%

8 16 32 64 128RANDOM 6.20 12.51 24.85 49.88 100PCAP 14.56 21.36 34.34 62.31 100SEMCACHE 11.24 18.65 31.97 57.24 100LOGRES 15.11 22.27 34.82 63.90 100

INTER20%

8 16 32 64 128RANDOM 6.19 12.48 24.84 49.89 100PCAP 13.21 19.83 32.81 61.06 100SEMCACHE 11.01 18.37 31.65 56.97 100LOGRES 13.56 20.16 31.94 61.90 100

Conclusiones

Podemos aprender del pasado!Las sesiones de los usuarios son muy utiles para mejorar laeficacia de los motores de busqueda

Ranking de documentos

Recomendacion de consultas

Mantencion de directorios

Clasificacion de consultas segun intension

Query routing

Referencias I

R. Baeza-Yates, C. Hurtado, and M. Mendoza.

Query clustering for boosting web page ranking.

In AWIC ’04, 2004.

R. Baeza-Yates, C. Hurtado, and M. Mendoza.

Query recommendation using query logs in search engines.

In CLUSWEB ’04, 2004.

R. Baeza-Yates, C. Hurtado, and M. Mendoza.

Improving search engines by query clustering.

In Journal of the American Society for Information Systemsand Technology, 58(12):1793-1804, 2007.

Referencias II

R. Baeza-Yates, C. Hurtado, M. Mendoza, and G. Dupret.

Modeling user search behavior.

In LA-WEB ’05, 2005.

G. Dupret and M. Mendoza.

Automatic query recommendation using click-through data.

In WCC ’06, 2006.

M. Marin, F. Ferrarotti, M. Mendoza, C. Gomez, andV. Gil-Costa.

Location cache for web queries.

In CIKM ’09, 2009.

Referencias III

M. Mendoza, F. Ferrarotti, and M. Marin.

A last-resort semantic cache for web queries.

In SPIRE ’09, 2009.

M. Mendoza and J. Zamora.

Building decision trees to identify the intent of a user query.

In KES ’09, 2009.

M. Mendoza and J. Zamora.

Identifying the intent of a user query using support vectormachines.

In SPIRE ’09, 2009.

Gracias!