Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… ·...

36
1 1 Buscadores Buscadores

Transcript of Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… ·...

Page 1: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

11

BuscadoresBuscadores

Page 2: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

Buscadores

Tienen su raíz en sistemas de recuperación de la información

Preparan un índice de palabras claves para un corpusResponden a las consultas con una lista ordenada de documentos

ARCHIEImplementado en 1990 por Alan Emtage, Bill Heelan, y Peter J. Deutsch (McGillUniversity)Diseñado para indexar archivos ftp

adaptado de Soumen Chakrabarti

Page 3: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

consultas booleanas

Consultas simples para relacionar términos con documentos

Documentos que contengan la palabra JavaDocumentos que contengan la palabra Javapero no contengan la palabra café

Proximidad de términos en las consultasDocumentos que contengan la frase Java beanso el término APIDocumentos donde la palabra Java e islaaparecen en la misma oración

adaptado de Soumen Chakrabarti

Page 4: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

pre-procesamiento de documentos

Tokenssecuencias no vacías de caracteres excluyendo espacios y símbolos de puntuación. representados por un entero apropiado tid, generalmente de 32 bits

Transformación a Tokens (Tokenization)Filtrar tagsStemming (opcional)Resultado: cada documento (did) es transformado a una secuencia de enteros (tokens) y sus posiciones (tid, pos)

adaptado de Soumen Chakrabarti

Page 5: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

Implementación directa usando bases de datos

almacenamiento de tokens

My1 care2 is3 loss4of5 care6 with7 old8care9 done10

Your1 care2 is3 gain4of5 care6 with7 new8care9 won10

D1

D2

102won92care82new

…31is21care11my

posposdiddidtidtid

Hasta 10 veces el tamaño del texto originaladaptado de Soumen Chakrabarti

Page 6: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

índice invertido

My1 care2 is3 loss4of5 care6 with7 old8care9 done10

Your1 care2 is3 gain4of5 care6 with7 new8care9 won10

adaptado de Soumen Chakrabarti

Page 7: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

índice invertido con desplazamiento

My1 care2 is3 loss4of5 care6 with7 old8care9 done10

Your1 care2 is3 gain4of5 care6 with7 new8care9 won10

adaptado de Soumen Chakrabarti

Page 8: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

mantenimiento de índices

Indexado incrementalcostoso fragmentación

Para colecciones dinámicasun cambio a nivel de documento podría resultar en actualizaciones a cientos o miles de registros Solución : crear un índice adicional “stop-press index”

adaptado de Soumen Chakrabarti

Page 9: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

mantenimiento de índices

adaptado de Soumen Chakrabarti

Page 10: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

técnicas de compresión de índices

A partir de un índice invertido casi podría reconstruirse el documento original. Los IDs de los documentos ocupan la mayor porción del índice.

adaptado de Soumen Chakrabarti

Page 11: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

técnicas de compresión de índices

Delta encodingOrdenar índices en orden crecienteAlmacenar el primer ID en forma completaSubsecuentemente almacenar sólo la diferencia o grieta (gap) con ID siguiente. Notar que

para términos frecuentes la diferencia promedio de IDs será pequeñalos términos poco frecuentes no ocupan demasiado espacio

adaptado de Soumen Chakrabarti

Page 12: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

codificando gaps

Codificación óptimaSi el número de bits en el código para el valor x es L(x), el costo de este código es

que corresponde con el número esperado de bits necesarios para transmitir un símbolo.

Un código es óptimo si minimiza este costo.

)()Pr( xLxx∑

adaptado de Soumen Chakrabarti

Page 13: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

codificando gaps

Codificación binaria (número fijo de bits por ID)

óptimo para distribuciones uniformes

Codificación unaria (número variable de bits por ID)

óptimo si la probabilidad de gaps grandes decae exponencialmente

…..101100…..100001100100

1111011011111011…...11111101111111…..

adaptado de Soumen Chakrabarti

Page 14: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

codificando gaps

Elias Gamma code:asume que los enteros pequeños son mas probables y que la probabilidad decae proporcionalmente

916-3100001xxxx1132-63000001xxxxx

78-150001xxx54-7001xx

32-301x111

número de bitsenteroGamma code

adaptado de Soumen Chakrabarti

Page 15: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

dilemas generales

actualizaciones costosas vs. alto grado de compresiónespacio de almacenamiento vs. acceso directo escalabilidad

adaptado de Soumen Chakrabarti

Page 16: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

ordenamiento por relevancia (relevance ranking)

Consultas basadas en palabras clavesen lenguaje naturalno son precisas, a diferencia de SQL

la decisión no debería ser booleanaSolución

Darle un puntaje a cada documento dependiendo de su potencial para satisfacer la necesidad de información expresada por el usuario.Ordenar los resultados en orden decreciente y presentarlos al usuario

adaptado de Soumen Chakrabarti

Page 17: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

ordenamiento por relevancia (relevance ranking)

No existe una forma algorítmica de garantizar que el ordenamiento se corresponda con la necesidad del usuario

la consulta sólo expresa parte de la necesidad de información del usuario

¿Cómo mejorar dicho ordenamiento?esperar consultas más selectivas predecir las necesidades del usuario

adaptado de Soumen Chakrabarti

Page 18: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

respondiendo a las consultas

Page 19: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

procedimiento de evaluación

BenchmarkCorpus D (n documentos)Conjunto Q (consultas)Por cada consulta, un conjunto exhaustivo de documentos relevantes es identificado manualmente

Para una consulta qel sistema devuelve un conjunto computar la lista de relevancia 0/1

ssside lo contrario.

Q q∈ D Dq ⊆

)d ,,d ,(d n21 …)r.., ,r ,(r n21

D d qi ∈1 ri =0 ri =

adaptado de Soumen Chakrabarti

Page 20: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

cobertura y precisión

Cobertura (recall) hasta un rango Fracción de documentos relevantes incluidos en

Precisión (precision) hasta un rango Fracción de k respuestas tope que son relevantes

)d ,,d ,(d k21 …

∑≤≤

=ki1

iq

r |D|

1 recall(k)

∑≤≤

=ki1

irk 1 k)precision(

adaptado de Soumen Chakrabarti

Page 21: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

otras medidas

Precisión promedio Suma de la precisión para cada respuesta relevante en la lista de respuestas, dividido por el número total de documentos relevantes

la precisión promedio es 1 sssi el buscador recupera todos los documentos relevantes y los posiciona antes de los irrelevantes.

∑≤≤

=||k1k

q

)(*r |D|

1 _D

kprecisionprecisionavg

adaptado de Soumen Chakrabarti

Page 22: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

otras medidas

Precisión interpoladausada para combinar valores de precisión de múltiples consultascurva de precisión-vs.-cobertura

Para cada consulta, tomar el valor de precisión máximo obtenido para la consulta para cualquier cobertura mayor o igual que promediarlo sobre todas las consultas

ρ

adaptado de Soumen Chakrabarti

Page 23: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

precisión y precisión interpolada vs. cobertura

kr

adaptado de Soumen Chakrabarti

Page 24: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

balance de cobertura y precisión

La precisión interpolada no puede aumentar con la coberturaA nivel k = 0

Precisión (por convención) = 1, Cobertura = 0Inspeccionar más documentos

puede aumentar la coberturapuede disminuir la precisión

Los buscadores con una buena función de ordenamiento generalmente muestran una relación negativa entre precisión y cobertura.

Cuanto más alta sea la curva, mejor el buscador

adaptado de Soumen Chakrabarti

Page 25: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

retroalimentación de relevancia (Relevance feedback)

javaconsulta:

Page 26: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

Retroalimentación de relevancia (Relevance feedback)

Ayuda a los usuarios a mejorar la consulta“corrige” el orden basado en lo que quiere el usuarioAutomatiza el método de refinamiento de consultas

Método de RocchioDada una consulta

Sumarle los vectores correspondientes a documentos relevantes D+Restarle los vectores correspondientes a documentos irrelevantes D-

qr

∑ ∑+

+=D -D

d-dq'qrrrr

γβα

adaptado de Soumen Chakrabarti

Page 27: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

Retroalimentación de relevancia (contd.)

Retroalimentación de Pseudo-Relevancia

D+ y D- son generados automáticamenteEjemplo: sistema SMART de Cornell.los 10 documentos tope son incluidos en D+

D- generalmente no se usa Suele no estar disponible

los usuarios de la Web quieren gratificación instantáneaComplejidad y costo

adaptado de Soumen Chakrabarti

Page 28: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

ordenando por proporción de chance (odds ratio)

R : Variable aleatoria booleana que representa la relevancia de un documento d con respecto a una consulta q.

Aproximando la probabilidad de d mediante la probabilidad de los términos en d

),|Pr(/)|Pr(),|Pr(/)|Pr(

),Pr(/),,Pr(),Pr(/),,Pr(

),|Pr(),|Pr(

qRdqRqRdqR

dqdqRdqdqR

dqRdqR

== r

r

r

r

∏≈t t

t

qRxqRx

qRdqRd

),|Pr(),|Pr(

),|Pr(),|Pr(

r

r

∏∈ −

−∝

dt qtqt

qtqt

abba

qRdqRd

)1()1(

),|Pr(),|Pr(

,,

,,r

r

adaptado de Soumen Chakrabarti

Page 29: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

palabras más usadas

Palabras más usadas para consultasZeitgest

Page 30: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

otras cuestiones

SpammingAgregar palabras de consulta popular a una página no relacionada a esos términos.Ejemplo: Agregar “Hawaii vacation rental” a una página sobre “Internet gambling”Ordenamiento basado en hiper-enlaces amortigua el efecto negativo

Títulos, encabezamientos, meta tags y anchor-text

adaptado de Soumen Chakrabarti

Page 31: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

otras cuestiones

incluir frasesoperadores para incluir y excluir palabraslas consultas dejan de ser puntos en espacio vectorial

diccionario de frasescatalogado manualmentederivado del corpus utilizando técnicas estadísticas… otras opciones?Dos índices:

términos individuales y frases

adaptado de Soumen Chakrabarti

Page 32: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

aproximar coincidencia de cadenas

Ortografía no uniforme dialectos del Ingléstransliteración

Dos formas de reducir el problema1. colapsar distintas formas ortográficas a

un único token (más agresivo)2. Descomponer términos a secuencias de

q caracteres (menos agresivo)

adaptado de Soumen Chakrabarti

Page 33: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

aproximar coincidencia de cadenas

1. Colapsar distintas formas ortográficas a un único token

• Ejemplo.: Soundex : toma en cuenta detalles fonéticos y de pronunciación

• usado con éxito para el indexado de apellidos en censos y guías telefónicas.

2. Descomponer términos a secuencias de q caracteres

• Verificar similaridad en secuencias de q caracteres (q-grams)

• Buscar en índice invertido:• Consultar pequeño índice de q-grams para expandir el

término a un conjunto de consultas distorsionadas • nuevas consultas son enviadas a un índice regular

)42( ≤≤ qq

adaptado de Soumen Chakrabarti

Page 34: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

sistemas de meta-búsqueda

Re-direccionamiento de consultas a varios repositorios distribuidos geográficamente, cada uno con su propio servicio de búsquda.Ventajas

Reescritura no trivial (diferentes sintaxis)Manejo de superposición de resultados

Consolidación de respuestasMás allá de eliminación de duplicadosManejo de ordenamientos diversos

adaptado de Soumen Chakrabarti

Page 35: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

búsqueda por similaridad

Hipótesis de clustersDocumentos similares a documentos relevantes suelen ser relevantes

Manejo de consultas del tipo “Findsimilar” (encontrar similares)

Páginas replicadasMirroring

adaptado de Soumen Chakrabarti

Page 36: Buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase08y09-slides… · Buscadores Tienen su raíz en sistemas de recuperación de la información zPreparan

búsqueda

MINERIAMINERIADE LADE LA

WEBWEB

Bibliografía

Mining the Web: Discovering Knowledge from Hypertext Data,Soumen Chakrabarti, Morgan Kaufmann, 2002.