Web Link Analysis

26
WEB y TEXT MINING Link Analysis Juan Azcurra

Transcript of Web Link Analysis

Page 1: Web Link Analysis

WEB y TEXT MINING

Link AnalysisJuan Azcurra

Page 2: Web Link Analysis

Introducción

Al comienzo los motores de búsquedas comparaban la similaridad de contenido una consulta y las páginas indexadas. Utilizando métodos de information retrieval coseno, TF-IDF, ...

A partir de 1996, se hizo evidente que la similaridad de contenido no era suficiente. El número de páginas creció rapidamente a mediados de los

90. Intentaron “técnicas de clasificación”, Google estimó 10 millones

de páginas relevantes. Cómo seleccionar solo 30-40 páginas y clasificarlas

adecuadamente para presentarlas a los usuarios? Similaridad de contenido es fácil de spam

El dueño de una página se puede repetir unas palabras y agregar muchas palabras relacionadas para impulsar el ranking de sus páginas y/o para hacer las páginas relevantes para un gran número de consultas.

2

Page 3: Web Link Analysis

Introducción

A comienzo de 1996 los investigadores

comenzaron a trabajar e el problema, recurriendo

a hyperlinks.

En 1997 Robin Li registró una patente de búsquedabasada en hyperlinks. El método usa las palabras en el texto del hyperlink.

Las páginas web son conectadas a través de hyperlinks, que contienen información importante: Algunos hyperlinks: organizan información al mismo sitio.

Otros hyperlinks: apuntan a páginas de otros Web sites. Estoshyperlinks salientes a menudo indican una transmisión implicitade autoridad a las páginas que apuntan.

Aquellas páginas que son apuntadas por muchas otraspáginas pueden contener información fidedigna(autoridad).

3

Page 4: Web Link Analysis

Introducción

Durante 1997-1998 aparecieron dos de los más influyentes algoritmos de búsqueda basados en hyperlinks: PageRank y HITS.

Ambos algoritmos se relacionan con redes sociales, explotan los hipervínculos de la Web para clasificar las páginas en función de sus niveles de prestigio o autoridad. HITS: Jon Kleinberg (Cornel University), en el

Simposio sobre algoritmos discretos, enero de 1998.

PageRank: Sergey Brin y Larry Page, (Stanford University), (WWW7), abril de 1998. PageRank potencia el motor de búsqueda de Google.

4

Page 5: Web Link Analysis

Introducción

Además del ranking de búsquedas, los hyperlinks

son útiles encontrando comunidades Web.

Una comunidad Web es un conjunto de páginas

densamente unidas representando un grupo de

personas con un interés en común.

Más allá de hyperlinks explícitos en la Web, links en

otros contextos son útiles también.

para descubrir comunidades de entidades (personas u

organizaciones) en textos libres de documentos, etc.

para analizar fenómenos sociales en mais.

5

Page 6: Web Link Analysis

Análisis de redes sociales

Redes sociales es el estudio de entidades sociales(personas en una organización, llamados actores) y susinteracciones y relaciones.

Las interacciones y relaciones pueden serrepresentadas con una red o grafo, cada vértice (o nodo) representa un actor

cada link representa una relación.

Desde la red, podemos estudiar las propiedadesde su estructura, y el rol, posición y prestigio de cada actor social.

Podemos también encontrar varios tipos de sub-grafos, comunidades formadas por grupos de actores.

6

Page 7: Web Link Analysis

Redes sociales y la Web

Análisis de redes sociales es muy útil para la Web

porque la Web es esencialmente una sociedad

virtual,

cada página: un actor social,

cada hyperlink: una relación.

Muchos resultados de redes sociales pueden ser

adaptados y extendidos para usar en el contexto

de la Web.

Estudiaremos 2 tipos de análisis de redes

sociales, centralidad y prestigio, que están

relacionadas a análisis de hyperlink y búsqueda

en la Web.

7

Page 8: Web Link Analysis

Centralidad

Actores importantes o prominentes son

aquellos que están involucrados con otros

actores ampliamente.

Una persona con amplios contactos (links) o

comunicaciones con muchas otras personas

en la organización es considerado más

importante que una persona con menos

contactos.

Los links también pueden ser llamados lazos.

Un actor central es uno que participa en

muchos lazos.

8

Page 9: Web Link Analysis

Grado de centralidad9

Page 10: Web Link Analysis

Prestigio

El prestigio es una medida más precisa de un actor que la centralidad. Distinguir: lazo enviado (link saliente) y lazo recibido (link

entrante)

Un actor de prestigio es aquel con altos vinculosentrantes.

Para calcular el prestigio: solamente utilizamos links entrantes.

Diferencia entre centralidad y prestigio:

Centralidad se basa en los links salientes.

Prestigio se basa en los links entrantes.

Medidas de prestigio. Rank prestige constituye la base de la mayoría de los algoritmos de Web page link analysis, incluyendo PageRank y HITS.

10

Page 11: Web Link Analysis

Grado de prestigio11

Page 12: Web Link Analysis

PageRank

El año 1998 fue un año agitado para el modelo de análisis de enlaces Web. Los algoritmos PageRank y HITS fueronpublicados en ese año.

Las conexiones entre PageRank y HITS son bastantes sorprendentes.

Desde ese momento, PageRank se ha convertido en el modelo de análisis de link domintante:

debido a la independencia de las consultas,

su habilidad para combatir el spamming,

gran suceso del negocio de Google.

12

Page 13: Web Link Analysis

PageRank: definición general

PageRank confia en la naturaleza democrática de la web usando su basta estructura de links como un indicador de valor de calidad de cadapágina individual.

PageRank interpreta un hyperlink de una página x a una página y como un voto, de la página x para la página y.

Sin embargo, PageRank mira más que el númerototal de votos, también analiza la página que emiteel voto. Votos emitidos por páginas “importantes” pesan más y

ayudan a hacer “más importantes” otras páginas.

Esto es exactamente la idea de ranking de prestigio en una red social.

13

Page 14: Web Link Analysis

PageRank: más

especificamente

Un hyperlink de una página a otra es un medioimplícito de autoridad a la página de destino.

Cuánto más links-entrantes una página i recibe, más prestigio la página i tiene.

Las páginas que apuntan a la página i tambiéntienen su nivel de prestigio.

Una página de alto prestigio apuntando a i es másimportante que una página de menor prestigioapuntando a i.

En otras palabras, una página es más importante sies apuntanda por otras páginas importantes.

14

Page 15: Web Link Analysis

PageRank: Algoritmo

De acuerdo al ranking de prestigio, la importante de una página i (valor PageRank de i) es la suma de valores de PageRank de todas las páginas que apuntan a i.

Desde que una página puede apuntar a muchas otras, su valor de prestigio debe sercompartido.

La Web como un grafo dirigido G = (V, E). Donde el número de páginas es n. El valor de PageRank de una página i (denotadaP(i)) es definida como:,

)()(

),(

Eij jO

jPiP Oj is the number

of out-link of j

15

Page 16: Web Link Analysis

PageRank: Ejemplo

Asumiendo 4 páginas (A, B, C, D) con un

PageRank inicial de 0.25

Si B, C y D apuntan a A, entonces el PR de A

será de 0.75

Suponiendo que B tiene links a C y A y D tiene

links a las 3, entonces en la siguiente iteración B

le transferirá la mitad de su valor a A y D a las 3,

mientras que C no tiene links salientes.

En otras palabras, el PR conferido por un link

saliente es igual al score de PR divido la cantidad

de links salientes.

Obteniendo la formula general:

16

Page 17: Web Link Analysis

PageRank: Ejemplo

Matematicamente PageRanks parauna red simple, expresado comoporcentajes (Google usa una escalalogaritmica). C tiene el más alto PageRank más que E, a pesar que hay menos enlances a C, el link a C vienede una página de mayor importancia y por lo tanto es de gran valor. Si los navegantes comenzaran por unapágina al azar tendría 85% de probabilidad de elegir un link al azar a partir de la página que están visitando y un 15% de probabilidad de saltar a unapágina elegida al azar de la web, ellosllegarían a la página E el 8,1% de lasveces (el 15% de probabilidad de saltara una página arbitraria corresponde al factor de damping de 85%).

17

Page 18: Web Link Analysis

PageRank: Ventajas

Lucha contra el spam. Una página es importantesi las páginas que apuntan a ella también lo son.

Dado que no es fácil para el dueño de una página Web agregar enlaces en página desde otras páginas importantes, no es por lo tanto fácil de influenciar PageRank.

PageRank es una medida global independientede las consultas.

Los valores de PageRank para todas las páginas son calculadas y guardas en forma off-line más que en tiempode la consulta.

18

Page 19: Web Link Analysis

HITS

HITS proviene de Hypertext Induced Topic

Search.

A diferencia de PageRank que es un algoritmo

de ranking estático, HITS es dependiente a la

consulta de búsqueda.

Cuando un usuario envia una consulta de

búsqueda,

HITS primero expande la lista de páginas

relevantes devueltas por el motor de búsqueda, y

produce 2 rankings del conjunto de páginas

expandidas, ranking de autoridad y ranking

hub.

19

Page 20: Web Link Analysis

Autoridad y Hubs

Autoridad: a grandes rasgos, la autoridad es

una página con muchos links entrantes.

La idea es que la página tenga un buen

contenido o autoridad sobre un tema,

así que mucha gente confía en ella y enlazar con

ella.

Hub: Un hub es una página con muchos links

salientes.

La página sirve como un organizador de la

información de un tema en particular y

apunta a muchas páginas de autoridad sobre el

tema.

20

Page 21: Web Link Analysis

Ejemplos21

Page 22: Web Link Analysis

Ideas claves de HITS22

Un hub bueno apunta a muchas

autoridades buenas, y

Una autoridad buena es apuntada por

muchos hubs buenos.

Autoridades y hubs tienen una

relación de refuerzo mutuo

Page 23: Web Link Analysis

HITS: Algoritmo23

Dado una consulta de búsqueda q, HITS

recolecta un conjunto de páginas con los

siguientes pasos:

Envia la consulta q al motor de búsqueda.

Se recoge entonces t (t = 200 es usando en el

paper de HITS) el valor más alto de páginas

rankeadas. Esto es llamada el conjunto raiz W.

Crece W incluyendo cualquier página que apunte

a una en W y cualquiera apuntada por W. Esto da

lugar al conjunto S, conjunto base.

Page 24: Web Link Analysis

Grafo G24

HITS trabaja en las páginas en S y asignaa cada página S un score de autoridad y un score de hub.

Sea n el número de páginas en S.

Nuevamente se usa G = (V, E) paradenotar el grafo de hyperlinks de S

Usamos L para denotar la matriz de adyacencia del grafo.

otherwise

EjiifLij

0

),(1

Page 25: Web Link Analysis

HITS: Algoritmo25

Sea a(i) el score de autoridad de una página i,

y h(i) el score de hub de la página i.

La relación de refuerzo mutual de los dos

scores están representado por:

Eij

jhia),(

)()(

Eji

jaih),(

)()(

Page 26: Web Link Analysis

Ventajas y desventas de HITS26

Ventajas: su habilidad de rankear páginas de

acuerdo al tema de la consulta, puede ser capaz de

proveer autoridades y hubs más relevantes.

Desventajas:

Spam. De hecho es facil de influenciar HITS desde afuera

añadiendo enlaces de la propia página.

Derivación de temas. Muchas páginas en el conjunto

expandido no pueden ser del mismo tema.

Tiempo de respuesta ineficiente. El tiempo de evaluación

de la consulta es bajo. Recolectar el conjunto raiz,

expandirlo y calcular el autovector de todas las

operaciones es expansiva.