Almacenamiento y recuperación de información en la Web Parte III Evaluación de sistemas de IR.

Almacenamiento y recuperación de información en la Web


Parte III

Evaluación de sistemas de IR


Evaluación de la recuperación

• Objetivo: evaluar la funcionalidad y eficiencia de un sistema de IR

• Medidas usuales de evaluación:– Tiempo de respuesta– Espacio utilizado– Evaluación de la eficiencia de recuperación basada en

• Colecciones prueba (TIPSTER/TREC, CACM, CISI,…)• Diferentes medidas de evaluación

– Recall y Precision– MAP, etc.


Medidas de evaluaciónrecall y precision

• El usuario desea realizar una solicitud de información sobre una colección de docs

• Sean– R: docs relevantes– A: docs respuesta

aRPrecision=

A( )aR Card A R

aRRecall=

R

|R|

|A|

Colección


Evolución recuperación – precisiónEjemplo

orden orden orden

1 d123 6 d9 11 d38

2 d84 7 d511 12 d48

3 d56 8 d129 13 d250

4 d6 9 d187 14 d113

5 d8 10 d25 15 d3

3 56 129

123

123 84

123 84 56

, , documentos relevantes

---

1

0 0Recall 0 Precision 0

3 1---

, 2

0 0Recall 0 Precision 0

3 2---

, , 3

1 1Recall 0,33% Precision 0,33%

3 3

qR d d d

A d A

A d d A

A d d d A

Suponemos las siguiente tabla de docs recuperados


Evolución recuperación – precisiónEjemplo

Doc |A| |Ra| |R| Recall Precision

1 1 0 3 0 0

2 2 0 3 0 0

3 3 1 3 33,3 33,3

4 4 1 3 33,3 25

5 5 1 3 33,3 20

6 6 1 3 33,3 16,6

7 7 1 3 33,3 14,2

8 8 2 3 66,6 25

9 9 2 3 66,6 22,2

10 10 2 3 66,6 20

11 11 2 3 66,6 18,1

12 12 2 3 66,6 16,6

13 13 2 3 66,6 15,3

14 14 2 3 66,6 14,2

15 15 3 3 100 20


Evolución recuperación - precisión

• Para la representación de las curvas recall-precision generalmente se emplean 11 niveles de recuperación

0

20

40

60

80

100

120

0 20 40 60 80 100 120

Recall

Precision


Consideraciones generales sobre las medidas r y P

• En colecciones grandes no es posible disponer de un conocimiento detallado de los docs.

• Considerar la combinación de ambas medidas (r y P).

• Las medidas de r y P son para queries procesadas en modo batch. Para sistemas de IR interactivos son más convenientes medidas que cuantifiquen la bondad del proceso.


Medida de Precisión promedio

• Desde el punto de vista de las medidas de evaluación, los algoritmos de recuperación (search engines) evalúan diferentes queries para evaluar su eficacia.

• Una forma habitual de evaluar un algoritmo consiste en promediar las distintas precisiones obtenidas para cada query en cada nivel de recuperación.

( )

( )i

q

P r Precision media al nivel r de recuperacion

P r Precision al nivel r para la i-esima q

N Nº de qs utilizadas

1

1( ) ( )

qN

iiq

P r P rN


Interpolación de la Precisión Promedio

• Para representar la evolución de la precisión promedio se efectúa una interpolación de las precisiones en cada nivel de recuperación

1

( ) max ( )

0,1,2, ,10

j jr r r

j

P r P r

r


Interpolación de la Precisión PromedioEjemplo

• Rq={d3,d56,d129}• Aq={d123,d84,d56,d6,d8,d9,d511,d129,d187,d25,d38,d48,d250,d113,d3}

– R=33%, P=33%– R=66%, P=25%– R=100%, P=20%

1

5

( ) max ( )

0,1,2, ,10

(50%)

j jj

r r r

j

P r P r

r

Ej r recall

33 33 33 3325 25 25

20 20 20 20

0

20

40

60

80

100

120

0 20 40 60 80 100 120

Recall

Precision

Precision interpolada para 11 niveles de recall para Rq


Medida de Precisión Promedio en n

• Otra medida usual es el cálculo de la precisión promedio tras n documentos relevantes recuperados (p. ej. 5, 10, 20, 30, 50, 100)

• Se calcula la media de las precisiones obtenidas hasta el nivel de corte

• Este sistema favorece a los buscadores que recuperan los documentos relevantes rápido

• Ej: si al nivel 5 tenemos unas medidas de precisión de 1, 0.66, 0.5, 0.4, 0.3– AvP@5 = (1+.66+.5+.4+.3)/5 = 0.572


Medida de R-Precision

• La idea es generar un valor resumen del ranking mediante la precisión en la posición R-ésima del ranking, siendo R el nº total de docs relevantes para una query– Para Rq={d3, d5,d9,d25,d39,d44,d56,d71, d89,d123}

• la 10-Precision es: 0.4 (4 docs relevantes en los 10 primeros)

– Para Rq={d3,d56,d129} • la 3-Precision es: 0.33 (1 doc relevantes en los 3 primeros)

• Es útil para comprobar el comportamiento de un algoritmo frente a cada ítem


Histogramas de R-Precisión

• Las medidas de R-Precisión se pueden usar para comparar el comportamiento de dos algoritmos de forma gráfica a lo largo de diferentes búsquedas.

• Search Engines: A y B• Numero de queries: 10

-1.5

-1

-0.5

0

0.5

1

1.5

1 2 3 4 5 6 7 8 9 10

Query NumbaerR-P

recision

A/B

/

/

/

/

( ) ( ) ( )

( ) 0

( ) 0

( ) 0

A B A B

A B

A B

A B

RP i RP i RP i

RP i A B

RP i A B

RP i A B


Comparación de algoritmos IR

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100 120

Recall

Precision

Curvas recall-precision para dos search engines diferentes


Discounted Cumulative Gain (DCG)• Medida de la efectividad de un buscador• Mide la ganancia de un documento basada en su posición en

la lista de documentos de un ranking• Hipótesis

– Los documentos más relevantes son más útiles si aparecen en las primeras posiciones del ranking. Su relevancia se debe penalizar proporcionalmente a su posición con el logaritmo de su posición en el ranking

– Los documentos más relevantes son más útiles que los parcialmente relevantes y estos, a su vez, más que los no relevantes

– Se basa en la medida CG (p – posición en el ranking -)

1

p

p ii

CG rel



DCG (II)

12 2log

pi

pi

relDCG rel

i

DCG para una posición p en el ranking

1 2

2 1

log (1 )

irelp

pi

DCGi

nDCG representa la medida DCG normalizada para consultas sucesivas.Para poder calcularla se supone conocida la distribución ideal, no siempreposible.

[0,1]pp

p

DCGnDCG

IDCG


DCG (III)Ejemplo:

• Suponemos un usuario que valora la lista de docs: D1, D2, D3, D4, D5, D6 que son el resultado de una consulta q

• Los documentos se valoran en una escala 0 a 3– 0: no relevante– 1,2: en cierto grado relevante – 3: completamente relevante

• Resultado: – 3, 2, 3, 0, 1, 2

Cálculo de la DCG para p=6

i reli Logi reli/Logi

1 3 --- ---

2 2 1 2

3 3 1.59 1.887

4 0 2 0

5 1 2.32 0.431

6 2 2.59 0.772

6

61

3 2 3 0 1 2 11ii

CG rel



DCG (y IV)

6

6 12 2

3 (2 1.887 0 0.431 0.772) 8.09log

i

i

relDCG rel

i

Supuesto un orden ideal (monótono decreciente): 3,3,2,2,1,0

6

6 12 2

8.693log

i

i

relIDCG rel

i

Ahora podemos calcular el nDCG para la consulta inicial

66

6

8.090.9306

8.693

DCGnDCG

nDCG


Medidas alternativas, I

• Media armónica– Combina r y P– F=0 no se recuperan docs relevantes– F=1 todos los docs recuperados son

relevantes– r y P altas F alta

[0,1]

( )

2F j = F

1 1r(j) P(j)

r j recuperacion j-esimo doc

P j precision j-esimo doc

F j recuperacion j-esimo doc


Medidas alternativas, II

• Medida E (de evaluación)– Combina r y P– b=1 E(j)=1-F(j)– b>1

• usuario interesado en P– b<1

• usuario interesado en r

( )

2

2

1+bE j =1-

b 1r(j) P(j)

r j recuperacion j-esimo doc

P j precision j-esimo doc

F j recuperacion j-esimo doc

b parametro definido por el usuario


Medidas alternativas, III (orientadas al usuario)

• Pretenden tener en cuenta las diferencias existentes entre usuarios interesados por un doc

• Contexto– C: Colección de docs de referencia– I: Ejemplo de solicitud de info– R: Conjunto relevante de docs para I– A: Conjunto recuperado– U: Subconjunto de R conocido por el usuario

• |U| = Card(U)– AU: docs conocidos por el usuario relevantes y recuperados

• |Rk| = Card(AU)• |Ru|

– nº de docs relevantes desconocidos por el usuario que fueron recuperados


Medidas alternativas, IV(orientadas al usuario)

|R||A|

|U||Rk|

|Ru|


Medidas alternativas, V(orientadas al usuario)

• Alcance– Fracción de los docs conocidos relevantes recuperados

• Novedad– Fracción de los docs desconocidos relevantes recuperados

KRalcance=

U

U

U K

Rnovedad=

R R


Medidas alternativas, VI(orientadas al usuario)

• Recuperación relativa– Cociente entre el nº de docs relevantes encontrados y el nº de docs

relevantes que el usuario esperaba encontrar• Si encuentra tantos como esperaba --> RR=1

• Esfuerzo de recuperación– Cociente entre el nº de docs relevantes que el usuario esperaba

encontrar y el nº de docs examinados con el fin de cubrir el nº anterior


Colecciones, I

• TIPSTER/TREC– TREC Text Retrieval Conference (1990)• Dedicada a experimentación con colecciones grandes

(1.000.000 docs)• Colección TREC: 6 CDs 1Gb cada uno• Docs de: WSJ, AP, FT, etc.• http://trec.nist.gov/


TREC, descripciónDisk Contents Size (MB) Number Docs Words/Doc

(median)Words/Doc (mean)

1

WSJ, 1987-1989 AP, 1989 ZIFF FR, 1989 DOE

267 254 242 260 184

98,732 84,678 75,180 25,960 226,087

245 446 200 391 111

434.0 473.9 473.0 1315.9 120.4

2 WSJ, 1990-1992 AP, 1988 ZIFF FR, 1988

242 237 175 209

74,520 79,919 56,920 19,860

301 438 182 396

508.4 468.7 451.9 1378.1

3 SJMN, 1991 AP, 1990 ZIFF PAT, 1993

287 237 345 243

90,257 78,321 161,021 6,711

379 451 122 4,445

453.0 478.4 295.4 5391.0

4 FT, 1991-1994 FR, 1994 CR, 1993

564 395 235

210,158 55,630 27,922

316 588 288

412.7 644.7 1373.5

5 FBIS LAT

470 475

130,471 131,896

322 351

543.6 526.5

6 FBIS 490 120,653 348 581.3


Colecciones, II

• CACM– 3204 artículos de Communications of the ACM (1958-1979)

• Campos– Autores, fecha edición, palabras clave (reducidas a su raíz gramatical) de

título y abstract, referencias entre artículos, bibliografía, etc.• Incluye un conjunto de 52 solicitudes de información. Ej: “Qué

artículos hay que traten de TSS (Time Sharing System), sistema operativo de ordenadores IBM”– El nº medio de docs relevantes para cada I es pequeño, en torno a 15.


Colecciones, III

• ISI (o CISI)– 1460 docs escogidos del ISI (Institute of Scientific Information)

• Los docs escogidos se seleccionaron como los más citados en un estudio sobre citación realizado por Small

• Propósito general: facilitar la investigación sobre similaridades basadas en términos y patrones de referencias cruzadas

• Campos– Autores, palabras clave (reducidas a su raíz gramatical) de título y abstract y nº de

“cocitaciones” para cada par de artículos• Incluye un conjunto de 35 solicitudes de información en LN y qs booleanas y

41 sólo en LN. – El nº medio de docs relevantes para cada I es grande, en torno a 50.


Calidad de los resultados

• ¿Se pueden aplicar los criterios de medida de la IR clásica a la web?

• En IR clásica las medidas usadas son:– Precisión: % de páginas recuperadas que son relevantes– Recuperación: % de páginas relevantes que son recuperadas

• En web IR:– El término relevante se liga al de calidad– Una página es valorable si es una página de calidad para el objeto

de la búsqueda– Precisión: número de páginas valorables recuperadas

Almacenamiento y recuperación de información en la Web Parte III Evaluación de sistemas de IR.

Documents

Transcript of Almacenamiento y recuperación de información en la Web Parte III Evaluación de sistemas de IR.