Almacenamiento y recuperación de información en la Web Parte III Evaluación de sistemas de IR.
-
Upload
nicolas-salazar -
Category
Documents
-
view
4 -
download
0
Transcript of Almacenamiento y recuperación de información en la Web Parte III Evaluación de sistemas de IR.
Almacenamiento y recuperación de información en la Web
Almacenamiento y recuperación de información en la Web
Parte III
Evaluación de sistemas de IR
Almacenamiento y recuperación de información en la Web
Evaluación de la recuperación
• Objetivo: evaluar la funcionalidad y eficiencia de un sistema de IR
• Medidas usuales de evaluación:– Tiempo de respuesta– Espacio utilizado– Evaluación de la eficiencia de recuperación basada en
• Colecciones prueba (TIPSTER/TREC, CACM, CISI,…)• Diferentes medidas de evaluación
– Recall y Precision– MAP, etc.
Almacenamiento y recuperación de información en la Web
Medidas de evaluaciónrecall y precision
• El usuario desea realizar una solicitud de información sobre una colección de docs
• Sean– R: docs relevantes– A: docs respuesta
aRPrecision=
A( )aR Card A R
aRRecall=
R
|R|
|A|
Colección
Almacenamiento y recuperación de información en la Web
Evolución recuperación – precisiónEjemplo
orden orden orden
1 d123 6 d9 11 d38
2 d84 7 d511 12 d48
3 d56 8 d129 13 d250
4 d6 9 d187 14 d113
5 d8 10 d25 15 d3
3 56 129
123
123 84
123 84 56
, , documentos relevantes
---
1
0 0Recall 0 Precision 0
3 1---
, 2
0 0Recall 0 Precision 0
3 2---
, , 3
1 1Recall 0,33% Precision 0,33%
3 3
qR d d d
A d A
A d d A
A d d d A
Suponemos las siguiente tabla de docs recuperados
Almacenamiento y recuperación de información en la Web
Evolución recuperación – precisiónEjemplo
Doc |A| |Ra| |R| Recall Precision
1 1 0 3 0 0
2 2 0 3 0 0
3 3 1 3 33,3 33,3
4 4 1 3 33,3 25
5 5 1 3 33,3 20
6 6 1 3 33,3 16,6
7 7 1 3 33,3 14,2
8 8 2 3 66,6 25
9 9 2 3 66,6 22,2
10 10 2 3 66,6 20
11 11 2 3 66,6 18,1
12 12 2 3 66,6 16,6
13 13 2 3 66,6 15,3
14 14 2 3 66,6 14,2
15 15 3 3 100 20
Almacenamiento y recuperación de información en la Web
Evolución recuperación - precisión
• Para la representación de las curvas recall-precision generalmente se emplean 11 niveles de recuperación
0
20
40
60
80
100
120
0 20 40 60 80 100 120
Recall
Precision
Almacenamiento y recuperación de información en la Web
Consideraciones generales sobre las medidas r y P
• En colecciones grandes no es posible disponer de un conocimiento detallado de los docs.
• Considerar la combinación de ambas medidas (r y P).
• Las medidas de r y P son para queries procesadas en modo batch. Para sistemas de IR interactivos son más convenientes medidas que cuantifiquen la bondad del proceso.
Almacenamiento y recuperación de información en la Web
Medida de Precisión promedio
• Desde el punto de vista de las medidas de evaluación, los algoritmos de recuperación (search engines) evalúan diferentes queries para evaluar su eficacia.
• Una forma habitual de evaluar un algoritmo consiste en promediar las distintas precisiones obtenidas para cada query en cada nivel de recuperación.
( )
( )i
q
P r Precision media al nivel r de recuperacion
P r Precision al nivel r para la i-esima q
N Nº de qs utilizadas
1
1( ) ( )
qN
iiq
P r P rN
Almacenamiento y recuperación de información en la Web
Interpolación de la Precisión Promedio
• Para representar la evolución de la precisión promedio se efectúa una interpolación de las precisiones en cada nivel de recuperación
1
( ) max ( )
0,1,2, ,10
j jr r r
j
P r P r
r
Almacenamiento y recuperación de información en la Web
Interpolación de la Precisión PromedioEjemplo
• Rq={d3,d56,d129}• Aq={d123,d84,d56,d6,d8,d9,d511,d129,d187,d25,d38,d48,d250,d113,d3}
– R=33%, P=33%– R=66%, P=25%– R=100%, P=20%
1
5
( ) max ( )
0,1,2, ,10
(50%)
j jj
r r r
j
P r P r
r
Ej r recall
33 33 33 3325 25 25
20 20 20 20
0
20
40
60
80
100
120
0 20 40 60 80 100 120
Recall
Precision
Precision interpolada para 11 niveles de recall para Rq
Almacenamiento y recuperación de información en la Web
Medida de Precisión Promedio en n
• Otra medida usual es el cálculo de la precisión promedio tras n documentos relevantes recuperados (p. ej. 5, 10, 20, 30, 50, 100)
• Se calcula la media de las precisiones obtenidas hasta el nivel de corte
• Este sistema favorece a los buscadores que recuperan los documentos relevantes rápido
• Ej: si al nivel 5 tenemos unas medidas de precisión de 1, 0.66, 0.5, 0.4, 0.3– AvP@5 = (1+.66+.5+.4+.3)/5 = 0.572
Almacenamiento y recuperación de información en la Web
Medida de R-Precision
• La idea es generar un valor resumen del ranking mediante la precisión en la posición R-ésima del ranking, siendo R el nº total de docs relevantes para una query– Para Rq={d3, d5,d9,d25,d39,d44,d56,d71, d89,d123}
• la 10-Precision es: 0.4 (4 docs relevantes en los 10 primeros)
– Para Rq={d3,d56,d129} • la 3-Precision es: 0.33 (1 doc relevantes en los 3 primeros)
• Es útil para comprobar el comportamiento de un algoritmo frente a cada ítem
Almacenamiento y recuperación de información en la Web
Histogramas de R-Precisión
• Las medidas de R-Precisión se pueden usar para comparar el comportamiento de dos algoritmos de forma gráfica a lo largo de diferentes búsquedas.
• Search Engines: A y B• Numero de queries: 10
-1.5
-1
-0.5
0
0.5
1
1.5
1 2 3 4 5 6 7 8 9 10
Query NumbaerR-P
recision
A/B
/
/
/
/
( ) ( ) ( )
( ) 0
( ) 0
( ) 0
A B A B
A B
A B
A B
RP i RP i RP i
RP i A B
RP i A B
RP i A B
Almacenamiento y recuperación de información en la Web
Comparación de algoritmos IR
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100 120
Recall
Precision
Curvas recall-precision para dos search engines diferentes
Almacenamiento y recuperación de información en la Web
Discounted Cumulative Gain (DCG)• Medida de la efectividad de un buscador• Mide la ganancia de un documento basada en su posición en
la lista de documentos de un ranking• Hipótesis
– Los documentos más relevantes son más útiles si aparecen en las primeras posiciones del ranking. Su relevancia se debe penalizar proporcionalmente a su posición con el logaritmo de su posición en el ranking
– Los documentos más relevantes son más útiles que los parcialmente relevantes y estos, a su vez, más que los no relevantes
– Se basa en la medida CG (p – posición en el ranking -)
1
p
p ii
CG rel
Almacenamiento y recuperación de información en la Web
Almacenamiento y recuperación de información en la Web
DCG (II)
12 2log
pi
pi
relDCG rel
i
DCG para una posición p en el ranking
1 2
2 1
log (1 )
irelp
pi
DCGi
nDCG representa la medida DCG normalizada para consultas sucesivas.Para poder calcularla se supone conocida la distribución ideal, no siempreposible.
[0,1]pp
p
DCGnDCG
IDCG
Almacenamiento y recuperación de información en la Web
DCG (III)Ejemplo:
• Suponemos un usuario que valora la lista de docs: D1, D2, D3, D4, D5, D6 que son el resultado de una consulta q
• Los documentos se valoran en una escala 0 a 3– 0: no relevante– 1,2: en cierto grado relevante – 3: completamente relevante
• Resultado: – 3, 2, 3, 0, 1, 2
Cálculo de la DCG para p=6
i reli Logi reli/Logi
1 3 --- ---
2 2 1 2
3 3 1.59 1.887
4 0 2 0
5 1 2.32 0.431
6 2 2.59 0.772
6
61
3 2 3 0 1 2 11ii
CG rel
Almacenamiento y recuperación de información en la Web
Almacenamiento y recuperación de información en la Web
DCG (y IV)
6
6 12 2
3 (2 1.887 0 0.431 0.772) 8.09log
i
i
relDCG rel
i
Supuesto un orden ideal (monótono decreciente): 3,3,2,2,1,0
6
6 12 2
8.693log
i
i
relIDCG rel
i
Ahora podemos calcular el nDCG para la consulta inicial
66
6
8.090.9306
8.693
DCGnDCG
nDCG
Almacenamiento y recuperación de información en la Web
Medidas alternativas, I
• Media armónica– Combina r y P– F=0 no se recuperan docs relevantes– F=1 todos los docs recuperados son
relevantes– r y P altas F alta
[0,1]
( )
2F j = F
1 1r(j) P(j)
r j recuperacion j-esimo doc
P j precision j-esimo doc
F j recuperacion j-esimo doc
Almacenamiento y recuperación de información en la Web
Medidas alternativas, II
• Medida E (de evaluación)– Combina r y P– b=1 E(j)=1-F(j)– b>1
• usuario interesado en P– b<1
• usuario interesado en r
( )
2
2
1+bE j =1-
b 1r(j) P(j)
r j recuperacion j-esimo doc
P j precision j-esimo doc
F j recuperacion j-esimo doc
b parametro definido por el usuario
Almacenamiento y recuperación de información en la Web
Medidas alternativas, III (orientadas al usuario)
• Pretenden tener en cuenta las diferencias existentes entre usuarios interesados por un doc
• Contexto– C: Colección de docs de referencia– I: Ejemplo de solicitud de info– R: Conjunto relevante de docs para I– A: Conjunto recuperado– U: Subconjunto de R conocido por el usuario
• |U| = Card(U)– AU: docs conocidos por el usuario relevantes y recuperados
• |Rk| = Card(AU)• |Ru|
– nº de docs relevantes desconocidos por el usuario que fueron recuperados
Almacenamiento y recuperación de información en la Web
Medidas alternativas, IV(orientadas al usuario)
|R||A|
|U||Rk|
|Ru|
Almacenamiento y recuperación de información en la Web
Medidas alternativas, V(orientadas al usuario)
• Alcance– Fracción de los docs conocidos relevantes recuperados
• Novedad– Fracción de los docs desconocidos relevantes recuperados
KRalcance=
U
U
U K
Rnovedad=
R R
Almacenamiento y recuperación de información en la Web
Medidas alternativas, VI(orientadas al usuario)
• Recuperación relativa– Cociente entre el nº de docs relevantes encontrados y el nº de docs
relevantes que el usuario esperaba encontrar• Si encuentra tantos como esperaba --> RR=1
• Esfuerzo de recuperación– Cociente entre el nº de docs relevantes que el usuario esperaba
encontrar y el nº de docs examinados con el fin de cubrir el nº anterior
Almacenamiento y recuperación de información en la Web
Colecciones, I
• TIPSTER/TREC– TREC Text Retrieval Conference (1990)• Dedicada a experimentación con colecciones grandes
(1.000.000 docs)• Colección TREC: 6 CDs 1Gb cada uno• Docs de: WSJ, AP, FT, etc.• http://trec.nist.gov/
Almacenamiento y recuperación de información en la Web
TREC, descripciónDisk Contents Size (MB) Number Docs Words/Doc
(median)Words/Doc (mean)
1
WSJ, 1987-1989 AP, 1989 ZIFF FR, 1989 DOE
267 254 242 260 184
98,732 84,678 75,180 25,960 226,087
245 446 200 391 111
434.0 473.9 473.0 1315.9 120.4
2 WSJ, 1990-1992 AP, 1988 ZIFF FR, 1988
242 237 175 209
74,520 79,919 56,920 19,860
301 438 182 396
508.4 468.7 451.9 1378.1
3 SJMN, 1991 AP, 1990 ZIFF PAT, 1993
287 237 345 243
90,257 78,321 161,021 6,711
379 451 122 4,445
453.0 478.4 295.4 5391.0
4 FT, 1991-1994 FR, 1994 CR, 1993
564 395 235
210,158 55,630 27,922
316 588 288
412.7 644.7 1373.5
5 FBIS LAT
470 475
130,471 131,896
322 351
543.6 526.5
6 FBIS 490 120,653 348 581.3
Almacenamiento y recuperación de información en la Web
Colecciones, II
• CACM– 3204 artículos de Communications of the ACM (1958-1979)
• Campos– Autores, fecha edición, palabras clave (reducidas a su raíz gramatical) de
título y abstract, referencias entre artículos, bibliografía, etc.• Incluye un conjunto de 52 solicitudes de información. Ej: “Qué
artículos hay que traten de TSS (Time Sharing System), sistema operativo de ordenadores IBM”– El nº medio de docs relevantes para cada I es pequeño, en torno a 15.
Almacenamiento y recuperación de información en la Web
Colecciones, III
• ISI (o CISI)– 1460 docs escogidos del ISI (Institute of Scientific Information)
• Los docs escogidos se seleccionaron como los más citados en un estudio sobre citación realizado por Small
• Propósito general: facilitar la investigación sobre similaridades basadas en términos y patrones de referencias cruzadas
• Campos– Autores, palabras clave (reducidas a su raíz gramatical) de título y abstract y nº de
“cocitaciones” para cada par de artículos• Incluye un conjunto de 35 solicitudes de información en LN y qs booleanas y
41 sólo en LN. – El nº medio de docs relevantes para cada I es grande, en torno a 50.
Almacenamiento y recuperación de información en la Web
Calidad de los resultados
• ¿Se pueden aplicar los criterios de medida de la IR clásica a la web?
• En IR clásica las medidas usadas son:– Precisión: % de páginas recuperadas que son relevantes– Recuperación: % de páginas relevantes que son recuperadas
• En web IR:– El término relevante se liga al de calidad– Una página es valorable si es una página de calidad para el objeto
de la búsqueda– Precisión: número de páginas valorables recuperadas