Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf ·...
Transcript of Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf ·...
RECUPERACIÓN DE INFORMACIÓN
Arturo Olvera L.
Otoño 2017
Benemérita Universidad Autónoma de Puebla
Facultad de Ciencias de la Computación
By A. Olvera
ALTERNATIVE PROBABILISTIC MODEL
� BM25 (Best Match 25), toma en cuenta:� IDF, TF, Normalización de documentos
� BM1=
� Se considera un factor de frecuencia de término
100
By A. Olvera
� En particular, se considera la normalización de documentos:
101
By A. Olvera
BM11, BM15
� Con:
Factor de corrección
102
By A. Olvera
BM25
103
By A. Olvera
RETRIEVAL EVALUATION
104
By A. Olvera
EVALUATION
� Desempeño
� Qué tan bien se ha realizado la recuperación??
� Necesidad del usuario…..
� Parte crítica/Fundamental en los sistemas de RI
� Permiten llevar a cabo comparaciones 105
Existen métricas al
respecto
By A. Olvera
RETRIEVAL EVALUATION
� Utilidad:
� Desempeño de nuevas funciones ranking� Tipos de consulta � Efectividad el sistema R.I.� Análisis de las consultas� Relevancia de corpus
� Otras????
106
By A. Olvera
RETRIEVAL EVALUATION
� Se remonta a 1952 (Cyril Cleverdon):� Indexado manual de 200 documentos� Relevancia
respecto a una consulta
� Pionero de :� Recall� Precision
� Colecciones referencia para prueba� Cranfield-2 collection
� Consultas específicas� se sabe cuáles son los docs. Relevantes
107
By A. Olvera
PRECISION AND RECALL
108
By A. Olvera
PRECISION AND RECALL
109
By A. Olvera
PRECISION AND RECALL
110
By A. Olvera
CURVE
111
By A. Olvera
CURVE
� Del ejemplo anterior:� El doc. d123 respecta a 10% de documentos relevantes� Se tiene precision de 100% con 10% de Recall
� El doc. d123 respecta al tercero analizado y es el siguiente relevante
� Se tienen dos documentos relevantes de tres� Se tiene precision de 66.6% y recuerdo de 20%
� El análisis se lleva a cabo de manera sucesiva…..112
By A. Olvera
CURVE
� Gráfica de 11 puntos (0,10,…,100)
� En este caso Precisiones respecto a Recall>50 tienen valor 0 ya que no se recuperan todos los documentos
� Debido a esto, se debe interpolar 113
By A. Olvera
INTERPOLATED CURVE
114
By A. Olvera
INTERPOLATED CURVE
115
By A. Olvera
INTERPOLATED CURVE
116
By A. Olvera
INTERPOLATED CURVE
� Suele graficarse varias consultas mediante el promedio:
117
By A. Olvera
CURVES FOR COMPARING DISTINCT IR ALGORITHMS
118
By A. Olvera
RECALL –PRECISION
� Ampliamente utilizadas en RI� Estimación máxima del recuerdo requiere del
conocimiento detallado del corpus� La estimación de estas métricas� consultas
establecidas a manera de grupos� Dependientes al orden???
119
Puntos a considerar:
By A. Olvera
P@5 AND P@10
� En la búsqueda WEB, no se requiere un alto recuerdo
� Usuario:� Top-Ranking � mejor impresión ante sus ojos
� En estos casos:
� Se cuantifica si el usuario encuentra relevantes o no los top N documentos 120
By A. Olvera
P@5 AND P@10
� En general:
121P@N
By A. Olvera
MAP: MEAN AVERAGE PRECISION
� Promedia las precisiones obtenidas después de que un nuevo documento relevante es observado� En casos de docs. No recuperados-> Precision=0
122
By A. Olvera
R-PRECISION
� Útil para analizar el desempeño en consultas de manera individual
� De manera general:
� R-Precision Average para varias consultas
� Pregunta:
� Qué valor del top-X puedeser conveniente???
123
By A. Olvera
PRECISION HISTOGRAMS
� Manera Gráfica de percibir el desempeño
124
By A. Olvera
PRECISION HISTOGRAMS
125
By A. Olvera
MRR: MEAN RECIPROCAL RANK
� Ütil en problemas de QA (Question-Answering)
� Ranking� Posición de la primer respuesta correcta
� También:
� Consultas de URL� Consultas de Webpages
126
By A. Olvera
MRR: MEAN RECIPROCAL RANK
127
By A. Olvera
THE E-MEASURE
� Considera Precisión y recuerdo simultáneamente
� Se especifica la relevancia de Precisión o Recuerdo
128
??
By A. Olvera
THE E-MEASURE
� Valores pequeños de b � Precision , b~0
� Valores grandes de b � Recuerdo b� ∞
� Con b=1 �
129
F-Measure
By A. Olvera
F-MEASURE: HARMONIC MEAN
� F∈∈∈∈ [0,1]
� F=0??
� F=1??
� Valores grandes de F ???
130
By A. Olvera
USER-ORIENTED MEASURES
131
By A. Olvera
USER-ORIENTED MEASURES
132
By A. Olvera
USER-ORIENTED MEASURES
� Coverage Ratio
� Novelty Ratio
133
By A. Olvera
DISCOUNTED CUMULATED GAIN (DCG)
� En métricas anteriores, no es posible determinar:� Documentos: Altamente, medianamente relevantes
� Es necesario considerar criterios (valores) de relevancia
� En particular � DCG
� En general, al examinar resultados de una consulta, podemos notar:� Es preferible tener en primeras posiciones a los docs.
Altamente relevantes� Documentos que aparecen al final del ranking, son
menos interesantes (para el usuario)134
By A. Olvera
CG (CUMULATED GAIN)
� Supongamos:
� Una escala 0...3 donde 0=No relevante, 3=muy relevante
� Para dos consultas, los siguientes resultados:
� Suele considerarse el vector G=<, , , , > (Gain Vector) con cada una de estos valores de escala
� En particular, se utiliza la ganancia acumulada en este vector 135
By A. Olvera
CG (EJEMPLO)� Consideremos top 15 docs para los vectores:
� La suma acumulada para estos vectores es:
136
Vectores CG Suavizados
By A. Olvera
DCG
� Para calcular DCG, suele utilizarse escala logarítmica
137
By A. Olvera
138
By A. Olvera
RANK CORRELATION METRICS
139
By A. Olvera
RANK CORRELATION METRICS
140
By A. Olvera
SPEARMAN COEFFICIENT
� Se basa en las diferencias entre posiciones de un mismo documento en R1 y R2 (Rankings)
141
By A. Olvera
SPEARMAN COEFFICIENT
142
By A. Olvera
GRÁFICA DE RANKING
� Al graficar las posiciones ranking:
� Hay correlación???143
By A. Olvera
SPEARMAN COEFFICIENT
144
By A. Olvera
SPEARMAN COEFFICIENT
145
By A. Olvera
DOCUMENTOS
146
By A. Olvera
DOCUMENTO
� Denota una unidad de información
� Posee sintaxis y estructura
� Tiene una semántica� por el autor
� Puede contener un estilo de presentación:� Dadas su sintaxis y estructura� Referente a alguna aplicación
147
By A. Olvera
SINTAXIS DEL DOCUMENTO
� Expresa la estructura, estilo de presentación, semántica
� Uno o varios elementos pueden presentarse en conjunto
� La sintaxis del documento:� Puede expresarse en un lenguaje declarativo, lenguaje
de programación
148
By A. Olvera
DOCUMENTOS/TEXTO
� El texto puede expresarse en lenguaje natural
149
Complicado para
computadoras
Reto:Lenguaje en documentos que proporcione información de la
estructura, semántica, etc. ���� Entendible por humanos y computadoras¡¡
By A. Olvera
ESTILO DEL DOCUMENTO� Respecta a cómo se visualiza/imprime
� El estilo se puede indicar mientras se edita
� Puede contenerse en el documento: Tex, RTF
� Complementado por macros: LaTex
150
By A. Olvera
TEXTO
� Querie Engines:
� Pequeños fragmentos de texto� No es texto normal� Comprensión � Semántica
151
Importante para RI???
By A. Olvera
152
By A. Olvera
METADATA
153
By A. Olvera
METADATA
� Es información acerca de la información de los datos, dominios y su relación
� Datos� provenientes de datos
� Los meta-datos se asocian con (casi) todos los documentos en una colección
� Tipos:
� Descriptive Metadata
� Semantic Metadata
154
By A. Olvera
DESCRIPTIVE METADATA
� Propiamente:� Autor del texto� Fecha de publicación� Fuente de la publicación� Tamaño del documento
Formato estándar: MARC (Machine Readable CatalogingRecord)
� …Son datos externos al significado del documento y respecta a datos de la creación de éste… [Marchionini]
155
By A. Olvera
SEMANTIC METADATA
� Caracteriza el tema/tópico referente al contenido del documento
� Está asociada a una gran cantidad de documentos
156
By A. Olvera
METADATA IN WEB DOCUMENTS
� Existe en web debido a propósitos:
� Ranking� contenidos� Derechos de propiedad intelectual� Firmas digitales� Comercio electrónico
� Formato fundamental:
� RDF (Resource Description Framework)
157WEB Semántica
By A. Olvera
DOCUMENT FORMATS
158
By A. Olvera
FORMATOS
� Los sistemas R.I. debes poder recuperar información a partir de diversos formatos de texto
� Algunos formatos:
� Non structured document formats
� Plain Text
� ASCII
� ISO Latin
� UTFs (Unicode Transformation Format), UTF8,16,32
159
By A. Olvera
CONTENT-ORIENTED FORMATS
160
� -
� DOC, DOCX, RTF, ODF, ODT,
By A. Olvera
PAGE DESCRIPTION-BASED FORMATS
161
o Post Script
o PDF
By A. Olvera
INTERCHANGE FORMATS TO ENCODE
ELECTRONIC MAIL
� Multipurpose Internet Mail Exchange (MIME)
� Compress, ARJ (Archived by Robert Jung) for compressing text
162
By A. Olvera
MULTIMEDIA
� Imágenes
� BMP� JPG (Joint Photographic Expertise Group)� GIF (Graphics Interchange Format) � PNG (Portable Network Graphics)
163
By A. Olvera
MULTIMEDIA
� Video
� MPEG (Moving Picture Experts Group)�Codec
� MPEG-4-14 � MP4
� AVI (Audio Video Interlave)� Container
� 3GP � Container
� MTK � Container
164
By A. Olvera
MULTIMEDIA
� Audio
� MIDI (Musical Instrument Digital Interface)
� WAV, AIFF � Sin compresión
� MP3
165
By A. Olvera
TAG-BASED FORMATS
166
� HTML (HyperText Markup Language)
� XML (eXtensible Markup Language)