Introduccion SRI
-
Upload
recuperacion7 -
Category
Education
-
view
7.488 -
download
0
description
Transcript of Introduccion SRI
Educar para Pensar, Decidir y Servir
Introducción a los SARI
Recuperación de Información
Ing. Laureano Felipe GómezIng. Laureano Felipe Gó[email protected] [email protected]
UNIVERSIDAD DE LA SALLEUNIVERSIDAD DE LA SALLEFACULTAD DE SISTEMAS DE INF. Y DOC.FACULTAD DE SISTEMAS DE INF. Y DOC.
Educar para Pensar, Decidir y Servir
Plan de Trabajo
■ Introducción
S.A.R.I. 2001/2002. Tema 1Educar para Pensar, Decidir y Servir
¿Para qué sirve un SRI?
• Un SRI permite la recuperación de la información, previamente almacenada (claro está), por medio de la realización de una serie de consultas (“queries”) a los documentos contenidos en la base de datos. Esta serie de preguntas o interrogaciones se conceptúan como sentencias formales de expresión de necesidades de información, y suelen venir expresadas por medio de un lenguaje de interrogación.
• Un documento es un objeto de datos, textual tradicionalmente, aunque la evolución tecnológica propicia la profusión de documentos multimedia, incorporándose fotografías, ilustraciones gráficas, vídeo animado, audio, etc.,
• Un SRI debe soportar una serie de operaciones básicas sobre los documentos almacenados en el mismo, como son: introducción de nuevos documentos, modificación de los documentos almacenados y eliminación de los mismos.
• Debemos también contar con algún método de localización de los documentos (o con varios generalmente), para presentárselos posteriormente al usuario.
Educar para Pensar, Decidir y Servir
Recordando!!!
Qué debe hacer un SRI:• Dado una necesidad de Información y un
Conjunto de Documentos Se requiere satisfacer la necesidad, presentando documentos relevantes.
Cómo hace el SRI?• Elegir un modelo que calcule
Relevancia• Un Documento Vs Una Pregunta
• Diseñar algoritmos y estructuras de datos que lo implementen eficientemente
Educar para Pensar, Decidir y Servir
Modelo Universal de un SRI NI -> Análisis -> RNI ->
Comparación <- RTEXTO <- Análisis <- TEXTO
• NI: necesidad de información (la pregunta del usuario)• Análisis: totalmente automático, totalmente intelectual, o una
combinación de ambos• RNI: representación de la necesidad de información
(representación de la pregunta)• Comparación: función que genera los resultados mediante la
comparación de la representación de la pregunta con la representación del texto,
• RTexto: representación del texto (representación del documento)
• TEXTO: documento
Fuente: Adaptado de Belkin y Croft
Educar para Pensar, Decidir y Servir
¿Análisis de Dominio?
• Permite identificar y recordar las similitudes y diferencias entre SRI
• Se crea por la gran cantidad de variedades y métodos posibles para generar SRI
• En la práctica, cada sistema concreto de RI desarrolla una solución de una forma distinta.
Educar para Pensar, Decidir y ServirAsignación Ids
Indización GrafosEspacio Vectorial
Enmascaramiento
Truncamiento
ClusteringÁrbol PATBúsqueda por cadenas
OrdenaciónLista de palabras vacías
BooleanasPatrones de bits
Probabilístico
RangoPonderación por pesos
ParsingFichero Inverso
Booleano extendido
Visualización documentos
StemmingReutilización
Fichero Plano
Booleano
Operaciones sobre
documentos
Operaciones
sobre términos
Operaciones de
consulta
Estructura de
Indices
Modelo Conceptu
al
Educar para Pensar, Decidir y Servir
Modelos Conceptuales
El desarrollo de modelos teóricos en los que se basan las técnicas de recuperación permite:
• Comprobar la eficacia de las técnicas (Algoritmos) para evaluar Relevancia
• Facilitar el análisis y racionalización que pueden ser necesarias para comprobar la eficacia de los sistemas con un conjunto real de documentos, búsquedas.
Educar para Pensar, Decidir y Servir
Modelos Conceptuales
Taxonomía de los modelos de RI
Recuperación: Búsqueda retrospectiva DSI
Navegación
MODELOS CLASICOS Booleano Espacios Vectoriales Probabilístico
MODELOS ESTRUCTURADOS Listas no solapadas Nodos próximos
NAVEGACION Plana Guía estructurada Hipertexto
TEORIA DE CONJUNTOS Conjuntos difusos Booleano extendido
ALGEBRAICO Vector generalizado Latent Semantic Indexing Redes Neuronales
PROBABILISTICO Redes de inferencia Redes de confianza
AC
CIO
NE
S D
EL
US
UA
RIO
Educar para Pensar, Decidir y Servir
Estructura de Ficheros (Índices)
• Indización: Elaborar índices o estructuras de acceso a los documentos (representación alterna) a partir de las palabras (términos) que contienen.
• Los índices de estructura de datos de un SRI permiten realizar operaciones de búsqueda mediante técnicas que comparan o equiparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema.
• Un SRI, puede determinar si usa ó no Índices
Educar para Pensar, Decidir y Servir
Estructura de Ficheros (Índices)
Educar para Pensar, Decidir y Servir
Operaciones de Consulta• Mientras los SRI no manejen efectivamente el
procesamiento automático de lenguaje natural, las consultas a los SRI se expresan por medio de sentencias formales (generalmente ecuaciones) de las necesidades de información de los usuarios del sistema.
• Determinan de forma clara al SRI y permiten diferenciar a unos de otros (ó su estandarización CCL, CQL, etc…)
Educar para Pensar, Decidir y Servir
Operaciones sobre Términos
Para mejorar la eficiencia y el tamaño de los índices, se pueden efectuar operaciones que se pueden llevar a cabo sobre los términos en un SRI:
• Stemming• Truncamiento• Ponderación por pesos• Palabras vacías (StopWords)• Tesauros (Ontologías)
Educar para Pensar, Decidir y Servir
Operaciones sobre Documentos
• Los documentos son los objetos primarios en un SRI.• Se pueden utilizar y transformar de muchas maneras
para optimizar su recuperación y determinar su relevancia frente a una necesidad:
• Estructuración• Identificación única• Enmascaramiento• Visualización (Total, parcial)• Ordenamiento• Rangos (Clustering)
Educar para Pensar, Decidir y Servir
Vista funcional del paradigma de un SRI.
• Se busca registrar la actividad asociada con un tipo común de SRI.
• Involucra aspectos que debe manejar un SRI
• Se puede dividir en dos procesos (adaptado del Modelo Universal de un SRI ):– Manejo de Documentos– Manejo de la Necesidad de
Información
Educar para Pensar, Decidir y Servir
Educar para Pensar, Decidir y Servir
Manejo de Documentos
Involucra las siguientes tareas:• A cada documento que entra se le asigna un
Identificador • Se identifican las palabras contenidas en el documento • Se excluyen las palabras vacías • Se "cortan" las palabras, es decir, se extraen las raíces
de las palabras • Se establece un peso de ponderación para cada raiz • Finalmente las raíces debidamente ponderadas se
introducen en la base de datos
Educar para Pensar, Decidir y Servir
Educar para Pensar, Decidir y Servir
Manejo de la Necesidad de Información• El usuario (según su perfil) elabora una ecuación de
búsqueda• El SRI, descompone la ecuación en sus partes
fundamentales (Términos). • Los términos son procesados ("cortados“) para
extraer de ellos sus raíces.• Se realiza una comparación entre términos de la
pregunta y los documentos existentes en el SRI• Los documentos pueden alinearse (presentación)
según ranking determinado.
Proceso de Datos Documentales - Biblioteconomía y DocumentaciónEducar para Pensar, Decidir y Servir
Bibliografía
• Tramullas, Jesus. "Introducción a la Documática, 1: Teoría"(Zaragoza: Kronos, 1997)
¿Preguntas?Gracias - Thanks
Merci - DankeObrigado - Arigato
Grazie - Tack
Laureano Felipe Gómez Dueñas
Universidad de La Salle