Introduccion SRI

22
Educar para Pensar, Decidir y Servir Introducción a los SARI Recuperación de Información Ing. Laureano Felipe Gómez Ing. Laureano Felipe Gómez [email protected] [email protected] UNIVERSIDAD DE LA SALLE UNIVERSIDAD DE LA SALLE FACULTAD DE SISTEMAS DE INF. Y DOC. FACULTAD DE SISTEMAS DE INF. Y DOC.

description

MATERIAL DEL DOCENTEING LAUREANO FELIPE GÓMEZ

Transcript of Introduccion SRI

Page 1: Introduccion SRI

Educar para Pensar, Decidir y Servir

Introducción a los SARI

Recuperación de Información

Ing. Laureano Felipe GómezIng. Laureano Felipe Gó[email protected] [email protected]

UNIVERSIDAD DE LA SALLEUNIVERSIDAD DE LA SALLEFACULTAD DE SISTEMAS DE INF. Y DOC.FACULTAD DE SISTEMAS DE INF. Y DOC.

Page 2: Introduccion SRI
Page 3: Introduccion SRI

Educar para Pensar, Decidir y Servir

Plan de Trabajo

■ Introducción

Page 4: Introduccion SRI

S.A.R.I. 2001/2002. Tema 1Educar para Pensar, Decidir y Servir

¿Para qué sirve un SRI?

• Un SRI permite la recuperación de la información, previamente almacenada (claro está), por medio de la realización de una serie de consultas (“queries”) a los documentos contenidos en la base de datos. Esta serie de preguntas o interrogaciones se conceptúan como sentencias formales de expresión de necesidades de información, y suelen venir expresadas por medio de un lenguaje de interrogación.

• Un documento es un objeto de datos, textual tradicionalmente, aunque la evolución tecnológica propicia la profusión de documentos multimedia, incorporándose fotografías, ilustraciones gráficas, vídeo animado, audio, etc.,

• Un SRI debe soportar una serie de operaciones básicas sobre los documentos almacenados en el mismo, como son: introducción de nuevos documentos, modificación de los documentos almacenados y eliminación de los mismos.

• Debemos también contar con algún método de localización de los documentos (o con varios generalmente), para presentárselos posteriormente al usuario.

Page 5: Introduccion SRI

Educar para Pensar, Decidir y Servir

Recordando!!!

Qué debe hacer un SRI:• Dado una necesidad de Información y un

Conjunto de Documentos Se requiere satisfacer la necesidad, presentando documentos relevantes.

Cómo hace el SRI?• Elegir un modelo que calcule

Relevancia• Un Documento Vs Una Pregunta

• Diseñar algoritmos y estructuras de datos que lo implementen eficientemente

Page 6: Introduccion SRI

Educar para Pensar, Decidir y Servir

Modelo Universal de un SRI NI -> Análisis -> RNI ->

Comparación <- RTEXTO <- Análisis <- TEXTO

• NI: necesidad de información (la pregunta del usuario)• Análisis: totalmente automático, totalmente intelectual, o una

combinación de ambos• RNI: representación de la necesidad de información

(representación de la pregunta)• Comparación: función que genera los resultados mediante la

comparación de la representación de la pregunta con la representación del texto,

• RTexto: representación del texto (representación del documento)

• TEXTO: documento

Fuente: Adaptado de Belkin y Croft

Page 7: Introduccion SRI

Educar para Pensar, Decidir y Servir

¿Análisis de Dominio?

• Permite identificar y recordar las similitudes y diferencias entre SRI

• Se crea por la gran cantidad de variedades y métodos posibles para generar SRI

• En la práctica, cada sistema concreto de RI desarrolla una solución de una forma distinta.

Page 8: Introduccion SRI

Educar para Pensar, Decidir y ServirAsignación Ids

Indización GrafosEspacio Vectorial

Enmascaramiento

Truncamiento

ClusteringÁrbol PATBúsqueda por cadenas

OrdenaciónLista de palabras vacías

BooleanasPatrones de bits

Probabilístico

RangoPonderación por pesos

ParsingFichero Inverso

Booleano extendido

Visualización documentos

StemmingReutilización

Fichero Plano

Booleano

Operaciones sobre

documentos 

Operaciones

sobre términos 

Operaciones de

consulta 

Estructura de

Indices 

Modelo Conceptu

al 

Page 9: Introduccion SRI

Educar para Pensar, Decidir y Servir

Modelos Conceptuales

El desarrollo de modelos teóricos en los que se basan las técnicas de recuperación permite:

• Comprobar la eficacia de las técnicas (Algoritmos) para evaluar Relevancia

• Facilitar el análisis y racionalización que pueden ser necesarias para comprobar la eficacia de los sistemas con un conjunto real de documentos, búsquedas.

Page 10: Introduccion SRI

Educar para Pensar, Decidir y Servir

Modelos Conceptuales

Taxonomía de los modelos de RI

Recuperación: Búsqueda retrospectiva DSI

Navegación

MODELOS CLASICOS Booleano Espacios Vectoriales Probabilístico

MODELOS ESTRUCTURADOS Listas no solapadas Nodos próximos

NAVEGACION Plana Guía estructurada Hipertexto

TEORIA DE CONJUNTOS Conjuntos difusos Booleano extendido

ALGEBRAICO Vector generalizado Latent Semantic Indexing Redes Neuronales

PROBABILISTICO Redes de inferencia Redes de confianza

AC

CIO

NE

S D

EL

US

UA

RIO

Page 11: Introduccion SRI

Educar para Pensar, Decidir y Servir

Estructura de Ficheros (Índices)

• Indización: Elaborar índices o estructuras de acceso a los documentos (representación alterna) a partir de las palabras (términos) que contienen.

• Los índices de estructura de datos de un SRI permiten realizar operaciones de búsqueda mediante técnicas que comparan o equiparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema.

• Un SRI, puede determinar si usa ó no Índices

Page 12: Introduccion SRI

Educar para Pensar, Decidir y Servir

Estructura de Ficheros (Índices)

Page 13: Introduccion SRI

Educar para Pensar, Decidir y Servir

Operaciones de Consulta• Mientras los SRI no manejen efectivamente el

procesamiento automático de lenguaje natural, las consultas a los SRI se expresan por medio de sentencias formales (generalmente ecuaciones) de las necesidades de información de los usuarios del sistema.

• Determinan de forma clara al SRI y permiten diferenciar a unos de otros (ó su estandarización CCL, CQL, etc…)

Page 14: Introduccion SRI

Educar para Pensar, Decidir y Servir

Operaciones sobre Términos

Para mejorar la eficiencia y el tamaño de los índices, se pueden efectuar operaciones que se pueden llevar a cabo sobre los términos en un SRI:

• Stemming• Truncamiento• Ponderación por pesos• Palabras vacías (StopWords)• Tesauros (Ontologías)

Page 15: Introduccion SRI

Educar para Pensar, Decidir y Servir

Operaciones sobre Documentos

• Los documentos son los objetos primarios en un SRI.• Se pueden utilizar y transformar de muchas maneras

para optimizar su recuperación y determinar su relevancia frente a una necesidad:

• Estructuración• Identificación única• Enmascaramiento• Visualización (Total, parcial)• Ordenamiento• Rangos (Clustering)

Page 16: Introduccion SRI

Educar para Pensar, Decidir y Servir

Vista funcional del paradigma de un SRI.

• Se busca registrar la actividad asociada con un tipo común de SRI.

• Involucra aspectos que debe manejar un SRI

• Se puede dividir en dos procesos (adaptado del Modelo Universal de un SRI ):– Manejo de Documentos– Manejo de la Necesidad de

Información

Page 17: Introduccion SRI

Educar para Pensar, Decidir y Servir

Page 18: Introduccion SRI

Educar para Pensar, Decidir y Servir

Manejo de Documentos

Involucra las siguientes tareas:• A cada documento que entra se le asigna un

Identificador • Se identifican las palabras contenidas en el documento • Se excluyen las palabras vacías • Se "cortan" las palabras, es decir, se extraen las raíces

de las palabras • Se establece un peso de ponderación para cada raiz • Finalmente las raíces debidamente ponderadas se

introducen en la base de datos

Page 19: Introduccion SRI

Educar para Pensar, Decidir y Servir

Page 20: Introduccion SRI

Educar para Pensar, Decidir y Servir

Manejo de la Necesidad de Información• El usuario (según su perfil) elabora una ecuación de

búsqueda• El SRI, descompone la ecuación en sus partes

fundamentales (Términos). • Los términos son procesados ("cortados“) para

extraer de ellos sus raíces.• Se realiza una comparación entre términos de la

pregunta y los documentos existentes en el SRI• Los documentos pueden alinearse (presentación)

según ranking determinado.

Page 21: Introduccion SRI

Proceso de Datos Documentales - Biblioteconomía y DocumentaciónEducar para Pensar, Decidir y Servir

Bibliografía

• Tramullas, Jesus. "Introducción a la Documática, 1: Teoría"(Zaragoza: Kronos, 1997)

Page 22: Introduccion SRI

¿Preguntas?Gracias - Thanks

Merci - DankeObrigado - Arigato

Grazie - Tack

Laureano Felipe Gómez Dueñas

Universidad de La Salle

[email protected]

[email protected]