Búsqueda y recuperación de información en internet

Post on 20-Jul-2015

197 views 1 download

Transcript of Búsqueda y recuperación de información en internet

Búsqueda y Recuperación de información en

InternetLic. Sabdiel Batista Díaz

sabdiel@perlavision.icrt.cuhttp://:www.perlavision.icrt.cu

Formas de búsqueda• La búsqueda de información tiene diversas formas:

La investigación documental. • La búsqueda en Internet.• La búsqueda en bases de datos.

Concepto de búsqueda• Se concibe el proceso de búsqueda como un conjunto

complejo de actividades, que se combinan e influyen recíprocamente, dirigidas a identificar, localizar y obtener la información con un propósito determinado.

Estrategias de búsqueda

MODELO "BIG SIX SKILLS". Fuente: Eisenberg, M. B. & Berkowitz, R. E. Information Problem-Solving: The Big Six Skills Approach to Library & Information Skills. Norwood, NJ: Ablex Publishing Corp., 1990. p 24.

Big six skil ls1.1.Definición de la tareaDefinición de la tarea

Definir el problema de información. Identificar la información que se necesita para completar la tarea (para resolver el problema de información).

Big six ski l ls2.2. Estrategias de búsqueda de información Estrategias de búsqueda de información

Determinar el rango de las posibles fuentes (brainstorming). Evaluar las posibles fuentes diferentes para determinar prioridades (seleccionar las mejores fuentes).  

Big six skil ls3.3. Localización y acceso Localización y acceso

Localizar las fuentes (intelectual y físicamente).

Encontrar la información en las fuentes.    

Big six ski l ls4.4. Uso de la información Uso de la información

Comprender (leer, oir, ver, tocar...) la información de la fuente.

Extraer información relevante de la fuente.

Big six ski l ls5.5. Síntesis Síntesis

Organizar la información de múltiples fuentes.

Presentar la información.

Big six ski l ls6.6. Evaluación Evaluación

Juzgar el producto (efectividad).

Juzgar el proceso de resolución del problema (eficiencia).

FormulaciónBúsqueda Básica • Selección de los términos de búsqueda a). Identifique los conceptos relevantes b). Seleccione las palabras claves que representan esos conceptos c). Adiciones los sinónimos de cada palabra clave

FormulaciónBúsqueda Básica • Empleo de operadores lógicos a). "OROR" amplía la búsqueda añadiendo términos sinónimos o relacionados b). "ANDAND" reduce la búsqueda al obligar la existencia simultánea de varios términos (+)c). "NOTNOT" reduce la búsqueda al obligar la ausencia de algunos términos (-)

FormulaciónBúsqueda Básica • Formulación de la expresión de búsqueda Combine los términos de búsqueda con los operadores lógicos de manera que se obtenga el conjunto de documentos relevantes a la necesidad de información

FormulaciónBúsqueda Avanzada • Conformar estrategias de búsquedas complejas • Utilizar más de un campo de búsqueda • Anidar los términos de búsqueda en expresiones complejas• Combinar los resultados de varias expresiones de búsqueda

Expresiones de búsqueda

Sinónimos: • Concepto 1Concepto 1: Computadora OROR Computadoras

OROR ordenadores OROR Robots OROR Informática OROR Automática OROR Robótica

• Concepto 2Concepto 2: fabricación OROR fabricar OROR fabricantes OROR construir OROR construcción OROR producir OROR producción• Concepto 3: Concepto 3: automóvil OROR automóviles OROR

coche OROR coches OROR vehículo OROR vehículos

Expresiones de búsqueda

Truncado: • Concepto 1Concepto 1: computador** OROR ordenador** OROR

informática OROR automática OROR robot**• Concepto 2Concepto 2: fabrica** OROR constru** OROR produc** • Concepto 3: Concepto 3: automóvil** OROR coche** OROR

vehículo**

Tácticas de búsquedaSi ha recuperado muchos documentos: • Introduzca nuevos conceptos y combine los

conceptos diferentes con ANDAND• Elimine cuasi-sinónimos • Elimine los truncados• Utilice descriptoresdescriptores• Utilice operadores de proximidad • Limite la búsqueda a campos específicoscampos específicos• Combine varias de estas tácticasCombine varias de estas tácticas

Tácticas de búsquedaSi ha recuperado pocos documentos: • Elimine conceptos que no sean relevantes• Añada sinónimos y combínelos entre sí con el

operador OROR • Utilice el truncamiento• Utilice términos en lenguaje natural • Amplíe la búsqueda a todos los campos • Elimine los operadores de proximidad• Combine varias de estas tácticasCombine varias de estas tácticas

Tipos de recuperación:• La recuperación de palabras.• La recuperación de referencias.• La recuperación de documentos. • La recuperación de textos.

Concepto de recuperación• La recuperación de información es el conjunto de tareas

mediante las cuales el usuario identifica, localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado.

Recuperación de datos - Recuperación directa que responde la pregunta del

usuario. Ej: Quiero saber X.  (Método de respuesta al usuario).

- Necesariamente, existe una relación entre una pregunta bien construida y la respuesta correcta.

Recuperación de documentos   - Recuperación indirecta que proporciona o referencia a

un conjunto de documentos que probablemente contenga la respuesta a lo que pregunta el usuario.

Ej: Quiero saber sobre X.   - Probablemente, existe una relación entre una pregunta

bien construida y la respuesta correcta.    - El criterio para medir el éxito de una búsqueda es su

utilidad. Evaluación subjetiva. ¿Se ha satisfecho la necesidad del usuario?. 

Recuperación de documentos• La velocidad de la recuperación depende sobre todo del

número de decisiones lógicas que el usuario debe tomar durante el desarrollo de la búsqueda y sólo secundariamente de la velocidad del acceso del sistema que se utilice.

Recuperación efectivaDebe equil ibrar dos objetivos:1. Predecir cómo están representados o indexados los

documentos que le van a ser útiles.2. Recuperar un conjunto de documentos lo

suficientemente pequeño para visualizarlos y encontrar los más útiles

Directorios y motoresMOTORES1 - Un motor de búsqueda lleva a la página exacta en las que aparecen las palabras o la frase que uno busca. 2 - Cuando tenga una vaga idea de lo que quiere y cuando apreciaría que alguien le ayudase. DIRECTORIOS1 - Un directorio lleva a la página inicial de un sitio Web. Desde ahí se puede explorar hasta encontrar lo que se busca.2 - Cuando quiera llegar una pieza particular de información muy rápidamente.

Directorios y motoresDIRECTORIOS1 - Cuando quiera encontrar un buen sitio de música o un sitio especializado en el tipo de películas 2 - Para conseguir una lista de los periódicos electrónicos más importantes MOTORES1 - Cuando quiera saber de qué disco es una canción o una frase de película, utilice un motor de búsqueda 2 - Para una cita de una columna de periódico, incluso sin el nombre del columnista que lo escribió

Las dos Internet• El Web Visible: Está formado por las páginas

web (html) que los buscadores han incluido en sus índices.• El Web Invisible: Información de alta calidad

disponible en el WWW que los buscadores no pueden, o no están dispuestos a, añadir a sus índices de páginas web.• Ejemplos: Web “opaco”; Web privado; Web

propietario y Web realmente Invisible

Web Invisible : Bases de Datos• Bases de datos accesible en el Web: • Directorios (compañías, personas, etc.)• Catálogos de bibliotecas• Bibliografías (ERIC, Medline, etc.)• Documentos especiales (patentes, normas)

Localización de Información en el Web Invisible

• Internet Invisible [www.internetinvisible.com]• Complete Planet [www.completeplanet.com]• DirectSearch [gwis2.circ.gwu.edu/~gprice/direct.htm]• Invisible Web Catalog [www.invisibleweb.com]• Invisible Web [http://www.invisible-web.net/]• IncyWincy [http://www.incywincy.com/]• Invisible Web Gateways

[http://websearch.about.com/cs/invisibleweb/]• Invisible Web Home

[http://www3.dist214.k12.il.us/invisible/default.html]

Características de la Búsqueda en Directorios

• En alcance se amplía o se reduce al subir o bajar por la estructura del directorio. • Los términos están dentro del contexto de la

categoría de la búsqueda, lo cual disminuye considerablemente el ruido. • Las notaciones no dependientes del idioma,

posibilitan la implementación de un acceso multilingüe a la colección.

Ventajas del uso de Directorios• Suelen ser más fáciles de usar que los buscadores,

especialmente para usuarios no experimentados.• Permiten echar una ojeada de forma global al contenido. • Los recursos disponibles han pasado por un proceso de

selección de calidad.• Algunos tienen la posibilidad de incluir referencias

cruzadas.

Desventajas del uso de Directorios

• Cubren tan solo una pequeña fracción de los recursos existentes en la Web• Inconsistencias en sus subdivisiones. • Carencia de criterios homogéneos para la

selección, clasificación y descripción. • Rápida desactualización de algunos recursos por

la falta de mecanismos para seguir los cambios en contenidos, direcciones, etc.

Datos de los Directorios• Posee la mayor base de datos • Es el único buscador que incluye pdfs• Operador implícito AND (+)• Operador OR: debe incluirlo en altas• Avanzada: ‘paginas similares’ y ‘con enlaces a esta

página’• Ordena por proximidad de las palabras y popularidad

de las páginas (citada)• Indiza sólo los primeros 100 k de texto

Datos de los Directorios• Es el único buscador que incluye operador de proximidad

(NEAR)• Operador implícito (pocas palabras AND / muchas OR)• La búsqueda avanzada es sofisticada y muy potente (10

campos diferentes)• Facilidades para buscar imágenes, audio y video• Permite declarar términos que definan el ordenamiento

(sort) de los resultados• Indiza sólo los primeros 100 k de texto

Datos de los Directorios• Operador implícito AND (+)• Operador OR: términos entre paréntesis • Búsqueda simultánea en las bases de datos de Imagen,

Video, MP3 y FTP• Avanzada: búsqueda por campos• Avanzada: límite por tamaño de página• Muestra 1 página por dominio• Incluye todas las palabras en el índice, incluidas las ‘vacías’• No tiene límites en el texto a indizar

Datos de los Directorios• Operador implícito: AND • Avanzada: opciones de limites por medio de ventanas y

menúes de despliegue• Avanzada: permite limitar a páginas en niveles de

profundidad dados del sitio• Avanzada: la opción "Acrobat" recupera páginas con enlaces

a archivos pdf

Metabuscadores• Los multibuscadores, también llamados metabuscadores,

proporcionan la posibilidad de buscar en un número determinado de motores de búsqueda de forma simultánea. No utilizan robots para recoger o mantener unas bases de datos propias individuales sino que utilizan las bases de datos de los buscadores sobre los que lanzan las peticiones de los usuarios.

Ventajas de los Metabuscadores• - Se necesita solamente acceder a una única página web para

ejecutar la búsqueda • - El usuario sólo ha de aprender a utilizar una única interfaz

para realizar sus búsquedas • - Sólo hay que teclear la expresión de búsqueda una vez • - Se puede ejecutar una búsqueda más exten-siva a través de

un amplio número de motores de búsqueda • - Se puede obtener una lista de resultados de forma integrada

de tal manera que se eliminen los duplicados

Posibil idades de los Metabuscadores• - Indicar el número máximo de resultados que se desean

obtener de cada motor de búsqueda • - Salvar la expresión de búsqueda para poder ejecutarla la

próxima vez que se utilice el servicio • - Presentar los resultados por orden de relevancia, o criterio

de ‘best match’• - Excluir algunos motores de la lista