Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf ·...

60
1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia [email protected] http://www.dsic.upv.es/~jhcanos Asignatura Sistemas de Información Distribuidos Máster en Ingeniería de Sistemas e Informática Zaragoza, 2527 de febrero de 2008 Motivación (1/2) Según Lesk (1997): à Hacia 2000, la producción mundial de cinta magnética será suficiente para que no haga falta eliminar nada de lo creado con un ordenador eliminar nada de lo creado con un ordenador à … y llegará un momento en el cual ser capaz de encontrar la información será más importante que poseerla Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008 Motivación (2/2) Proyectos exitosos de Bibliotecas digitales: à à Google (!) Desafíos: nuevos tipos de documentos, nuevos tipos de medios Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008 Objetivos Clarificar la noción de BiD y sus implicaciones Presentar los modelos más aceptados de BiD Introducir los principales aspectos a tener en cuenta en el desarrollo de Bibliotecas Digitales Multimedia, incluyendo, entre otros: à arquitecturas de BiD à catalogación, conservación à flujos de trabajo à almacenamiento y recuperación de información à interoperabilidad Revisar el estado del arte en investigación y desarrollo en el campo Presentar las líneas de investigación del Grupo ISSI en el ámbito de las BiD: à Gestión de bibliografía à Sistemas de gestión de emergencias à Otros Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008 Contenido – Parte I 1. Fundamentos à Introducción à Arquitectura de Bibliotecas Digitales 2. Organización de la Información à Metadatos Metadatos à Flujos de trabajo (Workflows) à Conservación a largo plazo de la información digital 3. Recuperación de Información à Recuperación de Información textual à Búsquedas en la Web à Interoperabilidad Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008 Contenido – Parte II El grupo SIA@ISSI: 1. Bibshare 2. Sistemas de gestión de emergencias 3. Otros proyectos Descripción Estado actual Desafíos Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Transcript of Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf ·...

Page 1: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

1

BIBLIOTECAS DIGITALES

José Hilario Canós Cerdá

Departamento de Sistemas Informáticos y ComputaciónUniversidad Politécnica de Valencia

[email protected]://www.dsic.upv.es/~jhcanos

Asignatura Sistemas de Información DistribuidosMáster en Ingeniería de Sistemas e InformáticaZaragoza, 25‐27 de febrero de 2008

Motivación (1/2)

Según Lesk (1997): Hacia 2000, la producción mundial de cinta magnética será suficiente para que no haga falta eliminar nada de lo creado con un ordenador eliminar nada de lo creado con un ordenador …

… y llegará un momento en el cual ser capaz de encontrar la información será más importante que poseerla

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Motivación (2/2)

Proyectos exitosos de Bibliotecas digitales:…Google (!)

Desafíos: nuevos tipos de documentos, nuevos tipos de medios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

ObjetivosClarificar la noción de BiD y sus implicaciones

Presentar los modelos más aceptados de BiD

Introducir los principales aspectos a tener en cuenta en el desarrollo de Bibliotecas Digitales Multimedia, incluyendo, entre otros:

arquitecturas de BiDcatalogación, conservaciónflujos de trabajoalmacenamiento y recuperación de informacióninteroperabilidad

Revisar el estado del arte en investigación y desarrollo en el campo

Presentar las líneas de investigación del Grupo ISSI en el ámbito de las BiD:Gestión de bibliografíaSistemas de gestión de emergenciasOtros

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Contenido – Parte I

1. FundamentosIntroducciónArquitectura de Bibliotecas Digitales 

2. Organización de la InformaciónMetadatosMetadatosFlujos de trabajo (Workflows) Conservación a largo plazo de la información digital 

3. Recuperación de InformaciónRecuperación de Información textual Búsquedas en la WebInteroperabilidad

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Contenido – Parte II

El grupo SIA@ISSI:

1. Bibshare2. Sistemas de gestión de emergencias 3. Otros proyectos

DescripciónEstado actualDesafíos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 2: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

2

Bibliografía/MaterialBibliografía básica

Lesk, Michael. Understanding Digital Libraries, 2nd edition. Morgan Kauffman, 2005.Lesk, Michael. Practical Digital Libraries: books, bytes & bucks. Morgan Kauffman, 1997.Arms, William Y. Digital Libraries. MIT Press, 2000.Borgman, Christine L. FromGutenberg to theGlobal Information Infrastructure. MIT Press, 2000.Borgman, Christine L..  Scholarship in the Digital Age. MIT Press, 2007.Stefik, Mark. Internet Dreams. MIT press, 1996.Baeza, R. and Ribeiro, B. Modern Information Retrieval. AddisonWesley, 1999.

Bibliotecas Digitales – © J.H. Canós - DSIC – Curso 2007-2008

INTRODUCCIÓN─ ¿Por qué Bibliotecas Digitales?─Definiciones de BiD─Contenidos vs. Tecnología

d l─Requisitos de las BiD─Desafíos de las BiD─Recursos sobre BiD

Juegos de palabras...

digital object library multimedia library electronic library virtual library Information SuperHighway (I’way) National Information Infrastructure (NII)

¿Son sinónimos?

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

¿Por qué BiD? (I)Problemas de las bibliotecas:

Gran aumento en los costes de ediciónCoste de las publicacionesGrandes recortes en los presupuestos de las bibliotecas

La tecnología digital facilita la producción de libros  y su La tecnología digital facilita la producción de libros, y su almacenamiento y distribución.

Además de libros, pueden crearse documentos multimedia

Los editores están cada vez más orientados al mundo digital, con el fin de reducir costes de producción e incrementar beneficios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

¿Por qué BiD? (II)

Cada vez hay más información disponible a través de las redes de comunicaciones.

Es más valioso ser capaz de encontrar información que poseerla in‐situ.

Grandes oportunidades para editores y escritores de ganar dinero

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Evolución de la tecnología

Hardware:

Procesadores cada vez más potentesMemoria más barata y rápidaMayor capacidad de almacenamiento

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 3: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

3

005

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Fuen

te:

Lesk

, 20

Evolución de la tecnología

Software:

Sistemas distribuidos, BD, ...

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

WWW (Berners-Lee)

Mosaic (Andreesen)

Explosión de servidores en el Web

Lecturas recomendadas

Michael Lesk:How much information is there in the World?Peter Lyman and Hal Varian:How much Information?Information?Página Web de Berkeley:

http://www.sims.berkeley.edu/research/projects/how‐much‐info‐2003/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

PionerosVannevar Bush (1945): “As we may think”J. R. C. Licklider (1965): “Libraries of the Future”Ernesto García Camarero: “El mundo de la Informática”. Cuadernos para el diálogo, Octubre 1971Grandes esfuerzos a partir de primeros de los 90 en EE.UU.

Orientados principalmente a explotar la tecnología desarrollada en los 80.Proyecto más importante: Digital Library Initiative (DLI, http://dli.grainger.uiuc.edu/national.htm)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Las BiD...¿son bibliotecas?"The broad goal of the Digital Libraries Initiative is to dramatically advance the means to collect, store, organize and use widely distributed knowledge resources containing diverse types of information and content stored in a variety of electronic forms.“ (DLI Mission Statement)

“Themission of the Carnegie Library of Pittsburgh is to be a force for education, information, recreation, and inspiration in the communities it serves.” (CL Pittsburgh Mission Statement)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

BiD: DefinicionesDigital library is a concept that has different meanings in different communities:To the engineering and computer science community, digital library is a 

metaphor for the new kinds of distributed data base services that manage unstructured multimedia data. T   h   li i l  d b i   i i   h          To the political and business communities, the term represents a new marketplace for the world's information resources and services. To futurist communities, digital libraries represent the manifestation ofWells' World Brain.

(Gary Marchionini)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 4: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

4

BiD: Definiciones

The generic name for federated structures that provide humans both intellectual and physical access to the huge and growing worldwide networks of information encoded in multimedia digital formats.

(The University of Michigan Digital Library: This Is Not Your Father's Library, Birmingham, 1994)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

BiD: DefinicionesDigital libraries are a set of electronic resources and associated technical capabilities for creating, searching, and using information. In this sense they are an extension and enhancement of information storage andretrieval systems that manipulate digital data in any medium (text,images, sounds; static or dynamic images) and exist in distributed g , ; y g )networks. The content of digital libraries includes data, metadata that describe various aspects of the data (e.g., representation, creator, owner, reproduction rights), and metadata that consist of links or relationships to other data or metadata, whether internal or external to the digital library.

(UCLA‐NSF Social Aspects of Digital Libraries Workshop)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

BiD: DefinicionesDigital libraries are constructed ‐‐ collected and organized ‐‐ by a community of users, and their functional capabilities support the information needs and uses of that community. (...) In this sense they are an extension, enhancement, and integration of a variety of information institutions as physical places where resources are selected, collected, 

i d   d   d  d i     f    i  organized, preserved, and accessed in support of a user community. These information institutions include, among others, libraries, museums, archives, and schools, but digital libraries also extend and serve other community settings, including classrooms, offices, laboratories, homes, and public spaces.

(UCLA‐NSF Social Aspects of Digital Libraries Workshop)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

BiD: DefinicionesA Digital Library is an organized database of digital information objectsin varying formats maintained to provide unmediated ease of access to a user community, with these further characteristics:

an overall access tool (e.g. a catalog) provides search and retrieval capability over the entire database;organized technical procedures exist through which the library management adds objects to the database and removes them according to a coherent and accessible collections policy.

(Peter Graham, Rutgers University Libraries)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

BiD: Definiciones

A digital library is a distributed technology environment which dramatically reduces barriers to the creation, dissemination, manipulation, storage, integration, and reuse p g gof information by individuals and groups.

(Edward A. Fox , editor, Source Book on Digital Libraries, pág. 65)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Palabras clave

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 5: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

5

Dimensiones

Aspectos fundamentales de las BiD:ContenidosServiciosT l íTecnologíaSociedad

¡Relacionados entre sí!

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Contenidos

Cualquier objeto puede ser representado digitalmente:

TextoA i l  d    Animales de un zoo...

Todos los contenidos presentan desafíos de tipo intelectual, técnico y cultural

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Niveles de descripciónTrabajo: concepto abstractoLa Ilíada, la 5ª de Beethoven, Unix

Expresión: un trabajo se hace real a través de una expresión:La Ilíada: oral  > escrita (secuencia de palabras)La Ilíada: oral ‐> escrita (secuencia de palabras)Unix: código fuente/ejecutable

Manifestación: una expresión toma forma en una o más manifestaciones:5ª Beethoven: CD, TV, radio, ...Unix: CD, cinta, ftp ...

Ítem: cada una de las copias de una manifestación

Modelo IFLA, 1998:http://www.ifla.org/VII/s13/frbr/frbr.pdf

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tipos de contenido: TextoEl tipo más frecuente

Escáner + OCR  ‐> ASCII, UnicodeSe puede buscar de diferentes maneras:

Búsqueda de cadenas simpleMétodos más sofisticados

Manuscritos representados como imágenes

Requiere participación humanaErrores de OCRTraduccionesMarcado de textos (SGML, XML, ...)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Otros tipos de contenido “monomedia”

Lo primero es determinar el formato a utilizarImágenes: GIF, TIFF, JPEG, ...

Video (sin sonido):  Quicktime, AVI, MPEG, ...

Sonido: AU  WAV  AIFF  Sonido: AU, WAV, AIFF, ...

No siempre se puede optar por un único formato (plataformas múltiples)

¿Cuál es la resolución adecuada?

Problema principal: búsquedas por contenido

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Contenidos multimedia

Ejemplos:Video a la demanda, textos animados, juegos, ...Simulaciones por ordenador, mundos virtuales, ...

dPueden ser interactivos:Se proporciona un punto de entrada y el usuario toma decisiones

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 6: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

6

Gestión de contenidos

Selección y adquisiciónIndexaciónlAlmacenamiento

AccesoManejo de colecciones y preservación

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Servicios

¿Quiénes son los clientes de una BiD?¿Qué tipos de servicio ofrecer en una BiD?

Servicios de búsquedaReferencias   ser icios de resp estaReferencias y servicios de respuestaFiltrado y diseminación selectiva de información

Enseñanza

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

¿Quiénes son los clientes de una BiD?

Una BiC suele dar servicio a una comunidad concreta...

¿Debería una BiD estar igualmente restringida a esa comunidad?

Una BiC a menudo posee servicios a usuarios con necesidades especiales (rampas de acceso, libros en Braille, ...)

Debe procurarse extender los servicios en entornos digitales

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tipos de servicio (I)

BúsquedaEs el servicio de acceso más básicoEn  BiC: metadatos

http://www.upv.es/bib/http://www.upv.es/bib/

En BiD: metadatos + contenidoMecanismos de búsqueda:

Línea/formularioNavegación (browsing)

Basada en clasificación jerárquica

Ideal: aproximación híbrida

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tipos de servicio (II)Referencias

Uno de los servicios básicos de las BiCEn BiD:

Anticipación a las preguntas (FAQ)Usuarios nuevos, tópicos interesantes ..., p

Interacción asíncrona usuario‐bibliotecarioE‐mail, requiere participación humana, mucho uso del servicio ante las expectativas

Combinación de servicios automáticos y humanosFAQ + e‐mail si la FAQ falla

Interacción en tiempo real con el bibliotecarioHotline, chat, ...

Agentes software que reemplacen a los humanosProcesamiento del lenguaje natural

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tipos de servicio (III)

Filtrado y distribución selectivaPerfiles de usuarioCada nueva incorporación se chequea frente a los perfiles, y se envía a los usuarios apropiadosperfiles, y se envía a los usuarios apropiadosMás sofisticado que la recuperación de informaciónFiltrado colaborativo: clasificación por interés de un colectivo de usuarios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 7: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

7

Tecnología

Pilares básicos de las BiD:HardwareRedes de alta velocidadS id dSeguridadInteroperabilidad

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

El kit del bibliotecario digital

Tipos de herramientas requeridas:

Herramientas de construcción de BiDVisualizadores de directoriosConvertidores de formatosChequeadores de consistencia de interfacesChequeadores de consistencia de interfacesVisores de objetosEncriptación de datosDefinición de metadatosGestores de índicesAnalizadores de logCopias de seguridadSimuladores de interfaces para comprobar el comportamiento en distintas plataformas...

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tecnología vs. contenidos (I)

La tecnología no siempre ha dirigido los cambios en el manejo de la información:

Antes de la imprenta ya se vendía libros...y la imprenta no representó un cambio en la estructura de los y la imprenta no representó un cambio en la estructura de los mismos.

En el siglo XVIII cambió notablemente el contenido de los libros, sin cambios tecnológicos destacables...mientras que en el siglo XIX cambia la tecnología, pero no hay cambios sustanciales en los contenidos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tecnología vs. contenidos (II)

En nuestra época asistimos a la revolución digital:

Durante más de una década, la mayor parte de los libros ha sido escrita en un ordenador...sin embargo, la gente sigue leyendo versiones en papelg , g g y p p

Las bibliotecas permiten consultar libros escritos mucho tiempo atrás, y versiones en papel de las obras actuales...¿qué van a hacer con la avalancha de información en formato electrónico?

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

¿Revolución?El cambio provocado por las nuevas tecnologías va a transformar radicalmente la sociedad

El acceso a información on‐line proporciona recursos que nunca antes habían estado disponiblesBibliotecas, museos, editoriales, etc., se transformarán radicalmente o, de lo contrario, desapareceránNuevas relaciones entre los actores: 

Autores/editoresLectores/bibliotecasUniversitarios/publicaciones

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

¿Evolución?Las tecnologías surgen porque la sociedad toma decisiones que conducen a ellas

Las redes de ordenadores son continuación de redes de comunicaciones previas (telégrafo, teléfono, radio, televisión, ...)Los medios digitales y los digitalizados son extensiones de otros 

l lpreviamente existentes, y las instituciones que los gestionan se adaptarán a ellos como lo hicieron con los anteriores (de Abdul Kassem Ismael a nuestros días...)

El papel convivirá con los bits

Editoriales, bibliotecas, universidades, etc., tienen unas funciones sociales que continuarán en el futuro, posiblemente de forma diferente

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 8: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

8

Co‐evolución

“Technology pushes, while demand pulls”

(Christine L. Borgman, 2000)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Requisitos de las BiD

BiD como BiC: características y circunstancias bajo las cuales una BiD debería emular a una BiC que contenga libros, imágenes y otros objetos materiales

Requisitos funcionales de las BiD

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Requisitos: BiD como BiCusers are usually elsewhere than the information they want, and often wish to correlate things from several sources;whoever wants to use a library must show permission to do so;different patrons are permitted different actions and to see different parts of each collection;to find specific information  each user must understand the catalog structure;to find specific information, each user must understand the catalog structure;the catalog may describe items not actually held as part of the collection at hand;the catalog and the collected items are used differently and not necessarily housed in the same place;documents are cataloged with text descriptors and also with conventional properties, such as author names;

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Requisitos: BiD como BiC

documents contain cross references to other documents;document identifiers are different from document names; a document may have several names, one for each context, e.g., "Tales of Hoffmann" in English, "Les contes d'Hoffmann" in French, and "HoffmannsErzaehlungen" in German;translations of a document may express essentially the same

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

y p yinformation, e.g., versions of classic literature in different languages;each stored item is valuable, often with part of its residual value owned by its authors or authors‘ assignees;part of the value provided by a library is the provenance information it holds for each item;items are put into libraries because, while each is thought valuable for future reference, the specific individuals who will read it and the times when this will occur are not known.

(DL94: Digital Library: Gross Structure and Requirements: Report from a March 1994 Workshop)

Requisitos funcionales (I)1. *DL should allow the user to follow citation links forward and backwards (preferably to full

documents; otherwise to location information)

2. *DL should include an online meta‐thesaurus that users can search and browse. The meta‐thesaurus should integrated existing thesaurae across disciplines. It should also allow users to incorporate their own terms and edit existing terms. The thesaurus should allow users to type in a few letters of a word and see corresponding terms, should suggest or reference alternatives to users' terms. Users should be able to view no  and type of documents associated with terms and link automatically from be able to view no. and type of documents associated with terms and link automatically from thesaurus terms to documents.

3. DL should include an acronym list to help users identify and search for terms.

4. Users should be allowed to save a record of their searches and what each search retrieved.

5. *Users should be able to search and view individual components of a document (e.g., author/title, abstract, figures, references) in a dynamic manner, specifying for each search which elements should be searched and which displayed.

6. *Users should be able to customize their interfaces so that search options, procedures are presented in the manner they like best.

7. Users should be able to view an overview description of the contents of the testbed.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Requisitos funcionales (II)8. *Display of full documents should mimic the look and feel of the article's print version in both page 

layout and page "flipping" (i.e., users should be able to view multiple pages at once and in quick succession)

9. *Users should be able to design and launch their own user profiles for any particular search session, defining what they want and how they want to get it.

10 *Users should be able to move easily from query to results and back  rather than moving in the10. *Users should be able to move easily from query to results and back, rather than moving in thelinear fashion common in online systems today, revising a query upon viewing results withouthaving to lose sight of the results or start a query over.

11. *Users should be able to easily create personal electronic article collections as a subset of the DL, manipulate and share that collection.

12. Users should be able to define and set their own access points for searching personal collectionsderived from the DL

13. DL should allow on‐screen highlighting, bookmarking to help in reading full articles.

14. Users should have access to DL from home and office.

15. DL should allow printing of full documents

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 9: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

9

Requisitos funcionales (y III)16. *Users should be able to jump to and view individual document components. They should be able to 

skim, open, or skip individual document components.

17. DL should facilitate colleage networks: allow users to view list of contact info for authors, construct mailing list of colleagues to send documents to.

18. *DL should provide complete and intuitive online help: help balloons, full documentation, help with basic computing, gripe button, sample searches.

19. DL should allow users to make own links to commonly used external network resources (e.g., pre‐print databases, listservs)

20. Search parameters should include physical location of material not available online

21. DL should facilitate browsing at shelf, ToC, and article levels: users need overview and zoomcapabilities.

22. *Interface should resemble a "natural topography" of the information landscape... with a physicallayout, dynamically defined (topic, material type, author, etc.)

23. *DL should allow serendipitous discovery of "other books on the shelf," "other articles in thejournal." Perhaps set browse mode as a purposeful search option: by call no., journal title, etc.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

(University of Illinois at Urbana Campaign, 1994)

Situación actual de las BiDgran cantidad de materiales disponibles

gran diversidad de temas

organización muy pobre

calidad y estabilidad variablescalidad y estabilidad variables

gran parte desfasado

difícil de obtener o referenciar

frecuentes reorganizaciones de los sitios Web

los documentos pueden (o no) estar en formatos apropiados para imprimir o citar

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Desafíos de las BiD

“Crear una BiD supone crear toda una organización de máquinas y personas, quizás incluso una cultura  en la cual la gente es capaz de incluso una cultura, en la cual la gente es capaz de buscar, obtener y usar la información”

(Lesk, pág. 5)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Lecturas recomendadas

Cap. 1 de Lesk, Arms, Borgman

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Recursos sobre BiDD‐Lib: http://www.dlib.org

JBIDI http://www.jbidi.org

Communications of the ACM (abril 1995, abril 1998)

IEEE Computer ‐‐‐DLI

Exploring the Digital Domain, 2nd edition: 

http://cs.furman.edu/digitaldomain/

Virtual Library Implementation: Problems, Opportunities and Issues forToday’s Librarian: http://staff.washington.edu/larsson/conf/snit96/

Cursos de BiD en diferentes Universidades

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Conferencias sobre BiD

JCDL: http://www.jcdl2006.org

ECDL: http://www.ecdl2006.org

ICADL: http://www.icadl.org

RCDL: http://www.rcdl2005.uniyar.ac.ru/

JBIDI: http://www.jbidi.org

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 10: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

10

MODELOS Y ARQUITECTURAS

− Historia de las arquitecturas de BiD− Kahn & Wilensky framework− Forma almacenada, presentación y diseminación− Visión global

− Fedora

Historia de las arquitecturas de BiD

Dos aproximaciones principales:Construir clientes y servidores ad‐hoc (usandoMotif/X11, Tcl/Tk, etc.), y usarTCP/IP sólo como protocolo de transportep p

pros: gran funcionalidadcons: costes de desarrollo altos, problemas con la distribución y heterogeneidad de los clientesCuriosidad: muchos de los proyectos de este tipo gastaron más tiempo en desarrollar interfaces, protocolos, búsquedas, etc., que poblando las BiD!

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Historia de las arquitecturas de BiD

Dos aproximaciones principales (cont):

Uso de protocolos estándar, de más alto nivel, basados en TCP/IP: SMTP, FTP, Gopher, WAIS, http, etc.

cons: menos funcionalidad

pros: menor coste de desarrollo, dado que usan clientes normalmente disponibles

Esta aproximación ha dominado la segunda mitad de los 90

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Primeras BiD sobre TCP/IP 

Netlibhttp://www.netlib.org/Comenzó en 1985, distribuyendo software matemático via e mail (SMTP)matemático via e‐mail (SMTP)Posteriormente se añadieron otros métodos y protocolos (ftp, cliente X11, http)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Zara

goza

, Fe

bre

ro d

e

2008

Accesos a Netlib

Bib

liote

cas

Dig

itale

s –©

J.H

. C

anós

-

Fuente:http://www.netlib.org/utk/misc/counts.html

Primeras BiD sobre TCP/IP

Servidor de pre‐prints de Físicahttp://xxx.lanl.gov/Comenzó en 1991 como servicio de e‐mail para el intercambio de fuentes de pre prints en TeX intercambio de fuentes de pre‐prints en TeX Pronto se añadieron accesos ftp y http

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 11: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

11

Primeras BiD sobre TCP/IP

Anonymous FTPUsado por numerosos departamentos de Informática para la distribución de informes técnicos y softwaretécnicos y softwareftp://techreports.larc.nasa.gov/ comenzó a finales de 1992El acceso http se añadió en 1994

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Primeras BiD sobre TCP/IP

Características:Útiles

Se podía encontrar lo que buscabas

Limitadas por el protocolo de transporteLimitadas por el protocolo de transporteInterfaces SMTP, FTP, etc. inherentemente pobresBúsquedas, formateos, browsing, ... difíciles de implementar

Escala reducida¿Hubiesen funcionado bien con colecciones de millones de items?

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Primeras BiD sobre HTTP

http es un protocolo de transporte muy general, y es posible construir protocolos de mayor nivel sobre élCombinando esto con clientes WWW más Combinando esto con clientes WWW más expresivos, hay un potencial grandísimoDienst 

http://www.ncstrl.org/Dienst/htdocs/Info/protocol4.html

Implementa un auténtico protocolo de BiD sobre http

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Dienst: protocoloRepository Service

Describe‐VerbDisseminateFormatsList‐AuthoritiesList‐BindersList‐Contents

Index ServiceDescribe-VerbHeader-TagsList-VerbsSearchBoolean

Query Mediator Service

Collection ServiceDescribe-VerbList-VerbsRegionsCollectionPublishersQueryMediators

List‐EncodingsList‐Meta‐FormatsList‐PartitionsList‐VerbsList‐VersionsNew‐VersionSubmitSubmit‐FormatsStructureTermsWithdraw

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Query Mediator ServiceDescribe-VerbList-VerbsSearchBoolean

Q yIndicesRepositories

Info ServiceDescribe-VerbList-VerbsIdentityList-Services

A Framework for DistributedDigital Object Services

Kahn/Wilensky Framework (KWF, 1995)Es un documento de alto nivel que define los conceptos clave que forman la próxima 

ió  d  BiDgeneración de BiDDLs beyond “make the ftp server look nice”

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Términos clave en KWF

Objeto Digital (digital object, DO)Unidad de intercambio en una BiD, con una estructura de datos y unas características particulares

Repositorio (repository)El lugar donde viven los DO

HandleUn nombre único y persistente para un DO

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 12: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

12

KWF

Originator

Digital Object

Datamakes a

which consists of

hi h

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Handle

Repository

Repository Access Protocol(RAP)

Handle Server

which comesfrom a handlegeneratorwhich can go in a

which is accessed by which registers the DOs handle with a

at which point the DO becomesa registered DO

Objetos digitales

Objeto Digital: elemento almacenado en una BiDNinguna referencia a contenido, g ,estructura, etc.Sinónimos: ítem, material, documento

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Objeto Digital

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Objeto digital

DO = datos + key‐metadataLos datos son tipados: tipos básicos incluyen:

bit‐sequence / set‐of‐bit‐sequencesdigital‐object / set‐of‐digital‐objectshandle / set‐of‐handles

key‐metadata incluye el handle, y posiblemente otros metadatos (no especificados en KWF)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Objetos digitales compuestos

Son DO con datos de tipo digital‐object

Los objetos digitales tienen estructura interna:

Una edición de un diario electrónico está almacenada en varios objetos separados (páginas HTML, imágenes digitalizadas de las páginas, ...), pero puede percibirse como un objeto único

Los DO compuestos pueden usarse para agrupar items relacionados:

Un DO para agrupar todas las obras de Cervantes

Un DO para agrupar todas las versiones o todos los formatos del Quijote...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

HandlesNombres que persisten aunque el recurso  al que identifican pueda cambiar su forma, ser almacenado en diversos repositorios, o cambiar en cualquier otra vía a lo largo del tiempo.

Handle system: sistema distribuido que almacena handles e información asociada, que se utiliza para localizar y acceder al ítem identificado por el handle

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 13: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

13

Handles: sintaxis

GLOBAL

LOCAL

hdl:cnri.dlib/july95‐arms

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Indicadorde handleAutoridad de

Nombramiento(repositorio) Identificador único

en el repositorio

Handles: estructura interna

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

handleDatos del handle: (tipo, valor)

(almacenados en un servidor de handles)inmutable

Pueden cambiarTransparente a los clientes

Handles: resoluciónResolver un handle:

Presentar un handle a un servidorObtener como respuesta información relacionada

Usualmente, la dirección adonde encontrar el ítem identificado   l h dlpor el handle

El sistema Handle:Distribuido (muchos ordenadores alrededor del mundo)

Registro global de handles (en CNRI)Servicios de handle locales (e.g. LOC)Más información: http://www.handle.net

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Repositorios (I)

“Un sistema de almacenamiento ,accesible por red, en el cual los DO pueden ser almacenados para posibles accesos posteriores” (KWF)

U  DO  l d    DO    id       i iUn DO almacenado es un DO que reside en un repositorio

Un DO registrado es un DO que el repositorio ha registrado en un servidor de handles

Almacenaje y registro pueden ser el mismo proceso, o procesos diferentes

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Repository Access Protocol(RAP)

Mecanismo sencillo de acceso a repositoriosDiseñado para ser simpleKWF define 3 clases de operaciones básicas:

ACCESS_DODEPOSIT_DOACCESS_REF

Sobre ellas se pueden definir meta servicios...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Repositorios (II)

Estructura de un repositorio:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 14: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

14

Repositorios (III)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Repositorios (y IV)

Arquitectura de un repositorio:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Forma almacenada

La forma almacenada de un objeto digital es el formato en el que está almacenado en el repositorio

Un simulador de vuelo es un conjunto de programas, archivos de datos, etc.

No tiene por qué coincidir con la forma en que el objeto digital se disemina

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Presentación y diseminaciónPresentación: la manera en que un objeto digital es mostrado al usuario

Un piloto que use el simulador percibe imágenes, sonidos sintetizados y secuencias de control

Diseminación: la transformación de la forma almacenada a la presentación requiere la ejecución de algún programa (rendering)

1  Almacenamiento,n Presentaciones

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Visión global

Usuarios

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Repositorios

Sistemas de localización Sistemas de búsqueda

Usuarios

ReferenciasArms, W. et al.: An Architecture for Information in Digital Libraries. D‐Lib Magazine, February 1997.Arms, W.: Key Concepts in the Architecture of the Digital Library. D‐Lib Magazine, July 1995IFLA  F nctional Req irements for Bibliographic Records  IFLA: Functional Requirements for Bibliographic Records. 1998.Kahn, R. & Wilensky, R.:A Framework for Distributed Digital Object Services. 1995. http://www.cnri.reston.va.us/home/cstr/arch/k‐w.html

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 15: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

15

FEDORA

Flexible Extensible Digital Object Repository Architecture

¿Qué es Fedora?

Fedora es una Arquitectura de Gestión de Recursos Digitales, sobre la que se pueden construir muchos sistemas de Bibliotecas Digitales.

Fedora es la arquitectura de soporte de un repositorio digital, pero NO PROPORCIONA:

El servicio completo de gestor, indexador, buscador y proveedor de servicios

Herramienta de catalogación

Servicio de conservación

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

¿Qué es Fedora? (II)

Proporciona una capa de gestión de propósito general para objetos digitales.

Define un modelo de objetos digital genérico que puede ser usado para representar datastreams (unidades de contenido) tales como documentos, imágenes, libros electrónicos, objetos multimedia, conjuntos de datos, metadatos,... y colecciones de estos.

Los objetos pueden ser vistos como contenedores que le proporcionan un formato adecuado a la información que se almacena en ellos.

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

¿Qué es Fedora? (III)

El contenido puede ser almacenado tanto localmente en el repositorio como fuera de éste y referenciado por el objeto digital como un fichero

El modelo es simple y flexible:Se pueden crear muchos tipos de objetos digitales. Los objetos se manejan de manera homogénea en el repositorio. 

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Objetos Digitales de Fedora

PID = uva-lib:100

Metadatos del sistema

Identificador del objeto Digital (Handle)

Metadatos necesarios para el manejo del objeto

ID Persistente (PID)

Relaciones (REL-Ext)

Dublin Core (DC)

Traza de Auditoría

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Image (mrsid)

Thumbnail (jpg)

Diseminadores: Punteros a definición de servicios para

proporcionar vistas en función de los servicios

Datastreams: Conjunto de datos y metadatos

Datastream (item)

Datastream (item)

Datastream (item)

Diseminador por defecto

Diseminador

Diseminador

BDEF 2

DC (xml)

Componentes de un objeto digital de Fedora

PID (parecido al Handle según K&W): Identificador único y persistente (no cambia) para el objeto dentro del Repositorio

Metadatos o Propiedades del Objeto: Conjunto de propiedades descriptivas definidas por el sistema necesarias para gestionar y llevar un seguimiento del objeto en el Repositorio. Todos los objetos tienen un metadato Dublin Core 

d f

ID Persistente (PID)

Relaciones (REL-Ext)

Dublin Core (DC)

por defecto.

Datastreams: Representan contenidos de tipo MIME. Un objeto puede tener uno o más datastreams. Pueden estar almacenados en el repositotio o fuera de este (en este caso, Fedora mantiene un puntero a este en forma de URL). 

Diseminadores: Servicios para transformar o representar un objeto. Asocia un servicio externo con el objeto para proporcionar vistas flexibles o funcionalidades del objeto.  Un objeto puede tener de 0 a N diseminadores.

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Datastream (item)

Datastream (item)

Datastream (item)

Diseminador por defecto

Traza de Auditoría

Diseminador

Diseminador

Page 16: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

16

Datastreams y Diseminadores

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Datastream y diseminadores (IV)

Datastream (Managed) Fedora almacena y gestiona el contenido bytestream

Fedora almacena una referencia (URL) al contenidoDatastream (External)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Fedora almacena una referencia (URL) al contenido,Pero no proporciona acceso al contenido.

Fedora almacena un bloque de contenido XML en un fichero XML.

Datastream (Redirect)

Datastream (XML)

Tipos de objetos digitales

Se diferencian en cómo el repositorio trabaja con ellos. Tipos:

Objetos de datosObjetos de definición de comportamientoObjetos de mecanismos de comportamiento

Los 2 últimos se usan para construir bloques para diseminadores que definen las operaciones que se pueden hacer con los objetos de datos y sus enlaces oportunos para proporcionar el servicio.

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Tipos de objetos digitales (II)

Objetos de datos:Representan entidades de contenido digitalContenido heterogéneo (imágenes, libros,...)

Objetos de definición de comportamientoAlmacenan una definición abstracta del servicio, en la forma de un conjunto abstracto de métodos.Cuando un diseminador apunta a un ODC, en realidad indica que soporta los métodos que contiene este ODC.

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Tipos de objetos digitales (III)

Objetos de mecanismos de comportamientoAlmacenan servicios a metadatos.Cuando un diseminador apunta a un OMC, en realidad indica que el diseminador usa esa implementación del servicio para los métodos abstractos que contiene el ODC.Contiene varios metadatos que indican en tiempo de ejecución como invocar los métodos del servicio.Metadatos

S  i f ió  d   t d t   á  i t t     l  i f ió  d  ll d   l Su información de metadatos más importante es  la información de llamada al servicio contenida en Web Services Description Language (WSDL)

Usada en tiempo de ejecución para atender las peticiones de servicio de representación virtual de un objetoPermite invocar múltiples servicios de una manera estándar.

Contiene metadatos que definen el “contrato” entre el objeto de datos y el servicio. Son los "Datastream Input Specification”

Especificar los tipos de datastreams que están disponibles para un objeto de datos en este servicio.Permiten especificar los servicios disponibles para cada objeto de datos. Por ejemplo, no interesa asociar un servicio de conversión de texto con un objeto de tipo imagen.

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Tipos de objetos digitales (IV)

Persistent ID (PID)

Behavior DefinitionMetadata

System Metadata

DatastreamsData ObjectPersistent ID (PID)

Disseminators

System Metadata

Behavior Definition Object

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Persistent ID (PID)

Service BindingMetadata (WSDL)

System Metadata

DatastreamsWeb

Service

behavior contract

Datastreams

Behavior Mechanism Object

Page 17: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

17

Ejemplo: Definición de objeto de imagen

2 def de Objetos de datos: Fichero de ImagenVersión  de Alta Resolución: tifVersión de Baja Resolución: jpg

f d2 Definiciones de comportamientogetHighResolutionTIFgetLowResolutionJPG

2 Mecanismos de comportamientogetHighResolutionTIF

Permite visualizar en formato TIF

getLowResolutionJPGPermite visualizar en formato JPG

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Ejemplo: Utilización de objeto de imagen

MrSID Objeto de datos: Fichero de ImagenObjeto de mecanismos de comportamientogetHighResolutionTIF

procesa el fichero MrSID y devuelve un fichero de imagen TIF

getLowResolutionJPGprocesa el fichero MrSID y devuelve un fichero de imagen JPG

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Arquitectura del Servidor Fedora

Zara

goza

, Fe

bre

ro d

e

2008

Implementación de la funcionalidad en 2. Lógica de Aplicacion

Servicio Web para Acceso/BúsquedaServicio Web para GestiónOAI Provider (API)

1. Interfaz

Bib

liote

cas

Dig

itale

s –©

J.H

. C

anós

-

BBDDCache de objetos (mejor rendimiento)Registro de objetos digitales

Serializaciones de objetos XMLObjeto con versionesOperaciones de gestión en XML

3. Almacenamiento

términos del modelo de objetos digitales de Fedora.

g p

Arquitectura (II)

User Authentication

Se curityS bs ste m

Web ServiceExposureLayer

Manage Access Search OAI Provider

Management Access

HTTPHTTP SOAP HTTP SOAP HTTP SOAP

ClientApp

BatchProgram

ServerApp

WebBrowser

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

ExternalContent Source H

TT

P

External ContentRetriever

RDBMS

XML

Policies

Users/Groups

HTTP

Datastreams

Digital ObjectsStorage Subsystem

Subsyste m

SOA

P

RemoteService

Loc alService

Subsystem Subsystem

HT

TP

Policy Enforcement

Policy Mgmt

Content

Object Mgmt

Object Validation

PID Generation Dissemination

ObjectReflection

Search

Servicios de acceso

2 tipos de servicios de acceso:Un cliente para gestionar la introducción de contenidos, su mantenimiento, y la exportación de objetos. Proporciona el servicio básico si no se necesitan pdiseminadores personalizados.Una API para personalizar los accesos vía web para servicios construidos en HTTP o SOAP. Así Fedora sería el soporte de interfaces personalizadas.

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

API de Fedora

• Servicios de Gestión (API‐M)Ingest ‐XML‐encoded object submissionCreate ‐ interactive object creation via API requestsMaintain ‐ interactive object modification via API requestsValidate – application of integrity rules to objectsIdentify ‐ generate unique object identifiersSecurity ‐ authentication and access controlSecurity  authentication and access controlPreserve ‐ automatic content versioning and audit trailExport ‐XML‐encoded object formats

• Servicios de Acceso (API‐A y API‐A‐LITE)Search ‐ search repository for objectsObject Reflection ‐what disseminations can the object provide?Object Dissemination ‐ request a view of the object’s content

• Servicio de proveedor OAI‐PMH• OAI‐DC records

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 18: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

18

Historia

• Investigación (desde 1997) : DARPA y el grupo de investigación de Bibliotecas Digitales de la Universidad de Cornell.El desarrollo de referencia se hizo en Cornell

• Primera aplicación (1999‐2001) : Prototipo hecho por la Universidad de VirginiaPruebas de stress para 1 millón de objetos.

• Software Open Source (desde 2002): Andrew W. Mellon Foundation hace aportaciones económicas importantes para su desarrollo.Fedora 1.0 se liberó en Mayo de 2003.Actualmente por la versión 2.1

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Distribución de Fedora

Código abierto 100% JavaTecnologías soportadas

Apache Tomcat 4.1 y Apache Axis (SOAP)p 4 y p ( )Xerces para XMLSaxonSchematronMySQL y MckoiOracle 9i

Plataformas de desarrolloWindows 2000, NT, XPSolarisLinux

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Más información

http://www.fedora.info

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Más software de repositorio

aDORe http://african.lanl.gov/aDORe/projects/adoreArchive/

DSpace http://www.dlib.org/dlib/january03/smith/01smith.html

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

METADATOS

Contenidos

MotivaciónAplicaciones de los metadatosCatálogosMARCDublin CoreRDFMODS/METSOtros esquemas de metadatos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 19: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

19

Motivación

Objetivo fundamental de una BiD: ayudar a los usuarios a encontrar informaciónEn muchas ocasiones, la información no se busca en los documentos  sino en propiedades de los en los documentos, sino en propiedades de los mismos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

MetadatosDatos estructurados acerca de los datosDescriben propiedades del contenido

Descriptivos: información bibliográfica, géneros, ...Estructurales: información sobre formatos y estructurasAdministrativos: derechos  permisos  Administrativos: derechos, permisos, ...

Generalmente expresados como textoTexto: autor, fecha, páginas, etc.Imagen: resolución, formato, etc.Aunque pueden referirse a otro tipo de medio

Para los usuarios, son el camino hacia los contenidos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Catálogos

Colecciones de metadatos descriptivos

Compuestos de registros: descripciones breves de documentos, realizadas de acuerdo a reglas sistemáticas

Sirven para más cosas que la mera recuperación de información

Informan de propiedades que no se derivan directamente de los documentos: información sobre los autores, en qué museo se encuentran, etc.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Generación tradicional de catálogos

Reglas de catalogación

Anglo American CataloguingRules (AACR2)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

objeto digital

Registro de metadatosDatos de

referencias (MARC)

Fuente: W. Arms: Curso de BiD. Cornell, 2000

MARC: Ejemplo (I)

Caroline R. Arms, editor, Campus strategies for libraries and electronic information.  Bedford, MA: Digital Press, 1990.

tag value001 89‐16879 r93050 Z675.U5C16 1990

Fuente: W. Arms: Curso de BiD. Cornell, 2000

082 027.7/0973 20245 Campus strategies for libraries and electronic  title statement

information/Caroline Arms, editor.260 {Bedford, Mass.} : Digital Press, c1990.             publisher300 xi, 404 p. : ill. ; 24 cm.                                          collation440 EDUCOM strategies series on information technology series title504 Includes bibliographical references (p. {373}‐381).020 ISBN 1‐55558‐036‐X : $34.95

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

MARC : Ejemplo (y II)

650 Academic libraries‐‐United States‐‐Automation. subject heading650 Libraries and electronic publishing‐‐United States.650 Library information networks‐‐United States.650 Information technology‐‐United States.

Fuente: W. Arms: Curso de BiD. Cornell, 2000

700 Arms, Caroline R. (Caroline Ruth)040 DLC DLC DLC043 n‐us‐‐‐955 CIP ver. br02 to SL 02‐26‐90985 APIF/MIG

http://lcweb.loc.gov/marc/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 20: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

20

MARC: codificación

tag: 260

subfield a: {Bedford, Mass.} :

subfield b: Digital Press,

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

subfield c: c1990.

MARC encoding:

&2600#abc#{Bedford, Mass.} :#Digital Press,#c1990.%

Catálogos compartidos

OCLC: repositorio de metadatos en formato MARCCuando una biblioteca cataloga un libro, deposita el registro MARC en OCLCdeposita el registro MARC en OCLCOtras bibliotecas pueden copiar el registroLa base de datos de OCLC tiene más de 57 millones de registros

www.oclc.org

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Online public access catalog (OPAC)

Servicio imprescindible hoy en día en BiCDos etapas de implantación

Primera etapaLa biblioteca deposita sus registros MARC en un servidorProporciona acceso al servidor por terminales dedicadosProporciona acceso al servidor por terminales dedicadosBúsqueda booleana por campos (ver tema 5)La mayor parte de BiC universitarias lo tienen desde primeros de los 90

Segunda etapaLa biblioteca conecta su servidor a la red del campus e InternetTransforma paulatinamente sus fichas catalográficas a MARC

www.upv.es/bib

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Comentarios sobre MARC

☺Un gran avance☺Desarrollado en los 60☺Ampliamente difundido

Muy complejoNo se diseñó pensando en su tratamiento algorítmico

No es UnicodeTransición muy costosa

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Generación tradicional de metadatos☺La experiencia de los humanos produce 

catálogos e índices de alta calidad

Muy cara (más de 50$ por registro)Cuesta mucho tiempoReglas de catalogación engorrosasLenta adaptación a los cambios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Dublin Core

Conjunto simple de metadatos para información on‐line

15 elementos básicosAplicable a todo tipo de material digitalAplicable a todo tipo de material digitalTodos los elementos opcionalesTodos los elementos repetibles

Desarrollado por un grupo internacional, liderado por Stuart Weibel

http://www.dublincore.org/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 21: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

21

Dublin Core elements

1. Title The name given to the resource by the creator or publisher.

2. Creator The person or organization primarily responsible for the intellectual content of the resource For

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

responsible for the intellectual content of the resource. For example, authors in the case of written documents, artists, photographers, or illustrators in the case of visual resources.

3. Subject The topic of the resource. Typically, subject will be expressed as keywords or phrases that describe the subject or content of the resource. The use of controlled vocabularies and formal classification schemes is encouraged.

Dublin Core elements

4. Description A textual description of the content of the resource, including abstracts in the case of document-like objects or content descriptions in the case of visual resources.

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

5. Publisher The entity responsible for making the resource available in its present form, such as a publishing house, a university department, or a corporate entity.

6. Contributor A person or organization not specified in a creator element who has made significant intellectual contributions to the resource but whose contribution is secondary to any person or organization specified in a creator element (for example, editor, transcriber, and illustrator).

Dublin Core elements

7. Date A date associated with the creation or availability of the resource.

8. Type The category of the resource, such as home page, novel poem working paper preprint technical report essay

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

novel, poem, working paper, preprint, technical report, essay, dictionary.

9. Format The data format of the resource, used to identify the software and possibly hardware that might be needed to display or operate the resource.

10. Identifier A string or number used to uniquely identify the resource. Examples for networked resources include URLs and URNs.

Dublin Core elements

11. Source Information about a second resource from which the present resource is derived.

12. Language The language of the intellectual content of

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

g g g gthe resource.

13. Relation An identifier of a second resource and its relationship to the present resource. This element permits links between related resources and resource descriptions to be indicated. Examples include an edition of a work (IsVersionOf), or a chapter of a book (IsPartOf).

Dublin Core elements

14. Coverage The spatial locations and temporal durations characteristic of the resource.

15 Rights A rights management statement an identifier

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

15. Rights A rights management statement, an identifier that links to a rights management statement, or an identifier that links to a service providing information about rights management for the resource.

Uso de DC en HTML (I)

<HTML><HEAD><TITLE>UKOLN Home Page</TITLE><META NAME="DC.Title” CONTENT="UKOLN: UK Office for Library and Information Networking"><META NAME="DC.Subject" CONTENT="national centre, network information support, library community,

Fuente: A. Powell. UKOLN, University of Bath, 1998

pp , y y,awareness, research, information services, public library networking, bibliographic management, distributed library systems, metadata, resource discovery, conferences, lectures, workshops"><META NAME="DC.Description" CONTENT="UKOLN is a national centre for support in network information management in the library and information communities. It provides awareness, research and information services"><META NAME="DC.Creator" CONTENT=”UKOLN Information Services Group"></HEAD>...

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 22: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

22

Uso de DC en HTML (II)

<meta name= "DC.publisher" content="OCLC">

<meta name="DC. creator" content="Weibel Stuart L ">

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<meta name= DC. creator content= Weibel, Stuart L. >

<meta name="DC. creator" content="Miller, Eric J.">

<meta name="DC. title" content="Dublin Core Reference Page">

<meta name="DC. date" content="1996-05-28">

<meta name="DC. form" content="text/html">

<meta name="DC. language" content="en">

Dublin Core calificadoLa semántica de DC es muy amplia

En ocasiones es poco informativa

Los calificadores son una especie de atributos “a la” XML que permiten:

Refinar el significado de los elementos de DC mediante ‘type’:Refinar el significado de los elementos de DC mediante  type :Relation TYPE=IsPartOf

Asociar valores a los elementos de acuerdo a esquemas externos:Subject SCHEME=LCSHDate SCHEME=ISO 8601

Indicar el lenguaje en el que está expresado un valorTitle LANGUAGE=en 

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Calificadores: ejemplo

DC.Date -> Created: 1997-11-01

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

DC.Date -> Issued: 1997-11-15

DC.Date -> Available: 1997-12-01/1998-06-01

DC.Date -> Valid: 1998-01-01/1998-06-01

DC con calificadores:ejemplo en XML

<title>Digital Libraries and the Problem of Purpose</title>

<creator>David M. Levy</creator>

<publisher>Corporation for National Research Initiatives</publisher>

<date date type = "publication">January 2000</date>

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<date date-type = publication >January 2000</date>

<type resource-type = "work">article</type>

<identifier uri-type = "DOI">10.1045/january2000-levy</identifier>

<identifier uri-type =

"URL">http://www.dlib.org/dlib/january00/01levy.html</identifier>

<language>English</language>

<rights>Copyright (c) David M. Levy</rights>

RDF

Resource Description Framework

Desarrollado con participación de varias comunidadesPlatform for Internet Content Selection (PICS)Web Collections (Site maps, MCF)Libraries, museums, archives (DC)Privacy (P3P)

Actividad de metadatos del W3CModel and Syntax WGSchema WG

Objetivo: Interoperabilidad de metadatossemántica, estructura, sintaxis

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

El modelo de RDF

RecursoTipo de propiedad

Valor

Propiedad

basado en un modelo matemático

diagramas arco‐nodo

recursos Web representados por nodos con  URI

“descripción”: colección de propiedades

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Propiedad

Page 23: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

23

RDF: ejemplo

http://www.ukoln.ac.uk/metadata/Author

Andy Powell

“Andy Powell es autor del recurso identificado por  http://www.ukoln.ac.uk/metadata/”

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

RDF: ejemplo estructurado

http://www.ukoln.ac.uk/metadata/Author

Name Email

proporciona metadatos estructurados a base de reemplazar valores textuales por nodos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Andy Powell [email protected]

Name Email

RDF: reification

http://somewhere.com/page.htmlCost

£0.05

expresar sentencias sobre propiedades

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

1998-09

ValidUntil

RDF: serialización

http://www.ukoln.ac.uk/metadata/Title The UKOLN

Metadata HomePage

Title

<RDF:RDF><RDF:Description

una descripción RDF puede expresarse en XML

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>

</RDF:Description></RDF:RDF>

RDF: serialización

http://www.ukoln.ac.uk/metadata/Title The UKOLN

Metadata HomePage

Title

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>

</RDF:Description></RDF:RDF>

RDF: serialización

http://www.ukoln.ac.uk/metadata/Title The UKOLN

Metadata HomePage

Title

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>

</RDF:Description></RDF:RDF>

Page 24: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

24

RDF : serialización

http://www.ukoln.ac.uk/metadata/Title The UKOLN

Metadata HomePage

Title

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page

<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>

</RDF:Description></RDF:RDF>

RDF: propiedades múltiples

<RDF:RDF>

Una descripción puede incluir más de una propiedad:

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title><Keywords>Dublin Core, MARC, TEI, IAFA, … </Keywords><Description>Start of several Web pages about metadata

</Description></RDF:Description>

</RDF:RDF>

DC en RDF

http://www.ukoln.ac.uk/metadata/The UKOLN

Metadata HomePage

DC:Title

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<RDF:RDF><RDF:Description RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>

</RDF:Description></RDF:RDF>

DC en RDF

http://www.ukoln.ac.uk/metadata/The UKOLN

Metadata HomePage

DC:Title

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<?xml:namespace ns="http://purl.org/dublin_core/schema/" prefix=”DC"?>

<RDF:RDF><RDF:Description RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>

</RDF:Description></RDF:RDF>

DC en RDF

http://www.ukoln.ac.uk/metadata/The UKOLN

Metadata HomePage

DC:Title

<?xml:namespace ns="http://www.w3.org/TR/WD-rdf/"

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

p p // g/ / /prefix=”RDF"?>

<?xml:namespace ns="http://purl.org/dublin_core/schema/" prefix=”DC"?>

<RDF:RDF><RDF:Description RDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>

</RDF:Description></RDF:RDF>

DC en RDF<?xml version="1.0"?>

<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:dc="http://purl.org/dc/elements/1.0/">

<rdf:Descriptionrdf:about="http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/

WD-dc-rdf/">

<dc:title> Guidance on expressing the Dublin Core within the ResourceDescription

Framework (RDF) </dc:title>

<dc:creator> Eric Miller </dc:creator>

<dc:creator> Paul Miller </dc:creator>

<dc:creator> Dan Brickley </dc:creator>

<dc:subject> Dublin Core; Resource Description Framework; RDF; eXtensible

Markup Language; XML </dc:subject>

<dc:publisher> Dublin Core Metadata Initiative </dc:publisher>

<dc:contributor> Dublin Core Data Model Working Group </dc:contributor>

<dc:date> 1999-07-01 </dc:date>

<dc:format> text/html </dc:format>

<dc:language> en </dc:language>

</rdf:Description>

</rdf:RDF>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 25: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

25

RDF: estado actual

http://www.w3c.org/RDF

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

MODS

Metadata Object Description SchemaDesarrollado por LOC

Objetivo: dar el salto al mundo XML de forma compatible con MARC

http://www.loc.gov/standards/mods

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Características de MODS

Etiquetas basadas en lenguaje naturalLos elementos tienen las mismas definiciones que elementos equivalentes en MARCElementos particularmente aplicables a recursos digitalesXML schema permite aprovechar la flexibilidad y disponibilidad de herramientas libres disponibles l

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Elementos de alto nivel de MODS

Title InfoNameType of resourceGenre

NoteSubjectClassificationRelated item

Origin InfoLanguagePhysical descriptionAbstractTable of contentsTarget audience

IdentifierLocationAccess conditionsPartExtensionRecord Info

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Ejemplo:

Music record in MODS

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Ventajas de MODS

El conjunto de elementos es compatible con los esquemas de grandes bases de datos bibliográficasEl conjunto de elementos es más rico que Dublin Core, y más simple que MARCEtiquetas basadas en lenguaje natural, más amigables que las etiquetas numéricas de MARCLa jerarquía permite descripciones más ricas, especialmente de objetos digitales complejosLa descripción funciona bien con descripciones jerárquicas en METS

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 26: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

26

Metadata Encoding and Transmission Standard 

METS es un esquema XML diseñado con el propósito de crear documentos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

con el propósito de crear documentos que expresen la estructura jerárquica de los objetos digitales, los nombres y localizaciones de los archivos que los componen, y los metadatos asociados.

http://www.loc.gov/mets

Secciones de un documentoMETS (parcial)

<mets><dmdSec/> (Metadatos descriptivos)<amdSec/> (Metadatos administrativos)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<amdSec/> (Metadatos administrativos)<fileSec/> (Archivos)<structMap/> (Estructura)

</mets>

METS Extension Schemas

Two sections (dmdSec and amdSec) serve as “wrappers” or“sockets” where elements from other schemas, called "extension

h ” b l d i Thi i th h i b hi h

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

schemas” can be plugged in. This is the mechanism by whichMETS is extensible. It is accomplished by using the XML Schemafacility for combing vocabularies from different Namespaces.

METS Editorial board has endorsed extension schemas forbibliographic data (MARCXML, MODS, DC), for technicalmetadata for still images (MIX), and technical metadata for text(TextMD).

Estructura

<mets><structMap>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<structMap> <div>

<div></div></div>

</structMap></mets>

Ejemplo 1

Archivos

<mets>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<mets><fileSec></fileSec><structMap></structMap>

</mets>

Example 2

Metadatos descriptivos

<mets><dmdSec></dmdSec>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<dmdSec></dmdSec><fileSec></fileSec><structMap></structMap>

</mets>

Page 27: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

27

Metadatos descriptivos con mdRef

<mets>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<dmdSec><mdRef/>

</dmdSec><fileSec></fileSec><structMap></structMap>

</mets>

Ejemplo 3

Metadatos descriptivos con mdWrap

<mets><dmdSec>

<mdWrap><xmlData>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<!– insertar datos de namespace(s) diferentes --></xmlData>

</mdWrap></dmdSec><fileSec></fileSec><structMap></structMap>

</mets>

Example 4Example 5 Example 6

Metadatos administrativos con mdWrap

<mets><amdSec>

<techMD><mdWrap>

<xmlData>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

<xmlData><!-- insertar datos de namespace(s) diferentes -->

</xmlData></mdWrap>

</techMD></amdSec><fileSec /> <structMap />

</mets>

Example 7

Example 8

Otros esquemas de metadatos

Channel Definition Format (CDF) http://www.microsoft.com/standards/cdf.htm

Global Information Locator Service (GILS)http://www.usgs.gov/gils/index.html

Meta Content Framework (MCF) http://www.textuality.com/mcf/MCF‐tutorial.html

Platform for Internet Content Selection (PICS)Platform for Internet Content Selection (PICS)http://www.w3.org/pub/WWW/PICS/

Rich Site Summary (RSS) http://purl.org/rss

Summary Object Interchange Format (SOIF)http://harvest.cs.colorado.edu/

Uniform Resource Characteristics (URCs)http://www.acl.lanl.gov/URC/

Wireless Markup Language (WML)http://www.wapforum.org/

Text Encoding Initiative (TEI)http://www‐tei.uic.edu/orgs/tei/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

ReferenciasArms, W.

Digital Libraries. MIT Press, 2000Curso de BiD. Cornell University, 2000.

Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997

Powell  Andy: Metadata for the Web :DF and the Dublin Powell, Andy: Metadata for the Web :DF and the Dublin Core.Presentación en UKOLUG, Manchester Conference Centre ‐ July 1998. http://www.ukoln.ac.uk/metadata/presentations/ukolug98

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Fuentes de informaciónhttp://www.ifla.org/II/metadata.htm

Muchos recursos sobre metadatosCompletísimo! 

http://www.ukoln.ac.uk/metadata/p // / /ídem

http://www.w3.org/RDF/página “oficial” sobre RDF

http://www.loc.gov/standards/modshttp://www.loc.gov/standards/mets

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 28: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

28

FLUJOS DE TRABAJO Procesos de negocio

Procesos en las organizaciones

Procesos materiales Procesos deinformación

– Descripciones, orientadas al mercado, de las actividades de una organización, implementadas como procesos de información y/o materiales

– Un PN se crea con el objetivo de cumplir con un contrato, de satisfacer las necesidades de un cliente, etc.

– Ensamblar componentes físicos y producir productos físicos

– Tareas humanas (mover, almacenar, transformar ...)

– Tareas automáticas o semi-automáticas– Crear, procesar, gestionar y producir

información– Infraestructura: ordenadores, bases de

datos, procesamiento de transacciones, sistemas distribuidos, ...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Ejemplo de PN

Aseguradora PeritoRecibir parte

Recoger información acerca del siniestroy del cliente

Gestión de Clientes

Comprobar que los datos del cliente son correctos

Clasificación de partes

Pagos y Autorizaciones

Incendio

Evaluación de daños

Contactar Cliente Visitar Propiedad

Analizar los datos recibidos

Comprobar propiedad

DEPARTMENTO DE PÓLIZAS

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Determinarlímitede indemnización Estimación del coste

Establecer la estimaciónfinal del coste

PagoActualizar datos

Siniestro cerrado

Actualizar perfildel cliente

Estimarcoste

Estudiar casossimilares

DEPARTAMENTO DEINDEMNIZACIONES

Dimensiones de los PN

Función• Descomposición de

funciones de alto nivel en tareas

Comportamiento• Cómo y cuándo se

llevan a cabo las tareas

Organización• Quién lleva a cabo las

tareas, y con qué herramientas

Información• Datos del negocio y

documentos que son objeto de las actividades

Proceso de 

negocio

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Automatización de los PN (I)

PresentaciónPresentación

Lógica de la aplicación

Lógica de la aplicación

Ventanas, Formularios, Web ...

Funciones, Procedimientos, Métodos ...

C

IO

F

Apropiada para implementaciones“desde cero”. Sin embargo...

Gestión de recursos

Gestión de recursos SGBD, Recuperación de textos, sistema de archivos, ...

P

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Automatización de los PN (y III)

Existe una tecnología que soporta bien los PNorientada a los procesos

definiciónejecuciónmonitorización

que da cuenta de las 4 dimensiones de los PN i t  l  h i t   i t tque integra las herramientas preexistentes

Sistemas de Gestión de Flujos de TrabajoSistemas de Gestión de Flujos de Trabajo

“ ... there must be a way to implement large and heterogeneousdistributed execution environments where sets of interrelatedtasks can be carried out in an eficient and closely supervisedfashion. This is where workflow management systems come in tothe picture.”

(Alonso et al., 1997)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 29: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

29

Metamodelo de FT

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Procesos: comportamiento

activestart

end_running

running

[start_condition=true]^run

executed

terminated

finished[end_condition=false]^terminate

[end_condition=true]^finish

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Flujos de control y de datos

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Tipo vs. instancia

Fill the kettle

Heat the water

Place the coffee in cup

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Pour hot water on coffee

Sistemas de Gestión de Flujos de Trabajo

Un SGFT es un sistema que define, crea y gestiona la ejecución de FTmediante el uso de software, siendo capaz de interpretar la definicióndel proceso, interactuar con los participantes y, donde se requiera,invocar el uso de herramientas y aplicacionesinvocar el uso de herramientas y aplicaciones.

Workflow Management Coalition

(http://www.wfmc.org)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

SGFT: Funcionalidad

Servicio de ejecución del FT

Definición del FTBuild-time

Run-time t l ejecución del FT

Aplicaciones invocadasUsuarios

control

Run-time interactions

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 30: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

30

Arquitectura: Modelo de referencia (WfMC)

Herramientas dedefinición

del Proceso

Interfaz 1

Motor(es) de FT

Servicio de ejecución de FT

API e intercambio de formatos

Herramientas deAdministración yMonitorización

Interfaz 5

Aplicaciones Clientes FT

Aplicacionesinvocadas

Interfaz 3Interfaz 2

Interfaz 4

Motor(es) de FT

Otros servicios de ejecución de FT

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

10 años después

Windows Vista incorpora en el núcleo un motor de procesos de negocio factor común de las distintas herramientas workflow‐oriented  de Microsoft (BizTalk Server, Exchange Server, SharePoint  Services, Outlook Rule Engine, etc.)

.NET Framework 3.5 incluye una biblioteca de tipos llamada y pWindows Workflow Foundation (WF) que permiten hacer uso de dicho motor de procesos de negocio

Visual Studio 2008 incluye un tipo de proyecto “Workflow” que permite desarrollar visualmente sobre WF

Aplicaciones de consola de “flujos de trabajo secuenciales” y “flujos de trabajo basados en máquinas de estados”Bibliotecas de actividades de flujo de trabajoBibliotecas de flujos de trabajos

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

10 años después…

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

10 años después…

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Flujos de trabajo y bibliotecas digitales

Los procesos están muy presentes en el desarrollo, mantenimiento y operación de las BiD

Tema tradicionalmente olvidado por la comunidad de BiD

Interés (c)reciente

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Motivación

Los modelos de BiD están fuertemente  influenciados por la perspectiva “repositorio”

Es necesario ampliar la visión estática de las BiD para incorporar todos los aspectos relacionados con gestión de contenido que quedan fuera de la visión tradicional

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 31: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

31

La nueva visión

UsuariosAdministradores

Procesos/Servicios

Público

En una Bid, Colecciones de Objetos digitales son gestionadas mediante una

i d d di

Repositorios

Sistemas de localización Sistemas de búsqueda

Motor de procesos

serie de procesos de diversa índole:

SelecciónAdquisiciónCatalogaciónConservaciónGestión de usuarios …

Los procesos implementan los servicios que la BiD ofrece a todos sus potenciales usuarios

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

¿Una moda… o algo más?

La comunidad de BiD se ha fijado en los flujos de trabajo solo cuando el problema de la estructura de la información está más que resuelto

Hasta ahora, los procesos se han implementado mediante scriptsFragmentación, pérdida de entidad

óNoción de instancia inexistenteDifícil monitorizaciónMucho esfuerzo!!

Han comenzado a hablar del tema sin ni siquiera tener claras las nociones  básicas (ver, por ejemplo, OAI‐ORE) ‐> errores graves de concepto

El mayor riesgo: la reinvención de la rueda

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Referencias

G.Alonso, D. Agrawal, A. El Abbadi, C.Mohan. Functionality and Limitations of current workflowManagement systems, IEEE‐Expert, 1997.

G.Alonso, C.Mohan. Workflow Management Systems: The next generation of distributed processingtools, In "Advanced Transaction Models and Architectures", S. Jajodia and L. Kerschberg (Eds.),Kluwer Academic Publishers, 1997, pp. 35‐‐62.

Georgakopoulos, D., Hornick, M., Sheth, A., An overview of workflow managenement: form processmodeling to workflow automation infraestructure Distributed and Parallel Databases Vol 3 n 2modeling to workflow automation infraestructure, Distributed and Parallel Databases. Vol.3, n.2,April 1995.

Hollingsworth, D., TheWorkflow Reference Model, Technical report TC00‐1003, WfMC, December,1994. Disponible en http://www.wfmc.org/

Mohan, C., Tutorial: State of the Art in Workflow Management System Products and Research,disponible en http://www.almaden.ibm.com/cs/people/mohan/

Sheth, A. et al., Report from the NSF Workshop on workflow and Process Automation in InformationSystems. Computer Science Department Technical Report, UGA‐CS‐TR‐96‐003, University ofGeorgia, October 1996. (Disponible en http://lsdis.cs.uga.edu/activities/NSF‐workflow/final‐report.ps).

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

CONSERVACIÓN A LARGO PLAZO DE LA INFORMACIÓN DIGITAL

Visión global

Usuarios

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Repositorios

Sistemas de localización Sistemas de búsqueda

Usuarios

Motivación (I)Objetivo fundamental de una BiD: ayudar a los usuarios a encontrar información ...

...ahora y en el futuro

Vida media de los diferentes soportes:

Fuente: W. Arms: Curso de BiD. Cornell, 2000

p

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Material Approximate life (years)

Acid-free paper 500+Microfilm 300Optical disks 100?

Color film 25-50CDs 20?

Magnetic disk and tape 5

DSIC1

Page 32: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

Diapositiva 186

DSIC1 podria introducirse antes de esta traspa un fragmanto del articulo de rothenberg.dsic; 26/09/2001

Page 33: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

32

Motivación (II)El almacenamiento digital sólo conserva contenido “crudo”:

A veces en formatos no estándarSi el software desaparece, no se puede acceder al contenido

Fuente: Lesk, 1997, pág. 194

Ejemplo: procesadores de textoByte 1985: Wordstar, Leading Edge, Multimate, MS Word, PFS:write, Samna, WordPerfect, XywriteByte 1995: MS Word, Lotus Word Pro, DeScribe, Nota Bene, Clearlook, WordPerfect, Accent Professional, Xywrite

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Motivación (III)

El hardware también caduca (~5‐10 años)Aunque el software perdure, si no se dispone del código fuente puede ser muy difícil ejecutarlo en arquitecturas modernas

Aunque el hardware perdure, puede ser poco rentable empeñarse q p , p p pen mantenerlo

En toda BiD es necesaria una política de conservación de los contenidos, que trascienda el mero problema de la conservación digital

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

jh1

Objetivo de la conservaciónGarantizar la disponibilidad de los objetos digitales en el futuro

En tres subáreas:Conservación intelectualConservación del medioConservación de la tecnología

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Conservación intelectual

Problema: integridad y autenticidad de la información tal y como se grabó originalmente

La naturaleza del software (y, similarmente, de los (y, ,objetos digitales), impide utilizar características físicas para identificar unívocamente a un objeto

Es realmente problemático definir qué es autenticidad de contenido y apariencia en el contexto de los  objetos digitales

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Conservación del medioObjetivo: conservar en condiciones el medio en el que se almacena la información (cintas, discos magnéticos, discos ópticos, CD, DVD …)

Refresco de la información (o del medio): copia periódica e esco de a o ac ó (o de ed o) cop a pe ód cade la información almacenada en un medio físico a otro 

Efectiva en tanto en cuanto la información contenida en esos medios sea “descifrable”

independiente del hardware

software disponible

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Conservación de la tecnología

Además del refresco, es necesario asegurar que, en el futuro,  los objetos digitales serán accesibles en las nuevas plataformas tecnológicas

Soluciones:Refresco de la informaciónMigración de la informaciónEmulación 

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 34: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

Diapositiva 188

jh1 rehacerla teniendo en cuenta lo que viene despuesjhcanos; 04/04/2006

Page 35: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

33

Refresco de informaciónCopia periódica de la información almacenada en un medio físico a otro 

Efectiva en tanto en cuanto la información contenida en esos medios sea “descifrable”

independiente del hardwaresoftware disponible

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

MigraciónTransferencia periódica de la información digital de una configuración hardware/software a una nueva

Incluye refresco de información, pero asumiendo que no y , p qsiempre es posible obtener una réplica exacta en la nueva configuración

versiones nuevas de procesadores de texto incompatibles con las más antiguasaplicación de algoritmos de compresión “lossy” a imágenes

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

EmulaciónObjetivo: reproducir las condiciones tecnológicas apropiadas para acceder a la información digital

Simulación software de entornos obsoletossistemas operativossoftware de edición, visualización, etc.

Es muy difícil conseguir una emulación 100% fiable

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Buenas prácticas

Se deben seleccionar y crear colecciones digitales con un valor duradero y de interés intelectual. 

La demanda de los documentos también es un factor a tener en cuenta ya que si los fondos están digitalizados y q gserán de más fácil acceso. 

La selección debe estar avalada por una política de preservación bien definida y apoyada económicamente 

Identificar responsabilidades

Adoptar estándares

Buenas prácticas

Asegurar los documentos contra la alteración , intencionada o no

Proporcionar documentación contextual (historial de creación, transmisión, uso…)

Describir completamente el objeto digital

‐>METADATOS

Metadatos

Necesarios para la correcta conservación de los recursos digitales

Disposición de los metadatos‐> 2 posibilidades:1. Embeberla en el propio objeto digital2. Crear un objeto digital independiente

Page 36: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

34

Metadatos

Proyectos más importantes:Dublin Core Metadata Iniciative Preservation Working Group:

ContenidoPropiedad intelectualTemporalidad

METS (Metadata Encoding & Transmission Standard)Iniciativa de Digital Library Federation g y

MIX (NISO Metadata for Images in XML) :Library of CongressEsquema XML para la gestión de colecciones de imágenes digitales

Premis Working Group:OCLC y RLGNúcleo de metadatos de preservaciónContextualiza el Data dictionaryExplica el modelo de datosAclara el significado y uso de las unidades semánticas

Y… ¿qué hacer con la Web?¿Cuál es la versión original de una página Web en el contexto de 

páginas personalizadas dinámicas? 

¿Cómo trabajar con las versiones de páginas con el mismo URL?

¿Qué criterio de selección aplicar para la conservación?¿Qué criterio de selección aplicar para la conservación?

¿Qué herramientas utilizar para extraer páginas Web de Internet y 

comprobar si hay nuevas versiones? 

¿Cómo trabajar con referencias a otras páginas Web?

http://www.archive.org: el archivo de la Web

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Historia

1990: Comienza a cobrar importancia el problema de la preservación digital

1994: proyectos eLib: The Electronic Libraries 994 p yProgramme. 

1995: Jeff Rothenberg publica el artículo “¿Son perdurables los documentos digitales?” en la revista Scientific American

1995: John Garret (EEUU) “Preserving digital information : Report of the Task Force on Archiving of Digital Information”

Historia

1996: Informe en EEUU “Preserving digital information: Final Report” por Donald Waters and John Garrett subvencionado por Research Libraries Group (RLG) y la Commission on Preservation and Access (CPA), 1996 : “Cambios necesarios para la preservación” de Paul Conwey,   director d   ió    l  bibli t  d  l  Y l  U i it   bli d    l  CPAde preservación en la biblioteca de la Yale University, publicado por la CPA1996 : JISC y British Library: Jornadas  sobre la preservación a largo plazo de los materiales electrónicos. Publicación del informe bajo la dirección de M. Fresko.1996 : Creación de PANDORA, Archivo Web de Australia

National Library  and now built in collaboration with nine other Australian libraries and other cultural collecting organisations. Coleccionar y proporcionar acceso a largo plazo a publicaciones y sitios webPANDORA Digital Archiving System (PANDAS), the first release of which took place in June 2001, with version 2 being released in August 2002. Further development of the software continues, with the release of version 3 expected in early 2006.

Historia

1998: En EEUU, “Digital preservation needs and requeriments in RLG member institutions”, estudio que cuantificaba la situación con respecto a la preservación digital en las bibliotecas1998: Proyecto CEDARS (1998‐2002)

Participaron las universidades de Leeds  Cambridge y OxfordParticiparon las universidades de Leeds, Cambridge y Oxford.Objetivo principal: dirigir cuestiones estratégicas,   metodológicas y experimentales y aconsejar sobre las mejores prácticas para la preservación digital.  Se publicaron guías para dar a conocer los resultados del proyecto que enfocaban aspectos como: Derechos de propiedad intelectual, Metadatos para la preservación, Gestión de la colección, Estrategias de preservación, Prototipo de archivo digital…

1999: Proyecto CAMILEON (1999‐2002):por la Universidad de Leeds (en U.K.) y la Universidad de Michigan (en EE.UU.). Objetivo principal: desarrollar y evaluar estrategias para la preservación del material digital. Investigación de la emulación como estrategia para la preservación

1999: LOCKSS ("Lots of Copies Keep Stuff Safe"): open source software para coleccionar, almacenar, preservar y proporcionar acceso al contenido digital

OAIS compliantActualizado aproximadamente cada 6 mesesUtiliazado por más de 80 bibliotecarios y 50 publicistas

Historia

2000: “Estudio de los elementos de costes”, Granger et al, proyecto CEDARS2000: Nacional Digital Information Infraestructura and Preservation Program (NDIIPP):

P id     l C  d  EEUUPromovido por el Congreso de EEUUDirigido por The Library of CongressObjetivo: crear y preservar una colección universal de conocimiento y creatividad para las generaciones futuras.

2001: Comienzan una serie de proyectos para analizar aspectos de almacenamiento, preservación y acceso a revistas. 

Algunas de las instituciones encargadas de estos proyectos fueron: Cornell University, Harvard University, Massachussets Institute of Technology, Starnford University, Yale University y la University of Pennsylvania…

Page 37: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

35

Historia

2002: Reference Model for an Open Archival Information System (OAIS)La publicación aprobada por el Management Council of the Consultative Committee for Space Data Systems (CCSDS). Define la International Organization for Standardization (ISO) Reference Model para un Open Archival Information System (OAIS).p yProporciona un marco para la preservación y acceso digital a largo plazo, incluyendo terminología y conceptos para describir y comparar arquitecturas de archivo.

2002: “Trusted Digital Repositories: Attributes and Responsibilities”Por RLG y OCLC.Basado en el Reference Model for an Open Archival Information System

2002‐2004: Digital Archiving and Long‐Term Preservation (DIGARCH)Por the National Science Foundation (NSF) y the Library of Congress (LoC). Investigación en modelos de repositorios digitales; herramientas, tecnologías y procesos; y cuestiones organizacionales, económicas y políticas.http://diggov.org/library/library/dgo2005/digarch/: presentaciones de resultados

Historia

2003: Carta para la preservación del patrimonio digital, UNESCO 

2006: Planets project. Objetivos:

l l l d l d d l lAsegurar el acceso a largo plazo del contenido digital valiosoReducir los costes incrementando la automatización y la escalabilidadConstruir soluciones prácticas integrando conocimientos, diseños y herramientas existentes

Conclusiones

La conservacióndel patrimonio digital es una medida necesaria que todos los países deben impulsar

Debe hacerse de forma cooperativa, generando alianzas  con ergencia de intereses    distrib endo y convergencia de intereses, y distribuyendo 

responsabilidades de manera que resulte beneficiosa para todos los agentes implicados

El conocimiento y la experiencia de las numerosas iniciativas permite reducir errores y potenciar las buenas prácticas

Bibliografía

Beagrie, Neil. et al. Trusted Digital Repositories: Attributes and Responsibilities, RLG‐OCLC Report, 2002. http://www.rlg.org/longterm/repositories.pdfReference Model for an Open Archival Information System (OAIS)“Digital Preservation, Architecture and Technology for Trusted Digital Repositories”, D Lib Magazine June 2005 Volume 11 Number 6  ISSN 1082 9873D‐Lib Magazine June 2005 Volume 11 Number 6, ISSN 1082‐9873“Digital Preservation in a National Context” , H.M. Gladney,D‐Lib Magazine January/February 2007, Volume 13 Number ½, ISSN 1082‐9873http://www.dlib.org/dlib/june05/jantz/06jantz.html“Cost elements of digital preservation” http://www.leeds.ac.uk/cedars/colman/CIW01r.htmlKelly Russell and Ellis WeinbergerDraft of 31 May 2000Preservation in the Digital World, http://www.clir.org/pubs/reports/conway2/, Paul ConwayHead, Preservation DepartmentYale University Library, March 1996Archivando la Web catalana: iniciativas cooperativas de preservación digital en Catalunya, Eugènia Serra Aranda, Julio 2006

Proyectos

CASPAR ‐Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval: http://www.casparpreserves.eu/Digital Preservation Europe:  http://www.digitalpreservationeurope.eu/  Planets‐Preservation and Long‐term Access through Networked Planets Preservation and Long term Access through Networked Services: http://www.planets‐project.eu/http://pandora.nla.gov.au/index.htmlCedars: http://www.leeds.ac.uk/cedars/index.htmlhttp://www.si.umich.edu/CAMILEON/http://www.dpconline.org/graphics/join/projects.html

BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN

Page 38: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

36

MotivaciónObjetivo fundamental de una BiD: ayudar a los usuarios a encontrar información

Recuperación de Datos (RD) vs. Recuperación de p ( ) pInformación (RI):

RD: recuperar ítems que satisfacen una query expresada en un lenguaje formal (ej: SGBD)RI: recuperar información en respuesta a una query expresada de manera imprecisa (necesidad de información)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Ámbito de la búsqueda

Todo el contenido de los documentosmuy costosopartes del contenido irrelevantes

Búsquedas en índices de términosBúsquedas en índices de términospalabras o grupos con relevancia para las búsquedaspueden construirse manual o automáticamente

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Marco de trabajo

Docs Vista lógica

doc

preproceso

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Information Need

doc

Query (tarea de RI)

RankingMatch (modelo de RI)

Fuente: Baeza & Ribeiro, 1999

Vista lógica de un documento

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Fuente: Baeza & Ribeiro, 1999

Ficheros invertidosLista de palabras que aparecen en un conjunto de documentos, y los lugares en los que aparecen

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Term Record Frequencycomputer 1 3computer 3 5computing 2 1distributed 2 1 parallel 1 2 system 2 1... ... ...

Fuente: Arms, curso de BiD

Lista invertida

Todas las entradas en un fichero invertido relativas a una palabra

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Fuente: Arms, curso de BiD

Page 39: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

37

Lematización (stemming)Truncar las palabras por su raíz común

Mejora la búsqueda de documentos conteniendo términos relacionados

Reduce el tamaño del fichero invertido

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Term Record Frequencycomput 1 3comput 3 5comput 2 1distribut 2 1parallel 1 2system 2 1... ... ...

Term Record Frequency computer 1 3 computer 3 5 computing 2 1 distributed 2 1 parallel 1 2 system 2 1 ... ... ...

Fuente: Arms, curso de BiD

Modelos de RI

Retrieval: Us

Classic Models

booleanvectorprobabilistic

Ad-hoc: colección estable, queries variables

Filtering: queries estables, colección variable

Algebraic

Generalized VectorLat. Semantic Index

Set Theoretic

FuzzyExtended Boolean

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

AdhocFiltering

Browsing

er

Task

Non-Overlapping ListsProximal Nodes

Structured Models

Browsing

FlatStructure GuidedHypertext

Neural Networks

Probabilistic

Inference Network Belief Network

Fuente: Baeza & Ribeiro, 1999

Modelo booleano

Dos o más términos de búsqueda, relacionados por operadores lógicos (and, or, not, adjacent, ...)

Ejemplo: "abacus and actor" j p

Proceso:

• lista invertida para “abacus”: documentos 3 y 19

• lista invertida para “actor”: documentos 2, 19, y 29  

• intersección de las dos listas: documento 19

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Fuente: Arms, curso de BiD

Diagrama booleanoA and Bnot (A or B)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

A B

A or B

Modelo Booleano: problemasLa recuperación se basa en un criterio de decisión binario (sin coincidencias parciales o aproximadas)

La necesidad de información del usuario debe traducirsea  na e presión booleana (no tri ial para m chosa una expresión booleana (no trivial para muchosusuarios)

Eso hace que a menudo las queries sean muy simples ‐> se recuperan demasiados documentos, o demasiado pocos.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Modelo Booleano: problemas

{Or restringe poco

Ej. “Quiero información sobre Bases de Datos y Compiladores”Bases de Datos ¿AND? Compiladores

Ej. “Documentos que versen sobre la ó

Confusión entre and y or

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

{Or restringe poco

And restringe mucho

No hay niveles de relevancia

No se ordenan los documentos recuperados según su adecuación a la consulta.

j qcorrupción de la Iglesia”Palabras de búsqueda: juicio, inquisición, tribunal, sentencia, hoguera, converso, corrupción, clérigo.

Ej. “documentos antiguos que hablen sobre la castidad, ESPECIALMENTE los que citan a San Pablo”

Page 40: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

38

Tesauro (thesaurus)Lista precompilada de palabras importantes en un determinado dominio

+  Para cada palabra, lista de palabras relacionadas

P   i i iPor sinonimiaPor patrones de co‐ocurrencia en documentos...

Inicialmente, usado como ayuda a la expresión de ideas por escritoEn RI, se utiliza para reformular preguntas

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tesauro: términos

Los términos son los componentes de indexaciónPueden ser palabras, grupos de palabras o frasesfrasesGeneralmente sustantivosVienen acompañados de una descripción, para evitar ambigüedades

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Tesauro: ejemplosRoget’s thesaurus (1911):

generalista• ship, vessel, sail; craft, navy, marine, fleet, flotilla

• book, writing, work, volume, tome, tract, codex

• search  discovery  detection  find  revelation• search, discovery, detection, find, revelation

Incluye descripciones

Otros tesauros más específicos:Art and ArchitectureThesaurus of Engineering and Scientific TermsMedlineEtc.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Modelo Vectorial

Introduce la posibilidad de coincidencias parciales

Se asigna peso (no binario) a los términosL           di   d  d   i ilit d Los pesos se usan para medir grados de similitud entre una pregunta y cada documento de una colección

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Modelo vectorial

Se asume la existencia de un espacio vectorial de n dimensionesn es el número de términos distintos en todos los documentos de la coleccióndocumentos de la colecciónDocumentos y consultas se representan mediante vectores en un espacio multidimensional

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Modelo vectorial

El coeficiente en cada dimensión es igual al número de veces que el término correspondiente aparece en el documento o la consulta

j

djla consultaPuede considerarse el peso del término

Proximidad: coseno del ángulo entre los vectores documento y consultaResultado consulta:documentos cuyos vectores difieren de los de la consulta menos de un umbral determinado

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

i

dj

Page 41: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

39

Modelo vectorial: ejemplo

Documentos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Vectores

Similitud

Fuente: Arms, curso de BiD

Modelo vectorial: ventajas

Asignar pesos a los términos mejora la calidad del conjunto de respuestaLa coincidencia parcial permite la recuperación de documentos próximos a las condiciones de la ppreguntaEl ranking basado en el coseno permite ordenar los documentos de acuerdo al grado de similitud con la consulta

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

FiltradoColección de documentos variable con el tiempo

Noticias, información financiera, ofertas de viajes, ...

Un perfil (profile) describe las preferencias del usuarioEl perfil se compara con los documentos entrantes para recuperar los que se corresponden con élPuede aplicarse algún tipo de ranking a nivel interno

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Filtrado

U 1

User 2Profile

Docs Filteredfor User 2

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Documents Stream

User 1Profile

Docs forUser 1

Filtrado: Construcción del perfil

Como un conjunto de palabras  clave suministradas por el usuario

mucho trabajo para el usuario: debe conocer las clasificaciones de t d  l   i t   d  d  d ttodos los sistemas generadores de documentos

☺ Construcción dinámica e incremental Inicialmente se suministran unas palabras claveSe recuperan documentosMediante un ciclo de realimentación, el usuario indica cuáles de ellos son relevantes, y cuáles no lo sonEl sistema actualiza automáticamente el perfilEl perfil se estabiliza con el tiempo

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Filtrado y RI

El filtrado es una tarea de RI, en la que el conjunto de documentos lo forman los documentos que van llegando al sistemaS   d   t   kiSe pueden computar rankingsAproximación muy prometedora en la Sociedad de la Información

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 42: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

40

Medidas de la RI

Si la RI fuese perfecta, cualquier documento recuperado sería relevante para la consulta, y todo documento relevante en la colección sería recuperado

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Número de documentos relevantes recuperadosRecuperación = (recall) Número de documentos relevantes

Número de documentos relevantes recuperadosPrecisión = (precision) Número de documentos recuperados

sería recuperado

EjemploColección de 10.000 documentos, de los cuales sólo 50 son relevantes para una consulta

Búsqueda ideal: encuentra los 50 y desecha el resto

Supongamos que una búsqueda real identifica 25 p g q q 5documentos, 20 de los cuales son relevantes y los 5 restantes no lo son

Recuperación: 20/50=0.4

Precisión:20/25=0.8

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

¿Es fácil medir?La precisión es fácil de medir:

Una persona conocedora del dominio examina cada documento identificado y decide si es relevanteEn el ejemplo, sólo es necesario revisar los 25 documentos encontradosencontrados

La recuperación es difícil de medir:Para conocer todos los documentos relevantes, debe revisarse toda la colecciónEn el ejemplo, los 10.000 documentos deberían ser examinados (en el peor caso) para encontrar los 50 relevantes

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Navegación (browsing)

Exploración del espacio de documentos en busca de ítems interesantesÚtil cuando no se tiene una idea clara de lo que se está buscandose está buscandoTipos de navegación:

PlanaGuiada por la estructuraHipertexto

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Navegación planaEn un conjunto de documentos o en un documento

Ejemplo: tras una búsqueda, se puede revisar el conjunto de documentos recuperados para intentar refinar la búsqueda en un ciclo de realimentaciónEjemplo: se puede explorar una página Web en un navegador  Ejemplo: se puede explorar una página Web en un navegador, usando el ratón y las barras de desplazamiento

Pero puede que no se sepa el contexto en el que se está

Ejemplo: abrir una novela en una página al azarPero podemos desconocer el capítulo en el que está esa página

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Navegación guiada por estructura

Los documentos pueden estar organizados en una estructura:

Directorio: jerarquía de clases que agrupan documentos acerca de temas relacionados

Un documento también puede estar estructurado:

Capítulo/sección_nivel1/ ... /sección_nivel10/párrafo

Cada uno de ellos determina un nivel de la jerarquía de navegaciónEjemplo: vista esquema de MS Word

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 43: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

41

HipertextoEstructura interactiva de navegación que permite explorar un texto de manera no secuencial

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Es un grafo, a cada uno de cuyos nodos se le asocia una región de texto

Los nodos pueden estar relacionados por medio de aristas del grafo (enlaces o links)

Un enlace está asociado a un fragmento del texto del nodo (normalmente resaltado)

Navegar: recorrer el grafo

Hipermedia

Ejemplo: Plan de Emergencia FGVBibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Hipertexto: problemas

“lost in the hyperspace” (Nielsen, 1990)En hipertextos grandes, puede llegar un momento en el que se lleguen a tomar decisiones erróneas de navegación, debido a la “pérdida de la orientación”

Solución: mapa del hipertextotraza del recorridoHerramientas de visualización adecuadas

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Diseño de hipertextos

El usuario de un hipertexto ha de navegar por los caminos que el diseñador ha creado a prioriEs fundamental diseñar bien el hipertextoR d iRecomendaciones:

Evitar un abuso de enlacesOrganizarlo jerárquicamente Realizar un modelado del dominio previo al diseño del hipertexto

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Referencias

Baeza, R. and Ribeiro, B. Modern Information Retrieval.Addison Wesley, 1999.

Arms, W.Arms, W.Digital Libraries.MIT Press, 2000Curso de BiD. Cornell University, 2000.

Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

BÚSQUEDAS EN LA WEB

Page 44: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

42

Objetivo

Ayudar al usuario a acceder a cierta información que se encuentra en la Web, de forma eficiente y precisa.

"The best navigation service should make it easy to find almost anything on the Web (once all the data is entered).“(Best of the Web 1994 – Navigators)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Contenido

ProblemáticaDirectoriosBuscadores

Arquitectura centralizadaArquitectura distribuida

MetabuscadoresConclusiones

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Crecimiento de la red

Rápido crecimiento de la red hace necesarias las herramientas de búsqueda de información:

1ª Generación: 1994 (Yahoo, Lycos, Altavista, ...).2ª Generación: 1997 (Google, ...)

Evolución de la web públicaNº webs públicasZ

ara

goza

, Fe

bre

ro d

e

2008

Evolución de la web pública

0

0.5

1

1.52

2.5

3

3.5

1996 1997 1998 1999 2000 2001 2002año

públicas (millones)

Bib

liote

cas

Dig

itale

s –©

J.H

. C

anós

-

Búsquedas en la Web

Formas de encontrar un documento en la red:

Introducir directamente la dirección URL en el 

Búsqueda de información en la web (2003)

52 0%

usan dirección URLmotores de búsquedanavegan

Zara

goza

, Fe

bre

ro d

e

2008

navegador (aumenta su uso)Navegar por la red usando links (decrece su uso)Utilizar herramientas de búsqueda (aumenta)

52.0%

15.0%

33.0%

Bib

liote

cas

Dig

itale

s –©

J.H

. C

anós

-

Modelos de RI

Ad-hoc: colección estable, queries variables

Filtering: queries estables, colección variable

Retrieval: AdhocFiltering

User

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008Fuente: Baeza & Ribeiro, 1999

Estructura predeterminadaBrowsing

Task

Escenario general de RI

Docs Vista lógica

doc

preproceso

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008Fuente: Baeza & Ribeiro, 1999

Information Need

doc

Query (tarea de RI)

RankingMatch (modelo de RI)

Page 45: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

43

La forma de la Web

Connectivity of the web: one can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes

f f

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC. (Broder, a. et al., Graph structure in the web, WWW9)

Docs Vista lógica

doc

preproceso

Escenario general de RI en la Web

Information Need

doc

Query (tarea de RI)

RankingMatch (modelo de RI)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008Fuente: Baeza & Ribeiro, 1999

Problemática (I)

El gran tamaño de la red y su crecimiento:Cobertura insuficiente del espacio web

Espacio indexado < 16% para un buscador general.Selección de páginas a indexar

Problemas de escalabilidad Arquitecturas convencionales (centralizada) no se escalan bien

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Problemática (II)Se debe indexar decenas o cientos de millones de páginas Web, dando lugar a un número comparable de términos de índice

Acceso limitado de los robots de búsqueda Páginas invisibles por acceso restringido,...Tamaño web invisible aprox 500 veces web visible (Bergman, 2001) 

Se debe dar respuesta a decenas de millones de preguntas al día

Hay un problema de escala frente a las técnicas tradicionales de RI

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Problemática (III)Los datos están distribuidos en muchos ordenadores y plataformas con distintas prestaciones de acceso

Hay un alto porcentaje de datos volátiles (~40% de la web cambia mensualmente)

Los datos en la web están desestructurados

La calidad de los datos no siempre es buena (e.g.: no hay revisión de lo publicado)

Los datos son heterogéneos (e.g.: diferentes lenguajes)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Problemática (IV)

¿Cómo especificar una pregunta?¿Cómo interpretar los resultados de una búsqueda?

Especialmente si la lista de páginas es muy grande

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 46: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

44

Problemática (V)El entorno no siempre es amigable.

VirusHackers Spam

Estrategias para modificar los resultados de las búsquedas con motivos comercialesRepetir palabras, repetir palabras colocadas de forma estratégica, texto invisible 

Efecto de la financiación privada sobre el desarrollo

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Problemática (VI)

Los documentos que no aparecen en las primeras páginas son ignorados

Problema del orden en la muestra de resultadosEfectos económicos y otros interesesZ

ara

goza

, Fe

bre

ro d

e

2008

Efectos económicos y otros intereses

Bib

liote

cas

Dig

itale

s –©

J.H

. C

anós

-

Spink, A., Jansen, B. J., Wolfram, D., & Saracevic, T. (2002). From e-sexto e-commerce: Web search changes. IEEE Computer, 35(3), 133-135.

Tipos de buscadores web

Dos tipos principales de buscadores:DirectoriosMotores de búsqueda 

Otros tipos de buscadores:Otros tipos de buscadores:Combinación de directorio y motor de búsquedaMeta‐buscadorBuscadores específicos

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Directorios

Páginas web donde la información está organizada de forma jerárquica según canales temáticos o categorías.L  di t i   tá  i d d  Los directorios están indexados manualmenteYahoo, Open directory

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

DirectoriosVentajas

Alta calidad en los resultadosEvita problemas como el spam

InconvenientesInconvenientesPoca coberturaAlto coste de mantenimientoDesarrollo y evolución lenta y costosaSubjetividad en la clasificación

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Motores de búsqueda

Páginas especiales cuya función es ayudar a los usuarios a encontrar información en otras páginas

d bú d l d lLos motores de búsqueda almacenan toda la información de las páginas Web indexadas en bases de datos

Google, Altavista, MSN Search

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 47: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

45

Motores de búsqueda

VentajasAlta coberturaBajo coste de desarrollo y mantenimientoj y“Objetividad”

InconvenientesCalidad en los resultados

Sistemas de búsqueda convencionales no aptosSpam

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Motores de búsqueda

Diferencia con los motores convencionales:Sólo se puede buscar en índicesBuscar en contenido supondría tener una copia local de los documentoslocal de los documentos

Arquitecturas:CentralizadaDistribuida

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Arquitectura centralizada

Crawler‐indexer ArchitectureBasada en robots o crawlers:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Web Robots

Programas que recorren la Web automáticamente:

visitan un documentorecursivamente  recorren los hiperenlaces del recursivamente, recorren los hiperenlaces del documento

Otros nombres:Web WanderersWeb CrawlersSpiders

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Aplicaciones de los robots

Indexación para posterior uso por un motor de búsquedaValidación de HTMLValidación de enlacesMirroring...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Robots: funcionamiento (I)

¿Cómo deciden adónde ir?En general parten de una lista de URL que contienen muchos enlaces servidores de listas  páginas “what’s new”  sitios más servidores de listas, páginas  what s new , sitios más popularesexploración de grupos de news

Los usuarios pueden enviar URL al robot, el cual los visitará

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 48: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

46

Robots: funcionamiento (II)

¿Qué indexa un robot de un documento?Los títulos HTMLLas etiquetas METAL   i   á fLos primeros párrafosTodo el documentoa veces con pesos en función de las marcas HTML

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Robots Exclusion ProtocolPermite a los administradores de sitios Web indicar a los robots que lo visitan qué partes no deberían ser visitadas

Cuando un robot visita un sitio (ej: http://www.unsitio.com), comprueba si el URL http://www.unsitio.com/robots.txt existe.

Si lo encuentra, lo explora en busca de entradas comoUser-agent: *

Disallow: /

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

El campo META/ROBOTSPermite a los autores de documentos HTML indicar a los robots si un documento puede ser indexado o usado para buscar nuevos enlaces

No se requiere ninguna acción por parte del administrador del sitio Web en el que se inserta el documento

Ejemplo:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Ejemplo: Altavista

En 1998:20 ordenadores multiprocesador130 Gb de RAM

 Gb d  di500 Gb de discoEl motor de búsqueda usa el 75% de los recursos

http://searchenginewatch.com/

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Motores de búsquedaEn 1998:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

http://www.searchengineshowdown.com

Google

Google aparece para mejorar los anteriores problemas

Calidad: Page RankEscalabilidad: Arquitectura que optimiza el uso del Escalabilidad: Arquitectura que optimiza el uso del espacio disponible y los tiempos de accesoOtros objetivos:

Facilidad de manejoPromover la investigación en el campo de los motores de búsqueda

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 49: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

47

Google Page Rank

Utiliza la estructura de hyperlinks para evaluar la importancia de las páginas

Una página a la que llegan muchos links será más importante que otra con apenas backlinksimportante que otra con apenas backlinksNo es suficiente con contar los backlinks que tiene cada página

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Google Page Rank

Modela el comportamiento de un usuario aleatorio que…

Comienza a navegar por una página aleatoriaNavega utilizando linksNavega utilizando linksNunca vuelve hacia atrásEn ocasiones comienza de nuevo

El Page Rank de una página es la probabilidad de que este usuario llegue a dicha página

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Google Page Rank

⎥⎦

⎤⎢⎣

⎡++++−=

)()(...

)()(

)()(·)1()(

2

2

1

1

n

n

TCTPR

TCTPR

TCTPRddAPR

donde:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

PR(A): Page Rank de la página AT1 …Tn: Páginas con links hacia A C(Tn): Links de la página Tn

d: factor de amortiguamiento (0<d<1) (aprox. 0.8)

Google Page Rank

VentajasEvita spamMejora la calidad de los otros sistemas

InconvenientesRich‐get‐Richer: las páginas mas populares lo son cada vez mas

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Google Anchor Text

Asocia el texto del link con la página donde se encuentra y a la que apunta

Mejor descripción de la páginaP it  i d  ti  d   hi  dif t  d  Permite indexar tipos de archivo diferentes de texto

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Google: Arquitectura

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 50: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

48

Google: Arquitectura

Crawlers: descargan las páginas de los servidores URL

3 ó 4 crawlers simultáneos (100 webs/seg)     b  t d  l   d1 semana para barrer toda la red

Store Server: Comprime y almacena el texto de cada pagina en el repositorio asociándolo a una dirección (docID)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Google: ArquitecturaIndexador

Lee el repositorio, descomprime los documentos y los analizaDescompone el documento en hits (sucesos)

Guarda la palabra, posición, fuente y tipoDistribuye los hits en barriles

Analiza los links y los almacena en Anchor FilesInformación de origen y destino

Sorter: A partir del índice organizado por docID, reindexa según wordID (inverted index)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Google: Arquitectura

URL ResolverLee los anchor filesCrea las direcciones URL asociadas a los docIDsI d   l      l í di  (b il)  iá d l  Introduce el texto en el índice (barril) asociándolo al docID al que apuntaGenera bases de datos de links

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Problemas locales Recogida de datos:

Naturaleza muy cambiante de la webSaturación de los canales de comunicación

V l  d  l  d tVolumen de los datos¿Serán capaces de manejar el crecimiento de la web en un futuro próximo?

Es importante una buena distribución de carga entre actividades externas (crawling) e internas (respuesta a preguntas e indexación)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Problemas globalesLos servidores web se cargan al recibir visitas de los diferentes crawlers

El tráfico en la web crece puesto que los robots descargan objetos completos, aunque luego se descarta la mayor parte del contenido

La información se recoge independientemente por cada robot, sin ningún tipo de coordinación entre ellos

Las arquitecturas distribuidas pueden resolver estos problemas

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Arquitectura distribuidaEjemplo: Harvest

http://harvest.transarc.comBibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 51: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

49

Harvest: gatherer

Extrae y recoge información de índices de uno o más servidores web

Puede enviar información a uno o más brokers

Los tiempos de extracción pueden ser definidos en el sistema

Si se asocia a un servidor web, se elimina tráfico de/hacia ese servidor

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Harvest: broker

Proporciona el mecanismo de indexado y la interfaz de de consulta de los datos recogidos

Puede recoger información de uno o más h d b kgatherers o de otros brokers

Opción interesante: construir brokers para temas específicos

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Harvest: otros componentes

Un broker especial proporciona información sobre otros brokers y/o gatherersSe utiliza un replicador para permitir accesos á   á idmás rápidos

Una caché de objetos reduce carga de la red y el servidor al almacenar copias locales

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Metabuscadores

Servidores Web que envían una consulta determinada a varios motores de búsqueda, recogen las respuestas y las unificanhttp://www sc edu/beaufort/library/lesson2 htmlhttp://www.sc.edu/beaufort/library/lesson2.html

http://www.tusbuscadores.com/metabuscadores/

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

ConclusionesLas herramientas de búsqueda son necesarias debido al tamaño de la redProblemas a los que se enfrentan

TamañoNº de búsquedasNo hay centralizaciónyVolatilidad de InformaciónEntornoEfectos económicosElección de un ranking adecuado

Dos tipos de herramientasDirectorios (alta calidad, poca cobertura)Motores de búsqueda (menos calidad, mayor cobertura)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Uso de los buscadores

Porcentage de busquedas en USA Julio 05

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

36.5% 30.5%

15.5%9.9%

6.1%

0.9%

0.6%

GOOGLEYAHOOMSNAOLASKINFOSPACEOTROS

Page 52: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

50

Visitas a buscadores

RANKING NOMBRE DOMINIO MAYO JUNIO JULIO

1 Google www.google.com 38.30% 39.00% 39.40%

2 Yahoo search.yahoo.com 18.40% 18.30% 18.20%

3MSN Search search.msn.com 15.60% 15.50% 15.40%Google

4Google Images images.google.com 4.50% 4.20% 4.00%

5 Ask Jeeves www.askjeeves.com 2.40% 2.00% 2.00%

images.search.yahoo.com

7 AOL Search www.aolsearch.com 0.60% 0.80% 1.00%

www.mywebsearch.com

9 Dogpile www.dogpile.com 0.80% 0.80% 0.80%

10 My Search www.mysearch.com 0.70% 0.70% 0.70%

1.50%

8My Web Search 1.10% 0.90% 0.90%

6Yahoo Images 1.60% 1.50%

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Datos sobre las visitas a buscadores Julio 2005 en USA

Composición de www

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Tendencias futuras

Aumentar la cobertura en la red, e incluso fuera de ella ( google earth, google print publisher, google catalogs, …)Mayor calidadMayor calidad

Mejora de los algoritmos de rankingBúsqueda personalizada (historial)Organización de los resultadosRespuesta compleja

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Referencias

Baeza‐Yates, R. & Ribeiro‐Nieto, B., Modern Information Retrieval, Addison‐Wesley, 1999. Capítulo 13

The Web Robots Page:

http://info.webcrawler.com/mak/projects/robots/robots.html

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

ReferenciasThe Anatomy of a Large‐Scale Hypertextual Web Search Engine. Brin, Sergey and Page, Lawrence. Computer Science Department, Stanford University, Stanford, CA 94305, USA. http://www‐db.stanford.edu/pub/papers/google.pdfImpact Of Search Engines On Page Popularity. Junghoo, Cho and Sourashis, Roy. UCLA Computer Science. ACM 1‐58113‐844‐X/ /  X/04/0005 http://info.webcrawler.com/mak/projects/robots/robots.htmlHow much information 2003. http://www.sims.berkeley.edu/research/projects/how‐much‐info‐2003/internet.htmhttp://searchenginewatch.comSearch marketing

Bibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

ReferenciasGoogle: http://www.google.com

Altavista: http://www.altavista.com

Yahoo: http://www.yahoo.com

HotBot: http://www.hotbot.com

Lycos: http://www.lycos.comy p y

Excite: http://www.excite.com

MSM: http://search.msn.com/

Mamma: http://www.mamma.com/

Metacrawler: http://www.metacrawler.com/

Search Engine Guide: www.searchengineguide.com

Galaxy: http://www.galaxy.com/

WWW Virtual Library: http://www.vlib.org/

Educational Virtual Library: http://www.csu.edu.au/education/library.html

Earth Science Portal: http://webserv.gsfc.nasa.gov/ESD/

AllConferencesNet: http://www.allconferences.netBibliotecas Digitales –© J.H. Canós - Zaragoza, Febrero de 2008

Page 53: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

51

INTEROPERABILIDAD EN BIBLIOTECAS DIGITALES

BiD: sistemas distribuidos

Usuarios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Repositorios

Sistemas de localización Sistemas de búsqueda

Usuarios

Sin embargo...

BiD: sistemas distribuidos heterogéneos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

El problema

¿Cómo descubrir información repartida en diferentes ordenadores...

Cada uno con sus propias reglas de gestión de la informaciónCada uno usando tecnologías posiblemente diferentes

... sin que la carga del descubrimiento recaiga en el usuario?

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Desafío: Interoperabilidad“Construcción de servicios coherentes para los usuarios cuando los componentes individuales son técnicamente diferentes y gestionados por diferentes organizaciones” 

(Arms, pág 18)

Desde la perspectiva tecnológica, uno de los problemas más serios en BiD en la última década 

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

FuncionalidadIdealmente, una BiD de colecciones mantenidas independientemente debería aparecer como un gran recurso en el que todas ellas se comportasen de la misma manera 

En la práctica, esto no suele ser posible, y se han de tomar ciertas decisiones de diseño

Sólo hacer pública la funcionalidad comúnAceptar diferencias de comportamiento

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 54: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

52

Interfaz de usuario

La uniformidad en IU requiere el desarrollo de todo un interfaz que reemplace el de cada colección

No es necesario si se permite que cada colección ofrezca su propio interfaz (Ej.: NDLTD)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Interoperabilidad sintáctica

Ejemplo: un componente publica la interfaz de una función:

print(String:author,String:pubData,Float:price, String:address)

Cualquiera puede invocar la función siguiendo el patrón definido en la interfaz

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Interoperabilidad semántica

En el ejemplo anterior, el componente publica además:

La función print imprime en la impresora láser de 600 dpi situada en el Laboratorio 3  una factura en 600 dpi situada en el Laboratorio 3, una factura en euros del libro descrito en los parámetros.

Mucho más difícil de conseguir!

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Soluciones 

EstandarizaciónAlmacenamiento y transmisión de datosRepresentación de consultasC l d   b l iControl de vocabularios

FederaciónAutonomía de los nodosVista única para recuperación

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Estandarización (I)

Aproximación convencional:Los líderes de la tecnología desarrollan estándaresProtocolos, formatos, etc.

T d   l  d  i l t  l   tá dTodo el mundo implementa los estándaresSe dispone entonces de un sistema distribuido e integrado

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Estandarización (II)

Problemas:Los estándares son caros de adaptarLos conceptos cambian continuamenteL   i   bi   iLos sistemas cambian continuamente

Se debe valorar el coste de aceptación de los estándares frente a la funcionalidad

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 55: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

53

Ejemplo: coste vs. función

Coste de aceptación

SGML

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008Funcionalidad

ASCII

HTML

XML

Tres aproximacionesCoste de aceptación

2Z39.50SGML

Mucha funcionalidad, alto coste y uso restringidopero satisfactorio

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008Funcionalidad

1HTMLHTTPURL

Poca funcionalidad, bajo coste y amplio uso

3Dublin Core

UnicodeXML

Funcionalidad sustancial a coste razonable

BiD FederadaGrupo de BiD que soportan estándares y servicios comunes, proporcionando interoperabilidad y un servicio coherente a los usuarios

En una federación  los miembros pueden tener diferentes sistemas  En una federación, los miembros pueden tener diferentes sistemas, pero deben estar de acuerdo en:

Estándares técnicos (formatos, protocolos, interfaces, modelos de objetos, metadatos, etc.)Políticas (financieras, propiedad intelectual, seguridad, privacidad, etc.)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

La federación de Z39.50

Federación de BiC

Acuerdos: uso deAnglo American Cataloging Rules

MARCMARC

Protocolo Z39.50

Las BiC reducen costes compartiendo registros

Uso primordial con registros bibliográficos

Muy extendido en sistemas de gestión de BiC

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Fundamentos de Z39.50 (I)El protocolo permite a un ordenador (el cliente) buscar y recuperar información en otro ordenador (el servidor)

El servidor almacena un conjunto de bases de datos con índices sobre los que se puede buscar

l d l l dLas interacciones entre cliente y servidor se realizan en el marco de una sesión

El cliente abre una conexión en el servidor

Se llevan a cabo una serie de interacciones

Al finalizar se cierra la sesión

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

En el transcurso de una sesión, tanto el servidor como el cliente recuerdan el estado de su interacción

El servidor realiza la búsqueda y construye y almacena un conjunto de resultados

Fundamentos de Z39.50 (II)

j

Posteriores mensajes desde el cliente pueden referenciar el conjunto de resultados

De este modo, una vez construido el conjunto de resultados, no es necesario buscar cada vez toda la base de datos para refinar la búsqueda

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 56: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

54

El cliente es un ordenadorLas aplicaciones de usuario final necesitan una interfaz adecuada

El protocolo no especifica la forma de la interfaz de 

Fundamentos de Z39.50 (III)

El protocolo no especifica la forma de la interfaz de usuario ni cómo ésta se conecta con el cliente Z39.50

Más información: http://www.loc.gov/z3950/agency/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Z 39.50 services

init -- client connects to the server and exchanges initial information, e.g., preferred message size

explain -- client inquires of the server what databases are available for searching, the fields that are available, the syntax

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

available for searching, the fields that are available, the syntax and formats supported, and other options

search -- client presents a query to a database choices of syntax for specifying searches

• only Boolean queries widely implemented • one or more records may be returned to the client

Z 39.50 services

manipulation of results sets -- e.g., sort or delete

present -- requests the server to send specified records from the results set to the client in a specified format

i f lli d f

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

• options: for controlling content and formatsfor managing large records or large results sets

Dienst

Davis & Lagoze (Cornell, 1995)Protocolo para BiD distribuidasUsado en NCSTRL (Networked Computer Science Technical Reports Library, URL)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Dienst: objetivos

Protocolo abierto que permita interoperar a un conjunto de BiD a modo de federación

Autonomía de gestión de los repositorios

Il ió  d   if id dIlusión de uniformidad

Escalabilidad

Sin pérdida de usabilidad ni de prestaciones

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Dienst: arquitectura

Componentes:Modelo lógico de documentoIndependiente de la presentación física

S i i  d  BiD di t ib idServicios de BiD distribuidaBásicos + manejo de colecciones

Protocolo abierto (Dienst)Sobre el modelo de servicios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 57: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

55

Dienst: servicios básicosServicio de repositorio

Almacena y proporciona acceso a los documentos estructurados según el modelo anterior

Servicio de índiceAlmacena (meta)información de indexación de las colecciones de documentos.Responde a preguntas sobre dicha información

Servicio de interfaz de usuarioProporciona el front‐end a otros servicios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Dienst: interacción entre servicios básicos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Dienst: otros serviciosServicio mediador de consultas

Despacha consultas a los servicios de índice apropiados mediante un broadcast

Servicio de informaciónRetorna información sobre el estado de un servidor que proporciona uno o más servicios

Servicio de colecciónProporciona información de cómo un conjunto de servicios interaccionan para formar una colección

Servicio de registroAlmacena información sobre   usuarios humanos de los servicios de una colección

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008 Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Dienst: protocolo (II)Repository Service

Describe‐Verb

Disseminate

Formats

List‐Authorities

List‐Binders

List‐Contents

List‐Encodings

Index ServiceDescribe-VerbHeader-TagsList-VerbsSearchBoolean

Query Mediator ServiceDescribe-VerbLi t V b

Collection ServiceDescribe-VerbList-VerbsRegionsCollectionPublishersQueryMediatorsIndices

List‐Encodings

List‐Meta‐Formats

List‐Partitions

List‐Verbs

List‐Versions

New‐Version

Submit

Submit‐Formats

Structure

Terms

Withdraw

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

List-VerbsSearchBoolean

Repositories

Info ServiceDescribe-VerbList-VerbsIdentityList-Services

Open Archives Initiative

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

http://www.openarchives.org

Page 58: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

56

Conceptos básicos de OAI

• interoperabilidad a bajo nivel

• modelo data-provider/service-provider

• cosecha de metadatos

OAI 1.0 protocol

HTTP based

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

(metadata harvesting)

• metadatos compartidos y formatos específicos de

cada comunidad

• uso aceptable

• flexibilidad

Dublin Core

Community specific

Reply • XML Schema

• Self contained

metadata

FTXT

e-print

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

OPAC

image

A&I

OAI harvesting tools

Supporting protocol requests:• Identify• ListMetadataFormats

repo

harv

service provider data provider

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

• ListSets

Harvesting protocol requests:• ListRecords• ListIdentifiers• GetRecord

os i tory

ves ter

Peticiones sobre HTTP

BASE-URL -----------> an.oa.org/OAI-scriptkeyword arguments --> verb=ListIdentifers&set=S1

GET

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

GEThttp://an.oa.org/OAI-script?verb=ListIdentifers&set=S1

POSTPOST http://an.oa.org/OAI-script HTTP/1.0Content-Length: 78Content-Type: application/x-www-form-urlencodedverb=ListIdentifers&set=S1

Respuestas sobre HTTP

<xml version=1.0 encoding=“UTF-9” ?><GetRecord

xmlns=“http://oai.namespace.uri”xmlns:xsi=“http://w3.namespace.uri”xsi:schemaLocation=“http://oai.namespace.uri

htt // i h URL”>

xml namespaces

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

http://oai.schemaURL”><responseDate>2000-19-01T19:30:30-04:00</responseDate><requestURL>http://an.oa.org/OAI-script?verb=GetRecord

&amp;identifier=oai%3AarXiv%3A0001&amp;metadataPrefix=oai_dc</requestURL>

<record>record contents

</recordadditional records

</GetRecord>

responseheader

responsedata

Peticiones de soporte (I)

Identify repo

harv

service provider data provider

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

•Repository name •Base-URL

• Admin e-mail• OAI protocol version• Description Container

os i tory

ves ter

Page 59: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

57

Peticiones de soporte (II)

ListMetadataFormats repo

harv

service provider data provider

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

REPEAT• Format prefix

• Format XML schema/REPEAT

os i tory

ves ter

Peticiones de soporte (III)

ListSets repo

harv

service provider data provider

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

REPEAT• Set Specification

• Set Name/REPEAT

os i tory

ves ter

Peticiones de recolección (I)

* from=a* until=b* set=klm

ListRecords * metadataPrefix=oai_dc repo

harv

service provider data provider

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

REPEAT• Identifier• Datestamp• Metadata

•About Container/REPEAT

os i tory

ves ter

Peticiones de recolección (II)

repo

* from=a* until=b

ListIdentifiers * set=klmharv

service provider data provider

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

REPEAT• Identifier• Datestamp

/REPEAT

os i tory

ves ter

Peticiones de recolección (III)

* identifier=oai:mlib:123aGetRecord * metadataPrefix=oai_dc r

epo

harv

service provider data provider

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

• Identifier• Datestamp• Metadata

• About

os i tory

ves ter

What’s Next?

OAI‐ORE (Object Reuse and Exchange)

http://www.openarchives.org/ore/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008

Page 60: Motivación (1/2) - Eolo Home Pageeolo.cps.unizar.es/docencia/doctorado/2008 Hilario-Parte1.pdf · 1 BIBLIOTECAS DIGITALES José Hilario eliminarCanós Cerdá DepartamentodeSistemas

58

ReferenciasArms, W.

Digital Libraries.MIT Press, 2000Curso de BiD. Cornell University, 2000.

Paepcke, A., et al., Interoperability for Digital LibrariesWorldwide. Communications of theACM, April 1998/Vol.  N  41, No. 4

Z39.50: http://www.loc.gov/z3950/agency/

DIENST:www.cs.cornell.edu/cdlrg/dienst/DienstOverview.htm

Open Archives: http://www.openarchives.org

Bibliotecas Digitales – © J.H. Canós - Zaragoza, Febrero de 2008