El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
-
Upload
biblioteca-nacional-de-espana -
Category
Technology
-
view
6.052 -
download
1
description
Transcript of El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
El archivo de Internet, bibliotecas que piensan en el futuro
Mar Pérez MorilloJefe del Servicio de Coordinación Web, Biblioteca Nacional de España
BIBLIOTECA NACIONAL DE ESPAÑA2
Índice
– Contexto• Consideraciones generales
– Panorama internacional• IIPC• Biblioteca Nacional de Francia• Biblioteca Nacional de Austria• ISO TC 46/SC 8/WG 9
– La ley de Depósito Legal– El proyecto de la BNE
• Primeros pasos• Situación actual – Planes inmediatos• Perspectivas de futuro
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA3
Contexto
Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003)
– Volumen de los datos.
– Duración de la información en línea (44 días y 2 años).
– Internet constituye un invalorable espejo de la sociedad.
– La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar.
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA4
Contexto: consideraciones generales
– Tarea llena de retos
– Finales de los 90: Internet → fundamental en la difusión del conocimiento
– Los documentos en línea desaparecen de repente
– Falta de perspectiva histórica: valor impredecible
– La web no es un depósito de ejemplares
– Características de la web: grande, global, rápida, intangible, universal
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA5
Panorama Internacional: IIPC
– Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive
– Adquirir, preservar y hacer accesible la información en internet para el futuro
– Objetivos:• Posibilitar recolección, preservación y acceso a largo plazo
a contenidos de internet• Desarrollar herramientas comunes para crear archivos
internacionales• Defender iniciativas internacionales con este propósito• Apoyar a instituciones dedicadas a esta tarea
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA6
Panorama Internacional: IIPC
– Grupos de trabajo muy activos:• Recolección• Acceso• Preservación
– Proyectos de colaboración:• Facebook• Wikileaks• Terremoto y tsunami en Japón (Internet Archive - National Diet)• Olimpiadas 2012• Memento
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA7
Panorama Internacional
– BnF (Biblioteca Nacional de Francia) → desde 2002• Al amparo de su ley de DL• Sólo acceso para investigadores en sus instalaciones• Combinan recolección masiva y selectiva• Empezaron con Internet Archive y se independizaron
– Biblioteca Nacional de Austria• Empezaron haciendo sólo recolección selectiva y por
acontecimientos• En 2010 hicieron su primera recolección del dominio .at• Su política es combinar los tres modelos (selectiva, por
acontecimientos y masiva)– Ambas utilizan Netarchive Suite
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA8
Panorama Internacional: Iniciativas de archivado web
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA9
Panorama Internacional: ISO TC 46/SC 8/WG 9
El archivo de Internet, bibliotecas que piensan en el futuro
Estadísticas y aspectos de calidad en los archivos web
– Objetivo: elaborar un informe técnico– Definición de términos y elementos relativos a estos proyectos– Establecer aspectos cuantificables para medir la calidad– Repaso de distintos aspectos relacionados con este tipo de proyectos:
• Personal• Costes• Evaluación → establecimiento de indicadores de calidad• Tipos de proyectos según distintos criterios
– Estado actual de la cuestión
BIBLIOTECA NACIONAL DE ESPAÑA10
La Ley de Depósito Legal en España
El archivo de Internet, bibliotecas que piensan en el futuro
– Decreto del 57:• Preocupación por regular “las obras derivadas de los inventos
modernos”– Anteproyecto de ley de DL (2011)
• Publicaciones digitales → patrimonio a preservar• Acceso y consulta de publicaciones almacenadas• Publicaciones digitales →objeto de DL• Sitios web → incluidos en el DL• Centros de conservación → habilitados para rastrearlos y
conservarlos• Límites: propiedad intelectual y protección de datos
BIBLIOTECA NACIONAL DE ESPAÑA11
El proyecto de la BNE: Primeros pasos
El archivo de Internet, bibliotecas que piensan en el futuro
• Primer contrato con Internet Archive: 2009-2010
• Objetivo: recolectar, archivar y preservar el dominio .es
• Primeras recolecciones
4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010
• Después de cada recolección:
Deduplicación
Indización
Rastreo de parcheado
BIBLIOTECA NACIONAL DE ESPAÑA12
El proyecto de la BNE: Primeros pasos
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA13
El proyecto de la BNE: Situación actual
El archivo de Internet, bibliotecas que piensan en el futuro
• Resultados:
30 TB de información almacenada
Más de 875 millones de URL:
Más de 317 millones en la primera recolección
Cantidades menores en las tres siguientes complementarias
• Acceso a la colección
• Interfaz de consulta que necesita personalización
• Búsquedas:
Por URL
Por palabra a texto completo (necesita depuración)
BIBLIOTECA NACIONAL DE ESPAÑA14
El proyecto de la BNE: Situación actual
El archivo de Internet, bibliotecas que piensan en el futuro
• Informes
MIME (Multipurpose Internet Mail Extension)
Respuestas de servidores
Servidores
Exclusiones
• Análisis de la colección mediante calas:
Páginas recolectadas con éxito
Niveles de navegación que se han guardado
Porcentaje de webs guardadas que han desaparecido (casi un 3%)
Otros dominios capturados aparte de .es
Aproximación a porcentaje de temáticas
BIBLIOTECA NACIONAL DE ESPAÑA15
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
• Perspectivas de crecimiento 2011-2012
• Nuevo contrato con Internet Archive:
2 recolecciones masivas (2011), alternadas con
2 recolecciones selectivas (2011 y 2012):
Temáticas
Acontecimientos (Elecciones Generales 2012)
• Buscar colaboradores para las recolecciones selectivas
• Probablemente estaremos cerca de duplicar la colección actual
• Análisis de la colección muy de cerca durante los rastreos
• Pruebas de rastreo propias con NetarchiveSuite → podremos evaluar en algunos aspectos nuestra capacidad de autogestión
BIBLIOTECA NACIONAL DE ESPAÑA16
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA17
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA18
El proyecto de la BNE: Perspectivas de futuro
El archivo de Internet, bibliotecas que piensan en el futuro
• Acceso a la colección ¿en local o en remoto?
• Personalización de la interfaz
• Traslado de la colección:
Propuesta con varias alternativas por parte de IA
Habilitación de espacio físico
Recursos para el mantenimiento de la colección
• Recolectamos nosotros → adopción y desarrollo de un software
• Gestión de la colección:
Organización temática
Planificación de nuevas recolecciones
Inclusión de otros dominios españoles fuera del .es
• Colaboración con Comunidades Autónomas (??)
BIBLIOTECA NACIONAL DE ESPAÑA19
Referencias de interés
– IIPC: www.netpreserve.org
– Proyecto Memento: http://www.mementoweb.org/
– Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives
– Internet Archive: www.archive.org
– Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html
– Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm
– Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html
– NetarchiveSuite: http://netarchive.dk/suite/Welcome
– “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0
El archivo de Internet, bibliotecas que piensan en el futuro
Mar Pérez MorilloServicio de Coordinación Web
Pº de Recoletos, 20-22 28071 Madrid
EspañaT +34 915 807 800
www.bne.es
BIBLIOTECA NACIONAL DE ESPAÑA