Preservação digital de teses e dissertações
Experiência do repositório cooperativo TDX
Ricard de la VegaComputing and Applications Manager
Consorci de Serveis Universitaris de Catalunya (CSUC)
10º debateGrupo de Pesquisa Dríade
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
• Generalitat de Catalunya• Universitat de Barcelona (UB)• Universitat Autònoma de Barcelona (UAB)• Universitat Politècnica de Catalunya (UPC)• Universitat Pompeu Fabra (UPF)• Universitat de Girona (UdG)• Universitat Rovira i Virgili (URV)• Universitat de Lleida (UdL)• Universitat Oberta de Catalunya (UOC)• Universitat Ramon Llull (URL)• Universitat de Vic (UVic)
• Gestão de infraestruturas e serviços cooperativos para as universidades e lá investigação da Catalunha
• Fusão de um consórcio TIC e um bibliotecário
Consórcio de Serviços Universitários de Catalunha (CSUC)
Nossos serviços
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009
Repositórios de cooperação
TDX RECERCAT RACO PADICAT
RECYT MDC MDX PADICYT
CALAIX FILMOTECA SCIENTIA MACBA
Repositórios digitais
2001 2005 2006 2006
2006 2006 2009 2009
2010 2012 2015 2015
Quase 15 anos de repositórios…
Tese Trabalhos de pesquisa Revistas Websites
Revistas Património colecções
Materiais didáticos Websites
Dept. Cultura Património cinematográfico Dept. Saúde Património
artístico
Conteúdo
Texto (PDF) Texto (PDF) Texto (PDF) WARCs
Texto (PDF) Imagem Texto (PDF) WARCs
Texto, imagem,
audiovisual
Texto, imagem,
audiovisual
Texto, imagem,
audiovisual
Texto, imagem,
audiovisual
Formatos: texto, imagem, vídeo...
DSpace DSpace OJS Heritrix, etc.
OJS CONTENTdm DSpace Heritrix, etc.
DSpace DSpace DSpace DSpace
Programas: DSpace, OJS...
Gestão de dados científicos
Grupo de trabalho per:– Criação de uma política
– Data Management Plans• Orientações (http://hdl.handle.net/2072/266523)• DMP Online instância de DCC
– Repositório de dados de pesquisa• Orientações (http://hdl.handle.net/2072/266502)• Possível criação de um repositório cooperativo
– Piloto
Portal de pesquisa da Catalunha
Other
DRACUniversitas XXI
GRECSIGMA
UNEIX
PRC
Local and consortia repositories.
Mainly DSpace
Catalan government
DataWarehouse
PRC. Based on Dspace-CRIS
(CINECA)
11 university CRIS systems (from 4
different vendors)
Protocol: OAI-PMH/SWORDFormat: DC
Protocol: OAI-PMHFormat: CERIF-XML
Protocol: XLS filesFormat: UNEIX defined
Portal de pesquisa da Catalunha
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
TDX em 2001 (80 GB, 8K access hits)
TDX em 2016 (0.6 TB, 4.5M access hits)
Estructura de TDX
Cada universidade (18):• é uma Comunidade• Tem licenças de
admissão de teses• Administra sua coleção• Personalização• Pesquisadores frontend
Procedimentos e grupos de trabalho comum Universidades
Estructura de TDX
Departamentos e faculdades
Teses
Divulgação e preservação da tese
URV
UVic
UdGUdL
UV
UJI
UM
UCUA
UAB
UPFUB
Arquivos
UIB
Metadados
Admissão das 18universidades
Divulgação da tese espanholas
3333
3333
3333
3333
OAI-PMH harvester da tese das 33 universidades espanholas
CRISCRISCRIS
Mais divulgação da teses
DART
Recolecta
Driver
Tese europeia
Trabalhos de pesquisa espanhol
Trabalhos de pesquisa europeia
…
Motores de busca
Outros colecionadores
Portal de pesquisa da Catalunha
CRISCRISCRIS
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Long term preservation• The e-infrastructure must ensure the long term data
access, without failure.
• To succeed, it must be taken into account:– Replication (more than one copy)– Media refresh – Format migration– Data integrity (checksums)– Contingency and recovery plan– Preservation plan – ...
Hardware migrations2001 (cpu, disk and tapes)
– HP N40002003 (cpu + disk)
– HP rp5430 with 2 processors, 704 GB memory– HP EVA V.2 with 2,8 TB disk
2006 (cpu + tape)– High availability HP cluster with 32 nodes– Adic Scalar i2000 (from 9840 tapes to LTO3)
2009 (disk)– NetApp FAS3170 with 60 TB disk
2012 (cpu)– New High availability cluster
2016 (disk)– New storage cabine
Born in a supercomputer!
Software migrations
2001 – ETDdb from Virginia Tech2005 – + OAI-PMH & statistics modules 2007 – + Spanish Thesis Harvester (MetaIndex module + X-Server libraries) from Ex Libris2011 – DSpace 1.6 from MIT & HP labs2013 – + Drupal for news & intranet…2016 – DSpace 5.2
Data integrity & Format migration
• Data Integrity– Checksums on DSpace (online version)– Checksums on LOCKSS (dark copies)
• Format migration– Not yet (PDF)– But Metadata migration yes
• From HTML forms (ETDdb) to Dublin Core (DSpace)
Replication
• On disk - Online version (1)• One backup on the tape library (2)• Other backup on a fireproof cabinet (3)• Other backup on a 50 Km remote Centre (4)• A dark copy on the MetaArchive Cooperative
– Private LOCKSS (Lots of Copies Keep Stuff Safe) Network– 7 more copies around the world (11)
• And (possible) more copies on each University
MetaArchive Cooperative
• The Educopia Institute’s mission is help cultural, scientific, and scholarly institutions achieve greater impact
• Lots of Copies Keep Stuff Safe (LOCKSS)
• A private LOCKSS network (PLN)
• Centralized facilities (conspectus, svn…)
• P2P secure network of “cache” nodes
Marketing...
“With others, you can accomplish what you cannot accomplish alone”“Don’t put all your eggs in one basket”
Private LOCKSS Networks (PLNs)• Alabama Digital Preservation Network (ADPN). • CLOCKSS Archive.• Council of Prairie and Pacific University Libraries (COPPUL) • Data Preservation Alliance for the Social Sciences (Data-PASS)• Digital Commons.• Digital Federal Depository Library Program.• CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia• Lukll.• MetaArchive Cooperative.• PKP Public Knowledge Project. • PNAS Proceedings of the National Academy of Sciences. • Persistent Digital Archives and Library System – PeDALS. • SAFE (SAFE Archiving FEderation). • Synergies.• UK LOCKSS Alliance
Fonte: www.lockss.org/community/networks
50 instituições em 3 países
Como funciona?
Arquivo escuro
Private LOCKSS network
• 7 copies with widespread geographical distribution
• All 7 servers revisit on a regular basis to pick up new and changed content
• Versioning (no remove changed content)• Checksums file integrity control
Benefits– Distributed archiving of digitals collections across
multiple geographically distributed preservation sites
– Retrieval of contents in case of catastrophic loss
– Assistance with installation and maintenance of the technical solution
– Reports, coordination web conference…
Responsibilities
Initially:
– Local LOCKSS installation (cache)
– Define a data preservation strategy (Data Wrangling) for your “particular” repository
– Rules design for the other cache to harvest your repository (Plugin)
– Enroll your collections in a central database (Conspectus)
Responsibilities
Periodically:
– Add collections (of others) assigned centrally
– Apply firewall changes (IP active list)
– Apply updates
– Coordination with the MetaArchive staff and others cache if a restore (for disaster) is needed
Nuestra experiencia con MetaArchive
– Fácil modelo
– Relativamente barata
– Eu comprovada (em casos reais)
– Precisamos conhecimento técnico
– É apropriado para o conteúdo bem definido
– Formato agnóstico, “solo" preserva arquivos
Bibliografia– A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds.
(Atlanta, GA: Educopia Institute, 2010). http://
metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf
– Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978-
84-9064-082-1.
– Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i
documentació, 2013,Núm. 57 .
http://www.raco.cat/index.php/Item/article/view/269708/372314
– Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan
Policies and Experiences on Cooperative Repositories". Centre de
Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083
Muito obrigado!
[email protected]@rdelavegahttps://es.linkedin.com/in/ricarddelavega
“Sometimes a scream is better than a thesis”Manfred Eigen
www.tdx.cat
www.recercat.cat
www.raco.cat
www.raco.cat
www.raco.cat
ww
w.p
adic
at.c
at
http://recyt.fecyt.es
http://mdc.cbuc.cat
ww
w.m
dx.c
at
http://padicyt.es
Hht
p://c
alai
x.ge
ncat
.cat
http
:://re
posi
tori.
film
otec
a.ca
t
http
://sc
ient
iasa
lut.g
enca
t.cat
Macba!
http
://re
posi
tori.
mac
ba.c
at
Top Related