Post on 17-Jul-2015
Dades de recerca
� Les dades de recerca estan començant a reconèixer com una font de coneixement propia i independent de les publicacionsque poden ser usades en la validaciódels resultats d’investigació publicats en articles, per generar nou coneixent i per ser explotats de manera interdisciplinar.
Font: http://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf
5
� Big Data is a collection of data sets so large and complex that it becomes dificult to process using on-hand database management tools or traditional data processing applications (wikipedia)
� Velocitat
• Sistemes de distribució de processos
• (MapReduce, Hadoop, Solr...)
� Volum
• Sistemes de fitxers distribuits
• (cabines de discs...)
� Varietat
• BBDD no relacionals
� Exemples
• 340 M de tuits/dia
• 1.000 M de consultes/dia a Google
• Large Hadron Collider (LHC)
• European Bioinformatics Institute
Big data
5
Font: http://assets.outliers.es/bdw13/bigdata/BDW_BigData.pdf
6
Research data
� 80.000 estructures en 3D de molècules
� 69 persones
� Aprox. 150 GB
6
Font: http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012
� Worldwide Protein Data Bank Archive
� Patrimoni Digital de Catalunya
� 300K captures de 60K webs
� 380M fitxers en aprox. 20 TB
� www.padicat.cat
7
� Requisits (Strategy for a European Data Infrastructure):
• Accés a les dades (cicle de vida, seguretat, data curation) i capacitat de
càlcul (data mining, data processing...)
• Preservació de les dades a llarg termini (mecanismes autenticitat,
qualitat...)
• Distribució de les dades (x preservació i optimització accés)
• Compatició (data share, data citation)
� HW: Sistemes d’emmagatzematge, Sistemes de distribució de processos,
balancejadors de càrrega, ample de banda, redundància...
� SW: DSpace (Dryad...), Invenio (Eudat Simple Store), Dataverse (Juan
March...), altres...
Arquitectura
7
Difusió Gestió Preservació
Font: http://www.csc.fi/english/pages/parade/whitepaper
8
Sostenibilitat
� Costos elevats tant d’adquisició com de manteniment de les infraestructures (1 ordre de magnitud més que les de publicacions)
� El cost del disc cada vegada és més barat, i el de la preservació? (sempre incremental, diverses còpies, migracions de formats i desuports, etc...) Necessitat de finançament a llarg termini, doncs les dades són acumulatives i es preserven més enllà dels cicles tecnològics
� En les propostes de finançament de projectes, s’hauria
� de detallar un pla de gestió de les dades incloent la
� seva viabilitat econòmica
� Selecció de dades (curation) i economies d’escala
� (compartició de costos + augment sinergies entre investigadors i disciplines)
8
Font: http://www.jisc.ac.uk/media/documents/publications/keepingresearchdatasafe0408.pdf
9
Ecosistema de les dades de recerca
9
Font: http://www.leru.org/files/general/Boulton%20LERU%20presentation.pdf