Situació i reptes de la gestió del Big Data en ciències de la vida
-
Upload
csuc-consorci-de-serveis-universitaris-de-catalunya -
Category
Technology
-
view
93 -
download
3
Transcript of Situació i reptes de la gestió del Big Data en ciències de la vida
Situació i reptes de la gestió del Big Data en ciències de la vida
TISUC Toni Espinosa, Gonzalo Vera Departament Arquitectura de Computadors i Sistemes operatius UAB, 2 de Desembre 2014
Creixement exponencial de volum de dades d’un determinat àmbit científic/tecnològic
Determinats anàlisis són problemàtics amb pocs Gigabytes (MSA)
Transformació digital de l’activitat humana
The second machine age: digital operations
Acceleració que produeix resultats difícils de predir: Google car, uber.com , airbnb.com
Què és el Big Data?
The second machine age: ERIK BRYNJOLFSSON, ANDREW MCAFEE. W.W.Norton, 2014
Social Point Case
Game Data Scientist
Working with Game Teams to provide insights into how our customers are playing the games
Reporting results directly to the Head of Analytics, the Product Owners of the Games, the CEOs and other C-level executives
Conducting predictive analytics to assist the Game Teams to forecast how users will behave to changes in the Game
Working with Analytics Data Lab team, the Game Teams to ensure our data is precisely specified, understood and consistent
Director
Dades
Científic de dades
Bio curador Desen-
volupador
Admin
Perfils Big Data
Treball del científic de dades
Doing Data Science: CATHY O’NEIL, RACHEL SCHUTT, O’Reilly, 2014
Eines que es fan servir per construir pipelines/workflows de processament son bones per resoldre problemes concrets
No funcionen bé a gran escala
Desenvolupar eines que escalin és una feina complexa i multi-disciplinar
Cal ser expert en compressió de genomes per fer una tesi doctoral biomèdica al CRG/IRB?
Problemàtiques
Infraestructures de grans volums son costoses Cloud és un model de lloguer amb limitacions i avantatges
(viure en un hotel)
Inversions en plataforma s’han de plantejar des d’un principi Quantes dades s’han d’emmagatzemar
Quin temps d’anàlisi es necessitarà
Quin serà el cost (energia, manteniment, gestió)
Com planificar el creixement
El talent està en els professionals no en les màquines
Infraestructures
Pressupost Big Data NIH: fer més amb menys
Genòmica i –òmiques
Clíniques
Apropant-se a la digitalització (projecte VISC+)
Ambientals i m-health
Social media
Agenda digital Europea:
http://ec.europa.eu/digital-agenda/en/eu-policy-ehealth
Proper Repte: La integració
Cada recurs es una sitja amb les seves característiques pròpies de formats i eines
Necessitat de construir ponts entre els mons bio i clínic Janet Thornton, EBI: “Data Silos” no permeten transferència de
coneixement
La integració de les dades és el gran problema Infraestructura de dades del genoma humà i ratolí diferents
Construir plataformes per compartir resultats té un cost creixent afegit: responsabilitats, visibilitat, estàndars, ...
On som?
Alt cost infraestructura
Redundància de serveis
Poca coordinació per promoure la integració
Interface d'accés a les dades és complex
Manca de bones pràctiques per a la gestió de dades: totes les dades són iguals?
Articles mencionen dades que ja no existeixen als pocs anys: publicar i oblidar ja no serveix
Obsolescència dels mètodes actuals
Impossibilitat de plantejar un esquema manual
Procediments de validació dirigits per una comunitat Ontologies definides per usuaris
Fomentar polítiques de Open Data per buscar col·laboracions semblants a Yelp Cas de Philip Bourne (NIH) i Meredith
CERN Open Data Portal
Donar suport a carreres de perfils emergents Bio-curador: professional de la qualitat de les dades
Incrementar la qualitat de les dades
Grups a Catalunya amb eines bioinformàtiques d’utilització internacional
T-coffee (CRG) , GEM tools (CNAG) , ...
Com millorar aquest entorn?
Performance / computational deployment / storage no són trivials
Com construir una plataforma per comparar grans volums de dades amb aquestes eines?
High Quality data provider (Protein data bank)
Situació particular a Catalunya
Cost d’infraestructura
Eficiència d’utilització del sistema propi
Models de compartició de sistemes
Data Labs necessiten pressuposts continuats
Planificar plataformes a mig i llarg termini
Seguretat de les dades
Open Data Access
Integració i esforços posats en comú
Problemes existents
Galaxy com a plataforma de serveis bioinformàtics Usegalaxy.org
En producció avui!
Sistema de facturació per ús dels serveis
Serveis bioinformàtics De repositori de dades
D’anàlisi de dades
Galaxy @ CRAG
GigaScience Journal
Les dades no es mouen, els experiments si
Validació i reproductibilitat
Open data
Eina del Broad Institute Genome Platform
MIT / Harvard
Galaxy workflow tool
Associar la computació a les dades de forma més consistent
APIs més consistents i accessibles (Google Genome APIs)
Construir plataformes útils
col·laboració
solucions integrades
Millorar accessibilitat als repositoris públics de dades i avançar amb iniciatives Open Data
Nous models de negoci associats amb les dades
Fem comunitat Big Data Bio