Situació i reptes de la gestió del Big Data en ciències de la vida

18
Situació i reptes de la gestió del Big Data en ciències de la vida TISUC Toni Espinosa, Gonzalo Vera Departament Arquitectura de Computadors i Sistemes operatius UAB, 2 de Desembre 2014

Transcript of Situació i reptes de la gestió del Big Data en ciències de la vida

Page 1: Situació i reptes de la gestió del Big Data en ciències de la vida

Situació i reptes de la gestió del Big Data en ciències de la vida

TISUC Toni Espinosa, Gonzalo Vera Departament Arquitectura de Computadors i Sistemes operatius UAB, 2 de Desembre 2014

Page 2: Situació i reptes de la gestió del Big Data en ciències de la vida

Creixement exponencial de volum de dades d’un determinat àmbit científic/tecnològic

Determinats anàlisis són problemàtics amb pocs Gigabytes (MSA)

Transformació digital de l’activitat humana

The second machine age: digital operations

Acceleració que produeix resultats difícils de predir: Google car, uber.com , airbnb.com

Què és el Big Data?

The second machine age: ERIK BRYNJOLFSSON, ANDREW MCAFEE. W.W.Norton, 2014

Page 3: Situació i reptes de la gestió del Big Data en ciències de la vida

Social Point Case

Game Data Scientist

Working with Game Teams to provide insights into how our customers are playing the games

Reporting results directly to the Head of Analytics, the Product Owners of the Games, the CEOs and other C-level executives

Conducting predictive analytics to assist the Game Teams to forecast how users will behave to changes in the Game

Working with Analytics Data Lab team, the Game Teams to ensure our data is precisely specified, understood and consistent

Page 4: Situació i reptes de la gestió del Big Data en ciències de la vida

Director

Dades

Científic de dades

Bio curador Desen-

volupador

Admin

Perfils Big Data

Page 5: Situació i reptes de la gestió del Big Data en ciències de la vida

Treball del científic de dades

Doing Data Science: CATHY O’NEIL, RACHEL SCHUTT, O’Reilly, 2014

Page 6: Situació i reptes de la gestió del Big Data en ciències de la vida

Eines que es fan servir per construir pipelines/workflows de processament son bones per resoldre problemes concrets

No funcionen bé a gran escala

Desenvolupar eines que escalin és una feina complexa i multi-disciplinar

Cal ser expert en compressió de genomes per fer una tesi doctoral biomèdica al CRG/IRB?

Problemàtiques

Page 7: Situació i reptes de la gestió del Big Data en ciències de la vida

Infraestructures de grans volums son costoses Cloud és un model de lloguer amb limitacions i avantatges

(viure en un hotel)

Inversions en plataforma s’han de plantejar des d’un principi Quantes dades s’han d’emmagatzemar

Quin temps d’anàlisi es necessitarà

Quin serà el cost (energia, manteniment, gestió)

Com planificar el creixement

El talent està en els professionals no en les màquines

Infraestructures

Page 8: Situació i reptes de la gestió del Big Data en ciències de la vida

Pressupost Big Data NIH: fer més amb menys

Page 9: Situació i reptes de la gestió del Big Data en ciències de la vida

Genòmica i –òmiques

Clíniques

Apropant-se a la digitalització (projecte VISC+)

Ambientals i m-health

Social media

Agenda digital Europea:

http://ec.europa.eu/digital-agenda/en/eu-policy-ehealth

Proper Repte: La integració

Page 10: Situació i reptes de la gestió del Big Data en ciències de la vida

Cada recurs es una sitja amb les seves característiques pròpies de formats i eines

Necessitat de construir ponts entre els mons bio i clínic Janet Thornton, EBI: “Data Silos” no permeten transferència de

coneixement

La integració de les dades és el gran problema Infraestructura de dades del genoma humà i ratolí diferents

Construir plataformes per compartir resultats té un cost creixent afegit: responsabilitats, visibilitat, estàndars, ...

On som?

Page 11: Situació i reptes de la gestió del Big Data en ciències de la vida

Alt cost infraestructura

Redundància de serveis

Poca coordinació per promoure la integració

Interface d'accés a les dades és complex

Manca de bones pràctiques per a la gestió de dades: totes les dades són iguals?

Articles mencionen dades que ja no existeixen als pocs anys: publicar i oblidar ja no serveix

Obsolescència dels mètodes actuals

Page 12: Situació i reptes de la gestió del Big Data en ciències de la vida

Impossibilitat de plantejar un esquema manual

Procediments de validació dirigits per una comunitat Ontologies definides per usuaris

Fomentar polítiques de Open Data per buscar col·laboracions semblants a Yelp Cas de Philip Bourne (NIH) i Meredith

CERN Open Data Portal

Donar suport a carreres de perfils emergents Bio-curador: professional de la qualitat de les dades

Incrementar la qualitat de les dades

Page 13: Situació i reptes de la gestió del Big Data en ciències de la vida

Grups a Catalunya amb eines bioinformàtiques d’utilització internacional

T-coffee (CRG) , GEM tools (CNAG) , ...

Com millorar aquest entorn?

Performance / computational deployment / storage no són trivials

Com construir una plataforma per comparar grans volums de dades amb aquestes eines?

High Quality data provider (Protein data bank)

Situació particular a Catalunya

Page 14: Situació i reptes de la gestió del Big Data en ciències de la vida

Cost d’infraestructura

Eficiència d’utilització del sistema propi

Models de compartició de sistemes

Data Labs necessiten pressuposts continuats

Planificar plataformes a mig i llarg termini

Seguretat de les dades

Open Data Access

Integració i esforços posats en comú

Problemes existents

Page 15: Situació i reptes de la gestió del Big Data en ciències de la vida

Galaxy com a plataforma de serveis bioinformàtics Usegalaxy.org

En producció avui!

Sistema de facturació per ús dels serveis

Serveis bioinformàtics De repositori de dades

D’anàlisi de dades

Galaxy @ CRAG

GigaScience Journal

Page 16: Situació i reptes de la gestió del Big Data en ciències de la vida

Les dades no es mouen, els experiments si

Validació i reproductibilitat

Open data

Eina del Broad Institute Genome Platform

MIT / Harvard

Galaxy workflow tool

Page 17: Situació i reptes de la gestió del Big Data en ciències de la vida

Associar la computació a les dades de forma més consistent

APIs més consistents i accessibles (Google Genome APIs)

Construir plataformes útils

col·laboració

solucions integrades

Millorar accessibilitat als repositoris públics de dades i avançar amb iniciatives Open Data

Nous models de negoci associats amb les dades

Fem comunitat Big Data Bio

Page 18: Situació i reptes de la gestió del Big Data en ciències de la vida