#Aprender3C - Repositorio de datos primarios

29
Repositorios de datos científicos Expositor: Emiliano Marmonti [email protected] @emarmonti 24 de Octubre de 2014 Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Transcript of #Aprender3C - Repositorio de datos primarios

Page 1: #Aprender3C - Repositorio de datos primarios

Repositorios de datoscientíficos

Expositor: Emiliano Marmonti

[email protected]@emarmonti

24 de Octubre de 2014

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Page 2: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Datos Abiertos

DatosGubernamentales

Datos Científicos

Participación ciudadanaServicios innovadores

● Posibilidad de replicar los resultados● Evitar el fraude● Preservación● Ciencia cooperativa

Difundir!

Page 3: #Aprender3C - Repositorio de datos primarios

Particularidades de los datos científicos

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

A diferencia de otros tipos de información, se recogen, observan o crean datos de investigación

a los efectos de producir y validar resultados de investigación originales .

Los datos podrían ser creados por un equipo de investigación con un propósito

y luego ser re-usados por otro, con otra finalidad o para responder otras preguntas.

“Situacionales"

Cámara de seguridad / insumo investigación comportamiento

Page 4: #Aprender3C - Repositorio de datos primarios

Clasificación de datoscientíficos

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Observacionales: datos capturados en tiempo real, comúnmente únicos e irremplazables Ej: imágenes cerebrales, encuestas

Experimentales: datos provenientes de resultados experimentales, Ej: Aquellos que provienen de aparatos de medición en laboratorios, comúnmente reproducibles, pero caros.

Simulación: datos generados de modelos de prueba donde el modelo y los metadatos pueden ser mas importantes que los datos de salida del modelo. Ej: Modelos económicos o climáticos.

Desarrollados o compilados: resultado de procesar y/o combinar datos “crudos”, comúnmente reproducibles pero caros. Ej. Bases de datos compiladas,Resultados de text mining, Datos de censos consolidados.

Reference or canonical: Una (estática u orgánica) conglomeración o collección de datasets mas pequeños (revisados por pares), la mayor parte de ellos publicados y “curados” Ej. Bancos de datos genéticos, bases de datos cristalográficas.

Page 5: #Aprender3C - Repositorio de datos primarios

Datos primarios vs. Datos secundarios.

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Dato colectado porel investigador para conducir

la investigación

Dato colectadoPor alguien más que

El usuario

IncertidumbreAcerca de

Sobre qué baseSe colectó

NecesidadDe conocerTodas las

Condiciones de obtención

Primario Secundario

Page 6: #Aprender3C - Repositorio de datos primarios

Qué considera/ría/rá a un investigador al re-usar un

dataset?

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Documentación

Page 7: #Aprender3C - Repositorio de datos primarios

Data Management Plan

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Que haría un investigador de nuestra institución si luego de

tres años de publicado un paperampliamente citado

es acusado de falsificar Los datos?

One study has found that 80 percent of scientific data is lost

within two decades and the odds of sourcing datasets decline

by 17 percent each year.

If data continues to be poorly managed, science will ultimately suffer,

with experiments being hard to replicate, findings called into question,

papers retracted and careers impacted.

Eighty percent of scientific data are lost within two decades, disappearing into old

email addresses and obsolete storage devices,

a Canadian study indicated.

Page 8: #Aprender3C - Repositorio de datos primarios

Data management plan (II). Cifras escalofriantes (diría un noticiero).

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

1. Data output is growing rapidly. Ninety percent of all the data in the world has been generated over the last two years, while scientific data

output is currently increasing at an annual rate of 30 percent.

2. Despite significant investment, data is not being managed effectively—$1.5 trillion is the current estimated total global spending on research and development,

which could all be at risk.

3. Much of the data generated is lost. In one study, the odds of sourcing datasets declined by 17 percent each year, with 80 percent of datasets more than 20 years old not available.

4. Much of the data that remains could be unverified. Fifty-four percent of the resources used across 238 published studies could not be identified, making verification impossible.

5. Time and money is wasted, impacting science and society. Since 2000, more than 80,000 patients have taken

part in clinical trials based on research that was later retracted because of error or fraud. The number of retractions due to errors has also grown more than fivefold since 1990.

6. Funders now require data management and sharing policies. Thirty-four countries have signed up to the “Declaration on Access to Research Data from Public Funding,” while key funding bodies such as the NIH and Wellcome Trust now

request data management plans be part of applications.

Page 9: #Aprender3C - Repositorio de datos primarios

Por donde empezamos?Por ejemplo, qué antecedentes de planes de

administración de datos científicos hay?

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Data management plans are not one-size-fits-all.

An appropriate data management plan should take

into consideration, early on in the data life cycle, the size and complexity

of the data to be collected or assembled, the likely audience for reuse of the data,

sponsor requirements, and general legal and

ethical requirements (e.g. that data be shared in a way that preserves

the confidentiality of subject information).

Page 10: #Aprender3C - Repositorio de datos primarios

Data Management PlanTemplate NSF

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Sobre los datos

Page 11: #Aprender3C - Repositorio de datos primarios

Data Management PlanTemplate NSF

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Sobre los metadatos / infraestructura /

seguridad

Page 12: #Aprender3C - Repositorio de datos primarios

Data Management PlanTemplate NSF

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Sobre el presupuesto / propiedad intelectual y otros.

Page 13: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Vemos entonces que las entidades financiadoras de I+D comienzan a solicitar a sus proyectos financiados la existencia de

un plan de administración de datos científicos. Lógicamenteno resulta económico crear un plan específico para cada proyecto, excepto

Situaciones excepcionales.

Y con cual dificultad principal se enfrentan?De acuerdo a la literatura, a uno muy grande:La reticencia de la propia comunidad científica

Los repositorios de datos científicos nacen como producto

De un DMP

Page 14: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Cuáles son los retos que deben enfrentar los repositorios de datos científicos?

Los repositorios de datos científicossirven (entre otros fines) para validarresultados de investigación, por tanto

deben vincularse con los Repositorios institucionales donde

se muestra para qué fueronusados esos datos

Se asume entonces que el RI y el RDC sonRepositorios distintos dado que difieren en:

● Objetivos● Técnicas de gestión y mantenimiento● Políticas de Acceso y depósito● Tipología ● Cantidad de datos a preservar● Importancia de la procedencia● Validez de los datos● Infraestructura de IT necesaria● Esquemas de metadatos. Puedo catalogar

con el mismo esquema de metadatos del RIDatos Científicos? Es mas, puedo catalogar con un único esquema datos científicos?

Desafío en cuanto a infraestructuraLa cantidad de espacio necesario

Excede lo que la institución puede brindar

Obsolecencia en formatos. Preservación digital Formación de usuarios y profesionales

de bibliotecas para gestionar estos desafíos

Presupuesto!

Page 15: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Qué ejemplos de Repositorios de datos primarios conocemos?

Page 16: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Cómo atacan algunos de los desafíos los RdC?

Page 17: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Qué ejemplos de Repositorios de datos primarios conocemos?

Page 18: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Best practices para el almacenamiento / depósito de datos

Page 19: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Cómo intervienen los Bibliotecarios en la administración de los datos científicos?

+ Citas!

Page 20: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Qué tipos de metadatos se reporta (en la literatura consultada) que poseen o deberían poseer los

datasets?

Page 21: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Porqué es importante citar los datos?

● Importancia: Datos deberían ser considerados productos de investigación legítimamente citablesLas citas de datos deberían acordarse con la misma importancia en registros académicos como otros objetos de investigación, tal comolas publicaciones.

● Crédito y atribución: Las citas de datos deberían faciliar otorgarcrédito académico y atribución normativa y legal a todos quienes contribuyeron a la creación del dataset, reconociendo que un únicoestilo o mecanismo de atribución no es aplicable a todos los datasets.

● Evidencia: Siempre que se produzca un reclamo académico por sobrelos datos, el mismo debe ser citado.

● Identificador único (y persistente): El Dataset debe poseer un identificadorúnico y persistente, accionable por máquina y globlamente usado por una comunidad.

Hay mas!

Page 22: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Qué esquemas de metadatos existen para datasets? (Solo un ejemplo)

Page 23: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Hay algo similar a DOAR o ROAR para RDCs?

Esquema de metadatos para

describir repositorios de datos?

Page 24: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Hay algo similar a DOAR o ROAR para RDCs?

Page 25: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Qué plataformas de software existen para administración de repositorios de datos? (Dos ejemplos), hay otros casos de

aplicación de plataformas corrientes como Dspace, Eprints o Fedora

Page 26: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Qué iniciativas encontramos hoy en la

región? (no incluyo participación en

temáticos donde hay varios países de la

región)

Argentina

Temático Gubernamental México

LAGO Regional

Page 27: #Aprender3C - Repositorio de datos primarios

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

Iniciativas en formación en la región

Argentina PLICSS

Chile ChiVO

Page 28: #Aprender3C - Repositorio de datos primarios

Bibliografía

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

● Data Management Plans and you. Boston College. 2012http://www.bc.edu/content/dam/files/offices/ides/docs/eteachingday/2012/E-Teaching-Day-DMP.pdf

● Research Data MANTRA. Online coursehttp://datalib.edina.ac.uk/mantra/

● Datos abiertos y repositorios de datos: nuevo reto para los bibliotecarios.http://eprints.rclis.org/19524/1/postprint_Hernandez_Garcia.pdf

● Love, or loose your datahttp://www.laboratoryequipment.com/articles/2014/04/love-or-lose-your-data

● Data management plan as required by NSFhttp://thedata.org/book/data-management-plan-template

Page 29: #Aprender3C - Repositorio de datos primarios

¿Preguntas?

MUCHAS GRACIAS

Expositor: Emiliano [email protected]

24 de Octubre de 2014

Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C