Informática y biodiversidad:
el caso de la e-taxonomía
Layla Michán
Departamento de Biología Evolutiva, Facultad de Ciencias, UNAM.
Contenido
• Introducción– Taxonomía
– E-ciencia
• Informática y taxonomía– Aplicaciones WEB
– Acceso Abierto
– Semántica
– Interoperatividad
– Colecciones
– Meta-análisis
– E-taxonomía
INTRODUCCIÓN
Informática y biodiversidad: el caso de la e-taxonomía
INFORMACIÓNBIOLÓGICA
TIPOS1.Biológica
2.Bibliográfica
3.Institucional
ÁREAS1.Biodiversidad
2.Biomedicina
APLICACIONES1.Análisis de la ciencias biológicas actuales: desarrollo, estructura, relaciones y tendencias
2.Información e informática en ciencias biológicas, relacionadas y afines
3.Obtención de nuevo conocimiento biológico
4.Planeación, evaluación, gestión y política científica
PROBLEMAS1. (R)evolución digital en las ciencias biológicas
2. Características de la E-biología
3. Dinámica, estructura y relaciones de la biología reciente
4. Publicación científica en la Web
5. Recursos web y ciberinfraestructura para biología
6. Colecciones de datos
7. Meta-análisis de literatura: bibliometría, análisis de redes, minería de textos,
semántica
ENFOQUE MULTIDISCIPLINARIO1.Biología
2. Ciencias de la información y
documentación
3. Tecnologías de la Información y
comunicación
4.Ciencias de la computación e informática
5.Historia, sociología y filosofía de la ciencia.
Laboratorio de Ciencimetría, Información e Informática en Ciencias Biológicas
Facultad de Ciencias, UNAM
La sistemática y/o taxonomía
• Es la subdisciplina de la biología encargada de la descripción, la nomenclatura, la clasificación, la teoría y la historia de la clasificación de los seres vivos (Wiley, 1981), incluyendo sus bases, principios, procedimientos y reglas (Simpson, 1961).
• Constituye el sistema de referencia de la biología, porque entre sus tareas principales están: descubrir, identificar, nombrar y clasificar a los seres vivos.
Informática Biológica•Ciencias de la Información biológica: La recopilación, clasificación, almacenamiento, recuperación y difusión de la información biológica, en especial la literatura.
•Bioinformática: Investigación, desarrollo o aplicación de herramientas computacionales y enfoques para ampliar el uso de datos biológicos, médicos, de comportamiento o de salud, incluidos los de adquirir, almacenar, organizar, archivar, analizar o visualizar estos datos.
•Biología computacional: El desarrollo y aplicación de métodos de datos analíticos y teóricos, modelos matemáticos y técnicas computacionales de simulación para el estudio de sistemas biológicos, conductuales y sociales.
•Informática biológica: estudio de los problemas sobre la información biológica para su sistematización, recuperación, manejo, análisis, publicación, difusión e intercambio.
e-science/ cyberinfraestructure
• e-science (europe)
• United Kingdom's Office
of Science and
Technology in 1999.
• Se refieren a la
ciencia a gran escala,
que se lleva a cabo a
través de colaboración
global habilitada por
el Internet.
• cyberinfraestructure (USA)
• United States National Science
Foundation (NSF) blue-ribbon
committee in 2003 .
• Describe el nuevo ambiente de
investigación apoyado por la
adquisición de datos avanzados, el
almacenamiento, gestión,
integración, minería, visualización,
computación y servicios de
procesamiento de información a
través del Internet.
Ciberinfraestructura
•Entorno tecnológico-social que permite crear, difundir y
preservar los datos, información y conocimientos
mediante la adquisición, almacenamiento, gestión,
integración, informática, minería, visualización y otros
servicios a través de Internet (NSF 2003, 2007).
•Incluye un conjunto interoperable de diversos
elementos:
–1) Infraestructura, los sistemas computacionales (hardware,
software y redes), servicios, instrumentos y herramientas.
–2) Colecciones de datos.
–3) Grupos virtuales de investigación (colaboratorios y
observatorios).
E-ciencia (ciberciencia)
• Resulta del uso y aplicación de la
Ciberinfraestructura en la práctica cientifica,
• Se caracteriza por la inter y multidisciplinariedad.
• Colaboración, la participación de un gran número
de investigadores (en algunos casos cientos)
localizados en diversas regiones y con diferentes
especialidades que se forman grupos trabajo (Hey
y Trefethen, 2005; Barbera et al.,2009).
E-ciencia• Transformación en 30 años:
– Tecnológica• Computadoras
• Web
• Documentos digitales
– Teórica• Nuevos campos del conocimiento
– Metodológica• In sílico
– Social• Colaboración
• Democratización
• Masiva
– Cultural:• Acceso abierto
FUNCIONES
Web 2.0 y 3.0
• Etiquetar (Tagging)
• Compartir (share)
• Calificar (ranking)
• Suscribirse (feeds)
• Comentar
IIIMeta-análisis
• Infometría
• Análisis de Redes
• Descubrimiento basado en literatura
Buscadores Metabuscadores
Buscadores especializados
Editores ProveedoresBuscar
Marcar (marck)Sistematizar / Organizar
Explorar
Difundir
II
Colecciones
de datos bibliográficas
•Personalización•Inmediatez•Automatización•Eficiencia
CARACTERÍSTICAS
IGenerales
Layla Michán, 2010
I. Aplicaciones Web y programas
III. Meta-análisis de literatura
II. Colecciones bibliográficas
APLICACIONES WEB Y
PROGRAMAS
Informática y biodiversidad: el caso de la e-taxonomía
Explorar
Buscar
Marcar
Actualizar
Manejar
Analizar
Web 2 y 3 para taxonomía
La Web 2.0 (Social)
• Se centra en la capacidad de las personas para colaborar y compartir
información en línea.
• Transición de la Web estática a una dinámica, que es más
organizada.
• Comunicación abierta con un énfasis en comunidades de usuarios e
intercambio de información.
• Ya no sólo se trata de ofrecer la posibilidad de encontrar información,
sino de lograr objetivos específicos, pues es factible, crear, etiquetar
jerarquizar y compartir datos.
• Lenguaje HTLM.
Web 3.0 (Semántica)
• Basada en la idea de añadir metadatos semánticos e información (a
través de mapas cognitivos).
• Desarrollar nuevos sistemas de interoperabilidad que permitan
interpretar metadatos para adaptarse a las acciones de los usuarios .
• Minería de textos y ontologías.
• Lenguajes: XML (etiquetas) y RDF (metadatos).
Navegar
BuscarRecomendación
Selección Recuperación
Lectura
Comentar
CitarReferencias
PUBLICACIÓN
Guardar
Obtener
metadatos
1
7
3
45
6
2
Meta-análisisBibliometría
Análisis de redes
Descubrimiento Basado en Literatura
Comentar
PDFs
Acrobat
PDF Exchange*
COLECCIONES DE
DATOS
Bases de datos
Sistemas de
información
Proveedores
Citar mientras
escribo
1/100
Marcadores
Google marcadores y
block
Folkosomias
Delicious
Citeulike
Gestores de
bibliografíaGestores de
bibliografía
Endnote
Refworks
Mendeley*
Zotero
Citeulike*
HTLM
TXT
Alertas
Correos electrónicos
Listas de discusión
Agregadores
Navegadores
Google, Bing
Ciberinfraestructura
Modificado de Hull, 2009
Marcadores/Guardar etiquetar
Manejador
bibliografíaca
Marcador
bibliografía
Marcador web
Marcador
imágenes
Library
Torres-Salinas, D. and E. Delgado-López-Cózar (2009, September). Estrategia para mejorar la difusión de los resultados de
investigación con la web 2.0. El Profesional de la Informacion 18 (5), 534-539.
Redes sociales/Marcar compartir
Artículos de vanguardia
Marcar
Compartir
cBuscar
Calificar
Ranking
c
c Bibliometría
Varios
http://www.tolkin.org/
http://www.gbif.org/informatics/primary-data/publishing/
Aplicación
para
publicación
de datos
taxonómicos
La Web semántica
• (del inglés semantic web) es la "Web de los datos".1
• Se basa en la idea de añadir metadatos semánticos y ontológicos a la WorldWide Web.
• Esta información adicional —que describen el contenido, el significado y la relación de los datos— se deben proporcionar de manera formal, para que así sea posible evaluarlas automáticamente por máquinas de procesamiento.
• El objetivo es mejorar Internet ampliando la interoperabilidad entre los sistemas informáticos usando "agentes inteligentes". Agentes inteligentes son programas en las computadoras que buscan información sin operadores humanos.
Tim Berners-Lee, el creador de la
idea, la expresó de la siguiente
manera:
"Mi sueño es una Web en la que las
máquinas sean capaces de analizar
todos los datos –contenido, enlaces
y transacciones entre la gente y los
ordenadores–. La 'Web Semántica',
que haría esto posible, está todavía
por llegar, pero cuando llegue, la
rutina de nuestras compras,
burocracia y vida diaria será
gestionada por máquinas hablando
con máquinas. Los 'Agentes
Inteligentes' que han sido
anunciados durante décadas se
harán por fin realidad".
Interoperatibilidad
La interoperabilidad es la propiedad de un producto o
sistema, cuyas interfaces se conocen por
completo, para trabajar con otros productos o sistemas,
presentes o futuros, sin ningún tipo de acceso
restringido o de ejecución.
Estándares
• XML (eXtensible Markup Language)
• RDF (Resource Description Framework)
• SPARQL (an RDF Query Language)
XMLXML, siglas en inglés
de eXtensible Markup Language ('lenguaje
de marcas extensible'), es
un metalenguaje extensible de etiquetas
desarrollado por el World Wide Web
Consortium (W3C).
Ontologías taxonomía
• Una ontología es una manera formal de representar el conocimiento en el que los conceptos son descritos por su significado y su relación con los demás.
• Se asignan identificadores únicos que se asocian con cada concepto en ontologías biológicas (bio-ontologías) puede ser utilizada para enlazar información de diversas bases de datos.
http://richard.cyganiak.de/2007/10/lod/lod-datasets_2010-09-22_colored.html
Dublin Core Metadata Element
Set (DCMES)
• 15 elementos de meta-datos básicos.
http://www.tdwg.org/standards/
Leong, L. K. W., Coddington, P., & Wendelborn, A. (2005). Data grid services for biodiversity
informatics.
URL http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.86.9774
http://www.gbif.org/documents/ss5hobern.pdf
Guralnick, R., & Hill, A. (2009). Biodiversity informatics: automated approaches for documenting global biodiversity patterns and
processes. Bioinformatics , 25 (4), 421-428.
URL http://dx.doi.org/10.1093/bioinformatics/btn659
Cómputo en grid• No hay otro gran avance tecnológico que
haya demostrado el poder de
los individuos que el grid computing.
• Donar su tiempo en la computadora sin usar.
•
Cloud computing (cómputo en nube)
Es un enfoque transformador de la computación que involucra muchos aspectos, entre los que se incluyen:algoritmos a gran escala que se ejecutan en diversos conjuntos de
datos (estructurados, semi-estructurados y no estructurados),
almacenados en grandes equipos con enormes cantidades de datos de enorme,
utilidades basadas en la rápida provisión de recursos informáticos personalizados, y la web ubicua con aplicaciones accesibles desde cualquier lugar.
Sin embargo, es mucho más que lo que la tecnología promete: transformar radicalmente nuestra manera de interactuar con la información.
Ecosistemas digitales• En el mundo de Internet, el rápido crecimiento y el uso exponencial de
los medios digitales ha dado lugar a la aparición de
entornos virtuales denominados ecosistemas digitales.
• Están integrados por varias entidades independientes, como: individuos,
organizaciones, servicios, software y aplicaciones para
compartir una o varias misiones y centrarse sobre las interacciones e
interrelaciones entre ellos.
• Permiten la auto-organización de los ambientes, gracias a la
recombinación y la evolución de sus "componentes digitales", en
los que los recursos proporcionados
por cada entidad están bien conservadas y son factibles de gestionar y
utilizar en conjunto.
• Debido a la naturaleza multidisciplinar de los ecosistemas digitales
y sus características, son muy complejos para el estudio y diseño.
http://130.102.71.54/medes
Programas informáticos
Software para :
• Sistematizar información taxonómica,
• Realizar claves de indentificación,
• Analizar grandes cantidades de caracteres
(moleculares y morfológicos),
• Manejar grandes volúmenes de imágenes,
• Hacer análisis fenéticos y filogenéticos
complejos.
Ventajas/Desventajas
• Estos avances tecnológicos han tenido sus ventajas y desventajas (Godfray et al. 2007).
• Entre las primeras están que permiten el uso de estándares internacionales,
• Aumentan la eficiencia de los procesos y la capacidad de almacenar información,
• Optimizan el meta-análisis
• Integran información que se encuentra dispersa en tiempo y espacio.
COLECCIONES
Informática y biodiversidad: el caso de la e-taxonomía
Colecciones• Colecciones de datos digitales (megabases de datos)
taxonómicas, curatoriales, bibliográficas y de distribución
(Shanmughavel 2007) que se pueden consultar en línea;
• resaltan iniciativas mundiales como encyclopedia of life
(http://www.eol.org/),
• tree of life (http://tolweb.org/tree/),
• genBank (http://www.ncbi.nlm.nih.gov/Genbank/),
• barcode of life (http://www.barcoding.si.edu/),
• Biodiversity Heritage Library
(www.biodiversitylibrary.org/) y
• Global Biodiversity Information Facility
(http://data.gbif.org/welcome.htm).
• Biosis, Zoological Record y Epic
Colecciones/Sistematizar
Clasificación de las Colecciones digitales para
biodiversidad
• Tipos de datos– Texto, números e imágenes– Video , películas y audio– Software, algoritmos y ecuaciones, – Animaciones modelos, simulaciones,
etc
• Tipo de información– Bibliográfica– Curatorial– Nomenclatural– Biológica (morfológica bioquímica,
molecular)– Geográfica– Ecológica– Institucional
• Cobertura temática– Gupos y/o taxones
• Nivel de organización– Genes – Especies– Ecosistemas
• Cobertura geográfica– Mundial
– Regional – Local– Institucional– Personal
• Cobertura temporal– Siglo XIX– 1975-2010– 1865-2010
• Origen de la información– Éndogena (A.L)– Exógena
• Iniciativa– Académica– Gubernamental– Privada
• Acceso– Libre– Restringido
• Tamaño– Cantidad de registros– Memoria virtual (Teras o Gigas)
669 al 7 agosto 2011
http://www.animalbase.de/
Entrez
Colecciones bibliográficas
Repositorios
Editoriales y revistas
Catálogos e índices
Sistemas de información
E-bibliotecas
http://epic.kew.org/searchepic/searchpage.do;jsessionid=F
E84A5745BC3C8E853696798AB4D8D00
Algunas cifras•Ulrichs´s 300, 000 revistas.•DOAJ: 6, 715•La revista científica PLoS ONE publicó su artículo número 10.000 (1 dic 2006- 2 abril 2010, 41 meses)•PubMed Central 2.2 millones de artículos.•PubMed 20 millones de registros.•Scopus más de 40 millones de registros. •ISI Web of Knowledge (WOK) 40 millones de registros.•Google Scholar•Arif Jinha en la Universidad de Ottawa ha estimado recientemente que el número de artículos publicados desde siempre es alrededor de 50 millones.
–Desde 1665, cuando inició la Philosophical Transactions of the Royal Society,
•http://duncan.hull.name/2010/07/15/fifty-million/
http://www.botanicus.org/About.aspx
DOCUMENTALBIOLÓGICA
Investigación sobre biodiversidad
Memorias
Artículos
Catálogos
Checklist
Libros
Páginas
electrónicas
índices y
abstracts
Revisiones
Libros de texto
Enciclopedias
ManualesBases de datos
bibliográficas
Organismos y sus partes
Diarios y
Etiquetas
Colecciones
Catálogos
Bibliotecas y
hemerotecas
INSTITUCIONAL
Science Citation Index®
Zoological Record
BIOSIS Previews
Biological Abstracts
Genetic databasesGenetic databases
The Tree of Life
Bases de datos
biológicas
Bases de datos
institucionales
Mundiales
1
10
100
1000
10000
100000
1864
1870
1876
1882
1888
1894
1900
1906
1912
1918
1924
1930
1936
1942
1948
1954
1960
1966
1972
1978
1984
1990
1996
2002
log
Do
cu
men
tos
SCI Periodica
SCI Biosis
CAB Scopus
ZR
Taxonomía AL
0
10
20
30
40
50
60
70
80
90
100
Bio
l Evolu
t
Zoolo
ogía
Eco
l y cien
c amb
Cien
c bio
log
Anat y
morf
Botàn
ica
Paleo
nto
logía
Bio
l mar y
acuát
Bio
div
y co
nserv
Gen
ética y h
erencia
Parasito
logía
Bio
l repro
d
Fisio
logía
Enfer in
fecc
Forestal
Agricu
ltura
Boquím
y b
iol m
ol
%Biosis
ZR
CAB
SCI
Periódica
Taxonomía América Latina
Taxonomía AL
Acceso abierto
• Costo de la literatura científica.
• La ciencia se subvenciona con fondos
gubernamental (públicos).
• Mandatos
– Welcome trust
– NIH
• No hay mandatos para biodiversidad.
• All research would be more useful if it were OA. But I’m an incrementalist. I’ll take what we can get when we can get it. I don’t expect OA to classified military research, and I don’t even argue for it. I don’t expect OA to patentable discoveries until after the discoverers voluntarily decide to publish. I don’t expect OA to copyrighted books except when OA would increase net sales or bring benefits that exceed royalties.
Repositorio Acceso
abierto Libre: ofrece algunos derechos de uso adicionales
como el de modificar y distribuir la obra siempre y
cuando se cite a el o los autores
Gratuito: se refiere a que la consulta del
documento completo en línea es sin costo
Licencia que especifica los derechos de uso:
Creative Commons
(http://creativecommons.org.mx/ )
Acceso abierto vía
oro (Gold Route)
Acceso abierto vía
verde (Green Route)
e-print (e-impreso)
Es la versión digital de un documento de investigación (generalmente un
artículo de revista, pero también podría ser una tesis, ponencias, capítulos de
libros, o un libro) que está accesible en línea porque ha sido depositado en un
repositorio digital
e-print
Pre-prints (artículos
antes de que sean
evaluados por pares)
Post-prints (la versión
resultado de la revisión por
pares)
Interactividad
Diseño
Integración
Agregación
Movilidad
Revistas electrónicas de vanguardia• Formato electrónico
– Datos complementarios
– Barato
– Múltiples formatos
– Identificadores digitales
– Interactividad
– Sin límites de extensión
• Eficiencia e inmediatez
• Acceso abierto
• Uso libre
• Evaluación por pares identificados (no anónimos)
• Indización y archivo en bases de datos
• Indicadores bibliométricos
– Las medidas de impacto
– Información sobre la Cita
– artículos relacionados
• Web 2.0 social
– Marcadores sociales
– Comentarios y notas
– Blog de cobertura
• Código de ética de publicación científica explícito
• Políticas explícitas de Autoarchivo
Figure 1. A mind map [207] summarizing the contents of this article in a convenient manner.doi:10.1371/journal.pcbi.1000204.g001
(Hull, D. et al., 2008)
The Advantages• Unmatched speed of publication
• In this era of elevated extinction rates of World's living animal species, rapid publications of taxonomic papers are not only desirable to
authors, but also important to our science. Zootaxa aims to publish most manuscripts within a month or two after the final revisions are
accepted by editors.
•
• Great flexibility
• Unlike many other journals, Zootaxa does not restrict the length of manuscripts. A paper of a few pages describing a new species is not too
short and a monograph of a few hundred pages is not too long. The only requirement is that peers/editors consider it a quality paper that is
well-presented and makes a good contribution to animal diversity research. As an option for monographs, ISBNs are assigned to papers of
60 pages or more.
Subscription is also flexible. You can have a standing order to the online or print edition, or both. You can also have a standing order to a
subset of papers (e.g. papers on insects, papers on fishes). You can also purchase individual papers and both PDF or paper copies can be
ordered this way.
•
• Maximal online exposure
Accessed daily by more systematic zoologists daily than any other zoology journal, your papers are more likely to be read and cited if you
publish them in Zootaxa.
• Minimized cost to authors and readers
No page charge is required for publication of papers or monographs. Free e-reprint (a printable, high-resolution PDF) is also provided for
authors' personal use (including exchange with other individual scientists, but not for deposition in libraries/websites/ftp-sites for public
access). Authors with funding for publication can opt to pay a fee of US$20 per printed page to make his/her paper free online at this site.
Colour images can be published in the online edition without any fees to authors.
Unlike many other journals, which require subscribers to buy a full issue or volume containing many papers not needed by a particular
reader, Zootaxa allows subscribers to purchase each individual paper based on his/her needs and budget. An issue cost as little as
US$4.00.
• Optimized use of technology
Internet will be used to maximize the benefits of online journals: reduced cost in production and delivery, enhanced access, and interactive
links in online files. The print edition is also produced concurrently for permanent records, using state-of-the-art printing technology.
•
• Environmental soundness
The use of paper is minimized to save our forests and environment: free e-reprint is provided to authors instead of paper ones so that
authors can print out only enough paper copies that are needed; paper reprints can be ordered as few as 25 copies to avoid waste;
correspondence /invoices to subscribers are sent electrically without paper whenever possible; submissions and reviews of manuscripts are
handled electronically whenever possible.
META-ANÁLISIS
Informática y biodiversidad: el caso de la e-taxonomía
III Meta-analisis•Scientometrics
•Network Analysis
•Text mining
•Semantics
Web
Browsers
Metabrowser
s
web browsers
specializedEditors
SuppliersSearch
Bookmark
Browse
Share
II Colecciones bibliográficasI Aplicaciones Web
Repositories
Indexes and catalogs
Information systems
Manage
Libraries
Meta-análisis
• Simultáneo al desarrollo de ciencias de la información(CI) y las tecnologías la información y la comunicación(TICS), en especial con el desarrollo de las bases dedatos y la Internet, se han producido formas sistémicasde análisis de cantidades colosales de información(terabites).
• Técnica cuantitativa que usa mediciones específicaspara indicar la fuerza (tendencias) de relacionesvariables en los estudios incluidos en el análisis.
• La técnica enfatiza los resultados entre múltiplesestudios en oposición a los resultados obtenidos deuna sola investigación.
Meta-análisis
Meta-análisis
1. Análisis evolutivos
2. Bibliometría (cienciometría, infometría, cienciometría, cibermetría, alt-metría): Volumen de publicaciones, productividad y temática de la investigación
3. Análisis de Redes: Conexiones entre nodos que muestran información y sus relaciones.
4. Minería de Textos (Descubrimiento Basado en Literatura, descubrimiento basado en bases de datos) : Vinculación de conceptos para la obtención de nuevo conocimiento
5. Semántica: Es un conjunto de estándares y tecnologías que proporciona herramientas para una caracterización explícita de la semántica de la información para encontrar información distribuida heterogéneamente y relacionada.
Propósitos
1. Recuperación de información.
2. Obtención de nuevo conocimiento.
3. Evaluación.
4. Análisis, desarrollo, estructura y relaciones
de la dinámica científica.
http://bioinfo.dacya.ucm.es/
Entomology
E-taxonomía
• Aplicaciones web y programas
• Colecciones
• Grids, nube y semántica
• Meta-datos
• Meta-análisis
• Estándares e interoperatividad
• Resignificado
• Acceso abierto y creative commons
• Colaboratorios y observatorios
• Principales iniciativas GBIF, Vibrant, iplant, Edit
•E-taxonomía muchas
herramientas
•Poco impacto en la
práctica taxonómica,
•En las publicaciones no
se reporta
http://biiiogeek.blogspot.com/
• Esta investigación se lleva a cabo
gracias al financiamiento de:
• DGAPA, UNAM. Proyecto PAPIME PE
201509
• CONACYT, Ciencia Básica. Proyecto
13276 2011-2014.
Licencia Creative
Commons
http://creativecommons.org/licenses/by/3.0/deed.es_GT
Michán, L. 2011. Presentación
Forma de citar este trabajo