Post on 11-Apr-2015
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información biomédica
© Copyright Ebiointel,SL 2006
Puntos a tratar:Puntos a tratar:
Tipos de datos biomédicos
Formatos de presentación de datos
Envío de datos
Formatos de secuencias
Sistemas gestores de bases de datos
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Milenio Libro
1er Religiosos:Biblia, Corán,...
2º El origen de la especies
3er El genoma humano
HumanGenome
DB
© Copyright Ebiointel,SL 2006
Bases de datos biomédicas
Tipos de datos Literatura Secuencias Estructuras
3D 2D Geles 2D
Asociación genética (Desequilibrio)
Tecnología informática de almacenamiento y recuperación de datos
Archivo de texto Base de datos relaciones Base de datos deductivas Base de datos orientada a objetos
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Evolución de las bases de datos moleculares
Categoría de base de datos
Contenido de los datos
Ejemplos
Bases de datos de literatura
Citaciones bibliográficas
Revistas on-line
MEDLINE (1971)
Bases de datos factuales o datos brutos
Seq. ácidos nucleicos,
Seq. Aminoácidos
Estructuras moleculares 3D
GenBank (1982), EMBL (1982), DDBJ (1984), PIR (1968), SWISS-PROT (1986), PDB (1971)
Base de datos de conocimientos
Biblioteca de motivos
Clasif. molecular
Rutas metabólicas
PROSITE (1988)
SCOP (1994)
KEGG (1995)
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Primarias
Secundarias
Terciarias
Secuencia
Motivo
Dominio Módulo
A V I L D R Y F H
[A S] - [IL ] 2-X [ DE ] – R- [FYW ] 2-H
A,b,c @,*,#
Base de datos primarias
Base de datos secundarias
Base de datos de estructuras
Niveles de secuencia proteica y organización estructural
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Formato de archivo de texto (flat file) o html (GenBank, EMBL)
Formato gráfico o applets (PDB, Drosophila GeneView, Human Genoma MapViewer)
Formato código binario o texto interpretable por aplicaciones de visualización (archivo dnd de ClustaW)
Formato presentación datos
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Envío de secuencias a las bases de datos por el investigador
Vía Web en BankIt Usar programa Sequin en Mac, Windows, UNIXE-mailEn disquete por correo
Revisión de las nuevas entradas o actualización
Asignación de número de acceso de la base de datos a las nuevas entradas
Intercambio de las nuevas secuencias entre las tres principales bases de datos
Recopilación de las Secuencias de las grandes bases de datos
Almacenamiento y representación de la información
ObsoletoObsoleto
© Copyright Ebiointel,SL 2006
Se suelen enviar las secuencias previo a la publicación
Proyectos genomas (High Throughtput Sequence, HTG):
Borrador (draft): 1 error en 1kb (4x-5x) Acabado (finished): 1 error en 10 kb (8x-9x)
• Genome Survey Sequence (GSS) Una única lectura de secuencias de clones
genómicos al azar 1 error en 100 bp
ESTs (Expressed Tagged Sites) Una única lectura de secuencias de clones
de cDNA al azar 1 error en 100 bp
Fiabilidad de las secuenciasAlmacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Códigos de bases de ácidos nucleicos IUB/GCG Significado Complemento ------- ----------- -----------
A A T C C G G G C T/U T A M A or C K R A or G Y W A or T W S C or G S Y C or T R K G or T M V A or C or G B H A or C or T D D A or G or T H B C or G or T V X/N G or A or T or C X . not G or A or T or C .
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Códigos de aminoácidos
Símbolo de una y tres letras
G Glycine GlyP Proline ProA Alanine AlaV Valine ValL Leucine Leu I Isoleucine Ile M Methionine Met C Cysteine CysF Phenylalanine Phe Y Tyrosine Tyr
W Tryptophan Trp H Histidine HisK Lysine Lys R Arginine Arg Q Glutamine Gln N Asparagine AsnE Glutamic Acid Glu D Aspartic Acid Asp S Serine Ser T Threonine Thr
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Formatos de secuencias
Ficheros ASCII (editor de texto) Fasta GenBank GCG ... Fasta
Múltiples secuencias
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Formato GenBank
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Más formatos de secuencias
ASN.1 EMBL Swiss Prot FASTA GCG GCG-MSF GCG-RSFGenBank/GenPept NEXUS PHYLIP NBRF y PIR
Definición de formatos de secuencias: http://www.genomatix.de/online_help/help/sequence_formats.html
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Conversor de formatos•ReadSeq: http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
•Conversores de formato
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Tecnología informática de almacenamiento y recuperación de datos
Base de datos Sistema gestor de la base de datos
Archivo de texto
Base de datos relaciones
Base de datos orientada a objetos
Base de datos deductivas
Especifica la estructura lógica de la base de datos en función de la definición de los datos
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Base de datos relaciones (Codd 1970)
Todos los datos se organizan en tablas Álgebra relacional Intuitivo y comprensible Consultas en lenguaje SQL (Structured Query Language,
estándar 1986, 1992, 1999, 2003) Lenguaje declarativo de acceso a bases de datos
SELECT lista de atributos
FROM lista de relaciones
WHERE condición
SELECT * FROM TABLA_CITACION WHERE year = ‘2005’
Almacenamiento y representación de la información
cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT.cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT.
© Copyright Ebiointel,SL 2006
Paper 1
Paper 2
Paper 3
Paper 4........
SELECT
PROJECT
Jou
rnal
MU
ID
Vo
lum
e
Pag
es
Yea
r
Almacenamiento y representación de la información
2005
SELECT * FROM TABLA_CITACION WHERE year = ‘2005’
200520052004
2003
2004
200520052005
Jou
rnal
MU
ID
Vo
lum
e
Pag
es
Yea
r
MU
ID
Yea
r
© Copyright Ebiointel,SL 2006
JOIN
Jou
rnal
MU
ID
Vo
lum
e
Pag
es
Yea
r
Au
tho
r
MU
ID
Au
tho
r
Author 1-1
Author 1-2
Author 2-1
Author 2-2
Author 2-3
Author 3-1
........
Almacenamiento y representación de la información
16777514
16777514
16777514
16777514
MU
ID
Jou
rnal
Vo
lum
e
Pag
es
Yea
r
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
SELECT
Ejemplo 1:
SELECT * FROM TABLA_NOMBRE ORDER BY ID, FECHA, NOMBRE
Ejemplo 2:
SELECT NOMBRE, DESCRIPCION FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' ORDER BY ID, FECHA, NOMBRE
Ejemplo 3:
SELECT NOMBRE, COUNT(*) AS CANTIDAD FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' GROUP BY NOMBRE
DELETE
Este comando SQL elimina registros de una tabla especifica.
Ejemplo 1:
DELETE FROM TABLA_NOMBRE WHERE ID = 2
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
DPDB DATA MODEL
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Ejemplos SGBD relacionales
ComercialesORACLESQLServerAccess
Código abiertoMySQLPostgreSQL
© Copyright Ebiointel,SL 2006
Base de datos orientada a objetos (Kay 1972) Objetos son tipos abstractos de datos Una representación más flexible del mundo real de datos Falta de lógica robusta Incorpora los conceptos importantes del paradigma de objetos:
Encapsulación - Propiedad que permite ocultar la información al resto de los objetos, impidiendo así accesos incorrectos o conflictos. Herencia - Propiedad a través de la cual los objetos heredan comportamiento dentro de una jerarquía de
clases. Polimorfismo - Propiedad de una operación mediante la cual puede ser aplicada a distintos tipos de
objetos.
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Base de datos orientada a objetos (Kay 1972)
Similitud (X)
Objeto X
mensajeClase de similitud de secuencia
Clase de similitud de estructura
Clase de similitud de expresión
Clase de similitud de rutas metabólicas
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Integración de Bases de datos
Integración basada en Links
Base de datos: entrada
Base de datos 1:entrada1 Base de datos 2:entrada2
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
Programación orientada a objetos
(Kay,1972)
Programación lógica
(Kowalski,1972)
Base de datos deductiva
(1977)
Base de datos orientada a objetos
(1986)
Base de datos deductiva y
orientada a objetos(1989)
Base de datos relacional
(Codd,1970)
Evolución de las Bases de datos
Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006
•Internet y la interoperabilidad de datos
Desarrollos de estándares en XML
Programación Java, C#, Visual
Basic, JScript, AJAX,..
Servicios de aplicaciones Web(Visual Studio.Net,Java JBoss, SAD,
BioMOBY)
Evolución de Internet
Almacenamiento y representación de la información