31/05/2019
1
Bioinformática BIOLOGÍA MOLECULAR 2019
B IOQUÍMICA
DR. CR ISTIAN S UÁREZ
¿Qué es la bioinformática?
“La bioinformática es un área emergente interdisciplinaria que
se ocupa de la aplicación de la informática a la recopilación,
almacenamiento, organización, análisis, manipulación,
presentación y distribución de información relativa a los datos
biológicos o médicos, tales como macromoléculas (por ejemplo
DNA o proteínas) ”.
31/05/2019
2
¿Qué es la bioinformática?
Ciencias biomédicas
Ciencias de la computación
Matemáticas y estadística
Ciencias físicas
Biología molecular y genética
BIOINFORMÁTICA
Implicancias de la bioinformática
Se necesita tener ideas básicas sobre la investigación en Biología Molecular.
Se requiere tener ciertos conocimientos sobre secuencias de ADN y cómo ellas contribuyen a la estructura 3D de las proteínas, así como la identificación de genes y filogenética.
Se necesita estar familiarizado con muchas herramientas “in silico” que son usadas y los parámetros que controlan el resultado de los programas o los aparatos que están controlados algorítmicamente.
Es importante entender las limitación de la biología molecular y de las ciencias de la computación.
Se necesita tener cierta experiencia en la recolección de datos biológicos para su análisis.
31/05/2019
3
¿Qué podemos hacer con la bioinformática?
- Interpretar varios tipos de datos biológicos:
Secuencias genómicas (DNA)
Secuencias transcriptómicas (ARN)
Secuencias proteicas (Proteínas)
Estructura de las proteínas (Proteínas)
Estructura del ARN (ARN)
- Desarrollo de nuevos algoritmos y herramientas:
Para tener acceso a la información biológica
Manipular grandes cantidades de datos
Encontrar relaciones entre los datos
¿Por qué necesitamos computadoras para manipular datos biológicos? Una cantidad muy grande de datos biológicos necesita algoritmos rápidos y recursos computacionales.
Crecimiento exponencial de los datos biológicos
https://www.ncbi.nlm.nih.gov/genbank/statistics/
31/05/2019
4
Aplicaciones de la bioinformática Diseño y descubrimiento de nuevas drogas (medicina molecular)
Alineamiento de secuencias (estudios comparativos)
Predicción de estructura secundaria del ARN
Predicción de la estructura secundaria de las proteínas
Reducción de los costos de los sistemas de salud (ej. detección temprana de enfermedades genéticas)
Bases de datos Uno de los retos de la era genómica es el almacenamiento y manipulación del asombroso volumen de información a través del establecimiento y el uso de base de datos computacionales.
Una base de datos biológica es un gran grupo de datos persistentes y organizados, usualmente asociados con software computarizado para actualizar, buscar y recibir componentes de los datos almacenados dentro del sistema.
Un base de datos simple puede ser un único archivo conteniendo muchos registros, cada uno de los cuales incluye el mismo conjunto de información.
El objetivo principal del desarrollo de bases de datos es organizar los datos en un conjunto de registros estructurados para facilitar la obtención de información.
31/05/2019
5
Bases de datos
Bases de datos - Primarias Bases de datos primarias:
Son las llamadas bases de datos para almacenamiento.
Contienen datos que derivan de la experimentación, tales como secuencia nucleotídica, de proteinas o estructuras macromoleculares.
Los datos son subidos por los investigadores.
Una vez que se obtiene el código de acceso, los datos en las bases de primarias nunca cambian.
Ejemplos:
ENA, GenBank and DDBJ (nucleótidos)
Array Express Archive and GEO (genómica funcional)
Protein Data Bank (PDB; estructuras tridimensionales de macromoléculas)
31/05/2019
6
Bases de datos
Bases de datos
31/05/2019
7
Bases de datos - Secundarias Bases de datos secundarias
Comprenden datos que provienen de los resultados de los análisis de las bases de datos primarias.
Son altamente depuradas, y utilizan una compleja combinación de algoritmos informáticos y análisis manuales e interpretación para obtener nuevo conocimiento a partir de registros científicos públicos.
Ejemplos:
InterPro (Familias de proteínas, motivos y dominios)
UniProt Knowledgebase (información de secuencia y functional de proteinas)
Ensembl (variantes, función, regulación y mas focalizado en secuencias de genomas completos)
Ejemplo-InterProScan >ARM69131.1 N-acetylmuramoyl-L-alanine amidase [Staphylococcus phage vB_Sau_CG]
MAKTQAEINKRLDAYAKGTVDSPYRVKKATSYDPSFGVMEAGAIDADGYYHAQCQDLITDYVLWLTDNKVRTWGNAKDQI
KQNYGTGFKIHENKPSTVPKKGWIAVFTSGSYQQWGHIGIVYDGGNTSTFTILEQNWNGYANKKPTKRVDNYYGLTHFIE
IPVKAGTTVKKETAKKSASKTPAPKKKATLKVSKNHINYTMDKRGKKPEGMVIHNDAGRSSGQQYENSLATAGYARYANG
IAHYYGSEGYVWEAIDAKNQIAWHTGDGTGANSGNFRFAGIEVCQSMSASDAQFLKNEQAVFQFTAEKFKEWGLTPNRKT
VRLHMEFVPTACPHRSMVLHTGFNPVTQGRPSQAIMNKLKDYFIKQIKNYMDKGTSSSTVVKDGKTSSASTPATRPVTGS
WKKNQYGTWYKPENATFVNGNQPIVTRIGSPFLNAPVGGNLPAGATIVYDEVCIQAGHIWIGYNAYNGNRVYCPVRTCQG
VPPNQIPGVAWGVFK
31/05/2019
8
Resultados InterProScan
Alineamiento de secuencias Alineamiento de a pares (Pairwise alignment): es utilizado para identificar regions de similitud que pueden indicar relaciones funcionales, estructurales, y/o evolutivas entre dos secuencias biológicas (proteina o ácido nucleico).
Alineamiento multiple de secuencias (MSA): es el alinemiento de tres o más secuencias biológicas de longitude similar. Desde el resultado de la aplicación de MSA se puede inferior la homología y las relaciones evolutivas entre las secuencias estudiadas.
31/05/2019
9
Alineamiento de secuencias
Alineamiento Global
• Intenta alinear cada residuo en cada secuencia • Es mas útil cuando las secuencias que se están
alineando son similares y casi del mismo tamaño.
• Puede usar el algoritmo de Needleman-Wunsch. Programación dinámica
Alineamiento Local
• Muy similar al alineamiento global • En lugar de tener que alinear cada residuo el
alineamiento local alinea segmentos de longitud arbitraria de las secuencias, sin penalidades por las secuencias que no alinean.
• Es útil cuando tenemos dos secuencias disimilares y queremos ver si hay un gen conservado o región entre los dos.
• Utiliza el algoritmo de Smith-Waterman
Alineamiento de secuencias
31/05/2019
10
BLAST – Basic Local Alignment Search Tool o Altschul et al. 1990,1994,1997
o Encuentra regiones de similitud local entre secuencias. El programa compara secuencias de nucleótidos y proteínas con bases de datos de secuencias y calcula el significado estadístico del match. BLAST puede ser utilizado para inferir relaciones evolutivas entre secuencias así como ayudar a identificar miembros de familias génicas.
BLAST – Basic Local Alignment Search Tool
https://blast.ncbi.nlm.nih.gov/Blast.cgi
31/05/2019
11
–nr = no redundante
–month = nuevas secuencias de los últimos meses
–RefSeq: secuencias de referencias bien anotadas que incluyen genómicas, transcriptos y proteínas.
–refseq_rna
–refseq_genomic
–ESTs = marcador de secuencias expresadas
–Taxon = ej., humano, Drososphila, levadura, E. coli
–proteínas
–pdb = estructura tridimensional de proteínas
El servidor web de NCBI BLAST permite comparar tu secuencia “query” en varias bases de datos de GenBank:
Interpretando los resultados de BLAST Área gráfica: muestra donde tu secuencia (query) es similar a otras.
Lista de Hits: es la lista de nombres de secuencias similares a tu secuencia, las mismas se ordenan según su similitud.
El alineamiento: muestra cada alineamiento entre tu secuencia y cada uno de los Hits reportados
Los parámetros: una lista de parámetros utilizados para la búsqueda
31/05/2019
12
Interpretando los resultados de BLAST – Área gráfica
La figura puede ayudarte a ver algunas zonas de similitud que no abarca toda la longitud de la secuencia esto podría ayudar a la identificación de dominios
Porción de otra secuencia similar a tu secuencia • Rojo y fucsia = buen
alineamiento • Verde = alineamiento
intermedio • Azul = alineamiento malo
Query
Query
Dominios putativos conservados
Interpretando los resultados de BLAST – Lista de Hits
Max score: Es el score de la mejor secuencia alineada. Total score: Es la suma de los scores de todas las secuencias alineadas. Query coverage: es el porcentaje de la secuencia alineada a una secuencia en el genbank. El valor esperado (E): es un parámetro que describe el número de hits que uno puede esperar a ver debido al azar cuando busca en una base de datos de un tamaño particular. El porcentaje de identidad: es un número que describe cuan similar es la secuencia query a la secuencia blanco (cuantos caracteres en cada secuencia son identicos). Cuanto mayor es el porcentaje de identidad, mas significativo es el match.
31/05/2019
13
Interpretando los resultados de BLAST – Alineamiento
Idénticos
AA similar
Fracción de AA que son similares o idénticos
Mismatch
Porcentaje de identidad
BLASTeando secuencias de proteínas blastp = compara una secuencia de AA con una base de datos de proteínas.
Si se quiere encontrar algo sobre la función de una proteína, usar blastp para comparar la proteína con otras proteínas contenidas en la base de datos, identificar regiones comunes entre proteínas o recolectar proteínas relacionadas (análisis filogenéticos).
tblastn = compara una secuencia de una proteína con una base de datos de nucleótidos.
Si quiere descubrir nuevos genes que codifiquen proteínas (de múltiples organismos) se usa esta herramienta para comprar la proteína con secuencias de ADN traducidas en los seis marcos abiertos de lectura posibles. También puede usarse para mapear una proteína en ADN genómico.
31/05/2019
14
BLASTeando secuencias de nucleótidos blastn = compara una secuencia de ADN con una base de datos de ADN.
Se puede utilizar para mapear oligonucleótidos, productos de PCR y ADNc a un genoma; anotar un ADN genómico; búsqueda de secuencias inter-especies, etc.
tblastx = compara un ADN traducido a proteína con una base de datos de ADN traducido a proteína.
Predicción de genes inter-especies a nivel de genoma o transcriptos; búsqueda de genes que aun no están en las bases de datos de proteínas, etc.
blastx = compara un ADN traducido a proteína con una base de datos de proteínas.
Búsqueda de genes que codifican proteínas en ADNc genómico, determinando si un ADNc corresponde a una proteína conocida.
Ejemplos de aplicaciones que emplean BLAST
Alineamiento fragmentado
Gegenees: es un software para análisis comparativo de datos de secuencias genomicas completas y otros datos de Next Generation Sequence (NGS). Este software puede comparar gran número de genomas microbianos dando características filogenómicas. Lenguaje: JAVA (multiplataforma)
Matriz de distancia Visualización
http://www.gegenees.org/
http://www.splitstree.org/
Ejemplo:
31/05/2019
15
Comparación de los genomas de fagos de la familia Myoviridae de S. aureus
Gegenees
Splitstree 4
Red filogenética- Algoritmo Neighborn-Net
Ejemplos de aplicaciones que emplean BLAST
CCT - CGView Comparison Tool http://stothard.afns.ualberta.ca/downloads/CCT/
Es un paquete que permite la comparación visual de secuencias de bacterias, plásmidos, cloroplastos o mitocondrias. Las comparaciones se realizan mediante la utilización de BLAST y los resultados se muestran como gráficos circulares.
31/05/2019
16
Métodos de comparación libres de alineamiento Los métodos de comparación de secuencias libres de alineamiento pueden ser definidos como cualquier método para cuantificar la similitud/disimilitud de secuencias que no utiliza o produce alineamientos en ningún paso del algoritmo.
Utilizan menos recursos computacionales
Son aplicables cuando hay baja conservación
No tiene en cuenta las trayectorias evolutivas de los cambios en las secuencias
Se estima que hasta la fecha se ha secuenciado 10-20% del total de ADN sobre la Tierra.
Métodos de comparación libres de alineamiento
Mash distance (MinHash) Parámetros: Sketch size = 50000 y k-mer size = 17
CAFE Manhanttan distance k-mer = 8
31/05/2019
17
Ejemplos de Análisis in silico Predicción de Genes: Ej. GeneMark
Ejemplos de Análisis in silico Base de datos de familias de proteínas: Pfam “Pfam es una clasificación de familias de proteínas de acuerdo a las familias, dominios, repeticiones y motivos”
https://www.ebi.ac.uk/Tools/pfa/pfamscan/
https://www.ebi.ac.uk/Tools/hmmer/
http://pfam.xfam.org/ Pfam 32.0 (September 2018, 17929 entries)
31/05/2019
18
Ejemplos de Análisis in silico Predicción de terminadores de la transcripción: ARNold
Predicción de motivos: MEME suite
Ejemplos de Análisis in silico
31/05/2019
19
UGENE Software bioinformático Software bioinformático multiplataforma gratuito:
Edición y anotación de secuencias Alineamiento múltiple de secuencias: ClustalW, Muscle, etc. PCR in silico BLAST (local y NCBI) Digestión con ER Ensamblado de novo de genomas
http://ugene.net/
UGENE Software bioinformático
31/05/2019
20
UGENE Software bioinformático
WORKFLOW
Top Related