Download - Bioinformática - fbioyf.unr.edu.ar

31/05/2019

1

Bioinformática BIOLOGÍA MOLECULAR 2019

B IOQUÍMICA

DR. CR ISTIAN S UÁREZ

¿Qué es la bioinformática?

“La bioinformática es un área emergente interdisciplinaria que

se ocupa de la aplicación de la informática a la recopilación,

almacenamiento, organización, análisis, manipulación,

presentación y distribución de información relativa a los datos

biológicos o médicos, tales como macromoléculas (por ejemplo

DNA o proteínas) ”.

31/05/2019

2

¿Qué es la bioinformática?

Ciencias biomédicas

Ciencias de la computación

Matemáticas y estadística

Ciencias físicas

Biología molecular y genética

BIOINFORMÁTICA

Implicancias de la bioinformática

Se necesita tener ideas básicas sobre la investigación en Biología Molecular.

Se requiere tener ciertos conocimientos sobre secuencias de ADN y cómo ellas contribuyen a la estructura 3D de las proteínas, así como la identificación de genes y filogenética.

Se necesita estar familiarizado con muchas herramientas “in silico” que son usadas y los parámetros que controlan el resultado de los programas o los aparatos que están controlados algorítmicamente.

Es importante entender las limitación de la biología molecular y de las ciencias de la computación.

Se necesita tener cierta experiencia en la recolección de datos biológicos para su análisis.

31/05/2019

3

¿Qué podemos hacer con la bioinformática?

- Interpretar varios tipos de datos biológicos:

Secuencias genómicas (DNA)

Secuencias transcriptómicas (ARN)

Secuencias proteicas (Proteínas)

Estructura de las proteínas (Proteínas)

Estructura del ARN (ARN)

- Desarrollo de nuevos algoritmos y herramientas:

Para tener acceso a la información biológica

Manipular grandes cantidades de datos

Encontrar relaciones entre los datos

¿Por qué necesitamos computadoras para manipular datos biológicos? Una cantidad muy grande de datos biológicos necesita algoritmos rápidos y recursos computacionales.

Crecimiento exponencial de los datos biológicos

https://www.ncbi.nlm.nih.gov/genbank/statistics/

https://www.ncbi.nlm.nih.gov/genbank/statistics/

31/05/2019

4

Aplicaciones de la bioinformática Diseño y descubrimiento de nuevas drogas (medicina molecular)

Alineamiento de secuencias (estudios comparativos)

Predicción de estructura secundaria del ARN

Predicción de la estructura secundaria de las proteínas

Reducción de los costos de los sistemas de salud (ej. detección temprana de enfermedades genéticas)

Bases de datos Uno de los retos de la era genómica es el almacenamiento y manipulación del asombroso volumen de información a través del establecimiento y el uso de base de datos computacionales.

Una base de datos biológica es un gran grupo de datos persistentes y organizados, usualmente asociados con software computarizado para actualizar, buscar y recibir componentes de los datos almacenados dentro del sistema.

Un base de datos simple puede ser un único archivo conteniendo muchos registros, cada uno de los cuales incluye el mismo conjunto de información.

El objetivo principal del desarrollo de bases de datos es organizar los datos en un conjunto de registros estructurados para facilitar la obtención de información.

31/05/2019

5

Bases de datos

Bases de datos - Primarias Bases de datos primarias:

Son las llamadas bases de datos para almacenamiento.

Contienen datos que derivan de la experimentación, tales como secuencia nucleotídica, de proteinas o estructuras macromoleculares.

Los datos son subidos por los investigadores.

Una vez que se obtiene el código de acceso, los datos en las bases de primarias nunca cambian.

Ejemplos:

ENA, GenBank and DDBJ (nucleótidos)

Array Express Archive and GEO (genómica funcional)

Protein Data Bank (PDB; estructuras tridimensionales de macromoléculas)

31/05/2019

6

Bases de datos

Bases de datos

31/05/2019

7

Bases de datos - Secundarias Bases de datos secundarias

Comprenden datos que provienen de los resultados de los análisis de las bases de datos primarias.

Son altamente depuradas, y utilizan una compleja combinación de algoritmos informáticos y análisis manuales e interpretación para obtener nuevo conocimiento a partir de registros científicos públicos.

Ejemplos:

InterPro (Familias de proteínas, motivos y dominios)

UniProt Knowledgebase (información de secuencia y functional de proteinas)

Ensembl (variantes, función, regulación y mas focalizado en secuencias de genomas completos)

Ejemplo-InterProScan >ARM69131.1 N-acetylmuramoyl-L-alanine amidase [Staphylococcus phage vB_Sau_CG]

MAKTQAEINKRLDAYAKGTVDSPYRVKKATSYDPSFGVMEAGAIDADGYYHAQCQDLITDYVLWLTDNKVRTWGNAKDQI

KQNYGTGFKIHENKPSTVPKKGWIAVFTSGSYQQWGHIGIVYDGGNTSTFTILEQNWNGYANKKPTKRVDNYYGLTHFIE

IPVKAGTTVKKETAKKSASKTPAPKKKATLKVSKNHINYTMDKRGKKPEGMVIHNDAGRSSGQQYENSLATAGYARYANG

IAHYYGSEGYVWEAIDAKNQIAWHTGDGTGANSGNFRFAGIEVCQSMSASDAQFLKNEQAVFQFTAEKFKEWGLTPNRKT

VRLHMEFVPTACPHRSMVLHTGFNPVTQGRPSQAIMNKLKDYFIKQIKNYMDKGTSSSTVVKDGKTSSASTPATRPVTGS

WKKNQYGTWYKPENATFVNGNQPIVTRIGSPFLNAPVGGNLPAGATIVYDEVCIQAGHIWIGYNAYNGNRVYCPVRTCQG

VPPNQIPGVAWGVFK

31/05/2019

8

Resultados InterProScan

Alineamiento de secuencias Alineamiento de a pares (Pairwise alignment): es utilizado para identificar regions de similitud que pueden indicar relaciones funcionales, estructurales, y/o evolutivas entre dos secuencias biológicas (proteina o ácido nucleico).

Alineamiento multiple de secuencias (MSA): es el alinemiento de tres o más secuencias biológicas de longitude similar. Desde el resultado de la aplicación de MSA se puede inferior la homología y las relaciones evolutivas entre las secuencias estudiadas.

31/05/2019

9

Alineamiento de secuencias

Alineamiento Global

• Intenta alinear cada residuo en cada secuencia • Es mas útil cuando las secuencias que se están

alineando son similares y casi del mismo tamaño.

• Puede usar el algoritmo de Needleman-Wunsch. Programación dinámica

Alineamiento Local

• Muy similar al alineamiento global • En lugar de tener que alinear cada residuo el

alineamiento local alinea segmentos de longitud arbitraria de las secuencias, sin penalidades por las secuencias que no alinean.

• Es útil cuando tenemos dos secuencias disimilares y queremos ver si hay un gen conservado o región entre los dos.

• Utiliza el algoritmo de Smith-Waterman

Alineamiento de secuencias

31/05/2019

10

BLAST – Basic Local Alignment Search Tool o Altschul et al. 1990,1994,1997

o Encuentra regiones de similitud local entre secuencias. El programa compara secuencias de nucleótidos y proteínas con bases de datos de secuencias y calcula el significado estadístico del match. BLAST puede ser utilizado para inferir relaciones evolutivas entre secuencias así como ayudar a identificar miembros de familias génicas.

BLAST – Basic Local Alignment Search Tool

https://blast.ncbi.nlm.nih.gov/Blast.cgi

31/05/2019

11

–nr = no redundante

–month = nuevas secuencias de los últimos meses

–RefSeq: secuencias de referencias bien anotadas que incluyen genómicas, transcriptos y proteínas.

–refseq_rna

–refseq_genomic

–ESTs = marcador de secuencias expresadas

–Taxon = ej., humano, Drososphila, levadura, E. coli

–proteínas

–pdb = estructura tridimensional de proteínas

El servidor web de NCBI BLAST permite comparar tu secuencia “query” en varias bases de datos de GenBank:

Interpretando los resultados de BLAST Área gráfica: muestra donde tu secuencia (query) es similar a otras.

Lista de Hits: es la lista de nombres de secuencias similares a tu secuencia, las mismas se ordenan según su similitud.

El alineamiento: muestra cada alineamiento entre tu secuencia y cada uno de los Hits reportados

Los parámetros: una lista de parámetros utilizados para la búsqueda

31/05/2019

12

Interpretando los resultados de BLAST – Área gráfica

La figura puede ayudarte a ver algunas zonas de similitud que no abarca toda la longitud de la secuencia esto podría ayudar a la identificación de dominios

Porción de otra secuencia similar a tu secuencia • Rojo y fucsia = buen

alineamiento • Verde = alineamiento

intermedio • Azul = alineamiento malo

Query

Query

Dominios putativos conservados

Interpretando los resultados de BLAST – Lista de Hits

Max score: Es el score de la mejor secuencia alineada. Total score: Es la suma de los scores de todas las secuencias alineadas. Query coverage: es el porcentaje de la secuencia alineada a una secuencia en el genbank. El valor esperado (E): es un parámetro que describe el número de hits que uno puede esperar a ver debido al azar cuando busca en una base de datos de un tamaño particular. El porcentaje de identidad: es un número que describe cuan similar es la secuencia query a la secuencia blanco (cuantos caracteres en cada secuencia son identicos). Cuanto mayor es el porcentaje de identidad, mas significativo es el match.

31/05/2019

13

Interpretando los resultados de BLAST – Alineamiento

Idénticos

AA similar

Fracción de AA que son similares o idénticos

Mismatch

Porcentaje de identidad

BLASTeando secuencias de proteínas blastp = compara una secuencia de AA con una base de datos de proteínas.

Si se quiere encontrar algo sobre la función de una proteína, usar blastp para comparar la proteína con otras proteínas contenidas en la base de datos, identificar regiones comunes entre proteínas o recolectar proteínas relacionadas (análisis filogenéticos).

tblastn = compara una secuencia de una proteína con una base de datos de nucleótidos.

Si quiere descubrir nuevos genes que codifiquen proteínas (de múltiples organismos) se usa esta herramienta para comprar la proteína con secuencias de ADN traducidas en los seis marcos abiertos de lectura posibles. También puede usarse para mapear una proteína en ADN genómico.

31/05/2019

14

BLASTeando secuencias de nucleótidos blastn = compara una secuencia de ADN con una base de datos de ADN.

Se puede utilizar para mapear oligonucleótidos, productos de PCR y ADNc a un genoma; anotar un ADN genómico; búsqueda de secuencias inter-especies, etc.

tblastx = compara un ADN traducido a proteína con una base de datos de ADN traducido a proteína.

Predicción de genes inter-especies a nivel de genoma o transcriptos; búsqueda de genes que aun no están en las bases de datos de proteínas, etc.

blastx = compara un ADN traducido a proteína con una base de datos de proteínas.

Búsqueda de genes que codifican proteínas en ADNc genómico, determinando si un ADNc corresponde a una proteína conocida.

Ejemplos de aplicaciones que emplean BLAST

Alineamiento fragmentado

Gegenees: es un software para análisis comparativo de datos de secuencias genomicas completas y otros datos de Next Generation Sequence (NGS). Este software puede comparar gran número de genomas microbianos dando características filogenómicas. Lenguaje: JAVA (multiplataforma)

Matriz de distancia Visualización

http://www.gegenees.org/

http://www.splitstree.org/

Ejemplo:

31/05/2019

15

Comparación de los genomas de fagos de la familia Myoviridae de S. aureus

Gegenees

Splitstree 4

Red filogenética- Algoritmo Neighborn-Net

Ejemplos de aplicaciones que emplean BLAST

CCT - CGView Comparison Tool http://stothard.afns.ualberta.ca/downloads/CCT/

Es un paquete que permite la comparación visual de secuencias de bacterias, plásmidos, cloroplastos o mitocondrias. Las comparaciones se realizan mediante la utilización de BLAST y los resultados se muestran como gráficos circulares.

31/05/2019

16

Métodos de comparación libres de alineamiento Los métodos de comparación de secuencias libres de alineamiento pueden ser definidos como cualquier método para cuantificar la similitud/disimilitud de secuencias que no utiliza o produce alineamientos en ningún paso del algoritmo.

Utilizan menos recursos computacionales

Son aplicables cuando hay baja conservación

No tiene en cuenta las trayectorias evolutivas de los cambios en las secuencias

Se estima que hasta la fecha se ha secuenciado 10-20% del total de ADN sobre la Tierra.

Métodos de comparación libres de alineamiento

Mash distance (MinHash) Parámetros: Sketch size = 50000 y k-mer size = 17

CAFE Manhanttan distance k-mer = 8

31/05/2019

17

Ejemplos de Análisis in silico Predicción de Genes: Ej. GeneMark

Ejemplos de Análisis in silico Base de datos de familias de proteínas: Pfam “Pfam es una clasificación de familias de proteínas de acuerdo a las familias, dominios, repeticiones y motivos”

https://www.ebi.ac.uk/Tools/pfa/pfamscan/

https://www.ebi.ac.uk/Tools/hmmer/

http://pfam.xfam.org/ Pfam 32.0 (September 2018, 17929 entries)

31/05/2019

18

Ejemplos de Análisis in silico Predicción de terminadores de la transcripción: ARNold

Predicción de motivos: MEME suite

Ejemplos de Análisis in silico

31/05/2019

19

UGENE Software bioinformático Software bioinformático multiplataforma gratuito:

Edición y anotación de secuencias Alineamiento múltiple de secuencias: ClustalW, Muscle, etc. PCR in silico BLAST (local y NCBI) Digestión con ER Ensamblado de novo de genomas

http://ugene.net/

UGENE Software bioinformático

31/05/2019

20

UGENE Software bioinformático

WORKFLOW