Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

64
Introducción a la Bioinformática II Tomás Arredondo Vidal 22/10/2008

description

Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008. Introducción a la Bioinformática. Esta charla trata de lo siguiente: Introducción a bases de datos y herramientas utilizadas en la bioinformática. Introducción a la Bioinformática. ADN de Células:. Prokariotas - PowerPoint PPT Presentation

Transcript of Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Page 1: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática II

Tomás Arredondo Vidal22/10/2008

Page 2: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Esta charla trata de lo siguiente:

• Introducción a bases de datos y herramientas utilizadas en la bioinformática

Page 3: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

ADN de Células:

Prokariotas• Organismos microscópicos• Su genoma es una molécula circular de ADN • Genoma es del orden de 0.6-8 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 1000 pares de bases• Sus genes no son sobrepuestos (no overlap)• Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor• Son continuamente codificantes (sin intrones)

Page 4: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

ADN de Células:

Eukariotes• Organismos variados (plantas, animales, hongos,...)• Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas• Genoma es del orden de 10-3000 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 100000 pares bases• Genoma incluye muchas áreas no codificantes• Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso• Genes pueden derivar en múltiples formas de ARNm y proteínas• Mas complejas!

Page 5: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Page 6: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Page 7: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Dogma Central (Watson & Crick)

• Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína

Page 8: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Dogma Central (Watson & Crick)

Proteína

Replicación

Transcripción

Traducción

Page 9: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Dogma Central (Watson & Crick)

Page 10: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Dogma Central (Watson & Crick)

• Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína

Page 11: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Documentación

PUBMED

• El National Center for Biotechnology Information (NCBI) tiene muchos diferentes recursos disponibles para investigadores bioinformaticos en la web• NCBI crea bases de datos publicas, hace investigacion en biologia computacional, desarrolla herramientas para analizar datos genomicos (e.g. BLAST) y disemina la informacion para tener mejor entendimiento de los procesos moleculares que afectan las enfermedades y la salud humana• NCBI da acceso a PUBMED, mas de 200 revistas sobre biologia, medicina, bioinformatica•Ir a: www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pmc

Page 12: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

NCBI

• En Genomica NCBI trabaja en conjunto con el European Molecular Biology Laboratory (EMBL) y el DNA Data Bank of Japan• Sitio web de NCBI: http://www.ncbi.nlm.nih.gov/• Bases de datos de NCBI:• http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

Page 13: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de nucleótidos

• La bioinformática requiere encontrar e interpretar datos biológicos. De nuestro interés son las bases de datos para nucleótidos, proteínas y vías metabólicas• Algunas bases de datos o fuentes de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl, RefSeq y PDB• Entrez es una colección de bases de datos nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en Genbank, RefSeq y PDB• Entrez (4/2006) tiene sobre 130 mil millones de bases!• Se puede utilizar el Genbank ID (e.g. X01714), un gene id (e.g. gi41296) o el nombre de la proteína (dUTPase) para iniciar búsquedas en Genbank

Page 14: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Significado de los campos: Entrez / Genbank

• Locus: nombre de locus, tamaño de la secuencia (pb’s), el tipo de molecula (ADN, ARN), topologia (lineal o circular)

• Definition: definición corta del gen que corresponde a la secuencia

• Accession: lista el identificador único en las varias bases de datos (e.g. X01714)

• Keywords: palabras claves• Source: el nombre común del organismo relevante al cual

pertenece la secuencia• Organism: Identificación del organismo completo con la

completa información taxonómica • Reference: Artículos en los que se determino la secuencia• Comments: Comentarios

Page 15: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Significado de los campos: Entrez / Genbank

• FEATURES: Área que incluye varias secciones• source: Origen de regiones especificas en la secuencia,

se usa para distinguir vectores de clones de secuencias• promoter: muestra la ubicación precisa de un elemento

promotor• misc feature: característica miscelánea, indica comienzo

de trascripción• RBS (Ribosome Binding Site): lugar del ultimo elemento

al principio de la cadena (upstream)• CDS: secuencia codificante (ORFs)

• misc feature: indica elementos potencialmente reguladores• BASE COUNT: cuenta de las bases a, t, c, g• Secuencia: secuencia genética en líneas de 60 nucleótidos

Page 16: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de nucleótidos: Entrez

Como seleccionar un record de una secuencia especifica en un prokariote del gen dUTPase1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (X01714)4. Seleccionar el link X01714 5. Seleccionar Display → Fasta para el formato FASTA6. Seleccionar Text para generar un archivo texto

Page 17: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de nucleótidos: Entrez

Como seleccionar un record de una secuencia especifica, el gen dUTPase en el ARN mithocondrial de un eukariote1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (U90223)4. Seleccionar el link U90223 5. Seleccionar Display → default para el formato FASTA6. Seleccionar Text para generar un archivo texto

Page 18: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de nucleótidos: Entrez

Como seleccionar un record de una secuencia especifica en un eukariote del gen dUTPase en la secuencia genética (un cromosoma)1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (AF018430)4. Seleccionar el link AF018430 5. Seleccionar Display → default para el formato FASTA6. Seleccionar Text para generar un archivo texto

FASTA es un formato formato para seleccionar (copiar y pegar) la secuencia de nucleótidos deseado.

Page 19: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de nucleótidos: Entrez

Para hacer una búsqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Protein name] y

apretar GoLa búsqueda va a retornar varias selecciones: AH005568 es la secuencia completa, el resto son exons y secuencias de aminoácidos nuclear y mitocondrial1. Seleccionar Link al lado del link AF018432 y seleccionar

secuencias relacionadas2. La selección retorna varios datos, algunos son secuencias de

ARNm como el U90223

Page 20: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de nucleótidos: Entrez

Para hacer una búsqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menú Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Protein name] y

apretar GoLa búsqueda va a retornar varias selecciones: AH005568, ... algunas exones y otras son secuencias completas de aminoácidos nuclear y mitocondrial1. Seleccionar Link al lado del link AF018432 y seleccionar

secuencias relacionadas2. La selección retorna varios datos, algunos son secuencias de

ARNm como el U90223

Page 21: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de nucleótidos: Entrez

Para hacer una busqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menú Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Title] y apretar GoLa búsqueda va a retornar mas de 190 selecciones de GenBankpero muchas son secuencias parciales de ARNm llamadas ESTs (Expressed Sequence Tags)Para eliminar estos ESTs:1. Seleccionar Limits link (abajo de ventana Search)2. Seleccionar Exclude ESTs3. Ir a la parte de arriba y seleccionar Go

Page 22: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de genes: LocusLink/Entrez Gene

Para hacer una búsqueda relacionada con un locus (ubicación) de un gen en una cromosoma (no solo instancias de secuencias relacionados a un gen)1. Ir a Genbank Entrez Gene:

http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene2. En el For escribir: DUT (nombre del gen) y apretar Go3. Ir a SNP Gene View:La búsqueda va a retornar el LocusID de tres organismos con este gen (dUTPase)

Page 23: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Significado de los campos: Entrez Gene

La búsqueda en Entrez Gene va a retornar la siguiente información (e.g. DUT), incluyendo su ubicación • Official Symbol: DUT and Name: dUTP pyrophosphatase

[Homo sapiens]• Other Aliases: HGNC:3078, dUTPase• Other Designations: dUTP nucleotidohydrolase; deoxyuridine

5'-triphosphate nucleotidohydrolase; deoxyuridine triphosphatase

• Chromosome: 15; Location: 15q15-q21.1• GeneID: 1854

Page 24: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de genes

Para trabajar con genomas completos virales:1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.2. Elegir en la barra arriba del menú: Genome3. Hacer click en el link: Viruses4. Escribir en la ventana de búsqueda: HIV25. Seleccionar6. La barra azul simboliza el genoma del virus, se puede

seleccionar para ver la región de interés7. Se puede seleccionar la sección Coding para ver una lista de

proteínas, esta a la vez se puede guardar (Save) en varios formatos incluyendo Fasta

Page 25: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de genes

Para trabajar con genomas completos bacteriales:1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.2. Elegir en la barra arriba del menú: Genome3. Hacer click en el link Related resources: Microbial4. Se puede seleccionar el genoma para una bacteria de interés5. Se puede seleccionar bajo Genbank para ver la secuencia

Page 26: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Proyecto del Genoma Humano

Para trabajar con el genoma humano:1. Ir a: http://www.ncbi.nlm.nih.gov/genome/guide/

Para buscar genes:1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Gene2. Ver sample searches : human muscular dystrophy

Para ver homologias entre varios organismos y el genoma humano:1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?

db=homologene2. Seleccionar Tax Plot: Homo sapiens, mus musculus and rattus

norvegicus 3. Plot It!

Page 27: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Bases de datos de genes eukariotes: Ensembl

Ensembl incluye el genoma de eukariotes como el ratón, humano, mosquito y mas:1. Ir a Ensemble: www.ensembl.org/.2. Elegir botón: Homo sapiens3. Elegir cromosoma 15, al medio de q21.14. Se puede ver el gen DUT

Otras cosas de interés son el mapa del sitio (Site Map) y el tour del sitio (Ensembl Tour)

Ensemble también incluye información acerca de los genes como por ejemplo las enfermedades que han sido relacionadosa el. Elegir data mining de la pagina principal. Otro sitio de interés es el buscados de genomas de USC:1. Ir a : genome.cse.ucsc.edu/.2. Ir a genomes, buscar: U90223 (dUTPase)

Page 28: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Bases de datos de proteínas

• Secuenciar genomas es mas fácil que secuenciar proteínas de aminoácidos directamente• La mayoría de las secuencias de aminoácidos conocidas se ha obtenido indirectamente a través del análisis de secuencia genómicas • La proteómica o el estudio de la visualización y análisis de las moléculas de proteínas en organismos nos indican que las proteínas reales no actúan como se esperaría de una simple traducción de ORFs de nucleótidos• La razón es que cuando se traduce la cadena de aminoácidos puede ser muy modificada antes de convertirse en la proteína final• Esto se denomina maduración de la proteína

Page 29: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Bases de datos de proteínas

Algunos etapas en la maduración (modificaciones de post-

traducción) de las proteínas incluyen:1. Cortes en la cadena de aminoácidos2. Eliminación de fragmentos en la cadena de

aminoácidos3. Modificación química de aminoácidos especificas4. Suma de moléculas de lípidos5. Suma de moléculas glicosidicas (de azúcar)

Un rol fundamentar para una base de datos de proteínas es mostrar esta información cuando esta disponible por experimentos (e.g. 2D gel electrofóresis) o se predice por técnicas computacionales

Page 30: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Bases de datos de proteínas

• Para que la proteína haga su función correcto dentro de la célula es necesario que llegue a su ubicación correcta en el organismo o en la célula. Esto requiere que durante su traducción la cadena sea expuesta a señales especificas que célula utiliza para dirigir la proteína a su ubicación especifica atravesando membranas en su ruta• Algunos destinos finales de las proteínas incluyen:

1. Membrana celular2. Afuera de la célula3. Transportado al periplasma (para bacterias)4. Transportado al mitocondria o otro organello5. Transportado al núcleo celular

Saber el destino final de la proteína es importante para saber su funcionamiento y este tipo de información se incluye bases de datos de proteínas

Page 31: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Page 32: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Bases de datos de proteínas

• Factores adicionales para determinar el funcionamiento de la proteína son sus folds (vueltas)• Típicamente estos se determinan a través de la hidrofobicidad, acoplamiento (docking) de los aminoácidos, cargas electrostáticas• La cadena péptica se convierte en una proteína en 3D funcional y estable a través de esta vueltas• La estructura final depende de subdominios (o formas) de aminoácidos que funcionan como bloques lego• La naturaleza organiza estos bloques para producir la inmensa variedad de proteínas existentes• La mayoría de las proteínas naturales están hechas de combinaciones de una a 10 dominios elegidos de varios miles• Estos dominios se identifican por características bases (signaturas) de aminoácidos, estas secuencias conservadas que generan dominios se denominan motifs

Page 33: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

1A5P:_ RIBONUCLEASE A KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV

KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV

Page 34: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

F

L

SY C

L PH

Q

R

I

MT

N

K

S

R

V A

D

EG

W

Page 35: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Bases de datos de proteínas: SWISS-PROT

• La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT• Se utiliza el Primary Accession Number (identificador de la proteína) para identificar una secuencia que se quiere encontrar (e.g. P32861)• SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados• TrEMBL es una base de datos automáticamente anotada

Page 36: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Bases de datos de proteínas: SWISS-PROT

Como ejemplo vamos a ver la proteína denominada EGF receptor:1. Ir a SWISS-PROT: www.expasy.ch/sprot/.2. Escribir en la ventana Search: P005333. Go!

Page 37: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Significado de los Campos: SWISS-PROT

La búsqueda en SWISS-PROT va a retornar varios campos:• Entry Name: identificador que indica que tipo de registro se

retorno en la búsqueda, no es necesariamente estable (puede cambiar)

• Primary Accession Number: identificador único y estable de la secuencia, este numero tiene que ser usado como referencia del trabajo (e.g. P00533)

• Secondary Accession Numbers: identificadores antiguos relacionados con esta secuencia

• Fecha inicial• Sequence was last modified in: Fecha ultima modificación• Annotations were last modified in: últimos cambios a este

registro

Page 38: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Proteómica

Significado de los Campos: SWISS-PROT

Otros campos retornados:• Protein name: información descriptiva de la secuencia• Synonyms: el nombre y numero de la reacción bioquímica

que esta proteína (enzima) ejecuta• Gene name: nombre del gen relacionado• From: origen de la proteína• Taxonomy: clasificación taxonómica del organismo origen de

la proteína• Comments: sección con información de utilidad que no

pertenece a otra de las secciones• Cross-References: sección con enlaces a otras bases de

datos que contienen información acerca de esta proteína• Keywords: palabras claves en este registro• Features: sección que mapea la información de la proteína a

su secuencia

Page 39: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genomica

Bases de datos de Vías Metabólicas

• Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC• KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial• En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda)• BRENDA es un sistema de información enzimático• IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular • ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli

Page 40: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Vías Metabólicas

Bases de datos de Vías Metabólicas

• Típicamente se utiliza el nombre de la via (e.g. Xenobiotics/DDT, 2,4-DICHOLOROBENZOATE DEGRADATION)• KEGG:• www.genome.ad.jp/kegg• Expasy:• www.expasy.ch/cgi-bin/search-biochem-index• Brenda:• www.brenda.uni-koeln.de/•La IUMBM tiene informacion sobre nombres de enzimas:• www.chem.qmw.ac.uk/iubmb/• ECOCYC:• www.ecocyc.org

Page 41: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Vías Metabólicas

Bases de datos de Vías Metabólicas: KEGG

# [ LinkDB | KEGG ]# ENTRY EC 2.7.1.2# NAME Glucokinase# CLASS Transferases Transferring phosphorus-containing groups Phosphotransferases with an alcohol group as acceptor# SYSNAME ATP:D-glucose 6-phosphotransferase# REACTION ATP + D-Glucose = ADP + D-Glucose 6-phosphate# SUBSTRATE ATP D-Glucose# PRODUCT ADP D-Glucose 6-phosphate# COMMENT A group of enzymes found in invertebrates and microorganisms highly specific for glucose.<...>

Page 42: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Vías Metabólicas

Aplicaciones Para Comparar Secuencias

• BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias• Las principales versiones son BLASTP y TBLASTN• BLASTP compara la secuencia de una proteína con una base de datos de proteínas• TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos

Page 43: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

Usos de BLAST

• Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos • Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs

Page 44: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

BLASTP: Protein to Protein BLAST

Como ejemplo vamos a usar el servidor NCBI BLAST para encontrar proteínas similares al nucleolin del hamster en la base de datos SWISS-PROT:1. Ir a BLAST: www.ncbi.nih.gov/BLAST2. Elegir Standard protein-protein BLAST3. Insertar proteina a comparar: puede ser usando el

numero de accesion (P09405) o insertando la secuencia en formato FASTA

4. Choose database: swissprot5. Deseleccionar CD Search (dominios conservados muy

tipicos como Zn Fingers)6. Apretar BLAST!7. Seleccionar Format! que abre una ventana nueva8. Guardar los resultados (Save Picture As)

Page 45: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

Resultados de BLAST

• Parte grafica: muestra donde nuestra secuencia es similar a las otras secuencias• Hit list: nombre de secuencias similares a la nuestra• Alignments: los alineamientos entre nuestra secuencia y las secuencias similares• Parametros: parametros usados

Page 46: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

Resultados de BLAST

• Sequence Accesion Number• Description • Bit score – estima el significado del alineamiento (mientras mayor mejor)• E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor)• Alineamientos (%identidad, largo)

Page 47: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

Otros tipos de BLAST

• BLASTP compara una secuencia de aminoácidos contra una base de datos de secuencias de proteínas• BLASTN compara una secuencia de nucleótidos contra una base de datos de nucleótidos• BLASTX toma una secuencia de nucleótidos y la traduce en los seis posibles RFs para comparar con una base de datos de secuencias de proteínas• TBLASTN compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoácidos a todos sus posibles RFs• TBLASTX compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoacidos y la base de datos a todos sus posibles RFs

Page 48: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

Aplicaciones Para Comparar Secuencias Múltiples

• Alineamientos múltiples se utilizan para comparar secuencias homologas (ancestro comun) • Se alinean aminoácidos o nucleótidos en la misma columna por que son homólogos de acuerdo a algún criterio• Los criterios principales son:

• similitud estructural• similitud evolucionaría• similitud funcional• similitud secuencial

Los programas automáticos típicamente usan el criterio de similitud secuencial porque es el mas fácil de implementar. Cuando las secuencias son similares todos los criterios son equivalentes

Page 49: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas BioinformáticasAplicaciones Para Comparar Secuencias Múltiples

Una comparación de múltiples secuencias nos permite:• Extrapolar: determinar que una secuencia realmente es parte de una familia de proteinas o dominio• Analisis filogenetico: con una seleccion cuidadose se puede reconstruir la historia evolucionaria de las proteinas• Identificacion de patrones: al descubrir una region conservada se puede identificar una region que es caracteristica de una funcion (motif) en secuencias nucleicas o de aminoacidos• Elementos reguladores de ADN: se puede encontrar sitios de binding• Prediccion de estructura: ayuda a generar predicciones de la estructura 3D de la proteina• Analisis PCR: identificar porciones menos degeneradas de la familia de proteinas

Page 50: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

Aplicaciones Para Comparar Secuencias Múltiples

Este análisis nos permite ver las fuerzas que moldean la evolución: Aminoácidos (o nucleótidos) importantes no cambian (mutan)... Porque?Los menos importantes cambian mas fácilmente, a veces aleatoriamente, y a veces para adaptarse a una función

Page 51: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

KEGG, Genbank y BLAST para encontrar vías de interés en un organismo especifico (eg. LB400)

Como encontrar si hay una enzima especifica de una vía especifica en un genoma de interés (e.g. LB400):1. Ir a KEGG: http://www.genome.jp/kegg/pathway.html2. Elegir: 2,4-Dichlorobenzoate degradation3. Elegir: enzima 1.1.3.38 (vanillyl-alcohol oxidase)4. Ir a Genbank: http://www.ncbi.nlm.nih.gov/5. Elegir una proteina que no diga mutante en

Nombre, ni Hipotetical/Putativo en OrganismoElegir Numero de accesión: P56216Ver en formato FASTA y copiar

• Ir a LB400: http://genome.ornl.gov/microbial/bfun/• Hacer TBLASTN con secuencia en formato FASTA,

ver si la secuencia tiene alineamientos correctos

Page 52: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

BLAST para seleccionar secuencias para el Alineamiento Múltiple

Vamos a usar ExPASy BLAST y ExPASy para encontrar secuencias parecidas a la proteína P20472 (calcium kinase):1. Ir a ExPASy:

http://www.expasy.ch/cgi-bin/BLASTEMBnet-CH.pl2. Insertar proteina a comparar: P20472 3. Seleccionar: blastp4. Elegir SWISS-PROT + TREMBL + TREMBL_NEW5. En Options: elegir el numero de secuencias (scoring y

alignment) a 10006. Apretar BLAST!7. Seleccionar secuencias: 10 o menos (al principio)8. Exportar las secuencias: (usar FASTA)

Page 53: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Herramientas Bioinformáticas

ClustalW para Alineamiento Múltiple

1. Ir a ClustalW: www.ebi.ac.uk/clustalw/index2. Insertar secuencias en la ventana Sequence3. En Alignment pulldown: elegir Fast4. En Output Format pulldown: elefir Aln Without

Numbers5. En Output order: elegir Input6. Presionar el boton RUN7. Guardar los resultados

Los resultados se analizan para ver las posiciones que son importantes y que no se les permite mutar (conservados) evolucionariamente.

Page 54: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Evolución Genética

• Todos los genes están relacionados (Zuckerkandl, Pauling 1960’s)• Los genes a veces evolucionan independientemente del organismo (formulado por R. Dawkins 1976)• Solamente unos pocos miles de familias de genes existen (C. Chothia, 1992, Nature 357)

Page 55: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Análisis Filogenético: Definiciones

• Genes Homólogos: Genes con un ancestro común• Genes Ortólogos: Homólogos separados por especiacion en el cual un ancestro común genera dos subgrupos que lentamente se separan para convertirse en nuevas especies• Genes Paralogs: Homólogos separados por un evento de duplicación. Una de las copias típicamente mantiene su función mientras que la otra tiene otra función pero relacionada• Genes Xenologs: Xenologs ocurren por la transferencia horizontal de una especie a otra. No hay historia del nuevo gen en el genoma que fue insertado

Page 56: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Búsqueda de secuencias/proteínas homologas:

Page 57: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Análisis filogenético: Ortólog y Paralog

A

A B

A1 B1 A2 B2

Duplicación

Especiación

Page 58: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Análisis filogenético: Globina y Myoglobina

Ancestralglobin gene

duplication

Myoglobinmouse

globin Globinancestor

globinman

globinmouse

Myoglobinman

Myoglobin

Page 59: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Análisis Filogenético: Algunas herramientas

• ClustalW: Herramienta de tipo caja negra para análisis filogenético• Phylip: Método mas sofisticado que permite controlar los parámetros necesarios en la reconstrucción

Page 60: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Motivación para los estudios Bioinformáticos: Medicina

Genome Gene map Gene sequence Expression

t

a

g

c

t

a

g

c g c

t

c

g

c

t

g t

c

g t

g

g

t

ct

g

a

t

g

a

t

g

t

t

g

t

g

t

a

a

a

a

c

g

g

c Alzheimers

Cancer

Arthritis

MS

CV Disease

Obesity

Vision

Arthritis

Diseases

t

g

Page 61: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Genómica

Análisis Filogenético: Algunas herramientas

Ir a Entrez: GenomeSeleccionar MicroorganismoSeleccionar proteína de interésExportar la secuencia (FASTA)Seleccionar: blastp (protein-protein)Apretar BLAST!Se detectan los dominios putativos conservadosHacer click en la secuencia conservada (en rojo)Click en search for similar domain architecture para comparar con otros microorganismos

Page 62: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Introducción a la Bioinformática

Ejemplo. Bacillus anthracis plasmid: pX01

Page 63: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

SE ACABO?

Introducción a la Bioinformática

Page 64: Introducción a la Bioinformática II Tom á s Arredondo Vidal 22/10/2008

Referencias

• Brown, T.A., Genomes, Wiley, 1999• Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003• Perkus, J. K., Mathematics of Genome Analysis, 2002• Gibas, C., Developing Bioinformatics Computer Skills, 2001• http://www.biologia.edu.ar/index.html• http://www.arrakis.es/%7Elluengo/• Link antiguo: http://www.multisan2001.com