Introducción a la Bioinformática - LAB
Tomás Arredondo Vidal2010
Introducción a la Bioinformática
Esta charla trata de lo siguiente:
• Introducción a bases de datos y herramientas utilizadas en la bioinformática
Introducción a la Bioinformática
ADN de Células:
Prokariotas• Organismos microscópicos• Su genoma es una molécula circular de ADN • Genoma es del orden de 0.6-8 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 1000 pares de bases• Sus genes no son sobrepuestos (no overlap)• Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor• Son continuamente codificantes (sin intrones)
Introducción a la Bioinformática
ADN de Células:
Eukariotes• Organismos variados (plantas, animales, hongos,...)• Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas• Genoma es del orden de 10-3000 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 100000 pares bases• Genoma incluye muchas áreas no codificantes• Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso• Genes pueden derivar en múltiples formas de ARNm y proteínas• Mas complejas!
Introducción a la Bioinformática
Introducción a la Bioinformática
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
• Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
Proteína
Replicación
Transcripción
Traducción
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
• Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática
Documentación
PUBMED
• El National Center for Biotechnology Information (NCBI) tiene muchos diferentes recursos disponibles para investigadores bioinformaticos en la web• NCBI crea bases de datos publicas, hace investigacion en biologia computacional, desarrolla herramientas para analizar datos genomicos (e.g. BLAST) y disemina la informacion para tener mejor entendimiento de los procesos moleculares que afectan las enfermedades y la salud humana• NCBI da acceso a PUBMED, mas de 200 revistas sobre biologia, medicina, bioinformatica•Ir a: www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pmc
Introducción a la Bioinformática
Genómica
NCBI
• En Genomica NCBI trabaja en conjunto con el European Molecular Biology Laboratory (EMBL) y el DNA Data Bank of Japan• Sitio web de NCBI: http://www.ncbi.nlm.nih.gov/• Bases de datos de NCBI:• http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos
• La bioinformática requiere encontrar e interpretar datos biológicos. De nuestro interés son las bases de datos para nucleótidos, proteínas y vías metabólicas• Algunas bases de datos o fuentes de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl, RefSeq y PDB• Entrez es una colección de bases de datos nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en Genbank, RefSeq y PDB• Entrez (4/2006) tiene sobre 130 mil millones de bases!• Se puede utilizar el Genbank ID (e.g. X01714), un gene id (e.g. gi41296) o el nombre de la proteína (dUTPase) para iniciar búsquedas en Genbank
Introducción a la Bioinformática
Genómica
Significado de los campos: Entrez / Genbank
• Locus: nombre de locus, tamaño de la secuencia (pb’s), el tipo de molecula (ADN, ARN), topologia (lineal o circular)
• Definition: definición corta del gen que corresponde a la secuencia
• Accession: lista el identificador único en las varias bases de datos (e.g. X01714)
• Keywords: palabras claves• Source: el nombre común del organismo relevante al cual
pertenece la secuencia• Organism: Identificación del organismo completo con la
completa información taxonómica • Reference: Artículos en los que se determino la secuencia• Comments: Comentarios
Introducción a la Bioinformática
Genómica
Significado de los campos: Entrez / Genbank
• FEATURES: Área que incluye varias secciones• source: Origen de regiones especificas en la secuencia,
se usa para distinguir vectores de clones de secuencias• promoter: muestra la ubicación precisa de un elemento
promotor• misc feature: característica miscelánea, indica comienzo
de trascripción• RBS (Ribosome Binding Site): lugar del ultimo elemento
al principio de la cadena (upstream)• CDS: secuencia codificante (ORFs)
• misc feature: indica elementos potencialmente reguladores• BASE COUNT: cuenta de las bases a, t, c, g• Secuencia: secuencia genética en líneas de 60 nucleótidos
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Como seleccionar un record de una secuencia especifica en un prokariote del gen dUTPase1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (X01714)4. Seleccionar el link X01714 5. Seleccionar Display → Fasta para el formato FASTA6. Seleccionar Text para generar un archivo texto
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Como seleccionar un record de una secuencia especifica, el gen dUTPase en el ARN mithocondrial de un eukariote1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (U90223)4. Seleccionar el link U90223 5. Seleccionar Display → default para el formato FASTA6. Seleccionar Text para generar un archivo texto
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Como seleccionar un record de una secuencia especifica en un eukariote del gen dUTPase en la secuencia genética (un cromosoma)1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (AF018430)4. Seleccionar el link AF018430 5. Seleccionar Display → default para el formato FASTA6. Seleccionar Text para generar un archivo texto
FASTA es un formato formato para seleccionar (copiar y pegar) la secuencia de nucleótidos deseado.
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Para hacer una búsqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Protein name] y
apretar GoLa búsqueda va a retornar varias selecciones: AH005568 es la secuencia completa, el resto son exons y secuencias de aminoácidos nuclear y mitocondrial1. Seleccionar Link al lado del link AF018432 y seleccionar
secuencias relacionadas2. La selección retorna varios datos, algunos son secuencias de
ARNm como el U90223
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Para hacer una búsqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menú Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Protein name] y
apretar GoLa búsqueda va a retornar varias selecciones: AH005568, ... algunas exones y otras son secuencias completas de aminoácidos nuclear y mitocondrial1. Seleccionar Link al lado del link AF018432 y seleccionar
secuencias relacionadas2. La selección retorna varios datos, algunos son secuencias de
ARNm como el U90223
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Para hacer una busqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menú Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Title] y apretar GoLa búsqueda va a retornar mas de 190 selecciones de GenBankpero muchas son secuencias parciales de ARNm llamadas ESTs (Expressed Sequence Tags)Para eliminar estos ESTs:1. Seleccionar Limits link (abajo de ventana Search)2. Seleccionar Exclude ESTs3. Ir a la parte de arriba y seleccionar Go
Introducción a la Bioinformática
Genómica
Bases de datos de genes: LocusLink/Entrez Gene
Para hacer una búsqueda relacionada con un locus (ubicación) de un gen en una cromosoma (no solo instancias de secuencias relacionados a un gen)1. Ir a Genbank Entrez Gene:
http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene2. En el For escribir: DUT (nombre del gen) y apretar Go3. Ir a SNP Gene View:La búsqueda va a retornar el LocusID de tres organismos con este gen (dUTPase)
Introducción a la Bioinformática
Genómica
Significado de los campos: Entrez Gene
La búsqueda en Entrez Gene va a retornar la siguiente información (e.g. DUT), incluyendo su ubicación • Official Symbol: DUT and Name: dUTP pyrophosphatase
[Homo sapiens]• Other Aliases: HGNC:3078, dUTPase• Other Designations: dUTP nucleotidohydrolase; deoxyuridine
5'-triphosphate nucleotidohydrolase; deoxyuridine triphosphatase
• Chromosome: 15; Location: 15q15-q21.1• GeneID: 1854
Introducción a la Bioinformática
Genómica
Bases de datos de genes
Para trabajar con genomas completos virales:1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.2. Elegir en la barra arriba del menú: Genome3. Hacer click en el link: Viruses4. Escribir en la ventana de búsqueda: HIV25. Seleccionar6. La barra azul simboliza el genoma del virus, se puede
seleccionar para ver la región de interés7. Se puede seleccionar la sección Coding para ver una lista de
proteínas, esta a la vez se puede guardar (Save) en varios formatos incluyendo Fasta
Introducción a la Bioinformática
Genómica
Bases de datos de genes
Para trabajar con genomas completos bacteriales:1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.2. Elegir en la barra arriba del menú: Genome3. Hacer click en el link Related resources: Microbial4. Se puede seleccionar el genoma para una bacteria de interés5. Se puede seleccionar bajo Genbank para ver la secuencia
Introducción a la Bioinformática
Genómica
Proyecto del Genoma Humano
Para trabajar con el genoma humano:1. Ir a: http://www.ncbi.nlm.nih.gov/genome/guide/
Para buscar genes:1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Gene2. Ver sample searches : human muscular dystrophy
Para ver homologias entre varios organismos y el genoma humano:1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?
db=homologene2. Seleccionar Tax Plot: Homo sapiens, mus musculus and rattus
norvegicus 3. Plot It!
Introducción a la Bioinformática
Genómica
Bases de datos de genes eukariotes: Ensembl
Ensembl incluye el genoma de eukariotes como el ratón, humano, mosquito y mas:1. Ir a Ensemble: www.ensembl.org/.2. Elegir botón: Homo sapiens3. Elegir cromosoma 15, al medio de q21.14. Se puede ver el gen DUT
Otras cosas de interés son el mapa del sitio (Site Map) y el tour del sitio (Ensembl Tour)
Ensemble también incluye información acerca de los genes como por ejemplo las enfermedades que han sido relacionadosa el. Elegir data mining de la pagina principal. Otro sitio de interés es el buscados de genomas de USC:1. Ir a : genome.cse.ucsc.edu/.2. Ir a genomes, buscar: U90223 (dUTPase)
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
• Secuenciar genomas es mas fácil que secuenciar proteínas de aminoácidos directamente• La mayoría de las secuencias de aminoácidos conocidas se ha obtenido indirectamente a través del análisis de secuencia genómicas • La proteómica o el estudio de la visualización y análisis de las moléculas de proteínas en organismos nos indican que las proteínas reales no actúan como se esperaría de una simple traducción de ORFs de nucleótidos• La razón es que cuando se traduce la cadena de aminoácidos puede ser muy modificada antes de convertirse en la proteína final• Esto se denomina maduración de la proteína
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
Algunos etapas en la maduración (modificaciones de post-
traducción) de las proteínas incluyen:1. Cortes en la cadena de aminoácidos2. Eliminación de fragmentos en la cadena de
aminoácidos3. Modificación química de aminoácidos especificas4. Suma de moléculas de lípidos5. Suma de moléculas glicosidicas (de azúcar)
Un rol fundamentar para una base de datos de proteínas es mostrar esta información cuando esta disponible por experimentos (e.g. 2D gel electrofóresis) o se predice por técnicas computacionales
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
• Para que la proteína haga su función correcto dentro de la célula es necesario que llegue a su ubicación correcta en el organismo o en la célula. Esto requiere que durante su traducción la cadena sea expuesta a señales especificas que célula utiliza para dirigir la proteína a su ubicación especifica atravesando membranas en su ruta• Algunos destinos finales de las proteínas incluyen:
1. Membrana celular2. Afuera de la célula3. Transportado al periplasma (para bacterias)4. Transportado al mitocondria o otro organello5. Transportado al núcleo celular
Saber el destino final de la proteína es importante para saber su funcionamiento y este tipo de información se incluye bases de datos de proteínas
Introducción a la Bioinformática
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
• Factores adicionales para determinar el funcionamiento de la proteína son sus folds (vueltas)• Típicamente estos se determinan a través de la hidrofobicidad, acoplamiento (docking) de los aminoácidos, cargas electrostáticas• La cadena péptica se convierte en una proteína en 3D funcional y estable a través de esta vueltas• La estructura final depende de subdominios (o formas) de aminoácidos que funcionan como bloques lego• La naturaleza organiza estos bloques para producir la inmensa variedad de proteínas existentes• La mayoría de las proteínas naturales están hechas de combinaciones de una a 10 dominios elegidos de varios miles• Estos dominios se identifican por características bases (signaturas) de aminoácidos, estas secuencias conservadas que generan dominios se denominan motifs
Introducción a la Bioinformática
Proteómica
1A5P:_ RIBONUCLEASE A KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV
KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV
Introducción a la Bioinformática
F
L
SY C
L PH
Q
R
I
MT
N
K
S
R
V A
D
EG
W
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas: SWISS-PROT
• La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT• Se utiliza el Primary Accession Number (identificador de la proteína) para identificar una secuencia que se quiere encontrar (e.g. P32861)• SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados• TrEMBL es una base de datos automáticamente anotada
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas: SWISS-PROT
Como ejemplo vamos a ver la proteína denominada EGF receptor:1. Ir a SWISS-PROT: www.expasy.ch/sprot/.2. Escribir en la ventana Search: P005333. Go!
Introducción a la Bioinformática
Proteómica
Significado de los Campos: SWISS-PROT
La búsqueda en SWISS-PROT va a retornar varios campos:• Entry Name: identificador que indica que tipo de registro se
retorno en la búsqueda, no es necesariamente estable (puede cambiar)
• Primary Accession Number: identificador único y estable de la secuencia, este numero tiene que ser usado como referencia del trabajo (e.g. P00533)
• Secondary Accession Numbers: identificadores antiguos relacionados con esta secuencia
• Fecha inicial• Sequence was last modified in: Fecha ultima modificación• Annotations were last modified in: últimos cambios a este
registro
Introducción a la Bioinformática
Proteómica
Significado de los Campos: SWISS-PROT
Otros campos retornados:• Protein name: información descriptiva de la secuencia• Synonyms: el nombre y numero de la reacción bioquímica
que esta proteína (enzima) ejecuta• Gene name: nombre del gen relacionado• From: origen de la proteína• Taxonomy: clasificación taxonómica del organismo origen de
la proteína• Comments: sección con información de utilidad que no
pertenece a otra de las secciones• Cross-References: sección con enlaces a otras bases de
datos que contienen información acerca de esta proteína• Keywords: palabras claves en este registro• Features: sección que mapea la información de la proteína a
su secuencia
Introducción a la Bioinformática
Genomica
Bases de datos de Vías Metabólicas
• Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC• KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial• En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda)• BRENDA es un sistema de información enzimático• IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular • ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli
Introducción a la Bioinformática
Vías Metabólicas
Bases de datos de Vías Metabólicas
• Típicamente se utiliza el nombre de la via (e.g. Xenobiotics/DDT, 2,4-DICHOLOROBENZOATE DEGRADATION)• KEGG:• www.genome.ad.jp/kegg• Expasy:• www.expasy.ch/cgi-bin/search-biochem-index• Brenda:• www.brenda.uni-koeln.de/•La IUMBM tiene informacion sobre nombres de enzimas:• www.chem.qmw.ac.uk/iubmb/• ECOCYC:• www.ecocyc.org
Introducción a la Bioinformática
Vías Metabólicas
Bases de datos de Vías Metabólicas: KEGG
# [ LinkDB | KEGG ]# ENTRY EC 2.7.1.2# NAME Glucokinase# CLASS Transferases Transferring phosphorus-containing groups Phosphotransferases with an alcohol group as acceptor# SYSNAME ATP:D-glucose 6-phosphotransferase# REACTION ATP + D-Glucose = ADP + D-Glucose 6-phosphate# SUBSTRATE ATP D-Glucose# PRODUCT ADP D-Glucose 6-phosphate# COMMENT A group of enzymes found in invertebrates and microorganisms highly specific for glucose.<...>
Introducción a la Bioinformática
Vías Metabólicas
Aplicaciones Para Comparar Secuencias
• BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias• Las principales versiones son BLASTP y TBLASTN• BLASTP compara la secuencia de una proteína con una base de datos de proteínas• TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos
Introducción a la Bioinformática
Herramientas Bioinformáticas
Usos de BLAST
• Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos • Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs
Introducción a la Bioinformática
Herramientas Bioinformáticas
BLASTP: Protein to Protein BLAST
Como ejemplo vamos a usar el servidor NCBI BLAST para encontrar proteínas similares al nucleolin del hamster en la base de datos SWISS-PROT:1. Ir a BLAST: www.ncbi.nih.gov/BLAST2. Elegir Standard protein-protein BLAST3. Insertar proteina a comparar: puede ser usando el
numero de accesion (P09405) o insertando la secuencia en formato FASTA
4. Choose database: swissprot5. Deseleccionar CD Search (dominios conservados muy
tipicos como Zn Fingers)6. Apretar BLAST!7. Seleccionar Format! que abre una ventana nueva8. Guardar los resultados (Save Picture As)
Introducción a la Bioinformática
Herramientas Bioinformáticas
Resultados de BLAST
• Parte grafica: muestra donde nuestra secuencia es similar a las otras secuencias• Hit list: nombre de secuencias similares a la nuestra• Alignments: los alineamientos entre nuestra secuencia y las secuencias similares• Parametros: parametros usados
Introducción a la Bioinformática
Herramientas Bioinformáticas
Resultados de BLAST
• Sequence Accesion Number• Description • Bit score – estima el significado del alineamiento (mientras mayor mejor)• E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor)• Alineamientos (%identidad, largo)
Introducción a la Bioinformática
Herramientas Bioinformáticas
Otros tipos de BLAST
• BLASTP compara una secuencia de aminoácidos contra una base de datos de secuencias de proteínas• BLASTN compara una secuencia de nucleótidos contra una base de datos de nucleótidos• BLASTX toma una secuencia de nucleótidos y la traduce en los seis posibles RFs para comparar con una base de datos de secuencias de proteínas• TBLASTN compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoácidos a todos sus posibles RFs• TBLASTX compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoacidos y la base de datos a todos sus posibles RFs
Introducción a la Bioinformática
Herramientas Bioinformáticas
Aplicaciones Para Comparar Secuencias Múltiples
• Alineamientos múltiples se utilizan para comparar secuencias homologas (ancestro comun) • Se alinean aminoácidos o nucleótidos en la misma columna por que son homólogos de acuerdo a algún criterio• Los criterios principales son:
• similitud estructural• similitud evolucionaría• similitud funcional• similitud secuencial
Los programas automáticos típicamente usan el criterio de similitud secuencial porque es el mas fácil de implementar. Cuando las secuencias son similares todos los criterios son equivalentes
Introducción a la Bioinformática
Herramientas BioinformáticasAplicaciones Para Comparar Secuencias Múltiples
Una comparación de múltiples secuencias nos permite:• Extrapolar: determinar que una secuencia realmente es parte de una familia de proteinas o dominio• Analisis filogenetico: con una seleccion cuidadose se puede reconstruir la historia evolucionaria de las proteinas• Identificacion de patrones: al descubrir una region conservada se puede identificar una region que es caracteristica de una funcion (motif) en secuencias nucleicas o de aminoacidos• Elementos reguladores de ADN: se puede encontrar sitios de binding• Prediccion de estructura: ayuda a generar predicciones de la estructura 3D de la proteina• Analisis PCR: identificar porciones menos degeneradas de la familia de proteinas
Introducción a la Bioinformática
Herramientas Bioinformáticas
Aplicaciones Para Comparar Secuencias Múltiples
Este análisis nos permite ver las fuerzas que moldean la evolución: Aminoácidos (o nucleótidos) importantes no cambian (mutan)... Porque?Los menos importantes cambian mas fácilmente, a veces aleatoriamente, y a veces para adaptarse a una función
Introducción a la Bioinformática
Herramientas Bioinformáticas
KEGG, Genbank y BLAST para encontrar vías de interés en un organismo especifico (eg. LB400)
Como encontrar si hay una enzima especifica de una vía especifica en un genoma de interés (e.g. LB400):1. Ir a KEGG: http://www.genome.jp/kegg/pathway.html2. Elegir: 2,4-Dichlorobenzoate degradation3. Elegir: enzima 1.1.3.38 (vanillyl-alcohol oxidase)4. Ir a Genbank: http://www.ncbi.nlm.nih.gov/5. Elegir una proteina que no diga mutante en
Nombre, ni Hipotetical/Putativo en OrganismoElegir Numero de accesión: P56216Ver en formato FASTA y copiar
• Ir a LB400: http://genome.ornl.gov/microbial/bfun/• Hacer TBLASTN con secuencia en formato FASTA,
ver si la secuencia tiene alineamientos correctos
Introducción a la Bioinformática
Herramientas Bioinformáticas
BLAST para seleccionar secuencias para el Alineamiento Múltiple
Vamos a usar ExPASy BLAST y ExPASy para encontrar secuencias parecidas a la proteína P20472 (calcium kinase):1. Ir a ExPASy:
http://www.expasy.ch/cgi-bin/BLASTEMBnet-CH.pl2. Insertar proteina a comparar: P20472 3. Seleccionar: blastp4. Elegir SWISS-PROT + TREMBL + TREMBL_NEW5. En Options: elegir el numero de secuencias (scoring y
alignment) a 10006. Apretar BLAST!7. Seleccionar secuencias: 10 o menos (al principio)8. Exportar las secuencias: (usar FASTA)
Introducción a la Bioinformática
Herramientas Bioinformáticas
ClustalW para Alineamiento Múltiple
1. Ir a ClustalW: www.ebi.ac.uk/clustalw/index2. Insertar secuencias en la ventana Sequence3. En Alignment pulldown: elegir Fast4. En Output Format pulldown: elefir Aln Without
Numbers5. En Output order: elegir Input6. Presionar el boton RUN7. Guardar los resultados
Los resultados se analizan para ver las posiciones que son importantes y que no se les permite mutar (conservados) evolucionariamente.
Introducción a la Bioinformática
Genómica
Evolución Genética
• Todos los genes están relacionados (Zuckerkandl, Pauling 1960’s)• Los genes a veces evolucionan independientemente del organismo (formulado por R. Dawkins 1976)• Solamente unos pocos miles de familias de genes existen (C. Chothia, 1992, Nature 357)
Introducción a la Bioinformática
Genómica
Análisis Filogenético: Definiciones
• Genes Homólogos: Genes con un ancestro común• Genes Ortólogos: Homólogos separados por especiacion en el cual un ancestro común genera dos subgrupos que lentamente se separan para convertirse en nuevas especies• Genes Paralogs: Homólogos separados por un evento de duplicación. Una de las copias típicamente mantiene su función mientras que la otra tiene otra función pero relacionada• Genes Xenologs: Xenologs ocurren por la transferencia horizontal de una especie a otra. No hay historia del nuevo gen en el genoma que fue insertado
Introducción a la Bioinformática
Búsqueda de secuencias/proteínas homologas:
Introducción a la Bioinformática
Genómica
Análisis filogenético: Ortólog y Paralog
A
A B
A1 B1 A2 B2
Duplicación
Especiación
Introducción a la Bioinformática
Genómica
Análisis filogenético: Globina y Myoglobina
Ancestralglobin gene
duplication
Myoglobinmouse
globin Globinancestor
globinman
globinmouse
Myoglobinman
Myoglobin
Introducción a la Bioinformática
Genómica
Análisis Filogenético: Algunas herramientas
• ClustalW: Herramienta de tipo caja negra para análisis filogenético• Phylip: Método mas sofisticado que permite controlar los parámetros necesarios en la reconstrucción
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos: Medicina
Genome Gene map Gene sequence Expression
t
a
g
c
t
a
g
c g c
t
c
g
c
t
g t
c
g t
g
g
t
ct
g
a
t
g
a
t
g
t
t
g
t
g
t
a
a
a
a
c
g
g
c Alzheimers
Cancer
Arthritis
MS
CV Disease
Obesity
Vision
Arthritis
Diseases
t
g
Introducción a la Bioinformática
Genómica
Análisis Filogenético: Algunas herramientas
Ir a Entrez: GenomeSeleccionar MicroorganismoSeleccionar proteína de interésExportar la secuencia (FASTA)Seleccionar: blastp (protein-protein)Apretar BLAST!Se detectan los dominios putativos conservadosHacer click en la secuencia conservada (en rojo)Click en search for similar domain architecture para comparar con otros microorganismos
Introducción a la Bioinformática
Ejemplo. Bacillus anthracis plasmid: pX01
SE ACABO?
Introducción a la Bioinformática
Referencias
• Brown, T.A., Genomes, Wiley, 1999• Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003• Perkus, J. K., Mathematics of Genome Analysis, 2002• Gibas, C., Developing Bioinformatics Computer Skills, 2001• http://www.biologia.edu.ar/index.html• http://www.arrakis.es/%7Elluengo/• Link antiguo: http://www.multisan2001.com