Download - Introducción a la Bioinformática - LAB Tomás Arredondo Vidal 2010.

Introducción a la Bioinformática - LAB

Tomás Arredondo Vidal2010

Introducción a la Bioinformática

Esta charla trata de lo siguiente:

• Introducción a bases de datos y herramientas utilizadas en la bioinformática


ADN de Células:

Prokariotas• Organismos microscópicos• Su genoma es una molécula circular de ADN • Genoma es del orden de 0.6-8 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 1000 pares de bases• Sus genes no son sobrepuestos (no overlap)• Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor• Son continuamente codificantes (sin intrones)


ADN de Células:

Eukariotes• Organismos variados (plantas, animales, hongos,...)• Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas• Genoma es del orden de 10-3000 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 100000 pares bases• Genoma incluye muchas áreas no codificantes• Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso• Genes pueden derivar en múltiples formas de ARNm y proteínas• Mas complejas!


Dogma Central (Watson & Crick)

• Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína



Proteína

Replicación

Transcripción

Traducción



• Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína


Documentación

PUBMED

• El National Center for Biotechnology Information (NCBI) tiene muchos diferentes recursos disponibles para investigadores bioinformaticos en la web• NCBI crea bases de datos publicas, hace investigacion en biologia computacional, desarrolla herramientas para analizar datos genomicos (e.g. BLAST) y disemina la informacion para tener mejor entendimiento de los procesos moleculares que afectan las enfermedades y la salud humana• NCBI da acceso a PUBMED, mas de 200 revistas sobre biologia, medicina, bioinformatica•Ir a: www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pmc


Genómica

NCBI

• En Genomica NCBI trabaja en conjunto con el European Molecular Biology Laboratory (EMBL) y el DNA Data Bank of Japan• Sitio web de NCBI: http://www.ncbi.nlm.nih.gov/• Bases de datos de NCBI:• http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi


Genómica

Bases de datos de nucleótidos

• La bioinformática requiere encontrar e interpretar datos biológicos. De nuestro interés son las bases de datos para nucleótidos, proteínas y vías metabólicas• Algunas bases de datos o fuentes de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl, RefSeq y PDB• Entrez es una colección de bases de datos nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en Genbank, RefSeq y PDB• Entrez (4/2006) tiene sobre 130 mil millones de bases!• Se puede utilizar el Genbank ID (e.g. X01714), un gene id (e.g. gi41296) o el nombre de la proteína (dUTPase) para iniciar búsquedas en Genbank


Genómica

Significado de los campos: Entrez / Genbank

• Locus: nombre de locus, tamaño de la secuencia (pb’s), el tipo de molecula (ADN, ARN), topologia (lineal o circular)

• Definition: definición corta del gen que corresponde a la secuencia

• Accession: lista el identificador único en las varias bases de datos (e.g. X01714)

• Keywords: palabras claves• Source: el nombre común del organismo relevante al cual

pertenece la secuencia• Organism: Identificación del organismo completo con la

completa información taxonómica • Reference: Artículos en los que se determino la secuencia• Comments: Comentarios


Genómica

Significado de los campos: Entrez / Genbank

• FEATURES: Área que incluye varias secciones• source: Origen de regiones especificas en la secuencia,

se usa para distinguir vectores de clones de secuencias• promoter: muestra la ubicación precisa de un elemento

promotor• misc feature: característica miscelánea, indica comienzo

de trascripción• RBS (Ribosome Binding Site): lugar del ultimo elemento

al principio de la cadena (upstream)• CDS: secuencia codificante (ORFs)

• misc feature: indica elementos potencialmente reguladores• BASE COUNT: cuenta de las bases a, t, c, g• Secuencia: secuencia genética en líneas de 60 nucleótidos


Genómica

Bases de datos de nucleótidos: Entrez

Como seleccionar un record de una secuencia especifica en un prokariote del gen dUTPase1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (X01714)4. Seleccionar el link X01714 5. Seleccionar Display → Fasta para el formato FASTA6. Seleccionar Text para generar un archivo texto

http://www.ncbi.nlm.nih.gov/entrez




Genómica


Como seleccionar un record de una secuencia especifica, el gen dUTPase en el ARN mithocondrial de un eukariote1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (U90223)4. Seleccionar el link U90223 5. Seleccionar Display → default para el formato FASTA6. Seleccionar Text para generar un archivo texto





Genómica


Como seleccionar un record de una secuencia especifica en un eukariote del gen dUTPase en la secuencia genética (un cromosoma)1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir el identificador de Genbank / accession (AF018430)4. Seleccionar el link AF018430 5. Seleccionar Display → default para el formato FASTA6. Seleccionar Text para generar un archivo texto

FASTA es un formato formato para seleccionar (copiar y pegar) la secuencia de nucleótidos deseado.





Genómica


Para hacer una búsqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menu Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Protein name] y

apretar GoLa búsqueda va a retornar varias selecciones: AH005568 es la secuencia completa, el resto son exons y secuencias de aminoácidos nuclear y mitocondrial1. Seleccionar Link al lado del link AF018432 y seleccionar

secuencias relacionadas2. La selección retorna varios datos, algunos son secuencias de

ARNm como el U90223





Genómica


Para hacer una búsqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menú Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Protein name] y

apretar GoLa búsqueda va a retornar varias selecciones: AH005568, ... algunas exones y otras son secuencias completas de aminoácidos nuclear y mitocondrial1. Seleccionar Link al lado del link AF018432 y seleccionar

secuencias relacionadas2. La selección retorna varios datos, algunos son secuencias de

ARNm como el U90223





Genómica


Para hacer una busqueda relacionada con una proteínaespecifica (e.g. dUTPase) sin saber el número de accesión1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez2. Elegir del menú Search: Nucleotide3. Escribir: human [organism] AND dUTPase [Title] y apretar GoLa búsqueda va a retornar mas de 190 selecciones de GenBankpero muchas son secuencias parciales de ARNm llamadas ESTs (Expressed Sequence Tags)Para eliminar estos ESTs:1. Seleccionar Limits link (abajo de ventana Search)2. Seleccionar Exclude ESTs3. Ir a la parte de arriba y seleccionar Go





Genómica

Bases de datos de genes: LocusLink/Entrez Gene

Para hacer una búsqueda relacionada con un locus (ubicación) de un gen en una cromosoma (no solo instancias de secuencias relacionados a un gen)1. Ir a Genbank Entrez Gene:

http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene2. En el For escribir: DUT (nombre del gen) y apretar Go3. Ir a SNP Gene View:La búsqueda va a retornar el LocusID de tres organismos con este gen (dUTPase)


Genómica

Significado de los campos: Entrez Gene

La búsqueda en Entrez Gene va a retornar la siguiente información (e.g. DUT), incluyendo su ubicación • Official Symbol: DUT and Name: dUTP pyrophosphatase

[Homo sapiens]• Other Aliases: HGNC:3078, dUTPase• Other Designations: dUTP nucleotidohydrolase; deoxyuridine

5'-triphosphate nucleotidohydrolase; deoxyuridine triphosphatase

• Chromosome: 15; Location: 15q15-q21.1• GeneID: 1854


Genómica

Bases de datos de genes

Para trabajar con genomas completos virales:1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.2. Elegir en la barra arriba del menú: Genome3. Hacer click en el link: Viruses4. Escribir en la ventana de búsqueda: HIV25. Seleccionar6. La barra azul simboliza el genoma del virus, se puede

seleccionar para ver la región de interés7. Se puede seleccionar la sección Coding para ver una lista de

proteínas, esta a la vez se puede guardar (Save) en varios formatos incluyendo Fasta


Genómica

Bases de datos de genes

Para trabajar con genomas completos bacteriales:1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.2. Elegir en la barra arriba del menú: Genome3. Hacer click en el link Related resources: Microbial4. Se puede seleccionar el genoma para una bacteria de interés5. Se puede seleccionar bajo Genbank para ver la secuencia


Genómica

Proyecto del Genoma Humano

Para trabajar con el genoma humano:1. Ir a: http://www.ncbi.nlm.nih.gov/genome/guide/

Para buscar genes:1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Gene2. Ver sample searches : human muscular dystrophy

Para ver homologias entre varios organismos y el genoma humano:1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?

db=homologene2. Seleccionar Tax Plot: Homo sapiens, mus musculus and rattus

norvegicus 3. Plot It!


Genómica

Bases de datos de genes eukariotes: Ensembl

Ensembl incluye el genoma de eukariotes como el ratón, humano, mosquito y mas:1. Ir a Ensemble: www.ensembl.org/.2. Elegir botón: Homo sapiens3. Elegir cromosoma 15, al medio de q21.14. Se puede ver el gen DUT

Otras cosas de interés son el mapa del sitio (Site Map) y el tour del sitio (Ensembl Tour)

Ensemble también incluye información acerca de los genes como por ejemplo las enfermedades que han sido relacionadosa el. Elegir data mining de la pagina principal. Otro sitio de interés es el buscados de genomas de USC:1. Ir a : genome.cse.ucsc.edu/.2. Ir a genomes, buscar: U90223 (dUTPase)


Proteómica

Bases de datos de proteínas

• Secuenciar genomas es mas fácil que secuenciar proteínas de aminoácidos directamente• La mayoría de las secuencias de aminoácidos conocidas se ha obtenido indirectamente a través del análisis de secuencia genómicas • La proteómica o el estudio de la visualización y análisis de las moléculas de proteínas en organismos nos indican que las proteínas reales no actúan como se esperaría de una simple traducción de ORFs de nucleótidos• La razón es que cuando se traduce la cadena de aminoácidos puede ser muy modificada antes de convertirse en la proteína final• Esto se denomina maduración de la proteína


Proteómica


Algunos etapas en la maduración (modificaciones de post-

traducción) de las proteínas incluyen:1. Cortes en la cadena de aminoácidos2. Eliminación de fragmentos en la cadena de

aminoácidos3. Modificación química de aminoácidos especificas4. Suma de moléculas de lípidos5. Suma de moléculas glicosidicas (de azúcar)

Un rol fundamentar para una base de datos de proteínas es mostrar esta información cuando esta disponible por experimentos (e.g. 2D gel electrofóresis) o se predice por técnicas computacionales


Proteómica


• Para que la proteína haga su función correcto dentro de la célula es necesario que llegue a su ubicación correcta en el organismo o en la célula. Esto requiere que durante su traducción la cadena sea expuesta a señales especificas que célula utiliza para dirigir la proteína a su ubicación especifica atravesando membranas en su ruta• Algunos destinos finales de las proteínas incluyen:

1. Membrana celular2. Afuera de la célula3. Transportado al periplasma (para bacterias)4. Transportado al mitocondria o otro organello5. Transportado al núcleo celular

Saber el destino final de la proteína es importante para saber su funcionamiento y este tipo de información se incluye bases de datos de proteínas


Proteómica


• Factores adicionales para determinar el funcionamiento de la proteína son sus folds (vueltas)• Típicamente estos se determinan a través de la hidrofobicidad, acoplamiento (docking) de los aminoácidos, cargas electrostáticas• La cadena péptica se convierte en una proteína en 3D funcional y estable a través de esta vueltas• La estructura final depende de subdominios (o formas) de aminoácidos que funcionan como bloques lego• La naturaleza organiza estos bloques para producir la inmensa variedad de proteínas existentes• La mayoría de las proteínas naturales están hechas de combinaciones de una a 10 dominios elegidos de varios miles• Estos dominios se identifican por características bases (signaturas) de aminoácidos, estas secuencias conservadas que generan dominios se denominan motifs


Proteómica

1A5P:_ RIBONUCLEASE A KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV

KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV


F

L

SY C

L PH

Q

R

I

MT

N

K

S

R

V A

D

EG

W


Proteómica

Bases de datos de proteínas: SWISS-PROT

• La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT• Se utiliza el Primary Accession Number (identificador de la proteína) para identificar una secuencia que se quiere encontrar (e.g. P32861)• SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados• TrEMBL es una base de datos automáticamente anotada


Proteómica

Bases de datos de proteínas: SWISS-PROT

Como ejemplo vamos a ver la proteína denominada EGF receptor:1. Ir a SWISS-PROT: www.expasy.ch/sprot/.2. Escribir en la ventana Search: P005333. Go!

http://www.expasy.ch/sprot/


Proteómica

Significado de los Campos: SWISS-PROT

La búsqueda en SWISS-PROT va a retornar varios campos:• Entry Name: identificador que indica que tipo de registro se

retorno en la búsqueda, no es necesariamente estable (puede cambiar)

• Primary Accession Number: identificador único y estable de la secuencia, este numero tiene que ser usado como referencia del trabajo (e.g. P00533)

• Secondary Accession Numbers: identificadores antiguos relacionados con esta secuencia

• Fecha inicial• Sequence was last modified in: Fecha ultima modificación• Annotations were last modified in: últimos cambios a este

registro


Proteómica

Significado de los Campos: SWISS-PROT

Otros campos retornados:• Protein name: información descriptiva de la secuencia• Synonyms: el nombre y numero de la reacción bioquímica

que esta proteína (enzima) ejecuta• Gene name: nombre del gen relacionado• From: origen de la proteína• Taxonomy: clasificación taxonómica del organismo origen de

la proteína• Comments: sección con información de utilidad que no

pertenece a otra de las secciones• Cross-References: sección con enlaces a otras bases de

datos que contienen información acerca de esta proteína• Keywords: palabras claves en este registro• Features: sección que mapea la información de la proteína a

su secuencia


Genomica

Bases de datos de Vías Metabólicas

• Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC• KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial• En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda)• BRENDA es un sistema de información enzimático• IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular • ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli


Vías Metabólicas

Bases de datos de Vías Metabólicas

• Típicamente se utiliza el nombre de la via (e.g. Xenobiotics/DDT, 2,4-DICHOLOROBENZOATE DEGRADATION)• KEGG:• www.genome.ad.jp/kegg• Expasy:• www.expasy.ch/cgi-bin/search-biochem-index• Brenda:• www.brenda.uni-koeln.de/•La IUMBM tiene informacion sobre nombres de enzimas:• www.chem.qmw.ac.uk/iubmb/• ECOCYC:• www.ecocyc.org

http://www.genome.ad.jp/kegg


Vías Metabólicas

Bases de datos de Vías Metabólicas: KEGG

# [ LinkDB | KEGG ]# ENTRY EC 2.7.1.2# NAME Glucokinase# CLASS Transferases Transferring phosphorus-containing groups Phosphotransferases with an alcohol group as acceptor# SYSNAME ATP:D-glucose 6-phosphotransferase# REACTION ATP + D-Glucose = ADP + D-Glucose 6-phosphate# SUBSTRATE ATP D-Glucose# PRODUCT ADP D-Glucose 6-phosphate# COMMENT A group of enzymes found in invertebrates and microorganisms highly specific for glucose.<...>


Vías Metabólicas

Aplicaciones Para Comparar Secuencias

• BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias• Las principales versiones son BLASTP y TBLASTN• BLASTP compara la secuencia de una proteína con una base de datos de proteínas• TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos


Herramientas Bioinformáticas

Usos de BLAST

• Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos • Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs



BLASTP: Protein to Protein BLAST

Como ejemplo vamos a usar el servidor NCBI BLAST para encontrar proteínas similares al nucleolin del hamster en la base de datos SWISS-PROT:1. Ir a BLAST: www.ncbi.nih.gov/BLAST2. Elegir Standard protein-protein BLAST3. Insertar proteina a comparar: puede ser usando el

numero de accesion (P09405) o insertando la secuencia en formato FASTA

4. Choose database: swissprot5. Deseleccionar CD Search (dominios conservados muy

tipicos como Zn Fingers)6. Apretar BLAST!7. Seleccionar Format! que abre una ventana nueva8. Guardar los resultados (Save Picture As)



Resultados de BLAST

• Parte grafica: muestra donde nuestra secuencia es similar a las otras secuencias• Hit list: nombre de secuencias similares a la nuestra• Alignments: los alineamientos entre nuestra secuencia y las secuencias similares• Parametros: parametros usados



Resultados de BLAST

• Sequence Accesion Number• Description • Bit score – estima el significado del alineamiento (mientras mayor mejor)• E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor)• Alineamientos (%identidad, largo)



Otros tipos de BLAST

• BLASTP compara una secuencia de aminoácidos contra una base de datos de secuencias de proteínas• BLASTN compara una secuencia de nucleótidos contra una base de datos de nucleótidos• BLASTX toma una secuencia de nucleótidos y la traduce en los seis posibles RFs para comparar con una base de datos de secuencias de proteínas• TBLASTN compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoácidos a todos sus posibles RFs• TBLASTX compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoacidos y la base de datos a todos sus posibles RFs



Aplicaciones Para Comparar Secuencias Múltiples

• Alineamientos múltiples se utilizan para comparar secuencias homologas (ancestro comun) • Se alinean aminoácidos o nucleótidos en la misma columna por que son homólogos de acuerdo a algún criterio• Los criterios principales son:

• similitud estructural• similitud evolucionaría• similitud funcional• similitud secuencial

Los programas automáticos típicamente usan el criterio de similitud secuencial porque es el mas fácil de implementar. Cuando las secuencias son similares todos los criterios son equivalentes


Herramientas BioinformáticasAplicaciones Para Comparar Secuencias Múltiples

Una comparación de múltiples secuencias nos permite:• Extrapolar: determinar que una secuencia realmente es parte de una familia de proteinas o dominio• Analisis filogenetico: con una seleccion cuidadose se puede reconstruir la historia evolucionaria de las proteinas• Identificacion de patrones: al descubrir una region conservada se puede identificar una region que es caracteristica de una funcion (motif) en secuencias nucleicas o de aminoacidos• Elementos reguladores de ADN: se puede encontrar sitios de binding• Prediccion de estructura: ayuda a generar predicciones de la estructura 3D de la proteina• Analisis PCR: identificar porciones menos degeneradas de la familia de proteinas



Aplicaciones Para Comparar Secuencias Múltiples

Este análisis nos permite ver las fuerzas que moldean la evolución: Aminoácidos (o nucleótidos) importantes no cambian (mutan)... Porque?Los menos importantes cambian mas fácilmente, a veces aleatoriamente, y a veces para adaptarse a una función



KEGG, Genbank y BLAST para encontrar vías de interés en un organismo especifico (eg. LB400)

Como encontrar si hay una enzima especifica de una vía especifica en un genoma de interés (e.g. LB400):1. Ir a KEGG: http://www.genome.jp/kegg/pathway.html2. Elegir: 2,4-Dichlorobenzoate degradation3. Elegir: enzima 1.1.3.38 (vanillyl-alcohol oxidase)4. Ir a Genbank: http://www.ncbi.nlm.nih.gov/5. Elegir una proteina que no diga mutante en

Nombre, ni Hipotetical/Putativo en OrganismoElegir Numero de accesión: P56216Ver en formato FASTA y copiar

• Ir a LB400: http://genome.ornl.gov/microbial/bfun/• Hacer TBLASTN con secuencia en formato FASTA,

ver si la secuencia tiene alineamientos correctos



BLAST para seleccionar secuencias para el Alineamiento Múltiple

Vamos a usar ExPASy BLAST y ExPASy para encontrar secuencias parecidas a la proteína P20472 (calcium kinase):1. Ir a ExPASy:

http://www.expasy.ch/cgi-bin/BLASTEMBnet-CH.pl2. Insertar proteina a comparar: P20472 3. Seleccionar: blastp4. Elegir SWISS-PROT + TREMBL + TREMBL_NEW5. En Options: elegir el numero de secuencias (scoring y

alignment) a 10006. Apretar BLAST!7. Seleccionar secuencias: 10 o menos (al principio)8. Exportar las secuencias: (usar FASTA)



ClustalW para Alineamiento Múltiple

1. Ir a ClustalW: www.ebi.ac.uk/clustalw/index2. Insertar secuencias en la ventana Sequence3. En Alignment pulldown: elegir Fast4. En Output Format pulldown: elefir Aln Without

Numbers5. En Output order: elegir Input6. Presionar el boton RUN7. Guardar los resultados

Los resultados se analizan para ver las posiciones que son importantes y que no se les permite mutar (conservados) evolucionariamente.


Genómica

Evolución Genética

• Todos los genes están relacionados (Zuckerkandl, Pauling 1960’s)• Los genes a veces evolucionan independientemente del organismo (formulado por R. Dawkins 1976)• Solamente unos pocos miles de familias de genes existen (C. Chothia, 1992, Nature 357)


Genómica

Análisis Filogenético: Definiciones

• Genes Homólogos: Genes con un ancestro común• Genes Ortólogos: Homólogos separados por especiacion en el cual un ancestro común genera dos subgrupos que lentamente se separan para convertirse en nuevas especies• Genes Paralogs: Homólogos separados por un evento de duplicación. Una de las copias típicamente mantiene su función mientras que la otra tiene otra función pero relacionada• Genes Xenologs: Xenologs ocurren por la transferencia horizontal de una especie a otra. No hay historia del nuevo gen en el genoma que fue insertado


Búsqueda de secuencias/proteínas homologas:


Genómica

Análisis filogenético: Ortólog y Paralog

A

A B

A1 B1 A2 B2

Duplicación

Especiación


Genómica

Análisis filogenético: Globina y Myoglobina

Ancestralglobin gene

duplication

Myoglobinmouse

globin Globinancestor

globinman

globinmouse

Myoglobinman

Myoglobin


Genómica

Análisis Filogenético: Algunas herramientas

• ClustalW: Herramienta de tipo caja negra para análisis filogenético• Phylip: Método mas sofisticado que permite controlar los parámetros necesarios en la reconstrucción


Motivación para los estudios Bioinformáticos: Medicina

Genome Gene map Gene sequence Expression

t

a

g

c

t

a

g

c g c

t

c

g

c

t

g t

c

g t

g

g

t

ct

g

a

t

g

a

t

g

t

t

g

t

g

t

a

a

a

a

c

g

g

c Alzheimers

Cancer

Arthritis

MS

CV Disease

Obesity

Vision

Arthritis

Diseases

t

g


Genómica

Análisis Filogenético: Algunas herramientas

Ir a Entrez: GenomeSeleccionar MicroorganismoSeleccionar proteína de interésExportar la secuencia (FASTA)Seleccionar: blastp (protein-protein)Apretar BLAST!Se detectan los dominios putativos conservadosHacer click en la secuencia conservada (en rojo)Click en search for similar domain architecture para comparar con otros microorganismos


Ejemplo. Bacillus anthracis plasmid: pX01

SE ACABO?


Referencias

• Brown, T.A., Genomes, Wiley, 1999• Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003• Perkus, J. K., Mathematics of Genome Analysis, 2002• Gibas, C., Developing Bioinformatics Computer Skills, 2001• http://www.biologia.edu.ar/index.html• http://www.arrakis.es/%7Elluengo/• Link antiguo: http://www.multisan2001.com