Alineamiento múltiple de secuencias (AMS). Comparar secuencias = Obtener información.

Post on 23-Jan-2016

260 views 0 download

Transcript of Alineamiento múltiple de secuencias (AMS). Comparar secuencias = Obtener información.

Alineamiento múltiple de secuencias (AMS)

Alineamiento múltiple de secuencias (AMS)

Comparar secuencias = Obtener información

Alineamiento múltiple de secuencias (AMS)Los aa importantes para el mantenimiento de la estructura y/o función de la proteína se encuentran bajo presión evolutiva: o se conservan o, si cambian, lo hacen por aa parecidos. Estos aa se pueden identificar

haciendo un alineamiento de proteínas homólogas.

Si dos secuencias están muy próximas en la evolución, habrán cambiado muy poco y será difícil detectar qué aa son

los realmente importantes

Si dos secuencias están muy lejanas será difícil hacer un alineamiento

capaz de detectar los residuos importantes.

Este problema se puede resolver

alineando el mayor número

posible de secuencias homólogas.

Alineamiento de dos secuencias

Alineamiento múltiple de secuencias (AMS)

Alineamiento múltiple de secuencias

Alineamiento múltiple de secuencias (AMS)

Alineamiento múltiple de secuencias

Alineamiento múltiple de secuencias (AMS)

Para ser útil, un AMS debe incluir un amplio rango de similitudes

Alineamiento múltiple de secuencias (AMS)

El porcentaje de identidad entre secuencias

Alineamiento múltiple de secuencias (AMS)

Alineamiento óptimo de múltiples secuencias

Alineamiento múltiple de secuencias (AMS)

Regiones conservadas y no conservadas

Alineamiento múltiple de secuencias (AMS)

Al alinear muchas secuencias, las columnas

que contienen aa idénticos o similares

destacarán claramente.

Estos aa conservados corresponden a aquellas regiones de la proteína

que son importantes para el mantenimiento de la estructura y/o función.

Las regiones de la proteína que toleran indels

suelen corresponder a regiones expuestas

(bucles sin elementos de estructura secundaria.

Regiones conservadas y no conservadas

Alineamiento múltiple de secuencias (AMS)

AMS y predicción de estructuras

Alineamiento múltiple de secuencias (AMS)

AMS y relaciones filogenéticas

Alineamiento múltiple de secuencias (AMS)

Aplicaciones de los AMSAplicaciones de los AMS (1)

Alineamiento múltiple de secuencias (AMS)

Aplicaciones de los AMS (2)

Alineamiento múltiple de secuencias (AMS)

Selección de secuencias para un AMS (1)

Alineamiento múltiple de secuencias (AMS)

Selección de secuencias para un AMS (2)

Alineamiento múltiple de secuencias (AMS)

¿Qué tipo de secuencias necesito para un AMS?

Alineamiento múltiple de secuencias (AMS)

No es una buena idea seleccionar muchas secuencias

Alineamiento múltiple de secuencias (AMS)

Hacer un AMS con muchas secuencias es complicado

Alineamiento múltiple de secuencias (AMS)

Nombrar las secuencias de un AMS

Alineamiento múltiple de secuencias (AMS)

Consejos sobre cómo hacer un AMS

Alineamiento múltiple de secuencias (AMS)

Criterios para la construcción de un AMS (2)

Alineamiento múltiple de secuencias (AMS)

Métodos para hacer AMS globales

Métodos progresivos

Métodos iterativos

Métodos exactos (basados en la PD)

MSA

CLUSTALW T-COFFEE MUSCLE

PRRN SAGA

AMS globales

Perfiles HMM

Métodos estadísticos y probabilísticos

Alineamiento múltiple de secuencias (AMS)

1.- Métodos exactos

Alineamiento múltiple de secuencias (AMS)

Método basado en la programación dinámica

Programa MSA

Alineamiento múltiple de secuencias (AMS)

El espacio de búsqueda con 3 secuencias (PD)

3002 = 9 104

3003 = 2,7 107

Alineamiento múltiple de secuencias (AMS)

Método de programación dinámica

Para alinear dos secuencias de 300 aa, el algoritmo de programación dinámica (PD)

utiliza una matriz bidimensional: El número de operaciones que hay que realizar es 3002.

Para alinear N secuencias de 300 aa, el algoritmo de PD utiliza una matriz n-dimensional: El número

de operaciones que hay que realizar es 300N.

Este método necesita una gran cantidad de recursos computacionales y mucho tiempo. En la práctica apenas se utiliza: sólo si n = 3 ó, si

las secuencias son cortas, 6 < n < 8.

Alineamiento múltiple de secuencias (AMS)

Reducción heurística del espacio de búsqueda

Alineamiento múltiple de secuencias (AMS)Método de la “suma de pares”

Un sistema de puntuación del AMS

Alineamiento múltiple de secuencias (AMS)

http://xylian.igh.cnrs.fr/msa/msa.html

Alineamiento múltiple de secuencias (AMS)

2.- Métodos progresivos

Alineamiento múltiple de secuencias (AMS)

J. Mol. Evol. (1987) 25: 351-360

Alineamiento múltiple de secuencias (AMS)Compara todas las secuencias, dos a dos, utilizando el

algoritmo de programación dinámica. Se cuenta el número de residuos que coinciden en cada pareja de secuencias.

El AMS comienza alineando las dos secuencias más parecidas. A continuación va añadiendo de forma

progresiva las secuencias (o grupos de secuencias) que más se parecen a las que ya están alineadas.

El AMS depende mucho de los alineamientos iniciales por parejas. Cualquier error cometido en las primeras

etapas se va arrastrando durante todo el proceso.

Hace un análisis de grupo (cluster analysis) para generar una jerarquía de secuencias en base a su similitud. Con esos datos se genera un árbol filogenético que servirá de

guía para la construcción del AMS.

Algoritmo del método progresivo (1)

Alineamiento múltiple de secuencias (AMS)

Algoritmo del método progresivo (2)

Alineamiento múltiple de secuencias (AMS)

Inconvenientes del método progresivo

Alineamiento múltiple de secuencias (AMS)

http://www.clustal.org/clustal2/

Web oficial de Clustal W – Clustal X

Command-line version Graphical version

Alineamiento múltiple de secuencias (AMS)

ClustalW es el más utilizado

Alineamiento múltiple de secuencias (AMS)

ClustalW compara las secuencias de dos en dos

Alineamiento múltiple de secuencias (AMS)

El algoritmo de ClustalW

Alineamiento múltiple de secuencias (AMS)

ClustalW: etapa nº 1

Se utiliza el algoritmo de programación dinámica para calcular la distancia genética entre cada pareja

de secuencias (nº de mismatches /nº matches)

Alineamiento múltiple de secuencias (AMS)

ClustalW agrupa las secuencias y genera un dendrograma

Alineamiento múltiple de secuencias (AMS)

Dynamic Programming Using A Substitution Matrix

Alineamientos progresivos

Alineamiento múltiple de secuencias (AMS)

ClustalW: etapa nº 2

Con esos datos se construye un “árbol guía” que

sirve para decidir el orden

de los alineamientos

(no tiene que ser especialmente

preciso).

Alineamiento múltiple de secuencias (AMS)

ClustalW: etapa nº 3

Se empieza alineando las

dos secuencias más parecidas.

A este alineamiento se

le van añadiendo secuencias o alineamientos

por orden decreciente de

similitud.

Alineamiento múltiple de secuencias (AMS)

Página principal de ClustalW2 (EBI)

http://www.ebi.ac.uk/Tools/msa/clustalw2/

El servidor EBI va a retirar ClustalW2 en Agosto de 2015 y

recomienda utilizar Clustal Omega

Alineamiento múltiple de secuencias (AMS)

Otras opciones para hacer AMS (EBI)

Alineamiento múltiple de secuencias (AMS)

http://www.ebi.ac.uk/Tools/msa/clustalo/

Página principal de Clustal Omega (EBI)

Alineamiento múltiple de secuencias (AMS)

Para hacer un AMS con ClustalW2:

1.- Seleccionar las secuencias en formato FASTA

2.- Introducir las secuencias en el campo

3.- Seleccionar los parámetros del alineamiento por parejas

4.- Seleccionar los parámetros del alineamiento múltiple

5.- Indicar si quieres recibir los resultados por e-mail

Cómo se hace un AMS con ClustalW2

6.- Submit!!

Alineamiento múltiple de secuencias (AMS)

Introduce las secuencias

Escoge DNA o proteínas

Corta/pega las secuencias aquí (de una en una). El límite son 500.

Si ya tienes las secuencias

seleccionadas en un único archivo, pincha aquí para cargarlo en

el formulario. El tamaño máximo del archivo es 1 Mega

Alineamiento múltiple de secuencias (AMS)

Selecciona parámetros del alineamiento por parejas

Selecciona el tipo de alineamiento

Selecciona la matriz de sustitución

Selecciona la penalización por abrir un indel

Selecciona la penalización por extender

un indel

Alineamiento múltiple de secuencias (AMS)

Selecciona parámetros del alineamiento múltiple

Selecciona los parámetros del alineamiento múltiple

Selecciona la matriz de sustitución

Selecciona la penalización por abrir un indel

Selecciona la penalización por extender

un indel

Indica si quieres recibir el resultado por e- mail

Alineamiento múltiple de secuencias (AMS)

ClustalW2 está trabajando …

Alineamiento múltiple de secuencias (AMS)

Resultados de ClustalW2 (1)

Puedes guardar el alineamiento como

un fichero

Puedes aplicar colores

Alineamiento múltiple de secuencias (AMS)

Resumen de los resultados

Resultados de ClustalW2 (2)

Código de colores

Alineamiento múltiple de secuencias (AMS)

Puedes utilizar Jalview, una herramienta que permite visualizar y/o editar el alineamiento

Tabla con las puntuaciones de

todos los alineamientos

posibles por parejas

Distancias entre las secuencias

Árbol guía (dendrograma)

Resultados de ClustalW2 (3)

Alineamiento múltiple de secuencias (AMS)

Resultados de ClustalW2 (4)

Cladograma (árbol guía utilizado para construir el AMS)

Árbol filogenético en formato reconocible por el ordenador, que se puede cortar y pegar en otras

herramientas bioinformáticas

Alineamiento múltiple de secuencias (AMS)

http://www.ch.embnet.org/software/ClustalW.html

ClustalW en el SIB

Alineamiento múltiple de secuencias (AMS)

http://simgene.com/ClustalW

Otra dirección de ClustalW2

Alineamiento múltiple de secuencias (AMS)

error

ABCD

El gran inconveniente de ClustalW

Propagación del error inicial

Alineamiento múltiple de secuencias (AMS)

Alineamiento múltiple de secuencias (AMS)

J. Mol. Biol. (2000) 302, 205-217

T-Coffee = Tree-based Consistency Objective Function for alignmEnt Evaluation

Alineamiento múltiple de secuencias (AMS)

Aplicaciones de T-Coffee

Alineamiento múltiple de secuencias (AMS)

T-Coffee

Alineamiento múltiple de secuencias (AMS)Clustal Lalign

El algoritmo de T-Coffee

1.- El programa comienza haciendo

alineamientos globales (con CLUSTAL) y

locales (con Lalign) en cada pareja de

secuencias

2.- A partir de los alineamientos crea una biblioteca primaria en la que cada pareja de residuos alineados está ponderada (su

importancia depende del porcentaje de

identidad entre las dos secuencias)

Alineamiento múltiple de secuencias (AMS)

T-Coffee extiende la biblioteca

3.- Se extiende la biblioteca: cada pareja de secuencias alineada se

compara con las demás secuencias y se recalcula el factor de ponderación en cada posición del alineamiento.

4.- Se hace un alineamiento progresivo de las secuencias. Se alinean dos a dos utilizando los

factores de ponderación. Se calcula la matriz de distancias y se construye

un árbol guía que dirija el alineamiento. Se empieza por las

más parecidas y se van añadiendo las secuencias (o pareja de secuencias)

más parecidas hasta completar el alineamiento.

Alineamiento múltiple de secuencias (AMS)

Ejemplo de la extensión de la biblioteca

Librería primaria: cada pareja de secuencias alineada recibe un factor de ponderación

Librería extendida: Cada pareja de secuencias alineada se compara con las demás secuencias y se recalcula el factor de ponderación

El trazo grueso tiene mayor

factor de ponderación

Alineamiento múltiple de secuencias (AMS)

¿Cómo toma Vd el café?

Alineamiento múltiple de secuencias (AMS)

http://tcoffee.crg.cat/

Pincha aquí para hacer un AMS sencillo

Alineamiento múltiple de secuencias (AMS)

http://www.tcoffee.org/

Alineamiento múltiple de secuencias (AMS)

Variantes del programa TCoffee

Alineamiento múltiple de secuencias (AMS)

http://simgene.com/T-Coffee

Alineamiento múltiple de secuencias (AMS)

MUSCLE

Alineamiento múltiple de secuencias (AMS)

Nucleic Acids Research 2004, 32: 1792-1797

Alineamiento múltiple de secuencias (AMS)

MUSCLE permite alinear

cientos de secuencias

MUSCLE: el algoritmo

Alineamiento múltiple de secuencias (AMS)

El algoritmo de MUSCLE: Etapa 1

The kmer distance is derived from the fraction of kmers in common. This measure does

not require an alignment, giving a significant speed

advantage.

Alineamiento múltiple de secuencias (AMS)

El algoritmo de MUSCLE: Etapa 2

The approximate kmer distance

results in a suboptimal tree.

Alineamiento múltiple de secuencias (AMS)

El algoritmo de MUSCLE: Etapa 3

Alineamiento múltiple de secuencias (AMS)

http://www.ebi.ac.uk/Tools/msa/muscle/

Alineamiento múltiple de secuencias (AMS)

http://www.drive5.com/muscle/

Alineamiento múltiple de secuencias (AMS)

3.- Métodos iterativos

Alineamiento múltiple de secuencias (AMS)

Fundamento de los métodos iterativos

Alineamiento múltiple de secuencias (AMS)

PRRN: el artículo original

Alineamiento múltiple de secuencias (AMS)

El programa PRRP

Alineamiento múltiple de secuencias (AMS)

Algoritmo del programa PRRN

Alineamiento múltiple de secuencias (AMS)

Página web del programa PRRN

http://www.genome.jp/tools/prrn/

Alineamiento múltiple de secuencias (AMS)

SAGA

Alineamiento múltiple de secuencias (AMS)

Nucleic Acids Research 24 (1996): 1515-1524

Alineamiento múltiple de secuencias (AMS)

El algoritmo genético

1

2 4

3

Alineamiento múltiple de secuencias (AMS)

Etapa 1: Inicialización (G0)

Se escriben las secuencias (una en cada fila), y cada una se desplaza

hacia la derecha un número aleatorio de posiciones. Se

incluyen huecos para que al final todas tengan la misma longitud.

Alineamiento múltiple de secuencias (AMS)

Etapa 2: Evaluación mediante una función objetiva (SP)

OF

EO

(SP)

Alineamiento múltiple de secuencias (AMS)

Etapa 2: Se descarta el 50% de los AMS

Alineamiento múltiple de secuencias (AMS)

Etapa 3: Reproducción (mutaciones y recombinaciones)

Se selecciona el progenitor o progenitores

Se selecciona un operador

descendenciaprogenitores

3

El 50% con mejor puntuación pasa a la siguiente generación y el 50%

restante se genera a partir de estos progenitores mediante un operador

Alineamiento múltiple de secuencias (AMS)

Los operadores: mutaciones y recombinaciones

Alineamiento múltiple de secuencias (AMS)Las mutaciones no

cambian la secuencia porque se arruinaría el

alineamiento. Se pueden formar grupos de

secuencias según el árbol filogenético e

introducir huecos en dos posiciones aleatorias del

alineamiento.

Mutaciones: Introducción de huecos

Alineamiento múltiple de secuencias (AMS)

Mutaciones: Desplazamiento de bloques

Un bloque de huecos

Un bloque de residuos

Alineamiento múltiple de secuencias (AMS)El hijo 1 se crea a partir de la parte izquierda del

padre 1 y de la parte derecha del padre 2.

Recombinación entre dos progenitores (1)

El hijo 2 se crea a partir de la parte derecha del

padre 1 y de la parte izquierda del padre 2.

Sólo uno de los dos hijos pasa a la

siguiente generación: el que obtiene una mejor

puntuación.

Este hijo conserva las regiones alineadas de sus dos progenitores

(recuadros)

Alineamiento múltiple de secuencias (AMS)

Recombinación entre dos progenitores (2)

Alineamiento múltiple de secuencias (AMS)

Etapa 4: Finalización

Alineamiento múltiple de secuencias (AMS)http://www.tcoffee.org/Projects_home_page/saga_home_page.html

El programa SAGA

Alineamiento múltiple de secuencias (AMS)

4.- Métodos estadísticos y probabilísticos

Alineamiento múltiple de secuencias (AMS)

Modelo de Markov oculto (HMM) de un AMS

Alineamiento múltiple de secuencias (AMS)

Herramientas para editar AMS

Alineamiento múltiple de secuencias (AMS)

Editores de AMS

Los editores de AMS son programas que permiten modificar los AMS generados por otros métodos. Permiten retocar los alineamientos para que tengan en cuenta otros tipos de información o cambiar el formato por otro más adecuado para

su publicación en una revista científica.

http://www.jalview.org/

http://www.ch.embnet.org/software/BOX_form.html

Alineamiento múltiple de secuencias (AMS)

Jalview es una herramienta que te permite crear AMS o modificar AMS hechos con otros programas introduciendo otros tipos de

información que ClustalW no ha tenido en cuenta.

JalView

Alineamiento múltiple de secuencias (AMS)

http://www.jalview.org/

Página web oficial de JalView

Alineamiento múltiple de secuencias (AMS)

http://www.ch.embnet.org/software/BOX_form.html

http://sourceforge.net/projects/boxshade/

También te puedes descargar el programa

Alineamiento múltiple de secuencias (AMS)

AMS editado con JalView y sombreado con Boxshade

Alineamiento múltiple de secuencias (AMS)

A modo de conclusión

Alineamiento múltiple de secuencias (AMS)

Programas para hacer AMS

Alineamiento múltiple de secuencias (AMS)

Programas para hacer AMS on-line

Alineamiento múltiple de secuencias (AMS)

Los mejores programas para hacer AMS

Alineamiento múltiple de secuencias (AMS)

Algunas recomendaciones para elegir programa