© Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas...

17
© Copyright Ebiointel,SL 2006 Alineamiento múltiple •Identificación de regiones conservadas •Predicción de estructuras y funciones •Diseño de experimentos para probar y modificar funciones de proteínas concretas •Identificación de nuevos miembros de una familia de proteínas Comparación múltiple de secuencias 1 2 3 4 5 6 7 8 9 10 I Y D G G A V - E A L II Y D G G - - - E A L III F E G G I L V E A L IV F D - G I L V Q A V V Y E G G A V V Q A L Cons y d G G A/ I V/L V e A l Alineamiento múltiple = Tabla 2D

Transcript of © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas...

Page 1: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

•Identificación de regiones conservadas•Predicción de estructuras y funciones•Diseño de experimentos para probar y modificar funciones de proteínas concretas•Identificación de nuevos miembros de una familia de proteínas

Comparación múltiple de secuencias

1 2 3 4 5 6 7 8 9 10

I Y D G G A V - E A L

II Y D G G - - - E A L

III F E G G I L V E A L

IV F D - G I L V Q A V

V Y E G G A V V Q A L

Cons y d G G A/I V/L V e A l

Alineamiento múltiple = Tabla 2D

Page 2: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Comparación múltiple de secuencias

FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...

APH1_SCHPO -----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV...

HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI...

Y866_METJA -----------MCIF CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV...

Un método de alineamiento múltiple verdadero, debería alinear todas las secuencias al mismo tiempo.

Pero no existe un método computacional que pueda realizar esto en tiempo razonable

Page 3: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

• Usando Prgramación dinámica en una matriz tridimensional• Objetivo: encontrar el camino óptimo

Cómo se resuelve un alineamiento múltiple de 3 secuencias?

Page 4: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Complejidad del algoritmo de Programación Dinámica (PD)

• El número de comparaciones que el PS tiene debe realizar para llenar la matriz (sin usar heurísticas y excluyendo gaps) es el producto de las longitudes de las dos secuencias (N x M)

• La complejidad del algoritmo crece en forma exponencial con el número de secuencias

Alinear dos secuencias de 300 nt implica realizar 300 x 300 = 90,000 comparaciones

Alinear tres secuencias de 300 nt implica realizar 300 x 300 x 300 = 27,000,000 comparaciones!!

Page 5: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Aproximaciones al algoritmo de Programación Dinámica

• Alinear todas las secuencias por pares• Usar los scores para construir un árbol• Alinear progresivamente (siguiendo el orden

que sugiere el árbol) todas las secuencias para producir un Alineamiento Múltiple

No es un verdadero Alineamiento MúltipleLas secuencias se alinean por pares

Page 6: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Page 7: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Clustal WThompson J.D., Higgins D.G., Gibson T.J. (1994)"CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice."; Nucleic Acids Res. 22:4673-4680

Programa de alineamiento múltiple

Alineamiento progresivo

Page 8: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltipleClustal WThompson J.D., Higgins D.G., Gibson T.J. (1994)"CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice."; Nucleic Acids Res. 22:4673-4680

Estrategia generalAlineamiento rápido

• obtención de las mejores parejas• análisis de clusters• creación de un árbol guía

Alineamiento múltiple• se utiliza el árbol guía anterior• optimización alineamiento de los pares más próximos• introducción de gaps para mejorar el alineamiento• alineamiento de las parejas• optimización mediante inclusión de nuevos gaps

Page 9: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Opciones Generales Clustal WYOUR EMAIL SEARCH TITLE CPU MODE

clustalw_mp - multiprocessor SGI systems. clustalw - genérico (CPU simple)

ALIGNMENTPermite realizar alineamientos completos utilizando algoritmos restrictivos que generan un árbol guía o algoritmos más rápidos.

OUTPUT Formato del resultado (ALN, GCG, PHYLIP, PIR and GDE)

OUTORDER Orden de las secuencias

COLOR Muestra el alineamiento en colores (solo en formatos ALN or GCG)

AVFPMILW

RED Small (small+ hydrophobic (incl.aromatic -Y))

DE BLUE Acidic

RHK MAGENTA

Basic

STYHCNGQ

GREEN Hydroxyl + Amine + Basic - Q

Others Gray

Línea consenso

•"*" = residuos idénticos o conservados en todas las secuencias

•":" = sustituciones conservadas

•"." = sustituciones semi-conservadas.

Page 10: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Opciones FAST PAIRWISE

ALIGNMENT

Opciones MULTIPLE ALIGNMENT

KTUP Tamaño de la palabra

WINDOW Tamaño de la ventana

SCORE Valoración a considerar al calcular el apareamiento

TOPDIAG Número de top diagonal que se integraran al calcular el apareamiento

PAIRGAP Penalización de la abertura de gaps

MATRIX

GAPOPEN Penalización por la abertura de un gap

ENDGAP Penalización por el cierre de un gap

GAPEXT Penalización por la extensión de un gap

GAPDIST Penalización por la separación de gaps

Page 11: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Clustal W (EBI)

Page 12: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Formato secuencias para Clustal W

Formato FASTA >FOSB_HUMAN P53539 homo sapiens (human). fosb protein MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTAITTSQDLQWLVQPTLISSMAQSQGQPLASQPPVVDPYDMPGTSYSTPGMSGYSSGGASGSGGPSTSGTTSGPGPARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELTDRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPLAEVRDLPGSAPAKEDGFSWLLPPPPPPPLPFQTSQDAPPNLTASLFTHSEVQVLGDPFPVVNPSYTSSFVLTCPEVSAFAGAQRTSGSDQPSDPLNSPSLLAL>FOSB_MOUSE P13346 mus musculus (mouse). fosb protein. MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTAITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGTSYSTPGLSAYSTGGASGSGGPSTSTTTSGPVSARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELTDRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPLAEVRDLPGSTSAKEDGFGWLLPPPPPPPLPFQSSRDAPPNLTASLFTHSEVQVLGDPFPVVSPSYTSSFVLTCPEVSAFAGAQRTSGSEQPSDPLNSPSLLAL

Eliminar espacios entre

secuencias

Page 13: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Resultados

Page 14: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Resultados JalView

Page 15: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Resultados Clustal W (.dnd)

Page 16: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Árboles Phylodendron Phylogenetic tree printer

Page 17: © Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.

© Copyright Ebiointel,SL 2006

Alineamiento múltiple

Práctica ClustalW - Primers

Diseño primers• Realizar una traducción reversa de los primers en la Sequence Manipulation Suite de la Univ de Alberta

• Mediante las tablas de uso de codones, disminuir la degeneración de los primers adaptándolos al uso del Microorganismo problema

Comparación múltiple• Abrir una sesión Clustal W• Fija los parámetros e introduce las secuencias usando el archivo múltiple al que hemos añadido todas las secuencias a alinear. • Ejecutar Clustal W• Visualizar los resultados• Identificar y almacenar les regiones conservadas (primers)

Árboles• Visualizar el archivo .dnd con Phylodendron (o TreeView local)• Variar la topología del árbol enraizándolo a un outgroup arbitrario