Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza...

73
Paulino Gomez-Puertas Bioinformática. Alineamiento de Secuencias INTRODUCCIÓN A LA BIOINFORMÁTICA 2012

Transcript of Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza...

Page 1: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Alineamiento de Secuencias

INTRODUCCIÓN A LA BIOINFORMÁTICA

2012

Page 2: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

¿ Por qué comparar secuencias ?

¿ Cómo comparar secuencias ?

Page 3: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

¿ Por qué comparar secuencias ?

Page 4: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Molecular chaperonin

GroEL

subunit

heptamer

(Dr Jianpeng Ma, Harvard Univ.)

ATP

¿ Por qué comparar secuencias ?

Page 5: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Cambios en las secuencias :

• Reemplazo puntual – Sinónimos/No-Sinónimos

• Inserción y Delección (InDels) – Afecta pautas de

lectura

• Traslocación

• Duplicación

The Standard Code

AAA K ACA T AGA R ATA I

AAC N ACC T AGC S ATC I

AAG K ACG T AGG R ATG M

AAT N ACT T AGT S ATT I

CAA Q CCA P CGA R CTA L

CAC H CCC P CGC R CTC L

CAG Q CCG P CGG R CTG L

CAT H CCT P CGT R CTT L

GAA E GCA A GGA G GTA V

GAC D GCC A GGC G GTG V

GAG E GCG A GGG G GTG V

GAT D GCT A GGT G GTT V

TAA . TCA S TGA . TTA L

TAC Y TCC S TGC C TTC F

TAG . TCG S TGG W TTG L

TAT Y TCT S TGT C TTT F

¿ Por qué comparar secuencias ?

GAT GCA TAG

ATG GAC CCA CGT TCG GAG MDPRSE… DA *

Page 6: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Modelo evolutivo: cambio al azar + selección natural

Hace mucho tiempo… ACCGTACGGTTAA

ACGGTACGGTTAA

ACCGTCCGGTTAA

ACCGT-CGGTTAA

CCCGTACGGTTAA

ACCCGTACGGTTAA

ACCG-CCGGTTAA

ACCCTCCGGTTAA

ACCGTCCGGTTCCCAA

TCCGTCCGGTTAA

ACCGTCCGCTTAA

Etc, etc…

tiempo

x n especies

ACCTCTAGTTAA

ACCGTTCCGAA

ACCGTCCGGTTGA

GGAGTACGGTTAA

ACCTGCAATTA

ACCGTACGGTTATA

ACCGTCGTAA

ACCGTACCCCGGTTAA GCCGTACCGTGGTCCA

CCGTCCCGTTAA

AACCGTACGGTTAA

¿ Por qué comparar secuencias ?

(F. Abascal, 2008)

Page 7: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

¿ Por qué comparar secuencias ?

Page 8: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Cambio al azar + selección natural + duplicaciones génicas

Superfamilia: grupo de proteínas

con un origen común.

Familia / Subfamilia: grupo de

proteínas con una función común

(jerarquía subjetiva).

proteínas ATP/GTP binding (superfamilia)

familia ras proteínas GTP-binding

factores de elongación

proteínas ATP-binding

rab (H. sapiens)

rab (M. musculus)

rab (C. elegans)

ras (H. sapiens)

ras (M. musculus)

ras (C. elegans)

ras2 (H. sapiens)

Subfamilia ras

Subfamilia rab Dos formas de representarlo

ras rab

(F. Abascal, 2008)

Page 9: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Homólogos: ortólogos y parálogos.

Ortólogos: genes que comparten el

último ancestro común y cuya

divergencia se debe a la

especiación.

Los mismos genes en distintas

especies.

Parálogos: genes que debido a una

duplicación, ya no comparten el

último ancestro. Frecuentemente

tienen funciones distintas.

(F. Abascal, 2008)

Page 10: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Page 11: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

DnaK

FtsA

Actin

Hexokinase

Hsc70

MreB

Page 12: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Structural alignment

Page 13: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Structural alignment

Page 14: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Structure comparison

¿ Cómo comparar secuencias ?

http://www.ebi.ac.uk/dali/

FSSP DaliDD CATH SCOP

Page 15: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

EMBL

PDB

Page 16: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Comparación de secuencias

Page 17: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Secuencia. Cadena lineal finita y ordenada de símbolos

pertenecientes a un alfabeto

Alfabeto. Conjunto de símbolos básicos de las secuencias

ADN: A= {a,c,g,t|u}

Proteinas= A={a,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t,v,w,y}

ADN y Proteinas son cadenas co-lineales

Existen otros diversos alfabetos

Comparación. Encontrar la posición relativa entre dos

secuencias que maximice su parecido

Conceptos Generales

Page 18: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Seq X = TCA GAC GAT TG (n=11)

Seq Y = ATC GGA GCT G (m=10)

Comparación por Identidades

Algoritmo: Desplazar una secuencia debajo de la otra anotando el número de coincidencias que ocurren, seleccionando como resultado

la posición de mayor valor

Page 19: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=1)

ATCGGAGCTG

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=4)

ATCGGAGCTG

TCAGACGATTG (r=2)

ATCGGAGCTG

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=0)

ATCGGAGCTG

Resultado: Posición con mayor número de coincidencias

TCAGACGATTG (r=4)

ATCGGAGCTG

Comparación por Identidades

Page 20: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

0 1 2 3 4 5 6 7 8 9 10 11

┌───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┐

0 │ │ T │ C │ A │ G │ A │ C │ G │ A │ T │ T │ G │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-1 │ A │ │ │ 1 │ │ 1 │ │ │ 1 │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-2 │ T │ 1 │ │ │ │ │ │ │ │ 2 │ 1 │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-3 │ C │ │ 2 │ │ │ │ 1 │ │ │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-4 │ G │ │ │ │ 1 │ │ │ 2 │ │ │ │ 3 │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-5 │ G │ │ │ │ 3 │ │ │ 1 │ │ │ │ 1 │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-6 │ A │ │ │ 1 │ │ 4 │ │ │ 2 │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-7 │ G │ │ │ │ 2 │ │ │ 2 │ │ │ │ 2 │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-8 │ C │ │ 1 │ │ │ │ 1 │ │ │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-9 │ T │ 1 │ │ │ │ │ │ │ │ 3 │ 1 │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-10│ G │ │ │ │ 2 │ │ │ 3 │ │ │ │ 2 │

└───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┘

TCAGACGATTG (r=4)

|| ||

ATCGGAGCTG

h 12345

sH ACCGT

sV CAGT

v 1234

D= h – v Si xh alínea con yv

Diagonal = desplazamiento relativo entre secuencias

Comparación por Identidades

Page 21: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

ACCGT ACCGT

CAGT CAGT

ACCGT ACCGT

CAGT CAGT

ACCGT ACCGT

CAGT CAGT

ACCGT ACCGT

CAGT CAGT

A C C G T

C

A

G

T

2 Complejidad algorítmica O(N * M) O(N )

Desplazar una secuencia bajo la otra equivale a recorrer una

matriz por sus diagonales.

Comparación por Identidades

Page 22: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Los fragmentos alineados aparecen

como diagonales en la matriz

Comparación por Identidades

Page 23: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Comparación por Identidades

Page 24: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Reducción de la Complejidad Algorítmica Optimización para reducir tiempos de cálculo

Tabla de Dispersión (Hash)

Lista con las posiciones de los símbolos de la secuencia

pos : 1234 5678 901

seqX : TCAG ACGA TTG n=11 Tabla Hash (seqX) A 3, 5, 8 C 2, 6 G 4, 7, 11 T 1, 9, 10

Secuencia a comparar

pos : 1234567890

seqY: ATCGGAGCTG m=10

Acumular identidades en cada diagonal

(d= h - v, si xh alínea con yv)

y1 (A) en d2 (3-1), d4 (5-1) y d7 (8-1) y2 (T) en d-1 (1-2), d7 (9-2) y d8 (10-2)

Complejidad : Cada elemento de sY vs el número de elementos hash para ese símbolo

O(N*media) media=M / LongTabla (N, M long de SeqX y SeqY)

k-tuplas : [+] entradas (L=lAlfk) -> [-] elementos por entrada

Proteinas : lAlf=20, Si k=2 => L= 202 = 400 entradas. Long. Proteina N=400 -> 1 valor por entrada => complejidad O(N+M)

Page 25: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Comparación por Semejanzas Mejoras en la Sensibilidad

Limitaciones de los Métodos

basados en Identidad

•Código genético redundante

•Sustituciones sin influencia sobre la función global

•Inserción y pérdida de residuos.

•Cantidad de información (frecuencia) de cada símbolo

•Conocimiento biológico en la valoración

Distancia: El coste de transformar una secuencia en otra por medio de la aplicación de una serie de operaciones (sustitución, inserción, borrado), cada una con un coste asociado. Para cada pareja de símbolos (ai,aj) A2 un esquema de costes w(ai,aj) establece la relación entre ellos

AQUI

Page 26: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Esquemas de Puntuación Capturar el significado biológico de las semejanzas

Considerar los reemplazos conservativos y las diferencias en las frecuencias observadas

Matrices PAM. Dayhoff (1972) Evolutivo, proporcional a log(fAB/f'

AB) para alinear el residuo A con el B fAB frecuencia AB en alineamientos relacionados f'

AB frecuencia en los alineamientos no relacionados (f'AB=fAxfB)

fAB Depende de la semejanza entre las proteinas

[Pequeña] para secuencias muy relacionadas [Crece] a mayores distancias evolutivas [Azar] a distancias evolutivas muy grandes

Fuente: Alineamientos múltiples con no más de un 15% de diferencias por identidad. Tablas de las frecuencias de sustitución entre residuos

Normalizar (en 100 residuos 1 mutación) => PAM, 1% Percent Accepted Mutation Extrapolar a diferentes distancias (120, 250, 320, etc) PAMs.

v

Page 27: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Esquemas de Puntuación Capturar el significado biológico de las semejanzas

Matrices BLOSUM. Altschul (1991) No se conoce a priori lo semejante que son las secuencias a buscar PAM extrapola las relaciones lejanas a partir de relaciones cercanas (Hipótesis que favorece las posiciones más mutables)

BLOSUMnn (BLOcks SUbstitution Matrices) (nn : umbral de identidad utilizado para la seleccionar bloques) Un blosum bajo (umbral bajo de identidad) se corresponde con un número alto de PAM (distancia evolutiva grande).

EKPRKVMLMVRAGDVVDQFIEALLPHLEEG

EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG

ETPRKILLMVKAGTATDATIQSLLPHLEKD

ETPRKILLMVKAGTATDATIQSLLPHLEKD

ETPRRILLMVKAGAGTDAAIDSLKPYLDKG

ETPRRILLMVKAGSGTDSAIDSLKPYLDKG

Fuente: Alineamientos de bloques de secuencias.

Bloque Matriz cuyas filas representan

segmentos de secuencias

alineadas sin interrupciones

Page 28: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Esquemas de Puntuación Capturar el significado biológico de las semejanzas

pam250 (inferior) y BLOSUM62 (superior)

A R N D C Q E G H I L K M F P S T W Y V B Z X *

--+-------------------------------------------------------------------------+---

| 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 | A

| 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 | R

A | 2 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 | N

R | -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 | D

N | 0 0 2 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 | C

D | 0 -1 2 4 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 | Q

C | -2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 | E

Q | 0 1 1 2 -5 4 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 | G

E | 0 -1 1 3 -5 2 4 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 | H

G | 1 -3 0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 | I

H | -1 2 2 1 -3 3 1 -2 6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 | L

I | -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 | K

L | -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 | M

K | -1 3 1 0 -5 1 0 -2 0 -2 -3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 | F

M | -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 | P

F | -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0 0 -4 | S

P | 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6 5 -2 -2 0 -1 -1 0 -4 | T

S | 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11 2 -3 -4 -3 -2 -4 | W

T | 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4 | Y

W | -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 4 -3 -2 -1 -4 | V

Y | -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 4 1 -1 -4 | B

V | 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 | Z

B | 0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0 -5 -3 -2 2 -1 -4 | X

Z | 0 0 1 3 -5 3 3 -1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3 1 | *

X | 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |

--+-------------------------------------------------------------------------+---

A R N D C Q E G H I L K M F P S T W Y V B Z X *

Glx Asx

Glx

Asx

Page 29: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Esquemas de Puntuación Capturar el significado biológico de las semejanzas

Glx Asx

Page 30: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Esquema de Pesos ┌───┬───┬───┬───┬───┐ │ │ A │ C │ G │ T │ ├───┼───┼───┼───┼───┤ │ A │ 4 │-3 │ 1 │-3 │ ├───┼───┼───┼───┼───┤ │ C │-3 │ 4 │-3 │ 1 │ ├───┼───┼───┼───┼───┤ │ G │ 1 │-3 │ 4 │-3 │ ├───┼───┼───┼───┼───┤ │ T │-3 │ 1 │-3 │ 4 │ └───┴───┴───┴───┴───┘

4: Residuos iguales 1: Residuos del mismo tipo purinas (AG), pirimidinas (CT) -3: Combinaciones restantes.

Score 1 4 4-3 4 4-3 1-3 4

SeqH G T C C G A C T A G T G

SeqV C A T C G G A G C T G

Acum 1 5 9 6 1 1 1 1 9 1

0 4 1 2 3

G T C C G A C T A G

C -3 1 4 4 -3 -3 4 1 -3 -3

A 1 -3 -3 -3 1 4 -3 -3 4 1

T -3 4 1 1 -3 -3 1 4 -3 -3

C -3 1 4 4 -3 -3 4 1 -3 -3

G 4 -3 -3 -3 4 1 -3 -3 1 4

G 4 -3 -3 -3 4 1 -3 -3 1 4

A 1 -3 -3 -3 1 4 -3 -3 4 1

G 4 -3 -3 -3 4 1 -3 -3 1 4

C -3 1 4 4 -3 -3 4 1 -3 -3

T -3 4 1 1 -3 -3 1 4 -3 -3

G 4 -3 -3 -3 4 1 -3 -3 1 4

4 -6 -2 3 7 0 -14 -13 13

Comparación por Semejanzas (Global)

Needleman-Wunsch

Page 31: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Comparación por Semejanzas (LOCAL)

Fragmento con puntuación acumulada máxima

No se puede incrementar estirando ni recortando por los extremos

Inicia en Celda positiva

Avanza acumulando valores

(mientras acum>0)

Fin: Fin de diagonal

Acumulado < 0

-> regresar al máximo

No incorpora zonas no-conservadas

G T C C G A C T A G T G

C -1 -4 (4 -4 (1 (1

A (1 1 (4 4 (1 1)=2

T 4 (1 -1 -3 1 (4 -3 4)=5

C -1 4 4 4)=6 1 -3 1

G -4 -3 4 -1 1 4)=5 4)=7

G -4 4 1)=10 (1 4 -4

A -1 (1 4)=14 (4 1)=2 -3 -1

G (4 -4 1 -1 4 4­)=1

2C 1 (4 -4 4 -1 1)=9

T -4 1)=6 1 -1 4 (4

G -4 4)=9 -1 1)=11 -4 4)8

┌───┬───┬───┬───┬───┐ │ │ A │ C │ G │ T │ ├───┼───┼───┼───┼───┤ │ A │ 4 │-3 │ 1 │-3 │ ├───┼───┼───┼───┼───┤ │ C │-3 │ 4 │-3 │ 1 │ ├───┼───┼───┼───┼───┤ │ G │ 1 │-3 │ 4 │-3 │ ├───┼───┼───┼───┼───┤ │ T │-3 │ 1 │-3 │ 4 │ └───┴───┴───┴───┴───┘

Recorrido Exhaustivo de Diagonales

Smith-Waterman

Page 32: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Global vs local Needleman-Wunsch / Smith-Waterman

Page 33: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Diag. 0: 2 [n+m-1 diags]

D. -1: 5 D.1: 2

-2: 2 D.2: 3

-3: 1 D.3: 2

-4: 1 D.4: 3

-5: 2 D.5: 2

-6: 2 D.6: 2

-7: 1 D.7: 2

-8: 1 D.8: 1

-9: 0 D.9: 0

-10: 1 D10: 0

D11: 0

Una Heurística para Comparar por Semejanza Velocidad a cambio de Precisión

No asegura un resultado óptimo, pero en ocasiones es la única solución

Exhaustivo : Recorrer todas las diagonales O(NM)

Heurístico : Limitar las diagonales a recorrer (aquellas con más identidades)

Posic: 123456789012

Seq.H: GTCCGACTAGTG

Tabla A : 6, 9

Hash C : 3, 4, 7

G : 1, 5,10,12

T : 2, 8,11

Secuencia a comparar

Posic: 12345678901

Seq.V: CATCGGAGCTG

Diag = (h - v)

si xh alínea con yv

Sensibilidad

vs.

recursos

Lipman & Pearson

Page 34: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Las Interrupciones (Gaps) Aumentar el parecido deformando los

objetos

X: TCAG-ACG-ATTG TCAGACGATTG

|| | | | | | || || | | |

Y: ATC-GGA-GC-T-G ATCGGA-GCT-G

La idea

Frg {TT, CC, AG, GG, AA} (Sc=18) puede:

(a) Extender en diagonal (C y G) sin gaps

(pierde 3 puntos, hasta 15).

(b) Emparejar C (sX) con alguno (CTG) sY

(gaps en sY)

(c) Emparejar G (sY) con alguno (GATTG) sX

(gaps en la sec.X)

Page 35: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Programación Dinámica

Esquema de Pesos

[ 4] residuos iguales

[ 2] residuos del mismo tipo

[-3] Resto.

iGap: -5

eGap: -2

Mejor alineamiento:

TCAGACGATTG

||.|| ..||

ATCGGA--GCTG

Page 36: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Clasificación de las aplicaciones

N=1, M=1

Pairwise comparison (lo visto hasta ahora).

N=1, M>>1

Búsquedas en bases de datos : FASTA, BLAST, PSI-BLAST

N>1, M>1

Alineamiento múltiple : PILEUP, CLUSTAL-W, T-COFFEE, HMMs

Page 37: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Búsquedas Rápidas: FASTA (Lipman & Pearson, 1985, Pearson & Lipman 1988)

Etapa I : Búsqueda de Regiones (diagonales) por

Identidad y sin Gaps Uso de k-tuplas para acelerar

Resultado : Las mejores diagonales (10) Complejidad O(N+M)

Etapa II:Re-evaluación de las regiones por semejanza Unión de regiones con Gaps

Etapa III:Evaluación exhaustiva de las mejores secuencias

Reducir el espacio de búsqueda

¿ En qué diagonales es más probable que se encuentre el mejor alineamiento ?

Reducciones de hasta 2 órdenes de magnitud en los tiempos de búsqueda. Velocidad a cambio de sensibilidad y selectividad

(pierde reemplazos conservativos y palabras más pequeñas que k)

Page 38: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Basic Local Alignment Search Tool (BLAST)

Altschul, S.F., Gish W., Miller W., Myers E.W., and Lipman D.J. J. Mol. Biol. (1990) 215:403-10.

Identificación de las mejores diagonales utilizando criterios de semejanza

Uso de k-tuplas por semejanza (amplía el espacio de búsqueda de FASTA)

Corte estadístico (baja probabilidad de ocurrencia)

(a) Identificación rápida de segmentos (MSP: maximal segment pair.

Segmento: sub-secuencia continua de cualquier longitud.

Puntaje: Suma de la semejanza de cada par

(b) Análisis detallado de MSPs con mas probabilidad de formar el alineamiento final

- Artículo más citado en la década de los 90 -

Page 39: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Basic Local Alignment Search Tool (BLAST)

P = 1 – e -E

E = -KMn e -lS

e-value (E)

A partir de un modelo en el que estudiaron qué “scores” alcanzaban los alineamientos de secuencias

generadas al azar (según las frecuencias observadas de aminoácidos), Karlin & Altschul desarrollaron la

siguiente fórmula para el cálculo del e-value:

El e-value (E) de un determinado score indica cuántos alineamientos esperamos que por azar alcancen

un score igual o mayor (no confundir con el p-value, que indica la probabilidad de que un score se haya

alcanzado por azar al menos en una ocasión). E-value y p-value se relacionan mediante la siguiente

fórmula:

(P y E tienen un valor prácticamente

idéntico en la escala de 0 a 0.01)

En una búsqueda en bases de datos de secuencia, K y l son dos parámetros que se determinan

empíricamente a partir del máximo y la anchura de la distribución de “scores” tras la comparación de

secuencias “random”, N es la longitud de la secuencia y S es el “score” del alineamiento. M es el tamaño

de la base de datos (número total de aminoácidos o nucleótidos; tras aplicar una cierta corrección).

Más información:

http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html

Lesk, AM. Introduction to Bioinformatics. 2nd Ed. p183

Page 40: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Basic Local Alignment Search Tool (BLAST)

Page 41: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Basic Local Alignment Search Tool (BLAST)

Probability values

10-1: reliable

(Large databases, as

GenBank, EMBL,

Uniprot, PDB..)

10-5: almost certain

P = 1 – e -E

E = -KMn e -lS

P-value

P-value

0 < < 1

0 < < M

Page 42: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Gapped BLAST and PSI-BLAST. A new Generation of Protein DB search Programs. Altschul, S.F., Madden T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller W., and Lipman

D.J. Nucleid Acids Research (1997) 25: 3389-3402 PSI-BLAST: Búsqueda iterativa

Construcción de una matriz de pesos específica por posición.

Uso de la matriz para realizar una nueva búsqueda.

Page 43: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Intermediate sequence searches:

PROTOMAP database

Page 44: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Alineamientos múltiples

Si alinear 2 secuencias de 300 residuos tardase 1 segundo:

Entonces:

alinear 3 secuencias tardaría 300 segundos

alinear 10 secuencias aprox 3008 segs (+ que la edad del universo)

Page 45: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

CLUSTAL-W:

Clustal-W: improving the sensitivity of progressive multiple sequence alignment

through sequence weighting position specific gap penalties and weight matrix choice.

Thomson JD, Higgins DG, Gibson TJ (1994)

Nucleid Acids Research 22, 4673-4680.

Formación de clusters de secuencias (Clustal-W): La pareja más parecida se alinea para formar un único cluster. Este cluster se toma ahora como una sola secuencia y el proceso se repite hasta tener un solo cluster con todas las secuencias alineadas. Los alineamientos múltiples permiten: Inferir filogenias. Construir perfiles.

T-COFFEE:

T-Coffee: a novel method for fast and accurate multiple sequence alignment.

Notredame C, Higgins DG & Heringa J. (2000)

Journal of Molecular Biology. 302, 205-217.

Page 46: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Motivos, perfiles y dominios

Page 47: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

¿A qué llamamos motivos?

Observación: En proteínas de la misma familia podemos

detectar pequeñas regiones conservadas, a menudo asociadas

a su función.

Ej. Sitios de unión, centros activos de enzimas, etc.

Características: La conservación no es perfecta. No son

detectables mediante técnicas de homología de secuencia

(BLAST, FASTA, etc).

Page 48: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Y… ¿para qué se usan?

Los motivos se conservan incluso a grandes distancias

evolutivas debido a restricciones estructurales o funcionales

luego...

Están relacionados con la función Predicción

Se conservan Detección de homólogos remotos

Page 49: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Motivos: descripción

•Expresiones regulares

•Perfiles

•HMMs

Page 50: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Expresiones regulares

ALRDFATHDDF

SMTAEATHDSI

ECDQAATHEAS

A-T-H-[DE]

Page 51: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Expresiones regulares

•Cualquier aminoácido: x

•Ambigüedad: [A,B…] A, o B... o {A,B..} cualquiera menos A, B…

•Repetición: A(2,4) A-A o A-A-A o A-A-A-A

•N terminal: <, C-terminal: >

[AC]-x-V-x(4)-{E,D}.

[Ala or Cys]-any-Val-any-any-

any-any-{any but Glu or Asp}

Page 52: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

F K L L S H C L L V F K A F G Q T M F Q

Y P I V G Q E L L G

F P V V K E A I L K

F K V L A A V I A D

L E F I S E C I I Q

F K L L G N V L V C

A -18 -10 -1 -8 8 -3 3 -10 -2 -8

C -22 -33 -18 -18 -22 -26 22 -24 -19 -7

D -35 0 -32 -33 -7 6 -17 -34 -31 0

E -27 15 -25 -26 -9 23 -9 -24 -23 -1

F 60 -30 12 14 -26 -29 -15 4 12 -29

G -30 -20 -28 -32 28 -14 -23 -33 -27 -5

H -13 -12 -25 -25 -16 14 -22 -22 -23 -10

I 3 -27 21 25 -29 -23 -8 33 19 -23

K -26 25 -25 -27 -6 4 -15 -27 -26 0

L 14 -28 19 27 -27 -20 -9 33 26 -21

M 3 -15 10 14 -17 -10 -9 25 12 -11

N -22 -6 -24 -27 1 8 -15 -24 -24 -4

P -30 24 -26 -28 -14 -10 -22 -24 -26 -18

Q -32 5 -25 -26 -9 24 -16 -17 -23 7

R -18 9 -22 -22 -10 0 -18 -23 -22 -4

S -22 -8 -16 -21 11 2 -1 -24 -19 -4

T -10 -10 -6 -7 -5 -8 2 -10 -7 -11

V 0 -25 22 25 -19 -26 6 19 16 -16

W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28

Y 34 -18 -1 1 -23 -12 -19 0 0 -18

Más sensibles que las

expresiones regulares

A tiene más baja probabilidad que M

que, aunque no aparece, sabemos

que M es fisicoquímicamente más

similar a L, I, V y F.

Usa pesos discriminatorios no solo

para los AAs que aparecen. Para los

que no aparecen se basan en las

frecuencias observadas y en la

probabilidad de que el AA sea

sustituido

Perfiles

Page 53: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

HMMs

Hidden Markov models (HMMs) son modelos estadísticos

de la estructura primaria de las secuencias.

Se supone que lo que vemos es resultado de un proceso

oculto (hidden) del que tenemos un modelo.

Page 54: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Todos o algunos

de los parámetros

pueden ser

estimados de los

datos

HMMs y motivos

Este es el más usado. Corresponde a un alineamiento con

tres estados (m1, m2, m3) con 20 probabilidades de ser un

residuo (barras) cuatro estados de inserción (i0, i1, i2, i3) y

tres estados de delección (d1, d2, d3). Las flechas representan

las probabilidades de transición entre estados

Page 55: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Bases de datos

PROSITE: Expresiones regulares y perfiles.

Basada en motivos conocidos (SwissProt)

BLOCKS: Perfiles. Basada en PROSITE.

PRINTS: Perfiles. Basada en motivos conocidos

Pfam: Perfiles HMM.

Generación automática de motivos.

SwissProt + SP-TrEMBL

Page 56: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Comparación Información

Precisión

Expresiones

regulares

Perfiles

simples múltiples HMMs

Sw

issPro

t S

P-T

rEM

BL

PROSITE BLOCKS PRINTS

Pfam

Page 57: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

http://www.sanger.ac.uk/Pfam

Pfam Protein families database

of alignments and HMMs

pfam-A & pfam-B

(UniProt)

Page 58: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Pfam Protein families database of alignments and HMMs

PKR

Page 59: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Molecular chaperonin GroEL

subunit heptamer ATP

(Dr Jianpeng Ma, Harvard Univ.)

Page 60: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Extracción de información evolutiva a partir de alineamientos múltiples de proteína.

Page 61: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Information extracted from multiple sequence alignments

Integration of Evolutive Information

conserved

tree-determinants correlated mutations

Page 62: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Information extracted from multiple sequence alignments

Integration of Evolutive Information

conserved

Page 63: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

a4 b5 a3 b4 b3

a6 b7 b6 a5

a1 b1 b2 a2

a8 b8 a7

Hydroxymethylglutaryl-CoA lyase (HMGL)

F.G. HEGARDT. UB

J. PIE. Univ. Zar.

N . CASALS. UIC.

Page 64: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Hydroxymethylglutaryl-CoA lyase (HMGL)

a1 a2

a3

a4

a5

a6

a7

a8

S75

D42 R41

L263

E279

H233

D204

S201

E279 S75

V70

S201

L263 D42 R41 H233

D204

H233

D204

S75

D42

L263

N C

C

FG. Hegardt

J. Pie

N. Casals

Page 65: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Information extracted from multiple sequence alignments

Integration of Evolutive Information

correlated mutations

Page 66: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

SINGLE

MUTATION

DECREASED

STABILITY

"RESTORED"

STABILITY SECOND COMPENSATORY

MUTATION

Correlated Mutations

Pazos et al.

J. Mol. Biol., 1997

Page 67: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Correlated mutations

D415 (monomer A)

R297 (monomer B)

Phenylalanine hydroxylase (PAH)

homotetramer.

intra-protein contacts

inter-protein contacts

Page 68: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Information extracted from multiple sequence alignments

Integration of Evolutive Information

tree-determinants

Page 69: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

L-CPT I

M-CPT I

COT

CPT II

CrAT

ChAT

malonyl-CoA regulated

malonyl-CoA insensitive

choline

carnitine

carnitine/choline acyl transferases F.G. Hegardt

Page 70: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Malonyl-CoA regulation: Met vs. Ser

Carnitine-Choline: Thr/Glu/Thr vs. Val/Asp/Asn

Short vs. Long substrate: Gly vs. Met

Page 71: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

H12

E14

palmitoyl-CoA

carnitine

H473

V481

G482

G711

V488

M489

A490

V706

G710

G709

W485

Model (Cordente et al, 2004; JBC)

Crystal structure (Hsiao et al, 2004; JBC)

Page 72: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Dto. Arquitectura de Computadores

Universidad de Málaga

Oswaldo Trelles

Gracias a:

Joaquín Dopazo CSAT - Príncipe Felipe

Valencia

Museo Nacional de Ciencias

Naturales. Madrid

Federico Abascal

Page 73: Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza entre las proteinas [Pequeña] para secuencias muy relacionadas [Crece] a mayores

Paulino Gomez-Puertas Bioinformática.

Cuestiones…