Encuentra las 12 diferencias

84
Alineamiento de secuencias

description

Encuentra las 12 diferencias. La Bioinformática es una disciplina basada en el conocimiento. Las secuencia del ADN determina la secuencia de una proteína. La secuencia de una proteína determina su estructura 3D. La estructura 3D de una proteína determina su función biológica. - PowerPoint PPT Presentation

Transcript of Encuentra las 12 diferencias

Page 1: Encuentra las 12 diferencias

Alineamiento de secuencias

Page 2: Encuentra las 12 diferencias

Alineamiento de secuencias

La comparación de secuencias es uno de los pilares de la Bioinformática

Page 3: Encuentra las 12 diferencias

Alineamiento de secuencias

Secuencia → Estructura → Función

Las secuencia del ADN determina la secuencia

de una proteína.

La secuencia de una proteína determina su

estructura 3D.

La estructura 3D de una proteína determina su

función biológica.

Por tanto, es muy probable que

secuencias similares den lugar a proteínas

con estructura y función parecidas.

Page 4: Encuentra las 12 diferencias

Alineamiento de secuenciasDeterminar la estructura 3D a partir de la secuencia

El “santo grial” de la bioinformática

Page 5: Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamiento de secuencias

Similar sequence leads to similar structureSimilar structure leads to similar function

El alineamiento de secuencias permite

descubrir el grado de similitud que hay entre

ellas para así poder determinar si se trata

de secuencias homólogas

El alineamiento de secuencias es una

herramienta básica de la bioinformática que

permite obtener información funcional, estructural y evolutiva

Page 6: Encuentra las 12 diferencias

Alineamiento de secuencias

Homología y similitud

Page 7: Encuentra las 12 diferencias

Alineamiento de secuencias

La similitud implica homología …

Page 8: Encuentra las 12 diferencias

Alineamiento de secuencias

... pero todo tiene un límite

Page 9: Encuentra las 12 diferencias

Alineamiento de secuencias

Parecidas

Posibles causas del parecido entre dos secuencias

Comparación de dos

secuencias

Idénticas Herencia genética

Homólogas

Análogas

Ancestro común

Evolución convergente

En un mismo organismoEn distintos organismos

XenólogasOrtólogas Parálogas

Especiación Duplicación de un genTransferencia horizontal de

genesConserva la función Adquiere nueva función

Page 10: Encuentra las 12 diferencias

Alineamiento de secuenciasHomólogas: secuencias que proceden de una misma secuencia ancestral y que, por tanto,

presentan cierto grado de similitud.

Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de

especiación. Conservan la misma función.

Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función.

Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia

horizontal de genes (virus, simbiosis, etc.)

Diversos tipos de homología

Page 11: Encuentra las 12 diferencias

Alineamiento de secuencias

Suelen conservar la función

Suelen adquirir nuevas funciones

Ortólogos y parálogos

Page 12: Encuentra las 12 diferencias

Alineamiento de secuenciasEn función del número de secuencias que se comparan podemos distinguir:

1.- Alineamiento de dos secuencias

2.- Alineamiento múltiple de secuencias (AMS)

Tipos de alineamiento

Page 13: Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamiento de dos secuencias

Page 14: Encuentra las 12 diferencias

Alineamiento de secuenciasA veces es interesante comparar una secuencia

consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente

Alineamiento de una secuencia consigo misma

Page 15: Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamiento múltiple de secuencias (AMS)

Se conservan las regiones que son importantes para mantener la estructura y/o

función

Page 16: Encuentra las 12 diferencias

Alineamiento de secuencias

Page 17: Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamientos de secuencias de ácidos nucleicos

En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia

Todos los cambios posibles tienen una probabilidad similar

Se basa fundamentalmente en la coincidencia directa entre los textos

Método lento, porque las bases de datos de ácidos nucleicos contienen un

número muy elevado de caracteres

Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas

No queda más remedio que hacerlo si se trata de secuencias no codificantes

Son menos sensibles que los alineamientos de proteínas porque:

Page 18: Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamientos de secuencias de proteínas

1.- Aportan más información (más de 4 bits por aa).

3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda

4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes.5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda.

2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos

Page 19: Encuentra las 12 diferencias

Alineamiento de secuencias

AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAAUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Consideremos estas dos secuencias:

AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA

AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Hagamos un alineamiento sin huecos:

Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud)

Alineamientos de 2 secuencias de ácidos nucleicos

Page 20: Encuentra las 12 diferencias

Alineamiento de secuencias

Alineamientos de las proteínas codificadas

ATGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAATGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Secuencias de ADN:

Traducción a proteínas:

MELISAISALIVEMELISAISALIVE

A nivel de aminoácidos, las dos secuencias son idénticas

Page 21: Encuentra las 12 diferencias

Alineamiento de secuencias

La complejidad no es mala

Page 22: Encuentra las 12 diferencias

Alineamiento de secuenciasDos secuencias siempre se pueden alinear y son muchos los posibles alineamientos.

Multitud de alineamientos posibles

Page 23: Encuentra las 12 diferencias

Alineamiento de secuenciasPara determinar cuál es el mejor alineamiento

se necesita un sistema de puntuación.

Alineamiento óptimo

¿Cuál es mejor?

HEAGAWGHEE

PAWHEAEEjemplo:

HEAGAWGHE-EP-A--W-HEAE

HEAGAWGHE-E--P-AW-HEAE

El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo

Page 24: Encuentra las 12 diferencias

Alineamiento de secuenciasSi hay más de un alineamiento con la misma puntuación,

será criterio del investigador decir cuál es el más probable.

Yo también tengo algo que decir

Page 25: Encuentra las 12 diferencias

Alineamiento de secuencias

Page 26: Encuentra las 12 diferencias

Alineamiento de secuencias

El sistema de puntuación

La puntuación del alineamiento resulta de sumar la puntuación de cada posición, en función de

que los residuos coincidan (match), sean distintos (mismatch) o haya huecos (indels).

Para saber cuál es el mejor alineamiento entre dos secuencias es necesario

establecer un sistema de puntuación.

El sistema de puntuación consta de dos componentes: (1) una matriz de puntuación que asigna un valor a

cada una de las posibles sustituciones y (2) una penalización por la introducción de indels.

Cada uno de los posibles alineamientos recibe una puntuación. Se considera alineamiento óptimo aquél que consigue la puntuación más elevada.

Page 27: Encuentra las 12 diferencias

Alineamiento de secuenciasEl sistema más sencillo consiste en otorgar una puntuación discreta a las

coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps).

Puntuación de un alineamiento

Sistema de puntuación

Page 28: Encuentra las 12 diferencias

Alineamiento de secuencias

Sistema de puntuación de BLASTN

Page 29: Encuentra las 12 diferencias

Alineamiento de secuencias

Page 30: Encuentra las 12 diferencias

Alineamiento de secuencias

Matrices de puntuación

Page 31: Encuentra las 12 diferencias

Alineamiento de secuenciasEn muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tienen en cuenta todas las

sustituciones posibles.

Las matrices de puntuación

A cada sustitución se le asigna una puntuación

distinta porque:

1.- No todos los nucleótidos sustituyen a otros con la misma probabilidad (las transiciones son

más probables que las transversiones) .

2.- No todos los aminoácidos sustituyen a otros con la misma probabilidad (muchas de las

sustituciones observadas son conservativas) .

Page 32: Encuentra las 12 diferencias

Alineamiento de secuencias

Matrices de sustitución para nucleótidos

Page 33: Encuentra las 12 diferencias

Alineamiento de secuencias

Matriz de identidad

Matriz de identidad que otorga una

puntuación de 1 en caso de coincidencia. En caso contrario, la

puntuación es 0.

También se pueden incluir valores distintos de 0 y una penalización

por introducir huecos

Page 34: Encuentra las 12 diferencias

Alineamiento de secuencias

Matrices basadas en un modelo evolutivo

Se supone que la tasa de cambio evolutivo permanece

constante durante todo el periodo estudiado.

Page 35: Encuentra las 12 diferencias

Alineamiento de secuencias

Modelo de Jukes-Cantor (uniforme)

Mutation probability matrix (PAM-1)

Se contempla un periodo evolutivo en el que ha habido una mutación puntual aceptada por

cada 100 bases (PAM-1).

Se considera un modelo mutacional de Markov en

el que las mutaciones son aleatorias e independientes.

Todas las mutaciones son igual de probables y

todas las bases aparecen con la misma

frecuencia.

2

Page 36: Encuentra las 12 diferencias

Alineamiento de secuencias

Las transiciones son tres veces más probables que las

transversiones.

Transiciones y transversiones

Modelo de Kimura (sesgado)

Transición (A↔G) (C↔T)

(purina↔purina) (pirimidina↔pirimidina)

Transversión

(A↔T) (A↔C) (G↔T) (G↔C)

(purina↔pirimidina) (pirimidina↔purina)

Page 37: Encuentra las 12 diferencias

Alineamiento de secuenciasMutation probability matrix (PAM-1)

Modelo de Kimura (sesgado)

Se contempla un periodo evolutivo en el que ha habido una mutación

puntual aceptada por cada 100 bases (PAM-1).

Se considera un modelo mutacional de Markov: las

mutaciones son aleatorias e independientes.

Las transiciones son 3 veces más probables que las transversiones. Todas las bases aparecen con la

misma frecuencia.

TransiciónTransversión

2

Page 38: Encuentra las 12 diferencias

Alineamiento de secuencias

Matrices PAM para secuencias con una diferencia > 1%

Page 39: Encuentra las 12 diferencias

Alineamiento de secuencias

Matrices de sustitución para aminoácidos

Page 40: Encuentra las 12 diferencias

Alineamiento de secuencias

Page 41: Encuentra las 12 diferencias

Alineamiento de secuencias

Margaret Dayhoff (1925 – 1983)

Matrices PAM para aminoácidos

Page 42: Encuentra las 12 diferencias

Alineamiento de secuencias

El modelo evolutivo de las matrices PAM

Page 43: Encuentra las 12 diferencias

Alineamiento de secuencias

Primero se calcula la matriz PAM-1, que

muestra las frecuencias relativas de los cambios de cada aminoácido por cualquiera de los otros

observados en secuencias que sólo

difieren en un 1% de sus aminoácidos.

Cálculo de la matriz PAM-1

Page 44: Encuentra las 12 diferencias

Alineamiento de secuencias

Construcción de la familia de matrices PAM

La matriz PAM-1 se calcula comparando secuencias cuya divergencia no excede el 1%

Multiplicando la matriz PAM-1 por sí misma n veces se obtienen distintas matrices PAM que permiten

comparar secuencias cuyo nivel de similitud se ha ido reduciendo más y más a lo largo de la evolución.

Page 45: Encuentra las 12 diferencias

Alineamiento de secuenciasUna mutación puntual aceptada (PAM) es la sustitución de un aminoácido por otro que ha sido aceptada por la selección natural.

El artículo original de Dayhoff y col.

Page 46: Encuentra las 12 diferencias

Alineamiento de secuencias

Como no se conoce la dirección de la mutación, la puntuación indicada en la matriz de log odds

para el cambio ab es la misma que para el cambio ba. Por tanto, la matriz es simétrica.

El valor que aparece en la matriz de log odds es la media de la suma de los cambios observados (ab + ba).

La matriz de frecuencias se convierte en matriz log odds

Page 47: Encuentra las 12 diferencias

Alineamiento de secuencias

PAM 250 (log odds matrix)

Page 48: Encuentra las 12 diferencias

Alineamiento de secuencias

Matriz de probabilidades relativas (Ri,j) para PAM = 250

― Si Si,j > 0, el aa i sustituye al aa j con más frecuencia de lo que se podría esperar por simple azar

― Si Si,j > 0, el aa i sustituye al aa j con menos frecuencia de lo que se podría esperar por simple azar

― Si Si,j = 0, el aa i sustituye al aa j con la frecuencia que se podría esperar por simple azar

La matriz de log odds es simétrica. A partir de ella se puede deducir que:

Page 49: Encuentra las 12 diferencias

Alineamiento de secuencias

¿Cómo se interpretan los valores de la matriz?

Page 50: Encuentra las 12 diferencias

Alineamiento de secuencias

Un ejemplo

Page 51: Encuentra las 12 diferencias

Alineamiento de secuencias

Ventajas e inconvenientes de PAM

Page 52: Encuentra las 12 diferencias

Alineamiento de secuencias

En 1992 se recalculó la matriz PAM

Page 53: Encuentra las 12 diferencias

Alineamiento de secuencias

Gonnet PAM250

Page 54: Encuentra las 12 diferencias

Alineamiento de secuencias

JTT PAM250

Page 55: Encuentra las 12 diferencias

Alineamiento de secuencias

Steven y Jorja Henikoff

PROSITEDatabase of protein families and domains

(BLOcks SUbstitution Matrix)

Page 56: Encuentra las 12 diferencias

Alineamiento de secuenciasSe parte de un conjunto de secuencias de proteínas

relacionadas extraídas de la BD PROSITE 9.0

Los programas MOTIF y PROTOMAT

detectaron 2106 bloques en esas

secuencias

1.- Recopilación de datos (bloques)

Las secuencias corresponden a 559 familias de proteínas (muchos más datos de partida

que en el caso de las matrices PAM)

Page 57: Encuentra las 12 diferencias

Alineamiento de secuenciasUn bloque es un alineamiento local y sin huecos de una región conservada en una familia de proteínas

WWYIR CASILRKIYIYGPV GVSRLRTAYGGRKNRGWFYVR … CASILRHLYHRSPA … GVGSITKIYGGRKRNGWYYVR AAAVARHIYLRKTV GVGRLRKVHGSTKNRGWYFIR AASICRHLYIRSPA GIGSFEKIYGGRRRRG

bloque 1 bloque 2 bloque 3

Características de los bloques (1)

En cada bloque, cada línea corresponde a una proteína, y cualquiera de ellas puede ser ancestro de la otra

Los bloques constituyen una característica distintiva de la familia, ya que suelen contener los aa responsables de

la función bioquímica común a todos sus miembros

Page 58: Encuentra las 12 diferencias

Alineamiento de secuencias

w = 4 w = 3

n = 6

La anchura de los bloques (w) oscila entre 3 y 60 aa

El número de secuencias en cada bloque (n) varía en cada familia de proteínas

El cada bloque, el número total de parejas de aa (T) se calcula mediante la fórmula:

T =

20

1 1,

i

i

jjicT

Características de los bloques (2)

Page 59: Encuentra las 12 diferencias

Alineamiento de secuenciasBloque 1 Bloque 2

― En este caso:

En la primera columna del bloque 1 tenemos los aa: ACABAA

nA = 4

nB = 1

nC = 1

El número de posibles parejas de aa en la primera columna es:

(AA) – (BB) – (CC) - con dos aa iguales:

- con dos aa distintos:(AB) – (AC) – (BC)

AA = 6AB = 4AC = 4BB = 0BC = 1CC = 0

Total = 15

2.- Recuento de los cambios observados (cij) en cada columna

Page 60: Encuentra las 12 diferencias

Alineamiento de secuencias

Agrupamiento de secuencias

Estas tres secuencias

cuentan como una

BLOSUM 80 agrupa las secuencias cuya similitud es ≥ del 80%

Para evitar que las sustituciones observadas entre las secuencias más parecidas estén sobrerrepresentadas, se agrupan en una sóla aquéllas secuencias que superan un umbral de similitud:

BLOSUM 62 agrupa las secuencias cuya similitud es ≥ del 62%

Page 61: Encuentra las 12 diferencias

Alineamiento de secuencias― Los aa que pertenecen a las secuencias agrupadas contribuyen al cómputo global de forma ponderada.

― Así, para la primera columna tenemos que:

Recuento ponderado de los cambios (cij) en una columna

Estas tres secuencias

cuentan como una

Page 62: Encuentra las 12 diferencias

Alineamiento de secuencias

3.- Recuento de los cambios observados (cij) en todas las columnas

Ejemplo:

Matriz con los valores ci,j (frecuencias observadas):

(número total de parejas)

20

1 1, 30

i

i

jjicT

Page 63: Encuentra las 12 diferencias

Alineamiento de secuencias

Cálculo del log odds para cada sustitución (sij)

probabilidad observada para el cambio aa i → aa j

probabilidad esperada para el cambio aa i → aa j

El valor que se introduce en la matriz BLOSUM es 2 Si,j redondeado al número entero más cercano

ji

ijij pp

pS 2log2

Ejemplo:

Page 64: Encuentra las 12 diferencias

Alineamiento de secuencias

BLOSUM 62

basic

small hydrophobic

aromatic

acid hydrophylic

small hydrophylic

Page 65: Encuentra las 12 diferencias

Alineamiento de secuencias

¿Cómo se interpretan los valores de la matriz?

ji

ijij pp

pS 2log2

Page 66: Encuentra las 12 diferencias

Alineamiento de secuenciasSi Si,j > 0, el aa i sustituye al aa j con más frecuencia

de lo que se podría esperar por simple azar

Si Si,j < 0, el aa i sustituye al aa j con menos frecuencia de lo que se podría esperar por simple azar

Si Si,j = 0, el aa i sustituye al aa j con la frecuencia que se podría esperar por simple azar

BLOSUM62

La puntuación del alineamiento es la suma de los logaritmos de las probabilidades relativas de cada pareja de aa alineada

Page 67: Encuentra las 12 diferencias

Alineamiento de secuencias

Ventajas e inconvenientes de BLOSUM

Page 68: Encuentra las 12 diferencias

Alineamiento de secuencias

Page 69: Encuentra las 12 diferencias

Alineamiento de secuencias

PAM versus BLOSUM (1)

PAM BLOSUMSe construye a partir de alineamientos globales

Se construye a partir de alineamientos locales

Las secuencias de partida son muy similares (> 85%)

Las secuencias de partida son muy divergentes

Pocos datos de partida Gran cantidad de datos de partida

Cómputo de cambios basado en el método de

máxima parsimonia

Cómputo de cambios basado en el agrupamiento de las secuencias que

superan un umbral de similitud

Se basa en un modelo evolutivo mutacional (proceso de Markov)

Se basa en un modelo evolutivo del tipo starburst

Los errores en PAM-1 se amplifican 250 veces en PAM250

Los errores en BLOSUM se deben a alineamientos

incorrectos

Page 70: Encuentra las 12 diferencias

Alineamiento de secuenciasPAM BLOSUM

Para detectar homología en secuencias alejadas se utilizan matrices PAM con

un número elevado

Para detectar homología en secuencias alejadas se utilizan matrices BLOSUM

con un número bajo

PAM con números elevados indican más divergencia

BLOSUM con números elevados indican menos divergencia

Diseñadas para desvelar el parentesco evolutivo

de las proteínas

Diseñadas para encontrar dominios conservados en

las proteínas

PAM versus BLOSUM (2)

Page 71: Encuentra las 12 diferencias

Alineamiento de secuencias

Otras matrices

Page 72: Encuentra las 12 diferencias

Alineamiento de secuencias

Matriz de identidad

Page 73: Encuentra las 12 diferencias

Alineamiento de secuencias

Matriz de sustitución de codones

Page 74: Encuentra las 12 diferencias

Alineamiento de secuencias

Cadenas laterales de los aminoácidos

Page 75: Encuentra las 12 diferencias

Alineamiento de secuencias

Matriz de hidrofobicidad User matrix

Otros tipos de matrices

Page 76: Encuentra las 12 diferencias

Alineamiento de secuencias

Gap penalties

Page 77: Encuentra las 12 diferencias

Alineamiento de secuenciasLos huecos suelen incluirse en los bucles que

conectan los elementos de estructura secundaria

Dónde y cómo introducir huecos

Se considera más lógico introducir un hueco de longitud n que n huecos de longitud 1.

Page 78: Encuentra las 12 diferencias

Alineamiento de secuencias

A veces no me interesa que haya indels en el alineamiento (regiones muy

conservadas y con funciones muy delicadas que no tolerarían ningún

cambio). Puedo usar un programa que no admita indels o, alternativamente, colocar

una penalización infinita a los indels.

¿Indels? No, gracias

¿GAPS?

Page 79: Encuentra las 12 diferencias

Alineamiento de secuencias

Suele ser un valor negativo muy elevado (G = -11; G = -). En la práctica, evita la introducción de indels en el alineamiento. La penalización se contabiliza sólo una vez (cuando se abre el indel) y es independiente de su tamaño.

Penalización constante

Page 80: Encuentra las 12 diferencias

Alineamiento de secuenciasSe puede aplicar una penalización lineal. Cada posición ocupada por un indel sufre una penalización,

que es siempre la misma.

Penalización lineal

G = - n go

Page 81: Encuentra las 12 diferencias

Alineamiento de secuenciasDesde un punto de vista evolutivo, es más realista suponer que la naturaleza ha insertado/eliminado fragmentos en la

secuencia de una sola vez. Por eso se introduce una penalización (go) para la inclusión de un indel (gap open

penalty) y otra penalización (ge), menos costosa, que dependa de la longitud del indel (gap extension penalty).

Penalización afín

La inserción/eliminación es mucho menos probable que cualquier sustitución de aa, por radical que ésta sea. Por tanto, la go debe estar muy penalizada para que se introduzcan indels

donde sea preciso, y no por toda la secuencia

Una vez que se ha introducido un indel en un punto de la secuencia, su extensión (ge) es mucho

más probable y debe estar menos penalizada.

Page 82: Encuentra las 12 diferencias

Alineamiento de secuenciasEn la penalización afín hay dos maneras

distintas de penalizar la extensión del indel :

Modelo convexo: Para todo n>1, p(n+1) - p(n) < p(n) - p(n-1)

(Cada tramo adicional del indel penaliza menos que el anterior. Es el modelo que más se ajusta a la realidad, pero desde el punto de

vista computacional es muy difícil incluirlo en el algoritmo )

Modelo lineal: Para todo n >1, p(n+1) - p(n) = p(n) - p(n-1)

(La penalización es proporcional a la longitud del indel)

G = go + nge G = go + (n-1)ge

G = go + k log (n)

Dos modelos de penalización afín (2)

Page 83: Encuentra las 12 diferencias

Alineamiento de secuencias

Dos modelos de penalización afín (1)

Modelo linealModelo convexo

Page 84: Encuentra las 12 diferencias

Alineamiento de secuencias

Algunas recomendaciones

Es importante seleccionar una penalización apropiada en función de la matriz de puntuación

elegida para que no se excluyan los indels, pero que tampoco se propaguen por todo el alineamiento.

No hay una mecanismo formal para calcular el valor de la penalización. La mayor parte de los programas hacen sus

propias recomendaciones, que están basadas en métodos de ensayo y error y no garantizan que para tu caso concreto sean

las más adecuadas. Deberás hacer varias pruebas.

Algunos valores típicos:

Matriz gap opening gap extension

BLOSUM 62 -12 - 3 BLOSUM 50 -15 - 8PAM 250 -15 - 5