Blast Los Andes

5/22/2018 Blast Los Andes

1/29

1

Lope Andrs Flrez Weidinger

http://bioinformate.uniandes.edu.co/cap6.htm

Captulo 6: BLAST en detalle

VISTAZO .................................................................................................................................. 2INTRODUCCIN......................................................................................................................... 2CONCEPTOS IMPORTANTES: ...................................................................................................... 3

Algoritmo............................................................................................................................ 3Estadstico ......................................................................................................................... 4Matriz de sustitucin........................................................................................................... 4Matrices PAM y BLOSUM.................................................................................................. 5E-value............................................................................................................................... 6

CUESTIONARIO: ........................................................................................................................ 7Primera pregunta ............................................................................................................... 7Segunda pregunta.............................................................................................................. 7Tercera pregunta................................................................................................................ 7Cuarta pregunta ................................................................................................................. 8

PRACTIEJEMPLOS ..................................................................................................................... 8Seccin 1: Puntajes de alineamientos................................................................................ 8

Practiejemplo A: Introduciendo a AlignMan ......................................................................................8Practiejemplo B: El alineamiento con ms identidades ....................................................................9Practiejemplo C: Significado biolgico de la penalizacin por gaps y mismatches .......................11Practiejemplo D: Matrices de ponderacin .....................................................................................13Practiejemplo E: Alineamientos locales ..........................................................................................15

Seccin 2: Cmo funciona BLAST?............................................................................... 16Practiejemplo A: El heurstico que caracteriza a BLAST................................................................16Practiejemplo B: Qu programa de BLAST usar?........................................................................17

Seccin 3: Una rutina de bsqueda en BLAST ................................................................ 19Practiejemplo A: Iniciando una bsqueda.......................................................................................19Practiejemplo B: Revisando los resultados.....................................................................................21Practiejemplo C: Realizar nuevas bsquedas de BLAST a partir de los resultados......................23

EJERCICIOS............................................................................................................................ 25Primer ejercicio ................................................................................................................ 25Segundo ejercicio............................................................................................................. 25Tercer ejercicio................................................................................................................. 26Cuarto ejercicio ................................................................................................................ 26Quinto ejercicio ................................................................................................................ 27Sexto ejercicio.................................................................................................................. 27Sptimo ejercicio.............................................................................................................. 27

PROFUNDIZACIN: .................................................................................................................. 27BLOSUM.......................................................................................................................... 27Algoritmos de alineamiento.............................................................................................. 28PSI-BLAST....................................................................................................................... 28Estadstica de BLAST ...................................................................................................... 29


2/29

2

Vistazo

BLAST (Basic Local Alignment Search Tool) ser el tema principal de este captulo.

Empezaremos, explorando la forma en que los algoritmos de alineamiento entre los que seincluye BLAST - calculan su puntaje. Para esto aprenderemos qu significa el costo de iniciarun gap, el costo de extenderlo y la matriz de sustitucin que manejemos.

Despus explicaremos el paso algortmico que hace de BLAST un heurstico y presentaremosuna gua que nos ayuda a escoger el programa de BLAST ms adecuado para respondernuestra pregunta.

Finalizaremos realizando una rutina completa de bsqueda de BLAST. Veremos comointerpretar los primeros resultados que arroja la bsqueda, cmo evaluar los estadsticos deBLAST (como el e-value) y cmo proponer siguientes bsquedas en BLAST para adquirir mscerteza de nuestras conclusiones.

Introduccin

La bioinformtica es un instrumento para hacer sugerencias. Ni es ms, ni es menos.

Thomas Lengauer [1]

No hay verdad independiente y distinta del esfuerzo por medio del cual se consigue.

Nicols Gmez Dvila [2]

No todo lo que puede ser contado necesariamente cuenta; no todo lo que cuenta puedenecesariamente ser contado.

Albert Einstein

La tecnologa necesaria para determinar la estructura tridimensional de las protenas tiene unrezago muy amplio respecto a la tecnologa de secuenciacin. Lo mismo ocurre y en mayormedida con la determinacin de una funcin metablica de nuevas protenas.

Se ha optado, por tanto, por utilizar la secuencia como indicio de homologa entre protenas deespecies diferentes y a partir de esta hiptesis de homologa asignar una posible funcin yestructura.

Recordemos, por ejemplo, que muchas protenas humanas tienen homlogos en la mosca dela fruta (Drosophila melanogaster). Indicios de esta homologa se encuentran a varios niveles:similitud entre secuencias (de nucletidos y de protenas), funcin metablica similar o idntica,estructura tridimensional conservada,...

Si conseguimos descubrir una funcin metablica a un gen en la mosca Drosophila

melanogastery podemos encontrar una potencial secuencia homloga en el genoma humano,podemos asignarle a los dos genes (el de la mosca y el del humano) la misma funcintentativamente. Con el tiempo, el carcter tentativo se pondr a prueba con rigurosidad.Mientras pasa ese tiempo, ese indicio de funcin similar puede hacer avanzar lasinvestigaciones vinculadas a ese gen a pasos de gigante (o, modificando la metfora deNewton, sobre los hombros de un gigante que se mueve).

Para poder detectar si dos secuencias de ADN o de protenas son homlogas debe descubrirseun patrn comn. Qu caractersticas comunes comparten las secuencias homlogas? Estose dificulta cuando buscamos homologa en genes de organismos muy distantes


3/29

3

filogenticamente, como por ejemplo los humanos y las levaduras, pues los rastros dehomologa se vuelven muy sutiles y difciles de diferenciar.

Una rama de la bioinformtica muy activa se dedica a encontrar algoritmos cada vez mssensibles y rpidos para detectar homologa entre secuencias. Los autores de estos algoritmostratan de traducir su conocimiento biolgico en reglas que los computadores puedan procesar.

Afortunadamente, podemos usar muchos de estos algoritmos sin ningn costo (BLAST yClustalW son dos ejemplos). El problema es entonces, que potencialmente podemos estaraplicando los algoritmos de manera equivocada. Es como suponer que un paciente tiene unainfeccin pulmonar y mandarle hacer biopsias del hgado. Demuestra el hecho de noencontrar bacterias en el hgado que el paciente no tiene una infeccin pulmonar? Si elhgado muestra algn tipo de infeccin, se puede concluir que sta es pulmonar?

Una ley de Murphy dice: Los computadores hacen siempre lo que se les ordena, nunca lo queuno quiere. An con el pesimismo que caracteriza a estas leyes, hay por lo menos un 50% deverdad en lo que dice: Los computadores slo hacen lo que se les ordena.

En este captulo vamos a aprender qu es lo que se le ordena hacer a un computador cuandole pedimos alinear dos secuencias. Si bien no entraremos a los detalles acerca del cmo (quees lo que se conoce como algortmica), si veremos qu es lo que se consigue.

Por lo general, el resultado es un nmero o conjunto de nmeros (como el e-value y el Score ver captulo anterior) ms un alineamiento. Fcilmente este nmero puede ser sacado de sucontexto. Es como cuando un titular difuso del peridico dice que encontraron vida en elplaneta X (tras lo cul, ms de uno se imagina marcianos como los de las pelculas), cuando enrealidad se refieren a que encontraron aminocidos en una de las exploraciones sobre lasuperficie.

Hay un dicho antiguo que dice: Es feliz el que puede conocer las causas. Cobra vigencia en elcontexto de este captulo: aprender a utilizar (correctamente) los algoritmos y no slo aejecutarlos.

[1] Lengauer T., Bioinformatics From Genomes to Drugs, Volumen 2, Editorial Wiley-VCH,2002, Pgina 184.

[2] Gmez N., Notas, Villegas Editores, 2003, Pgina 96

Conceptos importantes:

Algoritmo

Conjunto de reglas para efectuar algn clculo, bien sea a mano o (msfrecuentemente) a mquina. No debe implicar ninguna decisin subjetiva, ni requeririntuicin o creatividad.

http://www.ctisa.com/diccionario.htm

Un programador debe decirle al computador todos los pasos que se requieren para conseguiruna tarea particular. Estos pasos deben estar preestablecidos, y cumplirse en estricto orden, delo contrario no se lograr el resultado esperado. La secuencia de los pasos se conoce comoalgoritmo.

Un ejemplo de un algoritmo es el siguiente: Est usted en la universidad y se da cuenta que unarchivo que contiene informacin urgente est perfectamente guardado... en el disco duro delcomputador de su casa. Como necesita la informacin, decide llamar a la casa y pedirle elfavor al que conteste que le diga lo que necesita: Prende el computador. Entra a mis


4/29

4

documentos. Desde ah, abre la carpeta Universidad. Ah busca el archivo que se llama... Qudice en el prrafo tres?

En este caso, si la persona que est al otro lado del telfono se salta un paso, o cambia elorden, no podr darle la informacin que necesita.

Como alternativa, usted pudo haber propuesto el siguiente algoritmo: Ve al men inicio, desde

ah a los archivos recientes, y selecciona el archivo que se llama... Es un poco ms rpido. Deigual manera, uno puede hacer varios algoritmos que cumplan todos la misma tarea, slo queunos lo harn mejor que otros (ms rpido, con menos probabilidad de error, ambassimultneamente, etc.).

Estadstico

Cualquier medida de resumen, que sea numrica y est basada en datos de unamuestra.

http://healthlinks.washington.edu/howto/measurement/glossary/

Dos estadsticos de uso comn son la media y la desviacin estndar. Sin embargo, cualquieroperacin numrica que se haga con los datos de una muestra tambin es un estadstico.

Multiplicar todos los nmeros es un estadstico, al igual que lo es contar el nmero de datos.Sin embargo, dependiendo de la aplicacin que se les de, unos estadsticos tiene ms utilidadque otros.

Los estadsticos ms tiles son aquellos que nos permiten inferir probabilidades acerca de laveracidad de una hiptesis. En cursos de estadstica ensean a calcular la probabilidad de quela media de dos poblaciones sea la misma, basndose nicamente en el promedio, ladesviacin estndar y el supuesto de distribucin normal de los datos.

De la misma forma, se han diseado estadsticos para alineamientos biolgicos, que permitencalcular la probabilidad de que la similitud hallada entre las secuencias se deba exclusivamenteal azar.

Al igual que en los cursos de estadstica, donde se supone que los datos tienen distribucin

normal, en los estadsticos de alineamientos tambin hay que hacer unos supuestos, como porejemplo que las secuencias no contienen segmentos repetidos. Tener en cuenta estossupuestos es importante para analizar crticamente los resultados.

Matriz de sustituc in

En bioinformtica, una matriz de sustitucin estima la tasa en la que cada residuoposible en una secuencia cambia a otro a travs del tiempo.

Tomado de: http://en.wikipedia.org/wiki/Substitution_matrix

Las matrices de sustitucin (tambin conocidas como matrices de ponderacin) son un modelo

acerca de la tasa de mutacin de los nucletidos o los aminocidos. Los modelos mssofisticados se basan en alineamientos mltiples obtenidos de datos empricos (ya sea deprotenas con estructuras conocidas o de secuencias con alta evidencia de ser homlogas - vermatrices PAM y BLOSUM ms adelante), pero todas tienen en comn la asignacin de unpuntaje numrico que caracteriza la mutacin de un residuo en otro.

La matriz ms sencilla es la matriz identidad, que para nucletidos se encuentra en la siguientepgina (las dos formas de la matriz son equivalentes):

http://bioinformate.uniandes.edu.co/Imagenes/identidad_nucleotidos.JPG


5/29

5

Lo que est implcito en este modelo es que las mutaciones de cualquier nucletido a otro sonigual de probables (por ejemplo, que no es ms probable una transicin que una transversin).Con esto se concluye de hecho que todos los valores por fuera de la diagonal son iguales.

Un modelo diferente podra dar una menor probabilidad de ocurrencia a las transiciones que alas transversiones (caracterizado en este caso por nmeros negativos en las transiciones y noen las transversiones):

http://bioinformate.uniandes.edu.co/Imagenes/transiciones.JPG

Los puntajes llevan implcitos un modelo probabilstico (que est descrito en detalle en el librode Durbin et al. [1]). Calibrando el puntaje de cada celda se puede llegar a modelos quepredicen muy bien la tasa de mutacin en secuencias reales.

Estas matrices son sumamente tiles en la bsqueda de homologa, especialmente entresecuencias lejanas (evolutivamente hablando). Esto se debe a que pueden dar significadobiolgico a los mismatches (bases apareadas no idnticas) de los alineamientos (ver msdetalles en el practiejemplo 1D).

[1] Durbin R. et al., Biological Sequence Analysis: Probabilistic models of proteins and nucleicacids, Cambridge University Press, 1998, pgina 14.

Matrices PAM y BLOSUM

Mientras que las matrices PAM han sido desarrolladas a partir de alineamientosglobales, las matrices BLOSUM toman base en alineamientos locales mltiples desecuencias ms distantemente relacionadas.

Tomado de: http://cnx.org/content/m11062/latest/

Recordemos que el objetivo ltimo de las matrices de sustitucin es generar un buen modelode la tasa de mutacin entre residuos. Unas matrices estn especializadas en protenaspredominantemente hidrofbicas (como las membranales), otras especializadas en secuenciasmuy similares (por ejemplo, la que se utiliz en el captulo anterior para hallar correspondencias

entre una secuencia y el genoma humano), etc.

Un criterio que suele ser de utilidad es la divergencia esperada entre las secuencias. Sicreemos que dos secuencias van a ser muy similares (esto es, con un porcentaje de identidadalto), los mismatches pueden ser fuertemente penalizados. Si buscamos, en cambio,secuencias homlogas tras una divergencia alta (digamos, que tengan slo un 50% deidentidad), debemos ser menos fuertes en la asignacin de puntos negativos en losmismatches.

En alineamientos de protenas, las matrices ms utilizadas son de la serie PAM y BLOSUM.Ambas tienen en comn que estn calibradas para una distancia evolutiva preestablecida.

Las matrices PAM (Point Accepted Mutation) se generaron primero, y surgieron tras alinearglobalmente varias protenas que se saba eran homlogas. Tras el alineamiento se calcul la

tasa de mutacin observada si 1% de los aminocidos fueran diferentes. A esta matriz se le dioel nombre de PAM1. A partir de PAM1 se generaron matrices que tuvieran ms divergencia.Entre mayor el valor tras la sigla PAM, mayor la distancia evolutiva para la que el modelo estcalibrado (PAM250, por ejemplo, se usa para secuencias muy divergentes).

Las matrices BLOSUM (BLOcks SUbstitution Matrix) parten de una base de datos llamadaBLOCKS, donde hay alineamientos locales de estructuras conocidas. Cada matriz estoptimizada para un porcentaje de identidad diferente. Por ejemplo, BLOSUM 62 (que es lamatriz ms usada en alineamiento de protenas) est optimizada para encontrar secuenciashomlogas que tienen 62% o menos de identidades. Se puede consultar en la siguiente pgina:


6/29

6

http://www.uky.edu/Classes/BIO/520/BIO520WWW/blosum62.htm

Es importante notar que nmeros grandes de PAM corresponden a valores altos dedivergencia, mientras que en BLOSUM, valores grandes significan mayor porcentaje deidentidad y por lo tanto menos divergencia.

E-value

El puntaje Z es una medida de qu tan inusual es nuestro alineamiento original, entrminos de la media y la desviacin estndar de los puntajes de la poblacin. [...]

El e-value de un alineamiento es el nmero esperado de secuencias que dan el mismovalor Z o mejor, de sondearse la base de datos con una secuencia aleatoria.

Tomado de: Lesk, AM., Introduction to Bioinformatics, Oxford University Press, 2002,pg. 186

Suponga que lanza una moneda 20 veces al aire. Para cada uno de los posibles resultadospuede calcular la probabilidad que ese resultado haya surgido al azar. Por ejemplo, laprobabilidad que aparezcan 20 caras seguidas es de un medio a la veinte.

Suponga ahora que hace el experimento 1000 veces. Si multiplica la probabilidad de obtenerun resultado particular (por ejemplo 20 caras) por 1000, obtendr el nmero esperado de vecesque obtendr ese resultado tras 1000 experimentos.

Un procedimiento similar se puede aplicar al sondeo de bases de datos mediantealineamientos locales. En este caso, el valor esperado adquiere el nombre de e-value(expected value). Se necesita:

i) la probabilidad que el alineamiento se deba nicamente al azar (esto es, que notenga ningn significado biolgico)

ii) la cantidad de secuencias de una base de datos que pueden alinearse entre s(que es el anlogo a las veces que se repite el experimento de la moneda)

Altschul y otros [1] encontraron un procedimiento matemtico para calcular la probabilidad deque un alineamiento particular sea producto nicamente del azar y no se base en homologa.Esta probabilidad est relacionada con el puntaje (Score), que aprenderemos a calcular en laseccin 1 de este captulo. Con esta probabilidad y el tamao de la base de datos es posiblecalcular el e-value, que es la cantidad de resultados que esperamos encontrar en la base dedatos con menos de ese puntaje.

Por tanto, entre menor sea el e-value, menos probable es que el alineamiento se debanicamente al azar y por tanto ms posibilidades tiene de representar una posible homologa.

Como indica Lesk [2], un e-value muy confiable es menor a 0.02. Un e-value entre 0.02 y 1 esposible indicativo de homologa. Un e-value mayor a 1 debe analizarse con mucha cautela,pues probablemente se deba ms al azar que a un fundamento biolgico particular.

[1] Altschul, S.F, Gish, W., Miller,W., Myers,E.W. & Lipman, D.J. (1990) J.Mol.Biol., 215, 403-410

[2] Lesk, A.M., Introduction to Bioinformatics, Oxford University Press, 2002, pgina 186.


7/29

7

Cuestionario:

Primera pregunta

Cul noes un ejemplo de seguir un algoritmo?

a) Hacer lo descrito en la seccin de un manual de una calculadora en donde ensean adividir dos quebrados

b) Resolver un sistema de ecuacionesc) Seguir una receta de cocina al pie de la letrad) Hacer un nuevo invento

Respuesta:

La respuesta d) no es un ejemplo de un algoritmo. Ejecutar un algoritmo requiere hacer pasospreestablecidos. Si alguien pudiera sugerirnos los pasos para hacer un nuevo invento, eseinvento no sera nuevo.

Segunda pregunta

Usted tiene una lista de nmeros enteros. Cul es el mejor estadstico para evaluar si almenos uno de ellos es par?

a) el promediob) la sumac) el productod) el nmero que ms se repite (la moda)

Respuesta:

La respuesta correcta es la c). Si entre sus nmeros se encuentra al menos un nmero par, elproducto ser par. De lo contrario tendr que ser impar. Este estadstico, por tanto, permiteinferir la probabilidad de este evento con una probabilidad del 100%.

Como puede ver, algunos estadsticos se ajustan mejor en unas situaciones que en otras. Eneste caso, el promedio no sera muy til.

Tercera pregunta

Como es sabido, es poco probable una mutacin de un aminocido pequeo y aliftico a unaminocido grande y cargado. En una matriz de sustitucin de aminocidos que tuviera encuenta este hecho, cules de las siguientes afirmaciones seran ciertas?

a) La celda que representa la mutacin de alanina (pequeo y aliftico) a lisina (grande y

cargado) debe tener un nmero muy bajo (probablemente negativo)b) Todas las celdas por fuera de la diagonal deben tener el mismo valorc) Toda la columna de la lisina (a excepcin de la celda Lisina-Lisina) debe tener

nmeros negativos.

Respuesta:

La nica afirmacin cierta es la a).

Si todas las celdas por fuera de la diagonal tuvieran el mismo valor, estaramos suponiendoque todas las mutaciones son igual de probables.


8/29

8

Si toda la columna de la Lisina tiene valores negativos (a excepcin de la celda Lisina-Lisina),estaramos penalizando tambin la mutacin de la lisina a otros aminocidos grandes ycargados, como la arginina.

Cuarta pregunta

Cul sera la mejor matriz de sustitucin para buscar en una base de datos una secuenciahomloga con un 40% de identidad a mi secuencia de protena?

a) BLOSUM 40b) BLOSUM 60c) PAM 1d) La matriz identidad

Respuesta:

La mejor matriz para buscar protenas homlogas con un 40% de identidad es la BLOSUM 40,pues es el resultado de evaluar alineamientos de protenas que tienen este porcentaje deidentidad. Las otras matrices son ms aptas para secuencias menos divergentes (en especial

la matriz identidad).

Practiejemplos

Seccin 1: Puntajes de alineamientos

Practiejemplo A: Introduciendo a AlignMan

En este practiejemplo se introducir el programa AlignMan. Es muy parecido a PacMan (en elsentido que el protagonista tiene mucha hambre), pero las reglas han sido modificadas

(bastante) para trasmitir conceptos de alineamientos.1. Ingrese a la siguiente pgina Web, que corresponde a la pgina desde donde corre la

aplicacin:

http://bioinformate.uniandes.edu.co/AlignMan/

2. Como ver se trata de un juego con 5 niveles. En este practiejemplo y el siguiente noscentraremos en el Nivel 1.

En la parte superior de la pgina hay una gradilla, que tiene a AlignMan en la primeracelda. En algunas celdas de la gradilla hay puntos rojos o galletas.

3. Antes de mirar con detalle las dos cajas que estn a la derecha de la gradillacentrmonos en la parte inferior.

La primera caja dice Alineamiento: (que ser el tema principal del siguientepractiejemplo) y tiene las Instrucciones del nivel. Las instrucciones del primer nivelson sencillas: comer todas las galletas como sea posible, pero slo valen galletascomidas en diagonal.

4. A la derecha de esta caja est la caja Puntajes. Indica el puntaje actual y el puntajemximo que se puede lograr.


9/29

9

Tambin est el botn Reiniciar que, como su nombre lo indica, permite empezar elnivel nuevamente desde cero.

5. Ahora s veamos las cajas que se encuentran a la derecha de la gradilla. La primeracaja tiene los controles. Las flechas mueven a AlignMan hacia abajo, hacia la derechao en diagonal.

Pruebe comer la mayor cantidad posible de galletas (recuerde que slo valen lasgalletas comidas tras presionar la flecha diagonal). El puntaje mximo del Nivel 1(como aparece en la parte inferior) es 5 galletas. Recuerde que puede presionar elbotn Reiniciar cuando lo desee.

Ejercicio:

Encuentre una secuencia de pasos (presionando las flechas) con las que obtenga el puntajemximo. Hay ms de una solucin posible?

Practiejemplo B: El alineamiento con ms identidades

En el Practiejemplo anterior aprendi a jugar el Nivel 1 de AlignMan, que est en la siguiente

pgina Web:


A estas alturas se preguntar: qu tiene que ver este juego con los alineamientos?

ste es uno de los puntos que quiero resaltar. En ningn momento utilic el dogma central dela biologa molecular o mencion secuencias para explicar las reglas de AlignMan. Sinembargo, jugando a maximizar el nmero de galletas indirectamente se est buscando la formade maximizar el nmero de identidades entre dos secuencias.

En este ejemplo vamos a ver porqu:

1. Inicie AlignMan y haga clic en la casilla Ver alineamiento que est en la caja de

controles.

2. Aparecen dos secuencias bordeando la gradilla. La primera secuencia(GCAACTGATC) est en la parte superior y la segunda secuencia (GATTAC) est a laizquierda.

D clic en Reiniciar e intente nuevamente comer el mayor nmero de galletas. Amedida que lo hace notar que en el espacio en blanco bajo Alineamiento: aparecenlas secuencias alineadas.

3. Cada vez que presiona las teclas derecha o abajo aparece un gap. Cuando presionala flecha diagonal est alineando dos nucletidos. Si los nucletidos son iguales (estoes, si AlignMan come una galleta) el puntaje sube en una unidad. Si son diferentes(que se conoce como mismatch) no pasa nada con el puntaje.

Tmese su tiempo:

Dedique algo de tiempo a entender cmo aparece el alineamiento a medidaque presiona las flechas. Puede servirle de gua la caja Puntaje del prximomovimiento.

Si presiona la flecha hacia abajo aadir un gap a la secuencia GCAACTGATCy un nucletido a la otra secuencia. Sucede a la inversa si presiona la flecha ala derecha.


10/29

10

Si presiona la flecha diagonal aparece un nucletido de cada cadena. Al igualque en LAlign (ver captulo 5), aparece el signo : entre los nucletidos si hayuna identidad (match).

Nota cmo se relacionan los gaps y los alineamientos de nucletidos con lasfilas y columnas que va recorriendo?

4. Si resolvi el ejercicio del problema anterior notar que al obtener el puntaje mximoest encontrando el alineamiento con el mayor nmero de identidades posible.

El puntaje es el mismo Score que aparece en los programas de alineamiento. Enejemplos siguientes veremos que este Score depende de varios factores, no solo delnmero de identidades.

5. En caso que usted sea un programador experto o haya ledo acerca de algortmicasabr hacer programas que juegen AlignMan de manera ptima (esto es: obteniendoel mximo puntaje).

Hay por lo menos dos algoritmos que pueden encontrar la mejor solucin. Uno de ellos,coloquialmente conocido como fuerza bruta es muy demorado pero fcil de programar(para los conocedores del tema, el algoritmo de Backtracking es una muy buena

opcin...).Qu es el algoritmo de fuerza bruta ?

Este algoritmo consiste en probar todas las soluciones posibles, una a una,sistemticamente.

Imagine, por ejemplo, que tiene un candado con clave numrica y se le olvidcul es la combinacin que lo abre. Si dispone de tiempo suficiente seguropodr encontrar la combinacin correcta si prueba los nmeros uno a uno.

En este caso hay 134245 caminos que llevan desde la primera casilla hasta laltima usando las flechas y cada uno genera un alineamiento diferente. Unhumano no se tomara en serio la tarea de explorarlas una a una, pero uncomputador (que puede hacer millones de operaciones por segundo) no pondrmucho problema.

Quiz la fuerza bruta a la que se hace referencia es la fuerza de computacinde un computador moderno.

El otro algoritmo, conocido como programacin dinmica es mucho ms eficiente,pero requiere ingenio si se programa por primera vez.

Qu es el algoritmo de programacin dinmica ?

El algoritmo de programacin dinmica se basa en el principio de divide yvencers. Se trata de encontrar un ptimo global a partir de ptimos locales.

Una buena explicacin de cmo funciona el algoritmo se encuentra en:

http://www.sbc.su.se/~pjk/molbioinfo2001/dynprog/dynamic.html

Las secuencias que se utilizan en esta pgina son diferentes, pero el algoritmosirve de igual manera en este caso.

Lo importante a resaltar del algoritmo es que obtiene la respuesta ptimadespus de hacer 60 operaciones de clculo (6 filas por 10 columnas).Compare este valor con las 134245 operaciones necesarias en un algoritmo defuerza bruta. Es un algoritmo mucho ms eficiente.


11/29

11

Dado que los computadores actuales son capaces de hacer millones de operaciones porsegundo, parecera indiferente la escogencia del algoritmo a utilizar. Sin embargo, lassecuencias que usamos aqu son cortas. Qu tal que quisiramos alinear dos genes entre s,que tienen una longitud de cientos de pares de bases?

Alinear dos secuencias de 50 pares de bases cada una tomara 1,5 E+37 (un uno, un cinco y

36 ceros) operaciones con un algoritmo de fuerza bruta para completarse. Si cada persona delplaneta tuviera un computador de 4GHz (una velocidad relativamente buena en esta poca)dedicado exclusivamente a encontrar la solucin ptima por fuerza bruta, nos tomaraaproximadamente 1,5 veces la edad del universo completar el clculo!

Un algoritmo de programacin dinmica, en cambio, necesita 2500 operaciones (50x50), lo quecualquier computador moderno hace en menos de un segundo.

Reforzando conceptos: Algoritmo

Como vimos en la seccin Conceptos importantes, un algoritmo es unasecuencia de pasos para completar una tarea. En este caso, hay por lo menosdos algoritmos que completan la tarea de encontrar el mximo nmero deidentidades entre dos secuencias.

Sin embargo, no todos los algoritmos son igual de eficientes. El algoritmo deprogramacin dinmica, por el ingenio en su desarrollo, permite completaralineamientos dispendiosos es muy poco tiempo.

Ejercicio:

Jugando AlignMan encuentre el alineamiento con el menor porcentaje de identidad (recuerdeque el porcentaje de identidad es el nmero de nucletidos idnticos match dividido por lalongitud del alineamiento, por 100%).

Practiejemplo C: Significado biolgico de la penalizacin por gaps y mismatches

Cul es la vestimenta ptima? Esta pregunta es tan general que suscita automticamentenuevas preguntas. De qu tipo de clima estamos hablando? Vamos a asistir a una ocasinespecial?...

Al igual que en el ejemplo del prrafo anterior, preguntarnos cul es el alineamiento ptimo?es una pregunta muy general.

Lo primero que tenemos que preguntarnos es qu queremos observar. Si queremos saber algoacerca de la similitud general entre dos secuencias el porcentaje de identidad (que obtuvimosen el ejercicio pasado) ya nos da una buena medida. Si queremos ir ms all y formularhiptesis evolutivas necesitamos perfeccionar nuestros criterios.

Supongamos que las dos secuencias del punto anterior son homlogas (esto es, tienen elmismo ancestro comn) y que han mutado hasta llegar a lo que son ahora. Con nuestro

alineamiento queremos encontrar la hiptesis ms plausible de evolucin de la secuencias.Esto es: Dnde se produjeron inserciones/deleciones? Qu nucletidos mutaron en otrosnucletidos?

Este practiejemplo nos proporciona un primer modelo de trabajo.

1. Ingrese al Nivel 2 de AlignMan (la poca de vacas flacas de nuestro protagonista).Por si acaso, sta es la direccin en que se encuentra:



12/29

12

2. Las reglas del Nivel 2 son un poco ms complicadas que el nivel anterior. Esta vezobtiene puntos negativos dependiendo de cmo se mueva. El uso de las flechasabajo y derecha se penaliza con 2 puntos negativos. El uso de la flecha diagonal sincomerse una galleta se penaliza con 1 punto.

3. Antes de adentrarnos en la explicacin de porqu ste es un modelo biolgico juegueunas veces este nivel. Notar que obtiene mejores puntajes (menos negativos) si limita

el uso de las flechas rojas.4. Qu tiene que ver con nuestro modelo de evolucin?

Al castigar a AlignMan con dos puntos negativos cada vez que genere un gap estamosproponiendo que hacer una insercin o delecin es evolutivamente costosa, pues segenera un mRNA con un marco de lectura diferente.

Un mismatch (esto es, dos bases que no concuerdan) tambin es costoso, puespuede modificar aminocidos del sitio activo, pero no lo es tanto como una insercin odelecin. Un mismatch en el alineamiento es el anlogo a un SNP en nuestro modelo.

Qu es un SNP?

Los SNPs (que son un acrnimo de Single Nucleotide Polimorphisms y sepronuncian snips) son cambios puntuales de una base en el ADN.

Si tenemos, la secuencia GATCCA y la timina muta a una guanina, porejemplo, estamos hablando de un SNP. En cambio, si las bases TCC sufrenuna delecin (de forma que la secuencia resultante sea GAA) no tenemos unSNP, pues ha habido ms de una base involucrada.

5. Con los parmetros que hemos escogido, el alineamiento con mayor puntaje es elsiguiente:

G-AT-T-A-C: : : : :GCAACTGATC

(Tmese su tiempo para generarlo en AlignMan).

ste alineamiento nos permite hacer la siguiente afirmacin:

Suponiendo que es menos probable la existencia de una insercin o delecin encomparacin a la probabilidad de que haya una mutacin puntual, y suponiendo que lassecuencias inicialmente en el ancestro comn eran idnticas, una hiptesisplausible de evolucin parece ser la planteada por el alineamiento anterior, donde cadagap representa una insercin y cada mismatch un SNP.

Tmese su tiempo:

Lea con cuidado la afirmacin que se propone anteriormente. Le convence elhecho que esta hiptesis es ms plausible que la sugerida por el alineamiento

a continuacin?

G-A-T--T-A-C

: : : :

GC-A-ACTGATC

El alineamiento anterior arroja un puntaje de -14. Trate de explicar conprecisin: por qu los puntajes mayores (menos negativos) son mejoreshiptesis acerca de la evolucin de las dos secuencias?


13/29

13

Evidentemente, este modelo matemtico es mucho ms profundo que el planteado enel practiejemplo anterior. Para desarrollarlo, tuvimos que transformar nuestroconocimiento biolgico (la naturaleza de las mutaciones, inserciones y deleciones) enun juego de nmeros.

6. La siguiente propuesta es modificar los parmetros para incluir otras hiptesisevolutivas. Por qu tienen que bajarse cuatro puntos por dos gaps seguidos, si al fin y

al cabo se trata de una sola insercin? No bastara con bajar dos puntos cada vezque se inicia un gap, pero no cuando ste se extiende?

Ingrese al Nivel 3 de AlignMan. Las reglas se han adaptado para incluir esta situacin.

Si juega lo suficiente, tiene suerte, o aplica uno de los algoritmos nombrados en elpractiejemplo anterior, llegar a que el mejor alineamiento en este caso es:

G------ATTAC: :: :GCAACTGAT--C

Tiene menos identidades que el alineamiento anterior, pero la hiptesis evolutiva ahoraes ms plausible. El camino evolutivo de las dos secuencias consisti probablementede dos mutaciones tipo insercin/delecin.

El modelo que desarrollamos surge de traducir nuestra intuicin biolgica en un lenguaje quepueda entender un computador; en este caso, maximizar un puntaje en un juego de AlignMancon reglas que nosotros imponemos. La pregunta que surge es: son nuestras reglassuficientemente cercanas a la realidad para poder aplicarlas a problemas biolgicos? Hemosusado los parmetros correctos? No sera mejor cambiar una de las penalidades?

En el siguiente practiejemplo veremos un modelo ms sofisticado, que tiene una fuertefundamentacin biolgica. Una variacin de ese modelo es el que utilizan los programas dealineamiento que vimos en el captulo anterior.

Ejercicio:

Por qu es menos plausible el primer alineamiento (ms precisamente: la hiptesis que se

expone mediante el alineamiento) si hacemos los supuestos que motivaron los parmetros delNivel 3 de AlignMan?

Practiejemplo D: Matrices de ponderacin

En el practiejemplo anterior vimos que incorporar un costo por apertura y extensin de gapsnos permita traducir nuestro puntaje (Score) en una afirmacin biolgica. Sin embargo, haytodava mucho conocimiento biolgico que podemos incorporar en nuestro modelo para hacersus predicciones ms cercanas a la realidad.

Como vimos en la seccin de Conceptos importantes, las matrices de sustitucin son modelosde la tasa de mutacin de los residuos en una secuencia. Cmo se incorpora una matriz desustitucin a nuestro modelo de AlignMan?

1. Empecemos acostumbrndonos al Nivel 4 de AlignMan, que sirve para explicar elfundamento detrs de las matrices de ponderacin.

En lugar de galletas ahora hay nmeros. Esto puede hacer el juego muy poco divertido(pues hay que sumar y restar mucho), pero expone un punto interesante: El valor de losmismatches ya no es siempre -1, sino que vara de mutacin a mutacin.


14/29

14

2. Examinando la tabla de nmeros sobre la que se mueve AlignMan (teniendo activadala casilla de verificacin Ver Alineamiento), notar que es producto de la siguientematriz de sustitucin:

http://bioinformate.uniandes.edu.co/Imagenes/matriz_AlignMan.JPG

Como siempre, antes de entrar a la explicacin biolgica de tener diferentes valores en

cada celda juegue un poco con AlignMan y trate de obtener el mejor puntaje.Se sorprender al descubrir que el mejor puntaje se obtiene con el primer alineamientodel practiejemplo anterior. Esto es:

G-AT-T-A-C: : : : :GCAACTGATC

Sin embargo, esto es coincidencia.

3. Ahora s refirmonos al contenido biolgico de este modelo de AlignMan. Recordemosque los valores negativos en una matriz de sustitucin son aquellas mutaciones quecreemos muy improbables. En el caso de la matriz que se presenta, estamossugiriendo que la mutacin de una guanina o citosina a una timina o adenina es

altamente improbable.

Qu problema biolgico puede estar relacionado con esta matriz? Recordemos que elporcentaje GC es un valor relativamente estable para las especies bacterianas.

Qu es el porcentaje GC?

El porcentaje GC es el porcentaje de guaninas y citosinas presentes en elgenoma de un organismo.

La forma ms usual de medirlo es basndose en el hecho que las unionesentre guanina y citosina son ms estables debido a que tienen un puente dehidrgeno adicional. Se mide, por tanto, la denaturacin del ADN a distintastemperaturas. Organismos con alto porcentaje GC tienen una temperatura de

denaturacin del ADN alta en comparacin con organismos con bajo porcentajeGC.

La matriz que tenemos puede encontrar regiones homlogas en bacteriasrelativamente cercanas de mejor manera que la matriz identidad que usamos en elpractiejemplo 1B, o la matriz donde todos los mismatches se castigaban por igual.

Reforzando conceptos: Matriz de sustitucin

Las matrices de sustitucin nos permiten incorporar tasas de mutacin anuestros modelos. Veamos cmo lo logran:

La matriz de ponderacin tiene un valor muy negativo para la mutacin de unaadenina a una citosina. Esto lleva a que de todos los alineamientos, aquellos

que tienen las adeninas alineadas con las citosinas tengan menor puntaje ysean, por tanto, menos plausibles. En ltimas, lleva a que el mejor modelo deevolucin de las secuencias (esto es, el alineamiento ms plausible) noproponga cambios de adenina a citosina o, en trminos globales, cambios en elcontenido GC.

Si bien aqu hemos estado haciendo nicamente alineamientos de dos cadenas de ADN, elprocedimiento se puede extrapolar para alineamientos de protenas. Si usamos una matrizcomo BLOSUM62 estamos favoreciendo (esto es, declarando como ms plausible) aquellosalineamientos que nos presentan un 62% de identidad o menos.


15/29

15

Ejercicio:

Llene la gradilla de AlignMan, suponiendo que se trata de aminocidos y no de nucletidos, yque la matriz de sustitucin escogida es BLOSUM62 (puede consultarse en la siguientedireccin):


Practiejemplo E: Alineamientos locales

Hemos visto cmo AlignMan produce alineamientos globales basndose en tres parmetros:

i) El costo de iniciar un gapii) El costo de extender un gap (en el practiejemplo 1C, en la segunda parte,

propusimos un costo de extensin de gap de cero)iii) Una matriz de sustitucin

Estos son los parmetros presentes en los algoritmos de alineamiento ms utilizados.

1. Ingrese a la pgina de entrada de LAlign haciendo clic en el siguiente vnculo:

http://www.ch.embnet.org/software/LALIGN_form.html

2. Como notar, existe la opcin de escoger la matriz de sustitucin y los costos de abrir yextender un gap.

3. Falta revisar la forma en que se realizan alineamientos locales. En este caso nobuscamos maximizar el puntaje global, sino obtener secuencias cortas de alto puntaje.

4. Ingrese al Nivel 5 de AlignMan. La clave para pasar de alineamientos globales alocales est en las instrucciones de este nivel: cada vez que el puntaje baje a cero seempezar un nuevo alineamiento.

5. Con la casilla de verificacin Ver Alineamiento marcada, pruebe llegar al final de la

gradilla con un puntaje de 6. Notar que los alineamientos que eran ptimos en lospractiejemplos anteriores no son ptimos en el alineamiento local.

6. El mejor alineamiento se consigue siguiendo estos pasos:

Muvase seis veces a la derecha, luego 3 veces en diagonal, baje dos veces y vuelva acomer en diagonal.

El alineamiento que aparece en la parte de abajo es:

GATTAC::: :GAT--C

Sin embargo, es importante notar que el mximo valor que se puede lograr es 10 (seconsigue tras haberse movido seis veces a la derecha y tres veces en diagonal). Quizno sea el valor que se obtiene al final, pero es el mejor valor que se puede obtener parauna subsecuencia.

Precisamente esto es lo que caracteriza a un alineamiento local: subsecuencias con unalto puntaje. Note lo conservada que est la secuencia en este caso. Se necesit slode una insercin de dos nucletidos para llegar de la secuencia inferior a la superior.Este modelo evolutivo puede ser bastante plausible para esta regin.

Ejercicio:


16/29

16

Explique por qu el cambio de reglas (esto es, empezar desde cero el alineamiento cada vezque hay puntos negativos) da lugar a alineamientos locales en vez de alineamientos globales.

Seccin 2: Cmo funciona BLAST?

Practiejemplo A: El heurstico que caracteriza a BLAST

En la seccin anterior aprendimos que el alineamiento ptimo es aquel que nos da el mayorpuntaje total. Para encontrar este alineamiento ptimo propusimos dos algoritmos - el deprogramacin dinmica y el de fuerza bruta y dijimos que el primero era ms eficiente.

Sin embargo, incluso el algoritmo de programacin dinmica que propusimos toma muchotiempo para resolver cierto tipo de problemas. Recordemos que la base de datos denucletidos del NCBI tiene cerca de 100.000.000.000 (=1E+11) nucletidos. Si queremos usarprogramacin dinmica para encontrar el mejor alineamiento de una secuencia de 1000(=1E+3) pares de bases (un tamao modesto para un mRNA eucariota), necesitaramos(1E+3)*(1E+11) = 1E+14 clculos. Incluso un computador de 4GHz, necesitaraaproximadamente 7 horas en completar la bsqueda (en realidad demora mucho ms...).

Pensando en tareas de este tamao se cre BLAST, que es un heurstico para bsqueda enbases de datos de secuencias. Recordemos la definicin de un heurstico que dimos en elcaptulo 1: [...] mtodos orientados a completar una tarea [...] sin llegar siempre a la solucinptima, pero s a una solucin razonablemente buena.

En esta seccin veremos la estrategia que usa BLAST para ser mucho ms rpido que elalgoritmo de programacin dinmica puro (aunque, en algunas partes, hace uso de estealgoritmo).

1. Para desarrollar este practiejemplo usaremos el programa bl2seq (Blast 2 Sequences).Este es un programa para hacer un alineamiento de BLAST de slo dos secuencias.Ingrese a la pgina de este programa haciendo clic en el siguiente vnculo:

http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi

2. En esa pgina encontrar un formulario donde se pueden fijar varios parmetros.Algunos le deben sonar conocidos: Reward for a match, Penalty for a mismatch,Open gap penalty,...

El parmetro central de BLAST el que hace la diferencia con programacin dinmicapura es el parmetro word size. Nos centraremos en entender ese parmetro.

3. Es necesario dejar sin seleccionar la casilla de verificacin Filter, de lo contrario elejemplo no funcionar. Todos los otros parmetros (includo el word size) se dejancomo estn.

4. En la siguiente pgina Web encontrar cuatro secuencias:

http://bioinformate.uniandes.edu.co/Secuencias/bl2seq01.txt

Las primeras dos son idnticas. La tercera y cuarta tienen una mutacin (una guaninaen lugar de una timina en el primer caso, y una guanina en lugar de una adenina en elsegundo caso).

Ingrese las secuencias 1 y 2 en las casillas correspondientes en el formulario y d clicen Align.

5. El resultado no tiene mucho misterio. Alinea las dos secuencias perfectamente en todala longitud y da algunos parmetros y estadsticos que resumen la bsqueda.


17/29

17

6. Vuelva a la pgina anterior y en lugar de ingresar la secuencia 2, ingrese en el segundo

espacio la secuencia 3 y vuelva a dar clic en Align.

7. Ahora, el resultado s tiene misterio. Cmo es eso de que no se encuentra similitudsignificativa? Al fin y al cabo las secuencias son 95% idnticas!

8. Ahora vuelva a la pgina anterior. Esta vez corra el programa comparando lassecuencias 1 y 4. El resultado, un alineamiento casi perfecto. Esta vez s detectsimilitud significativa.

Qu hace tan diferentes las secuencias 3 y 4, de manera que en el primer caso noencontr similitud significativa, mientras que en el segundo caso s?

9. Cuente el nmero de nucletidos que hay antes de la mutacin en las secuencias 3 y4. En la secuencia 3 hay diez nucletidos antes de la mutacin y en la secuencia 4 haydoce. Ahora compare estos nmeros con el word size o tamao de palabra, que esonce.

Tmese su tiempo

El truco de BLAST para ahorrar tiempo de cmputo es el siguiente: primerotrata de encontrar subsecuencias idnticas de al menos 11 nucletidos entrelas secuencias (donde 11 es el tamao de palabra o word size). Si no losencuentra, no sigue buscando y no hace ninguna programacin dinmica.

Si encuentra una secuencia con al menos 11 bases idnticas a la otra empiezaa extenderla mediante programacin dinmica hasta que el puntaje no puedasubir ms (en el caso del practiejemplo 1E, hasta que llegue al puntaje 10).Este par de subsecuencias de altsima similitud tienen el nombre de HSPs(High Scoring Pairs).

A partir de estos High Scoring Pairs hace extensiones (mediante programacindinmica) hasta que el puntaje sobrepase un mnimo establecido (este mnimoes otro de los parmetros de BLAST).

Resumen: Si dos secuencias no tienen al menos una regin muy similar entre s (100% deidentidad), BLAST no las encuentra. Es muy importante tener en cuenta este hecho al usarBLAST. La sensibilidad de nuestra bsqueda (ver definicin de sensibilidad en el captulo 1)depende del tamao de palabra que escojamos. En la mayora de casos el tamao de ventanaestndar nos ser til, pero si creemos que algunas de los resultados no estn apareciendo, esbueno verificar si este parmetro es muy estricto.

Ejercicio:

Ingrese las secuencias 1 y 3 en el formulario de Blast 2 Sequences, y aada a cada una dosadeninas al final (la primera secuencia queda entonces GGGGAAAATTTTAAAACCCCAA y lasegunda GGGGAAAATTGTAAAACCCCAA). Si da clic en Align bajo estas condiciones, elprograma s encuentra similitud entre las secuencias. Porqu esta vez si funcion y sin lasadeninas finales no?

Practiejemplo B: Qu programa de BLAST usar?

Esta maana estuve viendo un comercial de televisin donde promocionaban cuchillos. Tenanlos cuchillos para carne, dos cuchillos diferentes para pelar, un cuchillo para comida congelada,un cuchillo para queso, un cuchillo para pan, un cuchillo para picar, un cuchillo paradeshuesar... Termin preguntndome si no podra hacerse todo eso con slo un buen cuchillo.

Quiz usted termine preguntndose algo similar con BLAST. Hay BLASTs diferentes paraprotenas, para nucletidos, para traducciones (esto es, cuando comparamos una secuencia de


18/29

18

nucletidos con una base de datos de protenas), para genomas... Sin embargo, la respuestaes no. No da lo mismo usar un BLAST de nucletidos si nuestro query es una protena, porejemplo. (Respecto a los cuchillos, de pronto la respuesta prctica tambin sea no...)

En cierta forma, es parecido a usar el motor de bsqueda de imgenes en Google paraencontrar un ensayo. El hecho que no obtengamos resultados se debe menos a Google, que anosotros.

Dado que es importante saber qu programa de BLAST elegir, el NCBI cre una gua tituladaBLAST Program Selection Guide. Exploraremos esta gua en este practiejemplo.

1. Ingrese a la gua haciendo clic en el siguiente enlace:

http://www.ncbi.nlm.nih.gov/blast/producttable.shtml

2. En Agosto de 2006, esta gua tena siete secciones. Lea la seccin llamadaIntroduccin por su cuenta.

Resumen: La seccin 2 est dedicada a las bases de datos accesibles, en la seccin 3se exponen los programas, cuyo uso depende de la naturaleza y tamao del query.

3. La seccin 2 podra recordarle los captulos 2 y 3 de Bioinfrmate: hablan acerca deRefSeq, Swissprot, PDB... todas estas son bases de datos que exploramosbrevemente.

Recuerde por ejemplo, que RefSeq tiene secuencias de alta calidad de cromosomas,mRNAs y protenas, que lamentablemente se restringen a pocas especies biolgicas.

4. Hay una base de datos particular llamada nr (non-redundant). Como indican en lagua, es un compilado no redundante de secuencias de varias fuentes.

Que significa el que sea no redundante? As como salir afuera es una redundancia(pues salir ya implica que es afuera) en esta base de datos se han retirado secuenciasdobles de la misma regin. Por ejemplo, en algunos casos est en la misma base dedatos un fragmento de una protena y la protena completa. En la base de datos nrslo aparecera una de las dos; seguramente la protena completa.

5. Ahora dirjase a la seccin 3, Program Selection Tables. Lea el prrafo introductoriode esta seccin.

En resumen, el programa de BLAST a utlizar depende de la naturaleza de la secuencia,del propsito de la bsqueda y de la base de datos a sondear.

En el captulo anterior, en el practiejemplo dedicado a BLAST (Practiejemplo 2C), incluun criterio adicional: los supuestos acerca de lo que esperamos encontrar. Sinembargo, esto no es tan determinante en la escogencia del programa de BLAST autilizar, sino ms bien en la afinacin de los parmetros (como el tamao de palabraque vimos en el practiejemplo anterior).

6. En el siguiente practiejemplo usaremos blastp. Busque blastp en la tabla 3.2, que es latabla gua para protenas. Como menciona la tabla, este programa de BLAST sirve elpropsito de identificar la secuencia query o encontrar protenas similares al query.

Hay programas de BLAST diseados para tareas muy especializadas (como por ejemploigBLAST, que est especializado en secuencias curadas de inmunoglobulinas). Con el uso iradquiriendo una intuicin acerca de qu BLAST responde mejor su pregunta.

Entre tanto, basta con saber formular esta pregunta general:


19/29

19

Tengo una secuencia de ____. Supongo que sta tiene similitud con secuencias de _____presentes en la base de datos _____. Qu BLAST cumple con todos los requisitos que hepuesto?

Ejercicio:

Suponga que tiene una secuencia de mRNA. Consultando esta gua encuentre el mejor

programa BLAST para buscar protenas similares a la traduccin de ste.

Seccin 3: Una rut ina de bsqueda en BLAST

Practiejemplo A: Iniciando una bsqueda

Al igual que en Google, muchas veces la primera bsqueda que hacemos en BLAST no nospermite obtener lo que buscamos. Lo que se suele hacer es ejecutar BLAST una primera vez,evaluar nuestros resultados y basarnos en ellos para realizar una nueva bsqueda variando losparmetros.

En este practiejemplo haremos el primer paso: la primera ejecucin de BLAST. En elpractiejemplo siguiente evaluaremos los resultados. Y en el tercero, veremos cmo afinar losparmetros para mejorar la bsqueda.

La pregunta que queremos responder es: basndonos en una secuencia de aminocidos deuna protena conocida, qu protenas homlogas hay en otras especies? Tiene parlogos(los parlogos se originan por duplicaciones ancestrales de un gen en el mismo genoma) en elhumano?

1. Vamos a realizar una bsqueda con referencia a la secuencia de la conexina 26, unaprotena presente en las uniones gap (gap junctions) entre clulas.

Como en Google, nuestra bsqueda en BLAST ser ms productiva si sabemos antesalgo acerca de esta protena. Con este fin visitemos primero la pgina de este gen enNCBI Gene:

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=full_report&list_uids=2706

Tmese su tiempo:

En el captulo 4 (especficamente en el Practiejemplo 1B) aprendimos a usarNCBI Gene. En esta pgina se incorporan varias fuentes de informacin sobreel gen en cuestin.

En la seccin Summary nos explican la nomenclatura de las uniones gap.Ms abajo, en la seccin genomic context vemos que en esta regincromosmica hay por lo menos tres conexinas diferentes (GJA3, GJB6 y laactual que es GJB2). La seccin de bibliografa nos indica, que este gen estrelacionado con la sordera. La ontologa nos dice que su funcin es conectar

dos clulas, que participan en la sealizacin y transporte celulares y que suubicacin es la membrana citoplasmtica.

Si queremos saber ms sobre el gen, podemos ingresar al registro del gen enOMIM o buscar libros del NCBI que expliquen su funcin. Uno de estos libros,titulado Genes and Disease se refiere a este gen. Se puede consultarhaciendo clic en el siguiente enlace:

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=gnd.section.199&ref=sidebar

2. Ya con ms informacin ingrese a la pgina de BLAST:


20/29

20

http://www.ncbi.nlm.nih.gov/BLAST/

Desde ah seleccione blastp.

3. El formulario consta de tres partes. En la primera se ingresa la secuencia y se escogela base de datos. La opcin Do CD-Search permite buscar dominios conservados

dentro de la secuencia. Si bien esta herramienta es muy til, se sale del contexto delejemplo, por lo que dejamos sin marcar la casilla de verificacin de esta opcin.

Las siguientes dos secciones de la pgina (Options for advanced blasting y Format)sern tratadas con detalle en el prximo practiejemplo.

4. Ingrese la secuencia de aminocidos de la conexina 26 en el apartado Search. Puedeobtenerla en formato FASTA desde la pgina de NCBI Gene, o descargarla en elsiguiente vnculo:

http://bioinformate.uniandes.edu.co/Secuencias/blastp01.txt

Tenga cuidado de incluir nicamente la secuencia de aminocidos sin la lnea dedescripcin (lo que est despus del signo >).

Verifique que la base de datos es nr y posteriormente haga clic en el botn BLASTque est en azul.

5. Al ejecutar BLAST, le est pidiendo a un servidor del NCBI que ejecute el algoritmo debsqueda en toda la base de datos. Esto toma tiempo, a pesar de ser BLAST unheurstico. Si tan slo fuera tan inmediato como Google!

Debido a que alinear toma tiempo, el programa divide el proceso en dos pasos: laejecucin del algoritmo y el formato de los resultados. Esto significa que si usted quierecambios en el formato en que se despliegan los resultados no tiene que esperar a queel algoritmo corra nuevamente; slo cambia lo que necesita, presiona el botnFormat! y ve los resultados casi de inmediato con el nuevo aspecto.

Adems le da un turno a su bsqueda, caracterizado por un nmero. El nmero mofue:

1157046573-30391-193924246576.BLASTQ1

Anote el nmero de su bsqueda en un editor de texto (por ejemplo, bloc de notas deWindows), pues lo necesitaremos para el ejemplo siguiente.

6. El tiempo que demor en leer los prrafos anteriores probablemente fue suficiente paraque se realizara la bsqueda. Haga clic en el botn Format y mire los resultados quese obtuvieron.

7. La pgina de resultados de BLAST (que usted ya conoce del captulo anterior) tienevarias partes. Cuando realic la bsqueda en Agosto de 2006 obtuve 101 resultados.

Debido a que sus resultados pueden haber cambiado con respecto a los mos, hice unpantallazo de los primeros resultados que obtuve y se pueden acceder en el siguienteenlace:

http://bioinformate.uniandes.edu.co/Imagenes/resultados_blast_ago06_01.JPG

8. Los resultados son muy similares a la secuencia. De hecho, el segundo resultado en milista es la secuencia misma que ingresamos.


21/29

21

Entre estos resultados ya podemos respondernos parcialmente la primera pregunta.Hay protenas homlogas a la conexina 26 del humano en orangutanes (Pongopygmaeus), moscos (Anopheles culicifacies), cabras (Ovis aries), ratones (Musmusculus) y el cuy (Cavia porcellus) entre los 20 resultados que presento.

Si baja ms la pgina encontrar entre los resultados algunas protenas parlogas en loshumanos. Sin embargo, en el practiejemplo siguiente vamos a aprovechar las opciones de

formato de BLAST para filtrar las protenas humanas.Ejercicio:

Un criterio til para verificar la homologa (en realidad, para dar ms evidencia) es hacer labsqueda recproca. Esto es: si entre los resultados aparece un gen del ratn, se corre blastpcon la secuencia de protenas del ratn y se observa si entre los resultados efectivamenteaparecen nuevamente conexinas de varios organismos, incluido nuestro query.

Realice esto con una de las protenas que aparecen en sus resultados.

Practiejemplo B: Revisando los resultados

En el practiejemplo anterior realizamos una bsqueda que arroj muchos resultados. Noslimitamos a mirar la lnea de resumen de cada uno de ellos para hacernos una idea de lahomologa. Sin embargo, debemos ir ms all. Algunas de estas protenas sern falsospositivos y es posible que haya otras entradas que estemos perdiendo de vista y que tambinnos sean tiles (falsos negativos).

Ayudndonos de las herramientas de formato ahondaremos en el anlisis de los resultadosobtenidos.

1. Para empezar, ingrese a la pgina principal de BLAST:


Y desde ah seleccione la opcin Retrieve results que est abajo a la derecha en la

seccin Meta.

2. La pgina que aparece permite acceder a resultados de bsquedas previas (aunque, sideja pasar demasiado tiempo, puede que su bsqueda se haya borrado del servidordel NCBI).

Ingrese ah el nmero de bsqueda que obtuvo del ejemplo anterior. Si hace clic en elbotn Format! obtendr los mismos resultados del ejemplo anterior. En lugar de eso,modifiquemos los parmetros de formato para filtrar de los resultados nicamenteprotenas humanas.

Esto se consigue usando el men desplegable que empieza con la opcin Allorganisms y seleccionando Homo sapiens [ORGN].

3. Seguimos obteniendo varios resultados. Sin embargo, ahora slo estn los presentesen el humano.

Empecemos viendo el resumen grfico de los resultados. Mi resumen grfico (quepuede diferir del suyo) est en el siguiente vnculo:


Los colores indican los puntajes de los alineamientos. Los que estn en rojo tienen unpuntaje mayor a 200, los que estn en fucsia estn entre 80 y 200,...


22/29

22

Moviendo el puntero del ratn sobre las lneas muestra la lnea de resumen de lasecuencia en el cuadro de texto superior. Hacer clic en cualquiera de esas lneas llevaal alineamiento particular.

4. Si bajamos en la pgina y exploramos los resultados, observamos que los primeros sonla misma protena query, tal vez con otro nombre (en unos casos se llama connexin26 y en otros se conoce como Gap junction protein, beta 2.

Sin embargo, otros resultados son otras conexinas, como por ejemplo la conexina 31 ola conexina 59. Hemos encontrado la respuesta a nuestra segunda pregunta.

5. En todos los casos el e-value es realmente bajo. Para mi primer resultado, por ejemplo,el e-value fue 3e-127 (esto es un cero, seguido de una coma, 126 ceros y un 3 al final).El ltimo resultado tiene un e-value de 1e-04 (=0,0001).

Reforzando conceptos: e-value

Recordemos que el e-value es el nmero esperado de veces que esperamosobtener un alineamiento particular producto del azar.

Tratemos de entender qu significa el valor de 0,0001 mediante una analoga:

La probabilidad de sacar un 6 en un dado es de un sexto. Por lo tanto, el valoresperado de veces que espero ver un seis tras 3 intentos es de 3 x (1/6) = 0,5.Esto significa, que si mi apuesta va a que en esos 3 intentos sale por lo menosuna vez el seis, ganar slo una de cada dos veces.

En nuestro caso, el experimento consistira en generar una secuencia deaminocidos al azar y compararla con una base de datos de secuencias(tambin producto del azar) del tamao de la base de datos nr del NCBI. Elresultado nos dice que esperamos ver un alineamiento tan bueno como eseslo una vez cada 10000 intentos.

Nuestra intuicin probabilstica nos indica entonces, que este alineamiento nopuede ser producto slo del azar...

El hecho que tengamos un e-value tan bajo nos provee una buena evidencia de que lasdos secuencias son homlogas (en este caso, ms especficamente, parlogas).Recuerde, sin embargo, que esta hiptesis slo se puede verificar con otro tipo deexperimentos (por ejemplo, moleculares o de genmica estructural).

6. En el siguiente vnculo est uno de los alineamientos que se produjeron en mibsqueda:


Es de resaltar el hecho que ambas protenas tienen un porcentaje de identidad de slo45%. Otros aminocidos estn conectados con un signo + (ver los aminocidosencerrados en rojo en el vnculo de arriba). Este signo + se encuentra entreaminocidos con propiedades fisicoqumicas muy similares. La leucina (L) y laisoleucina (I), por ejemplo, son ambos alifticos y relativamente cortos.

La lnea de resumen de las protenas en este alineamiento nos dice que en ambos casos setrata de conexinas. Pero, podramos haberlo concluido slo a partir del alineamiento?

Aqu es donde el e-value y el Score se vuelven tiles. Sin embargo, estos pueden serengaosos a ratos. En el siguiente practiejemplo veremos uno de estos casos.

Ejercicio:


23/29

23

Siguiendo un procedimiento similar al descrito aqu encuentre protenas homlogas a laconexina humana en roedores (Rodentia). Cul es el porcentaje de identidad entre la protenahumana y la presente en el ratn (Mus musculus)?

Practiejemplo C: Realizar nuevas bsquedas de BLAST a partir de los resultados

En los dos ejemplos anteriores usamos BLAST para respondernos dos preguntas: Cules

genes son homlogos en otras especies? Existen genes parlogos en humanos?

Una pregunta adicional sera: existen genes homlogos fuera de los vertebrados? Al irdesarrollando este ejemplo, veremos algunas de las falencias que tiene el procedimientoestndar de BLAST.

1. Empecemos nuestra bsqueda como en el practiejemplo anterior. Para esto, ingrese ala pgina de BLAST:


Desde ah seleccione la opcin Retrieve Results, en la pgina que aparece ingrese elnmero (RID) que obtuvo en la bsqueda del practiejemplo A y seleccione entre losorganismos Arthropoda [ORGN].

Luego haga clic en el botn Format!.

2. La pgina que aparece presenta los resultados entre los artrpodos, que incluye a losinsectos. En mi caso, aparece un resultado con un 99% de identidad y un e-value de7e-126, que pertenece al organismoAnopheles culicifacies.

Decimos EUREKA! y decidimos que ya hemos encontrado por lo menos un genhomlogo fuera de los vertebrados.

Esto, sin embargo, no es tan cierto como parece.

3. Vuelva a la pgina en que se ingresa el RID y en lugar de seleccionar como organismoArthropoda [ORGN] seleccione Danio rerio [ORGN]. Este organismo es el pez

cebra, que evolutivamente hablando est ms cerca de nosotros.

Tras presionar el botn Format aparecen los resultados en el pez cebra que ms seasemejan a la conexina 26 humana. Si bien hay muy buenos resultados (con e-valuescomo 5e-89) hay algo que nos genera sospecha:

Por qu el porcentaje de identidad en este caso no sobrepasa el 70%? Cmo esposible que la protena est tan conservada entre el humano y la mosca, perocomparndola con el pez cebra deje de estarlo?

4. Podemos formular varias hiptesis para esto:

a) La primera es que el pez cebra, por alguna razn que debe investigarse ms afondo, liber la presin selectiva sobre este gen (o la modific) y ste mut con

mayor facilidad.b) La protena no pertenece a la moscaAnophelesy este es un resultado falso.

5. Podemos poner en prueba la segunda hiptesis mediante BLAST. Para esto, entramosal registro de GenPept (en el captulo 2, Practiejemplo 2D aprendimos a visualizarestos registros) de la protena de Anopheles haciendo clic en el resultado queobtuvimos en BLAST. En este registro seleccionamos la protena en formato FASTA yla copiamos en un archivo de texto para procesarla despus.

Todos estos pasos los hice por usted y puse el resultado en la siguiente direccin:


24/29

24

http://bioinformate.uniandes.edu.co/Secuencias/blastp02.txt

6. Ahora ingresemos nuevamente a la pgina de BLAST, seleccionemos blastp,ingresemos nuestra secuencia (sin la lnea de descripcin) y hacemos los siguientescambios a los parmetros:

a) escogemos una matrix de sustitucin diseada para mayores distancias

biolgicas: BLOSUM45. Adems seleccionamos el tamao de palabra igual a 2en lugar de 3. Como aprendimos en practiejemplos anteriores, este cambio nospermite encontrar protenas con menor porcentaje de identidad con nuestrasecuencia, pero potencialmente homlogas.

b) Limitamos los resultados a Arthropoda [ORGN].

En mi caso aparecen 7 resultados. Partiendo del e-value ninguno parece tener unabuena homologa:


7. Ser que la base de datos de protenas de artrpodos est incompleta y esta es larazn por la que no aparecen resultados?

Vamos a aprovechar otro tipo de BLAST diferente para asegurarnos de ello. Vamos acomparar nuestra secuencia de protenas con el genoma completo de un mosco delmismo gnero:Anopheles gambiae.

Ingrese a la pgina de BLAST y desde ah seleccione la opcin other eukaryotes , quese encuentra bajo el ttulo Genomes.

8. En la pgina ingresamos la secuencia de protenas que estamos estudiando en elespacio indicado. Tambin podemos ingresar el GI 88595940.

En el men desplegable Query seleccionamos Protein, la base de datos la dejamosen Genomic y en Blast-program seleccionamos tblastn. ste programa de BLASTtraduce el genoma de Anopheles gambiae en los 6 marcos de lectura posibles ycompara las secuencias de aminocidos as obtenidas con nuestro query.

Entre los organismos, seleccionamos la opcin Arthropoda y ah escogemosAnophelesgambiae. El resultado final, antes de hacer clic en el organismo, debera verse algo as:

http://bioinformate.uniandes.edu.co/Imagenes/genome_blast_01.JPG

Es posible que la interfaz haya cambiado en algo desde entonces...

9. El resultado de mi bsqueda arroj tres alineamientos, ninguno de los tres con buen e-value. En la siguiente direccin se presentan los e-values y el primer alineamiento:

http://bioinformate.uniandes.edu.co/Imagenes/genome_blast_02.JPG

Tmese su tiempo:

Hemos realizado un blastp con parmetros poco astringentes (esto es, pocoestrictos en los mismatches) y no encontramos resultados significativos.

Realizamos despus un BLAST contra el genoma entero de un organismo,cuyo genoma ha sido completamente secuenciado (utilizamos un programa deBLAST diferente, pues estamos comparando una secuencia de nucletidos conuna de protenas).

En ambos casos no obtuvimos ninguna regin potencialmente homloga. Qurazones puede dar para este resultado?


25/29

25

Una posible explicacin (ciertamente no la nica) es que la muestra que usaron losinvestigadores de Anopheles culicifacies estaba contaminada de ADN humano. Ellos no sepercataron de esto en su momento y enviaron a GenBank una secuencia suponiendo que eradel mosco.

Esto nos da la siguiente leccin: no podemos confiar a ciegas en los resultados de BLAST, ni

en los de cualquier otro programa en bioinformtica. Todo resultado debe ser cuidadosamenterevisado.

Ejercicio:

Entre los resultados de la bsqueda con la conexina 26 humana aparecen resultados dehongos. Usando blastp y sus conocimientos biolgicos (acerca de la evolucin de los hongos ylos humanos y la naturaleza de una unin gap), determine para una de stas si puede o nopuede ser un homologo distante de la conexina (d una sola razn que apruebe o niegue estahiptesis que no se base en el e-value).

(Pista: En algunos casos se menciona la localizacin celular de la protena. En el caso de lasprotenas de la unin gap, esta localizacin debera ser membranal.)

Ejercicios

Primer ejercicio

En la siguiente pgina hay una matriz de sustitucin para nucletidos:

http://bioinformate.uniandes.edu.co/Imagenes/matriz_ejercicio.JPG

El costo de abrir un gap se ha fijado en 3 (esto es, se restan 3 unidades al puntaje cada vezque se inicia un gap) y el de extenderlo ms all del primero se ha fijado en 1 (por nucletido).

Con base en este sistema de puntaje, calcule el puntaje de los siguientes dos alineamientos:

Alineamiento 1:

AATGCTA--GT---TCATCA-TCG-TAAGTATC---CT

Alineamiento 2:

AAT-GCTAGT-TC-ATC-A-TCGTAAGTATC---CT

Cul tiene mejor puntaje?

Practiejemplos de repaso:

1B, 1C, 1D

Segundo ejercicio

El siguiente alineamiento tiene un porcentaje de identidad del 40%:

PEEKSAVTALVEEKAVITSI

Calcule el puntaje que obtendra en este alineamiento usando:


26/29

26

a) La matriz BLOSUM62


b) La matriz BLOSUM45

http://eta.embl-heidelberg.de:8000/misc/mat/blosum45.html

Con cul se obtiene ms puntaje? Cul da ms valor a las identidades? En cul sepenalizan ms los mismatches?


1D

Tercer ejercicio

Oh, no! Hemos marcado los ddNTPs con el fluorocromo equivocado! (Los ddNTPs sonnucletidos especiales para la secuenciacin de ADN y los fluorocromos son marcajesfluorescentes que le dan a cada ddNTP su identidad).

Como resultado, en todas las secuencias de nuestra base de datos deberamos cambiar lasadeninas a guaninas y viceversa!

Por suerte, tenemos una solucin. En lugar de cambiar las adeninas de todas las secuenciasde nuestra base de datos por guaninas y viceversa, utilizamos una matriz de sustitucindiferente... (aunque en la prctica puede ser mejor cambiar todas las letras de nuestra base dedatos)

Disee una matriz de sustitucin que logre alinear perfectamente estas dos secuencias:

AATAGATCATGCACTACTGG (secuencia correcta)GGTGAGTCGTACGCTGCTAA (secuencia con fluorocromos invertidos)

Qu costos escogera para el inicio y extensin de los gaps?

(Pista: No todos los valores de la diagonal tienen que ser positivos)


1C, 1D

Cuarto ejercicio

Qu programa de BLAST usara usted para responder a estas preguntas?

a) He aislado una secuencia de mRNA humano. De qu cromosoma lo obtuve?b) Tengo la secuencia de una protena. Qu mRNAs codifican para una protena similar?c) Dada una secuencia de protenas, qu protenas tienen unas propiedades

fisicoqumicas similares en los aminocidos?d) Tengo la secuencia de ADN de un promotor. Qu otros promotores usan una

secuencia similar?e) He aislado y secuenciado el mRNA de un gen. Cules protenas de la base de datos

parecen ser homlogas a la protena que codifica mi mRNA?


2B


27/29

27

Quinto ejercicio

En la siguiente pgina Web hay una secuencia de nucletidos que fue diseada como sonda:

http://bioinformate.uniandes.edu.co/Secuencias/blastn03.txt

El diseador de esta sonda dice que es capaz de diferenciar - sin lugar a duda - si hay

presencia o ausencia de Escherichia colien una muestra.

Es confiable la afirmacin del diseador de esta sonda? Es esta sonda suficientementeespecfica, o es posible que detecte ms de una especie bacteriana a la vez?

Argumente su respuesta basndose en el e-value de un BLAST.

(Qu programa de BLAST usara?)


2B, 3A

Sexto ejercicio

En el siguiente vnculo hay una secuencia de nucletidos que se obtuvo tras secuenciar unmRNA de Drosophila melanogaster. La lectura de secuenciacin no fue de muy buena calidady se han introducido algunas mutaciones puntuales:

http://bioinformate.uniandes.edu.co/Secuencias/Ejer_06_06_01.txt

a) Ejecute una bsqueda de blastn con esta secuencia de nucletidosb) Por qu entre los resultados no aparece la secuencia de Drosophila de la cual se

obtuvo la secuencia?c) Mediante un cambio en los parmetros de BLAST determine cul es la secuencia real.


2A, 3A

Sptimo ejercicio

A continuacin est la secuencia del gen RB1 (retinoblastoma 1):

http://bioinformate.uniandes.edu.co/Secuencias/Ejer_06_07_01.txt

a) (Opcional, requiere haber visto el captulo 4) Averige qu enfermedad est asociadacon este gen.

b) Encuentre genes homlogos en vertebrados.c) Existen genes homlogos en artrpodos? En qu sustenta su afirmacin?


3A, 3B, 3C, Captulo 4 Practiejemplo 1B

Profundizacin:

BLOSUM

Registro de PubMed del artculo original de BLOSUM:


28/29

28

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?holding=npg&cmd=Retrieve&db=PubMed&list_uids=1438297&dopt=Abstract

Explicacin de las matrices BLOSUM hecha por Nature Biotechnology:

http://www.nature.com/nbt/journal/v22/n8/full/nbt0804-1035.html

Como vimos en este captulo, BLOSUM62 es la matriz ms usada en alineamientos deprotenas por su confiabilidad al alinear protenas homlogas. En el primer artculo citadoexplican el origen de las matrices BLOSUM (no slo BLOSUM62), adems de comparar elrendimiento de esta familia de matrices con las PAM (la otra familia de matrices de sustitucincon acogida).

Adems, la revista Nature ha hecho una explicacin amena de la probabilidad detrs de lasmatrices BLOSUM y su aplicabilidad a los alineamientos locales, como BLAST. El segundovnculo lo llevar directamente a esta explicacin.

Algori tmos de al ineamiento

Programa en Java que explica los principales algoritmos de alineamiento:

http://www.cs.auckland.ac.nz/~cam/bio/swnw.html

En el practiejemplo 1B mencionamos el algoritmo de programacin dinmica y cmo steproduca alineamientos ptimos de manera rpida. Siguiendo el link que se menciona en esecaptulo se puede apreciar, que la efectividad de este algoritmo depende de llenar una tabla depuntajes.

Needleman & Wunsch [1] optimizaron este algoritmo para uso en alineamientos globales.Posteriormente, Smith & Waterman [2] hicieron lo mismo para alineamientos locales.

En el programa de Java se ensea al usuario a rellenar la tabla de valores basndose en losalgoritmos de Needleman & Wunsh o de Smith & Waterman.

[1] Needleman SB, Wunsch CD, A general method applicable to the search for similarities inthe amino acid sequence of two proteins., Journal of Molecular Biology, 48(3):443-53, 1970[2] Temple F. Smith and Michael S. Waterman, "Identification of Common MolecularSubsequences", Journal of Molecular Biology, 147:195-197, 1981.

PSI-BLAST

Registro de PubMed del Artculo original de PSI-BLAST:

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?holding=npg&cmd=Retrieve&db=PubMed&list_uids=9254694&dopt=Abstract

Tutorial de PSI-BLAST:http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/psi1.html

PSI-BLAST (Position Specific Iterated BLAST) es una versin de BLAST mucho ms sensibleque la original. La idea detrs de este tipo de BLAST es la siguiente:

En lugar de tener una matriz de sustitucin para todo el alineamiento, se genera una matrizresiduo a residuo (de ah las palabras Position Specific). De esta manera, los residuos quepertenecen a regiones altamente conservadas tendrn una matriz que penaliza fuertemente los


29/29

29

mismatches, mientras que regiones variables (que usualmente se encuentran en loops dentrode las protenas) tendrn una penalizacin de gaps y mismatches baja.

Cmo se genera una matriz residuo a residuo? La estrategia de PSI-BLAST es correr primeroun BLAST estndar. A partir de los resultados se genera un alineamiento mltiple, que indicaqu residuos probablemente sean conservados y cuales variables. Con estos datos vuelve aejecutar el algoritmo de BLAST (de ah la palabra Iterated). Esto dar lugar al descubrimiento

de nuevas secuencias que se ajustan al patrn. stas se suman al alineamiento global previogenerando una nueva serie de matrices para cada residuo, lo que permite ejecutar una terceraiteracin de BLAST.

El programa sigue tantas veces como el usuario lo desee o hasta llegar a convergencia.

PSI-BLAST es muy efectivo en el descubrimiento de homologas lejanas, as como en ladeterminacin de dominios proteicos conservados.

Estadstica de BLAST

Explicacin de la estadstica de BLAST:

http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html

Mencionamos el e-value como estadstico que permite determinar la plausibilidad de lahiptesis de homologa. De dnde surge el e-value?

El modelo probabilstico que subyace a BLAST est explicado en la pgina citada (ojo: no aptopara formula-fbicos).

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5

License.

Blast Los Andes

Documents

Transcript of Blast Los Andes