Blast Fasta Electiva4 - Universidad Nacional De...

7
23/3/10 1 EMILIANO BARRETO H. Profesor Asociado Pregunta Biológica y contexto de la búsqueda Secuencia Problema BD de secuencias Parámetros del programa (Sistema de puntaje) comparación Similaridades observadas (alineamientos, puntajes) Interpretación Biológica Estadística Inferencias Biológicas Características estructurales, funcionales, evolutivas “El principal motivo fue hacer la comparación de una secuencia contra todas las secuencias de una base de datos en un tiempo razonable” Por Qué Algoritmos Heurísticos?

Transcript of Blast Fasta Electiva4 - Universidad Nacional De...

Page 1: Blast Fasta Electiva4 - Universidad Nacional De Colombiabioinf.ibun.unal.edu.co/servicios/electiva/slides/Blast Fasta.pdf · BLAST CON GAPS Similar a un BLAST clásico, pero: •

23/3/10

1

EMILIANO BARRETO H. Profesor Asociado

Pregunta Biológica y contexto de la búsqueda

Secuencia Problema

BD de secuencias

Parámetros del programa (Sistema de puntaje)

comparación

Similaridades observadas

(alineamientos, puntajes)

Interpretación Biológica Estadística

Inferencias Biológicas Características estructurales, funcionales,

evolutivas

“El principal motivo fue hacer la comparación de una secuencia contra todas las secuencias de

una base de datos en un tiempo razonable”

Por Qué Algoritmos Heurísticos?

Page 2: Blast Fasta Electiva4 - Universidad Nacional De Colombiabioinf.ibun.unal.edu.co/servicios/electiva/slides/Blast Fasta.pdf · BLAST CON GAPS Similar a un BLAST clásico, pero: •

23/3/10

2

ALGORITMOS HEURÍSTICOS

Disminuyen el espacio de búsqueda

  Restringe el proceso de alineamiento:   A secuencias seleccionadas   A algunas porciones de las secuencias

  No garantizan encontrar la solución optima

  Son mucho mas rápidos (> 50x).

  Loa métodos mas conocidos: BLAST FASTA

BLAST vs. FASTA

•  FASTA es teóricamente mas sensible para secuencias relacionadas distantemente que BLAST

•  FASTA no filtra regiones de baja complejidad

•  La significancia de los hits de BLAST es resuelto teóricamente

•  La significancia de FASTA es determinada con base en la distribución de hits en la base de datos

•  Mínima longitud de palabra para FASTA es 1

Page 3: Blast Fasta Electiva4 - Universidad Nacional De Colombiabioinf.ibun.unal.edu.co/servicios/electiva/slides/Blast Fasta.pdf · BLAST CON GAPS Similar a un BLAST clásico, pero: •

23/3/10

3

•  Una búsqueda se inicia si hay dos o mas hits cercanos sin gaps.

•  Los hits son “palabras” idénticas.

•  El parámetro de control es el tamaño de palabra. A mayor tamaño, mayor rápidez y menor sensibilidad

•  Los hits se unen y se extienden. Las extensiones se pueden unir si caen dentro de una franja diagonal.

•  Los mejores regiones se realinean por Smith-Waterman, por lo que incluyen gaps

(Lipman & Pearson, 1985, Pearson & Lipman 1988)

Reducir el espacio de búsqueda

¿ En qué diagonales es más probable que se encuentre el mejor alineamiento ?

Identifica todos los apareamientos K-tuple

Puntea las 10 regiones con el mejor score

Puntaje init1

Puntaje initn

Puntaje Opt

Aplica procedimiento de unión Aplica PD limitada

ALGORITMO FASTA

Page 4: Blast Fasta Electiva4 - Universidad Nacional De Colombiabioinf.ibun.unal.edu.co/servicios/electiva/slides/Blast Fasta.pdf · BLAST CON GAPS Similar a un BLAST clásico, pero: •

23/3/10

4

•  La base de datos esta indexada. •  Se inicia con un hit, que es una región de alto parecido (“high scoring”) •  El parámetro de control define el score mínimo del parecido. Si

aumenta, la búsqueda es mas rápida y menos sensible. •  Los matches se extienden sin gaps. Cuando el score de un extremo se

vuelve negativo, se explora un poco mas allá, y si no se recupera, se termina la extensión.

•  La expectancia esta basada en estadística Karlin-Altschul, y puede combinar varios “matches” compatibles.

•  Asociado a NCBI-GeneBank

Identificación de las mejores diagonales utilizando criterios de semejanza

ALGORITMO BLAST1 Primer paso:

Para cada posición p de la secuencia problema, encuentra la lista de palabras de longitud w con mas puntaje que T cuando aparean con la palabra que inicia en p:

Lista de palabras de longitud w, con mayor puntaje que T

con p-palabras

p-palabra

Segundo paso:

Para cada lista de palabras, identifique todos los apareamientos exactos con secuencias de la bases de datos:

p-palabra Lista de palabras

Secuencias de las Bases de datos

Tercer paso:

Para cada “HIT” extender alineamiento sin gap en ambas direcciones. Para cuando S disminuye para mas que X desde el mas alto valor alcanzado por S.

HSP= Par de segmentos con alto puntaje

MSP= Par de segmento máximo

Reportar todos los HSPs que tienen puntaje S sobre un limite, o equivalentemente, que tengan valor E por debajo un limite

valor E = el número de HSPs tienen puntaje S (o mayor) que se espera que ocurran solamente por azar

Aplicar estadísticas de suma para evaluar la significancia de una combinación de HSPs involucrando la misma secuencia de BD

ALGORITMO BLAST1

Page 5: Blast Fasta Electiva4 - Universidad Nacional De Colombiabioinf.ibun.unal.edu.co/servicios/electiva/slides/Blast Fasta.pdf · BLAST CON GAPS Similar a un BLAST clásico, pero: •

23/3/10

5

Punt

aje

acum

ulad

o

Extensión sin gaps de “Hits”

Extensión del hit

•  Bit Score –  el bit score es calculado con base en la frecuencia de un particular par

de a.a. alineado comparado con la frecuencia del mismo par de a.a. en una secuencia al azar

•  Valor-E –  indica significancia estadística

>El bit score es siempre el mismo para un query y el Valor-E depende de la

base de datos utilizada

Primer paso: Como con BLAST1, genera listas de palabras con puntaje mayor que T con palabras de la secuencia problema

Segundo paso: Generación de hits: identifica todos las palabras apareadas en secuencias de la BD

Tercer paso: extensión de hits: requiere un segundo hit sobre la misma diagonal a una distancia menor que A

NCBI-BLAST2

Necesidades de los “dos hits”

Este paso genera HSPs sin gaps Cuarto paso: extensión con gaps de los HSPs con puntaje por encima de un limite S g

Page 6: Blast Fasta Electiva4 - Universidad Nacional De Colombiabioinf.ibun.unal.edu.co/servicios/electiva/slides/Blast Fasta.pdf · BLAST CON GAPS Similar a un BLAST clásico, pero: •

23/3/10

6

BLAST CON GAPS

Similar a un BLAST clásico, pero:

•  Requiere 2 hits cercanos para comenzar la extensión.

•  Si la extensión produce un segmento de suficiente puntaje, se inicia un alineamiento con gaps.

•  Solo si la expectancia (E- value) del alineamiento es suficientemente baja, se le reporta.

•  BLAST es una familia de programas:

–  BLASTN – Compara la secuencia de nucleótidos contra bd de nucleótidos.

–  BLASTP – Compara la secuencia problema de aminoacidos contra bd de proteínas

–  BLASTX - Compara la secuencia problema de nucleótidos traducida en sus seis posibles marcos de lectura contra una base de datos de

secuencias de proteínas. –  TBLASTN - Compara la secuencia problema de aminoácidos contra

toda bd de nucleótidos traducida en sus seis posibles marcos de lectura.

–  TBLASTX - Compara la secuencia problema de nucleotidos traducida en sus 6 marcos de lectura contra bd de nucleótidos traducida en sus 6 marcos de lectura

PSI-BLAST Position Specific Iterated BLAST

Page 7: Blast Fasta Electiva4 - Universidad Nacional De Colombiabioinf.ibun.unal.edu.co/servicios/electiva/slides/Blast Fasta.pdf · BLAST CON GAPS Similar a un BLAST clásico, pero: •

23/3/10

7

PHI-BLAST Pattern-Hit Initiated BLAST

–  Mezcla de búsquedas de patrones y alineamiento de secuencias.

–  Inicia con una secuencia y un patrón

–  Busca todas aquellas secuencias que presenten ese patrón.

–  Comprueba que las regiones vecinas al patrón sean parecidas entre las secuencias

Otros BLAST??????

–  makemat y copymat:

–  rps-blast:

–  megablast:

–  Blastclust