Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de...

61
Alineamiento de pares de secuencias Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 30 de mayo del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 1 / 61

Transcript of Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de...

Page 1: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias

Dr. Eduardo A. RODRÍGUEZ TELLO

CINVESTAV-Tamaulipas

30 de mayo del 2013

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 1 / 61

Page 2: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 2 / 61

Page 3: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Introducción

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 3 / 61

Page 4: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Introducción

Introducción

La comparación de secuencias es una de las actividadesfundamentales en el análisis bioinformático

Es un primer paso hacia el análisis estructural y funcional denuevas secuencias descubiertas

A medida que nuevas secuencias están siendo generadas a tasasexponenciales, la importancia de la comparación de secuenciasha aumentando considerablemente

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 4 / 61

Page 5: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Introducción

Introducción

Esto se debe a que gracias a la comparación de secuencias esposible realizar inferencias sobre la evolución de una nuevaproteína en base a proteínas existentes en las bases de datos(BD)

El proceso fundamental detrás de este tipo de comparación es elalineamiento de secuencias

En términos simples el alineamiento de secuencias es el procesoen el cual diferentes secuencias son comparadas mediante labúsqueda de patrones de caracteres comunes y elestablecimiento de correspondencias residuo-residuo entresecuencias relacionadas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 5 / 61

Page 6: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Introducción

Introducción

El alineamiento de pares de secuencias es el proceso dealineamiento de dos secuencias y es la base de diversasherramientas de análisis de secuencias:

Alineamiento múltiple de secuenciasDesarrollo de modelos ocultos de Márkov (búsqueda de familias deproteínas)Predicción de la estructura 3D de proteínasAnálisis filogenéticoBúsqueda de similitud en BD

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 6 / 61

Page 7: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Introducción

Introducción

Alineamiento de secuencias producido con ClustalW entre dossecuencias de proteínas zinc finger disponibles en GenBank

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 7 / 61

Page 8: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 8 / 61

Page 9: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

Evolución de secuencias

El ADN y las proteínas son producto de la evolución

Recordemos que los componentes básicos de estasmacromoléculas (bases y aminoácidos) forman secuenciaslineales que determinan la estructura primaria de las moléculas

Una característica importante de estas moléculas es quecodifican la historia de millones de años de evolución

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 9 / 61

Page 10: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

Evolución de secuencias

Durante este largo período de evolución las secuenciasmoleculares han sufrido cambios aleatorios (mutaciones) que lashacen diferir

Sin embargo, algunos rastros de la evolución pueden quedar enciertas porciones de las secuencias, lo que permite identificar losancestros comunes

La presencia de estos rastros se debe a que los residuos querealizan papeles importantes (funcionales o estructurales) tiendena ser preservados por la selección natural

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 10 / 61

Page 11: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

Evolución de secuencias

Por otra parte los residuos que son menos cruciales tienden amutar más frecuentemente

Ejemplo: los sitios activos de los residuos de una familia deenzimas tienden a ser conservados porque son responsables delas funciones catalíticas

Gracias a la comparación de secuencias mediante alineamientoes posible identificar la conservación y variación de patrones

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 11 / 61

Page 12: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

Evolución de secuencias

El grado de conservación en el alineamiento revela las relacionesevolutivas de secuencias diferentes

Mientras que la variación entre secuencias refleja los cambiosque han ocurrido durante la evolución (substituciones, insercionesy eliminaciones)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 12 / 61

Page 13: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

Evolución de secuencias

La identificación adecuada de las relaciones evolutivas entresecuencias permite caracterizar la función de secuenciasdesconocidas de la siguiente forma:

Cuando un alineamiento de secuencias revela una similitudsignificativa entre un grupo de secuencias entonces se puedeconsiderar que pertenecen a la misma familia (mismo origenevolucionario)Si un miembro de esa familia tiene una estructura o funcionesconocidas, entonces esa información puede extrapolarse aaquellos que aún no se han caracterizado experimentalmente

Es así como el alineamiento de secuencias es usado como basepara la predicción de la estructura y función de secuencias nocaracterizadas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 13 / 61

Page 14: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

Evolución de secuencias

Extrapolación de información acerca de una secuencia utilizandolas características conocidas de otra secuencia

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 14 / 61

Page 15: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Evolución de secuencias

Evolución de secuencias

Relaciones en la evolución de secuencias

Mismo origen Misma funcion

Mismo plegado 3D

Misma secuencia

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 15 / 61

Page 16: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Homología y similitud de secuencias

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 16 / 61

Page 17: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Homología y similitud de secuencias

Homología y similitud de secuencias

Un concepto importante en el análisis de secuencias es lahomología de secuencias

Cuando dos secuencias descienden de un origen evolucionariocomún, se dice que tienen una relación homóloga o quecomparten una homología

Por su parte la similitud de secuencias mide el porcentaje deresiduos alineados que son similares en cuanto a propiedadesfisicoquímicas tales como el tamaño, carga, e hidrofobicidad

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 17 / 61

Page 18: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Homología y similitud de secuencias

Homología y similitud de secuencias

Aun cuando los dos términos suelen confundirse, es importantedistinguir sus diferencias

La homología de secuencias es una conclusión (inferencia)acerca de una relación ancestral común hecha a base decomprobar que existe un grado de similitud suficientemente altoentre las secuencias comparadas

La homología es una afirmación cualitativa (homólogas o nohomólogas)

Por otra parte, la similitud es un resultado directo de laobservación de un alineamiento de secuencias y se cuantificausando porcentajes (40% similitud)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 18 / 61

Page 19: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Homología y similitud de secuencias

Homología y similitud de secuencias

En la práctica el decidir a que nivel de similitud puede uno inferirrelaciones de homología no es siempre fácil

La respuesta depende del tipo de secuencias examinadas y desus longitudes

Las secuencias de nucleótidos consisten solo de 4 caracteres, ypor lo tanto, las secuencias no relacionadas tiene al menos 25%de oportunidad de ser idénticas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 19 / 61

Page 20: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Homología y similitud de secuencias

Homología y similitud de secuencias

Para las secuencias de proteínas, hay 20 posibles residuos deaminoácidos, y por lo tanto dos secuencias no relacionadaspueden coincidir hasta en 5% de los residuos por azar

Además si se permiten huecos, el porcentaje puedeincrementarse entre 10 y 20%

La longitud de las secuencias también es un factor muyimportante

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 20 / 61

Page 21: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Homología y similitud de secuencias

Homología y similitud de secuencias

Entre más corta es una secuencia más alta es la posibilidad deque algún alineamiento se deba al azar

Entre más larga es una secuencia es menos probable que unacoincidencia en el mismo nivel de similitud sea atribuible al azar

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 21 / 61

Page 22: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Homología y similitud de secuencias

Homología y similitud de secuencias

Tres zonas de los alineamientos de secuencias: homólogas,probablemente homólogas, no es posible determinar homología

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 22 / 61

Page 23: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Similitud e identidad de secuencias

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 23 / 61

Page 24: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Similitud e identidad de secuencias

Similitud e identidad de secuencias

Otros dos conceptos relacionados con la comparación desecuencias son la similitud y la identidad de secuencias

Cuando se trata de secuencias de nucleótidos estos dos términosson sinónimos

Sin embargo, para secuencias de proteínas los dos conceptosson muy diferentes

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 24 / 61

Page 25: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Similitud e identidad de secuencias

Similitud e identidad de secuencias

En el alineamiento de secuencias de proteínas, la identidad desecuencias se refiere al porcentaje de coincidencias de losmismos residuos de aminoácidos entre las dos secuenciasalineadas

Por su parte la similitud de secuencias se refiere al porcentaje deresiduos alineados que tienen características fisicoquímicassimilares y que pueden ser substituídos entre sí

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 25 / 61

Page 26: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Similitud e identidad de secuencias

Similitud e identidad de secuencias

Para calcular el porcentaje de similitud de dos secuencias seemplea la siguiente fórmula que hace uso de la totalidad de laslongitudes de ambas secuencias:

S = [(Ls × 2)/(La + Lb)]× 100 (1)

donde S es el porcentaje de similitud de las secuencias, Ls es elnúmero de residuos alineados con características similares, y La,Lb son las longitudes totales de cada secuencia

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 26 / 61

Page 27: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Similitud e identidad de secuencias

Similitud e identidad de secuencias

La identidad (I) de las secuencias puede ser calculada de manerasimilar:

I = [(Li × 2)/(La + Lb)]× 100 (2)

donde Li es el número de residuos alineados idénticos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 27 / 61

Page 28: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Métodos de alineamiento de secuencias

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 28 / 61

Page 29: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Métodos de alineamiento de secuencias

Métodos de alineamiento de secuencias

El alineamiento de pares de secuencias consiste en encontrar lamejor forma de emparejar (aparear) dos secuencias, de forma talque haya una máxima correspondencia entre los residuos

Para realizar esto, una de las secuencias necesita ser corrida conrelación a la otra para encontrar la posición donde se da elmáximo de coincidencias

Hay dos estrategias diferentes de alineamiento que son utilizadas:

Alineamiento globalAlineamiento local

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 29 / 61

Page 30: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Métodos de alineamiento de secuencias

Métodos de alineamiento de secuencias

En el alineamiento global, se asume que las dos secuencias quese van a alinear son generalmente similares sobre sus longitudestotales

El alineamiento se lleva a cabo a todo lo largo de ambassecuencias para encontrar el mejor posible

Este método es más aplicable para alinear dos secuenciasrelacionadas estrechamente de aproximadamente la mismalongitud

En el caso contrario no entregará buenos resultados, pues tieneproblemas para reconocer regiones locales altamente similaresentre dos secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 30 / 61

Page 31: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Métodos de alineamiento de secuencias

Métodos de alineamiento de secuencias

Por el contrario, el alineamiento local no asume que las dossecuencias en cuestión tienen similitud sobre la longitud total

Sólo encuentra regiones locales con el más alto nivel de similitudentre las dos secuencias y alinea estas regiones sin preocuparsepor el resto de las secuencias

Este enfoque es el más apropiado para alinear secuenciasbiológicas divergentes que contienen módulos que son similares(dominios o motivos) y de esta forma encontrar patronesconservados en secuencias de ADN o proteínas

Incluso las dos secuencias pueden ser de diferentes longitudes

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 31 / 61

Page 32: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Métodos de alineamiento de secuencias

Métodos de alineamiento de secuencias

Alineamiento global de secuencias

Alineamiento local de secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 32 / 61

Page 33: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Métodos de alineamiento de secuencias

Métodos de alineamiento de secuencias

Los algoritmos de alineamiento, tanto globales como locales sonfundamentalmente similares y sólo difieren en la estrategia deoptimización utilizada al alinear los residuos similares

Ambos tipos de algoritmos pueden estar basados en uno de tresmétodos:

Matriz de puntosProgramación dinámicaMétodo de palabra corta

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 33 / 61

Page 34: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 34 / 61

Page 35: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

El método de la matriz de puntos es una forma gráfica decomparar dos secuencias utilizando una matriz bidimensional

Las secuencias comparadas se escriben en los ejes vertical yhorizontal de la matriz

La comparación es realizada verificando la similitud entre cadaresiduo de una secuencia contra los de la otra

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 35 / 61

Page 36: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

Si una coincidencia de residuos es encontrada, un punto secoloca en la gráfica

De otra forma, las posiciones de la matriz se dejan en blanco

Cuando las dos secuencias tienen regiones substancialmentesimilares, muchos puntos se alinean para formar líneasdiagonales continuas, las cuales revelan el alineamiento de lassecuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 36 / 61

Page 37: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

Si hay interrupciones en las líneas diagonales, éstas indicaninserciones o eliminaciones

Las líneas diagonales paralelas representan regiones repetitivasde las secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 37 / 61

Page 38: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

Ejemplo del método de la matriz de puntos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 38 / 61

Page 39: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

Cuando este método es usado para comparar secuencias largasgenera un alto grado de ruido

En la mayoría de los casos hay demasiados puntos en la gráfica,lo que dificulta la identificación del verdadero alineamiento

Para reducir el ruido, en vez de usar un solo residuo para verificarla similitud, se emplea (filtrado) una “ventana” de longitud fija quecubre un conjunto de pares de residuos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 39 / 61

Page 40: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

Con esta técnica de filtrado los puntos solo se dibujan cuando unconjunto de residuos de tamaño igual al de la ventana de unasecuencia coincide completamente con el de la otra secuencia

Esta técnica ha demostrado ser efectiva reduciendo el nivel deruido

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 40 / 61

Page 41: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

El método de la matriz de puntos despliega todas las posiblescoincidencias de las secuencias

Sin embargo, comúnmente el usuario debe construir elalineamiento completo al ir uniendo las diagonales

Otra limitación de este método visual de análisis es que carece derigor estadístico para medir la calidad del alineamiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 41 / 61

Page 42: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Método de matriz de puntos

Método de matriz de puntos

Además, el método está restringido solo a alienamiento de paresde secuencias

Los siguiente son ejemplos de páginas Web que proveencomparación de pares de secuencias usando matrices de puntos:

Dotmatcher http://bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.htmlDottup http://bioweb.pasteur.fr/seqanal/interfaces/dottup.htmlDothelix http://www.genebee.msu.su/services/dhm/advanced.htmlMatrixPlot http://www.cbs.dtu.dk/services/MatrixPlot

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 42 / 61

Page 43: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 43 / 61

Page 44: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

La programación dinámica es un método que determina elalineamiento óptimo de dos secuencias al verificar lascoincidencias para todos los posibles pares de caracteres entrelas dos secuencias

También crea una matriz bidimensional

Sin embargo, encuentra un alineamiento en una forma máscuantitativa al convertir la matriz de puntos en una matriz depuntajes para contar las coincidencias y divergencias entre lassecuencias

Buscando el conjunto de puntajes más altos en esta matriz, esposible obtener de manera confiable el mejor alineamiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 44 / 61

Page 45: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

El método de programación dinámica se compone de 3 pasosfundamentales:

1 Inicialización2 Construcción de la matriz de puntajes3 Rastreo del alineamiento

Veamos un ejemplo de alineamiento de secuencias globalutilizando el algoritmo de programación dinámica deNeedleman/Wunsch

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 45 / 61

Page 46: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Ejemplo:Para este ejemplo las dos secuencias a alinear son:G A A T T C A G T T A (secuencia 1)G G A T C G A (secuencia 2)

Por lo tanto las longitudes de las secuencias son X = 11 y Y = 7respectivamente

Utilizaremos el siguiente esquema de puntaje simple:Si,j = 1, si el residuo en la posición i de la secuencia uno es elmismo que el de la posición j de la secuencia dos; sinoSi,j = 0 (no hay coincidencia)w = 0 (penalidad por hueco)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 46 / 61

Page 47: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

InicializaciónEl primer paso consiste en crear una matriz con X + 1 columnas yY + 1 filas donde X y Y son los tamaños de las secuencias

En este ejemplo asumimos que no hay penalidad por huecos(w = 0) por lo que llenamos la primera fila y columna con 0

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 47 / 61

Page 48: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Construcción de la matriz de puntajesSe inicia en la esquina superior izquierda y se encuentra elmáximo puntaje Mi,j para cada posición i , j

Para conocer Mi,j se necesita saber el puntaje de las posicionesMi−1,j , Mi,j−1 y Mi−1,j−1 y usar la siguiente fórmula:

Mi,j = Max [Mi−1,j−1 + Si,j , Mi,j−1 + w , Mi−1,j + w ] (3)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 48 / 61

Page 49: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Usando esta información el puntaje para la posición 1,1 en lamatriz puede ser calculado

En ambas secuencias el primer residuo es G entonces, S1,1 = 1,y como w = 0, entonces

M1,1 = Max [M0,0 + 1, M1,0 + 0, M0,1 + 0] = Max [1,0,0] = 1 (4)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 49 / 61

Page 50: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Como w = 0, el resto de la fila 1 y columna 1 puede llenarse con1’s

Tomemos de ejemplo la fila 1 columna 2

M1,2 = Max [M0,1 + 0, M1,1 + 0, M0,2 + 0] = Max [0,1,0] = 1 (5)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 50 / 61

Page 51: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Ahora llenemos la columna 2. En la fila 2 que tendra el valor:

M2,2 = Max [M1,1 + 0, M2,1 + 0, M1,2 + 0] = Max [0,1,0] = 1 (6)

Y la columna 2, fila 3:

M3,2 = Max [M2,1 + 1, M3,1 + 0, M2,2 + 0] = Max [2,1,1] = 2 (7)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 51 / 61

Page 52: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Usando el mismo procedimiento se llena la columna 3

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 52 / 61

Page 53: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Después de calcular todos los valores, la matriz de puntajesqueda así:

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 53 / 61

Page 54: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Rastreo del alineamientoDe la matriz anterior observamos que el puntaje máximo delalineamiento es 6

El paso de rastreo del alineamiento determina el alineamiento quelleva a este resultado

Éste comienza en la posición MX ,Y de la matriz y verifica suspredecesores directos:

Vecino a la izquierda (hueco en secuencia 2)Vecino en la diagonal (coincidencia/no coincidencia)Vecino hacia arriba (hueco en secuencia 1)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 54 / 61

Page 55: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Se elige uno de los vecinos (marcados en rojo)

Debido a que la celda actual vale 6, el único vecino que es posibleelegir es el de la diagonal

Lo que da el alineamientoAA

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 55 / 61

Page 56: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Ahora determinamos cual es el predecesor directo de la celdaactual, en este caso la celda roja con el 5

Esto agrega un hueco a la secuencia 2, por lo que el alineamientoactual es:T A_ A

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 56 / 61

Page 57: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Una vez más, el predecesor directo produce un hueco en lasecuencia 2:T T A_ _ A

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 57 / 61

Page 58: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Continuado estos pasos llegamos al siguiente alineamiento:G A A T T C A G T T AG G A _ T C _ G _ _ A

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 58 / 61

Page 59: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Programación dinámica

Programación dinámica

Una solución alternativa es el siguiente alineamiento:G _ A A T T C A G T T AG G _ A _ T C _ G _ _ A

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 59 / 61

Page 60: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Tarea

1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 60 / 61

Page 61: Alineamiento de pares de secuencias - Maestría en ...ertello/bioinfo/sesion05.pdfAlineamiento de pares de secuencias Homología y similitud de secuencias Homología y similitud de

Alineamiento de pares de secuencias Tarea

Tarea

Implemente en el lenguaje de su preferencia el algoritmo deprogramación dinámica para alineamiento de pares desecuencias visto en clase. El algoritmo recibe como entrada dossecuencias (posiblemente de longitudes diferentes) tomadas deuna BD biológica disponible en Internet, una matriz de puntajes yregresa el mejor alineamiento así como su puntaje.

Debera entregar el código fuente documentado y un reporte (enLatex) indicando los detalles de su implementación y lasinstrucciones para utilizarlo

Fecha de entrega: 6 de junio antes de las 16h00

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 61 / 61