El virus de la gripemathgene.usc.es/.../herramientas_gripe.pdf · El virus de la gripe española...
Transcript of El virus de la gripemathgene.usc.es/.../herramientas_gripe.pdf · El virus de la gripe española...
El virus de la gripeAnálisis bioinformático
• Es una enfermedad respiratoria, de origen vírico y altamente contagiosa.
• Obliga a hospitalizar a 200.000 personas al año en USA.
• Está relacionada con 30.000 muertes al año en USA.
• Generalmente, un ataque de un virus, si no es letal, convierte al paciente en resistente al ataque del mismo virus.
• En el caso de la gripe, el virus cambia su exterior cada año.
•Es necesario estudiar la evolución del virus para conocer sus mecanismos e intentar desactivarlo.
•Para ello la secuenciación del genoma de numerosos virus es necesario pero no es suficiente sino va acompañado de la capacidad de análisis de los datos.
•Las herramientas para dicho análisis las proporciona la Bioinformática.
Internet
Web
Bases de datos
InformáticaProbabilidades
Matemática discreta
Geometría
Matemática
Álgebra
Algoritmos de optimización
Estructura de datos
Computación
Estadística
Biología computacional
Bioinformática
Bases de datos genómicas
Un ejemplo de colaboración internacional
Bases de datos Genómicas
•Hay varios “grandes” proyectos en marcha. Los resultados obtenidos se encuentran en la base de datos del NCBI.
•A la vista de la importancia del tema de la gripe, el NCBI ha creado una página web específica.
El estudio genómico del virus de la gripe
http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html
Común a muchas bases de datos
Específico de la bioinformática
Base de datosAcceso a la secuencias
Estructura del virusEl genoma tiene 8 segmentos
http://www.ncbi.nlm.nih.gov/Genbank/IMG/chart.gif
El virus de la gripe española (1918) comparado con el de la gripe aviar del 2006
El alineamiento con ClustalX
Española
Aviar
Delecciones
Inserción
Entre ambos virus hay toda una historia evolutiva.
La principal herramienta bioinformática que se usa para su estudio es el árbol filogenético.
Árboles filogenéticos
Una herramienta matemática para entender la evolución
Árboles filogenéticosSurgen a partir de la teoría de la evolución de Darwin.
Son representaciones gráficas de las relaciones evolutivas entre un grupo de organismos vivos.
Primer árbol filogenético debido a Haeckel 1866
Todas las especies descienden por evolución de una especie ancestral común.
La aparición de una nueva especie se produce por la subdivisión de una existente en dos subespecies que han divergido tanto que pierden la capacidad de cruzarse.
Árboles filogenéticosPunto de vista matemático
Orangután
GorilaChimpancé
Tiempo
Gorila
Chimpancé
Australophitecus
Humanos
Ardiphitecus
Raí
z
Orangután
Ejemplo: Árbol filogenético para el grupo Hominidae
Orangután
GorilaChimpancé
Tiempo
Gorila
Chimpancé
Australophitecus
Humanos
Ardiphitecus
Raí
z
Orangután
Ejemplo: Árbol filogenético para el grupo Hominidae
Tiempo
Gorila
Chimpancé
Australophitecus
HumanosPeriodo evolutivo del
ancestro común a Austrolophitecus y Humanos
Momento en que aparece la especie humana
Ardiphitecus
Raí
z
Comienza la existencia del ancestro común a
Austrolophitecus y Humanos
Orangután
Ejemplo: Árbol filogenético para el grupo Hominidae
Tiempo
Gorila
Chimpancé
Australophitecus
Humanos
Ardiphitecus
Raí
z
Orangután
Ejemplo: Árbol filogenético para el grupo Hominidae
Tiempo
Gorila
Chimpancé
Australophitecus
Humanos
Ardiphitecus
Raí
z
Orangután
Ejemplo: Árbol filogenético para el grupo Hominidae
Hojas
Nodos
Los datos
¿Qué datos se usan?
¿Qué datos se usan?Secuencias alineadas “sin huecos” de ADN, ARN o mARN.
¿Qué datos se usan?Secuencias alineadas “sin huecos” de ADN, ARN o mARN.
Secuencias
¿Qué datos se usan?Secuencias
¿Qué datos se usan?Secuencias
Tabla de caracteres morfológicos codificados
¿Qué datos se usan?Secuencias
Datos morfológicos
¿Qué datos se usan?Secuencias
Datos morfológicos
Lista ordenada de genes si se dispone del genoma completo
¿Qué datos se usan?Secuencias
Datos morfológicos
Lista ordenada
¿Qué datos se usan?Secuencias
Datos morfológicos
Lista ordenada
Lugares de restricción, SNPs, Secuencias de aminoácidos, etc
Los métodos
Principales métodos
Métodos de distancia
Máxima parsimonia
Máxima verosimilitud
Árbol filogenético
Métodos de distancia
Datos Estimación
Árbol filogenético
Métodos de distancia
Datos Estimación
Estimación
Árbol filogenético
Métodos de distancia
Datos Estimación
Matriz de distanciasEstim
ación
Árbol filogenético
Métodos de distancia
Datos Estimación
Matriz de distancias
Constr
ucció
nEstimación
Árbol filogenético
Métodos de distancia
Datos Estimación
Matriz de distancias
Constr
ucció
nEstimación
Árbol filogenético
Métodos de distancia
Datos Estimación
Matriz de distancias
Constr
ucció
nEstimación
Modelo biológico
Árbol filogenético
Métodos de distancia
Datos Estimación
Matriz de distancias
Constr
ucció
nEstimación
Modelo biológico
Modelo biológico
Métodos de distancia
¿Qué mide la distancia entre dos especies?
•Habitualmente la distancia entre dos especies mide el número de años (o generaciones) transcurridos desde la subdivisión de la especie ancestral común en las dos especies en cuestión.
•Esa distancia no es conocida y hay que estimarla a partir de los datos usando modelos evolutivos.
•El modelo usado depende, entre otros factores, del tipo de datos que se tiene, del tipo de organismo y del criterio del investigador.
Métodos de distancia
La matriz de distanciasT1 T2 . . . Tn
!
"
"
#
d11 d12 . . . d1n
d21 d22 . . . d23
. . . . . . . . . . . .
dn1 dn2 . . . dnn
$
%
%
&
T1
T2
.
.
.
Tn
T1 T2 . . . Tn
dij es la distancia observada entre las especies i,j.
En general no es una distancia en el sentido matemático del término
Métodos de distancia
Construcción!
"
"
#
d11 d12 . . . d1n
d21 d22 . . . d2n
. . . . . . . . . . . .
dn1 dn2 . . . dnn
$
%
%
&
Cálculo
Métodos de distancia
Construcción!
"
"
#
d11 d12 . . . d1n
d21 d22 . . . d2n
. . . . . . . . . . . .
dn1 dn2 . . . dnn
$
%
%
&
Cálculo
Se busca el mínimo de las
distancias
C y D son las más próximas
Métodos de distancia
Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Paso 1
Se busca el mínimo de las
distancias
C y D son las más próximas
Métodos de distancia
Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Paso 1
Se busca el mínimo de las
distancias
C y D son las más próximas
Métodos de distancia
Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Paso 1
Se busca el mínimo de las
distancias
C y D son las más próximas
Métodos de distancia
Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Paso 1
Métodos de distancia
Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Métodos de distancia
dUA =(dAC + dAD)
2
UPGMA
Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única
Métodos de distancia
Datos Reconstrucción
A
B C
D
Si la matriz no es ultramétrica
B C
Ancestro común a B y C
El algoritmo de Neighbor-Joining intenta corregir el problema
Métodos de distancia
El algoritmo de Neighbor-JoiningEl procedimiento es el mismo que el del UPGMA, salvo que para buscar el mínimo usa una distancia corregida.
La idea es cambiar la noción de vecino. Vecinos serán aquellos que están próximos pero también
alejados de los demás.
Cálculo de distancias
¿Cómo se calculan las distancias entre secuencias de nucleótidos?
¿Cómo se calculan las distancias entre secuencias de nucleótidos?
Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta
distancia no refleja correctamente el proceso evolutivo.
¿Cómo se calculan las distancias entre secuencias de nucleótidos?
Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta
distancia no refleja correctamente el proceso evolutivo.
Podría pasar que después de varias mutaciones volviésemos al mismo nucleótido de partida
¿Cómo se calculan las distancias entre secuencias de nucleótidos?
Lo más correcto es usar un modelo probabilístico de evolución de nucleótidos.
Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta
distancia no refleja correctamente el proceso evolutivo.
Podría pasar que después de varias mutaciones volviésemos al mismo nucleótido de partida
Los modelos de evolución
La probabilidad entra en escena
Las secuencias evolucionan mediante mutaciones, inserciones, delecciones, etc. Nosotros nos vamos
a restringir al caso de mutaciones.
Hay muchos modelos aplicables. Nosotros sólo veremos los dos más sencillos, Jules-Cantor y
Kimura con dos parámetros.
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
La probabilidad entra en escena
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
S = s1s2s3 . . . sn!1sn
R = r1r2r3 . . . rn!1rn
Dadas dos secuencias alineadas
La probabilidad entra en escena
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
S = s1s2s3 . . . sn!1sn
R = r1r2r3 . . . rn!1rn
Dadas dos secuencias alineadas
P (S | R, t) =n!
i=1
P (si | ri, t)La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:
La probabilidad entra en escena
Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma
independiente.
S = s1s2s3 . . . sn!1sn
R = r1r2r3 . . . rn!1rn
Dadas dos secuencias alineadas
P (S | R, t) =n!
i=1
P (si | ri, t)La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:
Sólo necesitamos el modelo de evolución de cada sitio
La probabilidad entra en escena
Sólo necesitamos el modelo de evolución de cada sitio
Como en cada sitio puede haber 4 estados A,G,C,T necesitamos conocer las probabilidades de cada una
de las mutaciones en un tiempo t.!
"
"
#
P (A | A, t) P (A | G, t) P (A | C, t) P (A | T, t)P (G | A, t) P (G | G, t) P (G | C, t) P (G | T, t)P (C | A, t) P (C | G, t) P (C | C, t) P (C | T, t)P (T | A, t) P (T | G, t) P (T | C, t) P (T | T, t)
$
%
%
&
Para modelizar se usan cadenas de Markov continuas, por lo que la matriz anterior no se da directamente.
En su lugar se da la matriz de “velocidades”
Modelo de Jules-Cantor (1969)
Matriz de “velocidades”
!
"
"
#
!3! ! ! !
! !3! ! !
! ! !3! !
! ! ! !3!
$
%
%
&
Modelo de Jules-Cantor (1969)
Matriz de “velocidades”
!
"
"
#
!3! ! ! !
! !3! ! !
! ! !3! !
! ! ! !3!
$
%
%
&
Matriz de probabilidades!
"
"
"
"
"
"
"
"
#
1
4+
3
4e!4!t 1
4!
1
4e!4!t 1
4!
1
4e!4!t 1
4!
1
4e!4!t
1
4!
1
4e!4!t 1
4+
3
4e!4!t 1
4!
1
4e!4!t 1
4!
1
4e!4!t
1
4!
1
4e!4!t 1
4!
1
4e!4!t 1
4+
3
4e!4!t 1
4!
1
4e!4!t
1
4!
1
4e!4!t 1
4!
1
4e!4!t 1
4!
1
4e!4!t 1
4+
3
4e!4!t
$
%
%
%
%
%
%
%
%
&
A G
C T
Purinas
Piramidinas
Modelo de Kimura 2 parámetros
A G
C T
Purinas
Piramidinas
Modelo de Kimura 2 parámetros
Transiciones
A G
C T
Purinas
Piramidinas
Modelo de Kimura 2 parámetros
Transversiones
Una vez escogido el modelo, la distancia entre dos secuencias se puede pensar como la suma del tiempo de evolución transcurrido desde la “bifurcación” de su
ancestro común más cercano
S R
Ancestro?
El problema es que este ancestro no es conocido!!
Por lo tanto hay que estimar esa distancia evolutiva.
La forma más usual, ya que estamos metidos de lleno en probabilidades, es buscar lo más probable
(verosimil).
Como los sitios se suponen evolucionan de forma independiente, nos basta trabajar el
principio con secuencias de longitud 1.
S R
Ancestro?
Datos iniciales:El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V2
S R
Ancestro?
Datos iniciales:El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V2
Si el ancestro fuese una G tendríamos
S R
Ancestro?
Datos iniciales:El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V2
Si el ancestro fuese una G tendríamos
S R
Ancestro?
Datos iniciales:El árbol, los nucleótidos de S y R
Datos a estimar: v1, v2
V1 V2
Si el ancestro fuese una G tendríamos
Esto nos lo da el modelo elegido
Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:
Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:
Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:
Lo que buscamos son los valores de v1, v2 que hagan máxima esa probabilidad.
Como los modelos que usamos son reversibles, esa probabilidad sólo depende de la suma v1+v2.
(Principio de la polea de Felsenstein)
Máxima verosimilitud
Máxima verosimilitud
Para un árbol arbitrario, se puede hacer algo análogo, salvo que tendremos muchos más parámetros que estimar.
El método de máxima verosimilitud se basa en la optimización de una función de verosimilitud obtenida a partir del árbol bajo el establecimiento de un modelo de
evolución y unas premisas o hipótesis simplificadoras.
Computacionalmente, si para un árbol, la búsqueda del óptimo no es sencilla, la búsqueda del árbol óptimo es casi
imposible si el número de taxones es alto.
Máxima parsimonia
Máxima parsimoniaParece ser el más usado.
La idea de partida es que las hipótesis simples son mejores que las más complejas y que las hipótesis
“ad hoc” deben ser evitadas si es posible.
Lo que se busca es encontrar el mínimo número de cambios que explique los datos.
Máxima parsimoniaEl algoritmo más simple es el de Fitch.
En un primer paso, se recorre el árbol hacia la raíz para determinar el número mínimo de cambios
que se necesitan.
En un segundo paso se intenta, ya partiendo de la raíz, reconstruir las secuencias de los ancestros
para obtener ese número mínimo.
Como los cambios en un sitio no afectan a los otro sitios, se puede hacer sitio a sitio.
Máxima parsimonia
1 32 4 5a g a t a
Máxima parsimonia
1 32 4
{a,t}
5a g a t a
Máxima parsimonia
1 32 4
{a,t}
5
{a}
a g a t a
Máxima parsimonia
{a, g}
1 32 4
{a,t}
5
{a}
a g a t a
Máxima parsimonia
{a, g}
1 32 4
{a,t}
{a}
5
{a}
a g a t a
Máxima parsimonia
{a, g}
1 32 4
{a,t}
{a}
5
{a}
a g a t a
Máxima parsimonia
{a, g}
1 32 4
{a,t}
{a}
5
{a}
a g a t a
Máxima parsimonia
{a, g}
El número mínimo de cambios es 2.
1 32 4
{a,t}
{a}
5
{a}
a g a t a
Máxima parsimonia
{a, g}
El número mínimo de cambios es 2.
1 32 4
{a,t}
{a}
5
{a}
a g a t a
Máxima parsimonia
{a, g}
El número mínimo de cambios es 2.
Reconstrucción
1 32 4
{a,t}
{a}
5
{a}
a g a t a
Ejemplos de uso de los árboles filogenéticos en el estudio del virus de la
gripe
La principal proteína de la capsula es la hemaglutinina. Ésta se une al ácido siálico de la superficie celular para entrar en ella.
La Hemaglutinina es también la primera proteína reconocida y atacada por el sistema inmune.
La supervivencia del virus depende de su capacidad de encontrar nuevos receptores o de su capacidad de mutación.
El virus de la gripe evoluciona a una velocidad de 6.7x 10–3 mutaciones por nucleótido por año. Es decir 1 millón de veces más rápido que los humanos.
Tras un examen de virus conocidos de 1968-1987
hecho por Fitch, se constató que en lugar de una variedad de linajes derivados de los
distintos virus del año 1968, había sólo uno y los otros se
habían extinguido.
Fitch y sus coautores comprobaron la hipótesis de un mayor número de mutaciones en la región antigénica en la línea vírica persistente que en las extintas.
Además las mutaciones sinónimas (el cambio en el nucleótido no modifica la proteína) aparecían en menor proporción.
Todo ello abunda en la tesis de la selección positiva.
El virus se especializa, y se observan diferentes tipos que infectan principalmente a humanos, principalmente cerdos,
principalmente pájaros, etc. respectivamente
En la pandemia de 1968, irrumpe el subtipo H3 en los humanos. ¿De dónde vino?
La hipótesis más aceptada entre los investigadores es que la pandemias
humanas comienzan cuando las cepas de la gripe de aves y humanos infectan simultáneamente un cerdo e
allí intercambian genes y se desplazan de cerdos a humanos.
¿Cómo podemos hacer una filogenia en la web
del NCBI?
AvesHumanosPorcino
Otras herramientasNo menos importantes
BLASTBases de datos de proteínas (PDBI, SwissProt, etc) Bases de datos funcionales (KEGG, GO)Etc...