El virus de la gripemathgene.usc.es/.../herramientas_gripe.pdf · El virus de la gripe española...

El virus de la gripeAnálisis bioinformático

• Es una enfermedad respiratoria, de origen vírico y altamente contagiosa.

• Obliga a hospitalizar a 200.000 personas al año en USA.

• Está relacionada con 30.000 muertes al año en USA.

• Generalmente, un ataque de un virus, si no es letal, convierte al paciente en resistente al ataque del mismo virus.

• En el caso de la gripe, el virus cambia su exterior cada año.

•Es necesario estudiar la evolución del virus para conocer sus mecanismos e intentar desactivarlo.

•Para ello la secuenciación del genoma de numerosos virus es necesario pero no es suficiente sino va acompañado de la capacidad de análisis de los datos.

•Las herramientas para dicho análisis las proporciona la Bioinformática.

Internet

Web

Bases de datos

InformáticaProbabilidades

Matemática discreta

Geometría

Matemática

Álgebra

Algoritmos de optimización

Estructura de datos

Computación

Estadística

Biología computacional

Bioinformática

Bases de datos genómicas

Un ejemplo de colaboración internacional

Bases de datos Genómicas

•Hay varios “grandes” proyectos en marcha. Los resultados obtenidos se encuentran en la base de datos del NCBI.

•A la vista de la importancia del tema de la gripe, el NCBI ha creado una página web específica.

El estudio genómico del virus de la gripe

http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html





Común a muchas bases de datos

Específico de la bioinformática

Base de datosAcceso a la secuencias

Estructura del virusEl genoma tiene 8 segmentos

http://www.ncbi.nlm.nih.gov/genomes/taxg.cgi?tax=93838




http://www.ncbi.nlm.nih.gov/Genbank/IMG/chart.gif

http://www.nature.com/nature/focus/1918flu/index.html

http://www.nature.com/nature/focus/1918flu/index.html

El virus de la gripe española (1918) comparado con el de la gripe aviar del 2006

El alineamiento con ClustalX

Española

Aviar

Delecciones

Inserción

Entre ambos virus hay toda una historia evolutiva.

La principal herramienta bioinformática que se usa para su estudio es el árbol filogenético.

Árboles filogenéticos

Una herramienta matemática para entender la evolución

Árboles filogenéticosSurgen a partir de la teoría de la evolución de Darwin.

Son representaciones gráficas de las relaciones evolutivas entre un grupo de organismos vivos.

Primer árbol filogenético debido a Haeckel 1866

Todas las especies descienden por evolución de una especie ancestral común.

La aparición de una nueva especie se produce por la subdivisión de una existente en dos subespecies que han divergido tanto que pierden la capacidad de cruzarse.

Árboles filogenéticosPunto de vista matemático

Orangután

GorilaChimpancé

Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután

Ejemplo: Árbol filogenético para el grupo Hominidae

Orangután

GorilaChimpancé

Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután


http://www.mnh.si.edu/anthro/humanorigins/ha/a_tree.html


Tiempo

Gorila

Chimpancé

Australophitecus

HumanosPeriodo evolutivo del

ancestro común a Austrolophitecus y Humanos

Momento en que aparece la especie humana

Ardiphitecus

Raí

z

Comienza la existencia del ancestro común a

Austrolophitecus y Humanos

Orangután




Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután




Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután


Hojas

Nodos



Los datos

¿Qué datos se usan?

¿Qué datos se usan?Secuencias alineadas “sin huecos” de ADN, ARN o mARN.

¿Qué datos se usan?Secuencias alineadas “sin huecos” de ADN, ARN o mARN.

Secuencias

¿Qué datos se usan?Secuencias


Tabla de caracteres morfológicos codificados


Datos morfológicos


Datos morfológicos

Lista ordenada de genes si se dispone del genoma completo


Datos morfológicos

Lista ordenada


Datos morfológicos

Lista ordenada

Lugares de restricción, SNPs, Secuencias de aminoácidos, etc

Los métodos

Principales métodos

Métodos de distancia

Máxima parsimonia

Máxima verosimilitud

Árbol filogenético


Datos Estimación



Datos Estimación

Estimación



Datos Estimación

Matriz de distanciasEstim

ación



Datos Estimación

Matriz de distancias

Constr

ucció

nEstimación



Datos Estimación


Constr

ucció

nEstimación

Modelo biológico



Datos Estimación


Constr

ucció

nEstimación

Modelo biológico

Modelo biológico


¿Qué mide la distancia entre dos especies?

•Habitualmente la distancia entre dos especies mide el número de años (o generaciones) transcurridos desde la subdivisión de la especie ancestral común en las dos especies en cuestión.

•Esa distancia no es conocida y hay que estimarla a partir de los datos usando modelos evolutivos.

•El modelo usado depende, entre otros factores, del tipo de datos que se tiene, del tipo de organismo y del criterio del investigador.


La matriz de distanciasT1 T2 . . . Tn

!

"

"

#

d11 d12 . . . d1n

d21 d22 . . . d23

. . . . . . . . . . . .

dn1 dn2 . . . dnn

$

%

%

&

T1

T2

.

.

.

Tn

T1 T2 . . . Tn

dij es la distancia observada entre las especies i,j.

En general no es una distancia en el sentido matemático del término


Construcción!

"

"

#

d11 d12 . . . d1n

d21 d22 . . . d2n

. . . . . . . . . . . .

dn1 dn2 . . . dnn

$

%

%

&

Cálculo

Se busca el mínimo de las

distancias

C y D son las más próximas


Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

Paso 1


dUA =(dAC + dAD)

2

UPGMA



Datos Reconstrucción

A

B C

D

Si la matriz no es ultramétrica

B C

Ancestro común a B y C

El algoritmo de Neighbor-Joining intenta corregir el problema


El algoritmo de Neighbor-JoiningEl procedimiento es el mismo que el del UPGMA, salvo que para buscar el mínimo usa una distancia corregida.

La idea es cambiar la noción de vecino. Vecinos serán aquellos que están próximos pero también

alejados de los demás.

Cálculo de distancias

¿Cómo se calculan las distancias entre secuencias de nucleótidos?


Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta

distancia no refleja correctamente el proceso evolutivo.




Podría pasar que después de varias mutaciones volviésemos al mismo nucleótido de partida


Lo más correcto es usar un modelo probabilístico de evolución de nucleótidos.



Podría pasar que después de varias mutaciones volviésemos al mismo nucleótido de partida

Los modelos de evolución

La probabilidad entra en escena

Las secuencias evolucionan mediante mutaciones, inserciones, delecciones, etc. Nosotros nos vamos

a restringir al caso de mutaciones.

Hay muchos modelos aplicables. Nosotros sólo veremos los dos más sencillos, Jules-Cantor y

Kimura con dos parámetros.

Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma

independiente.



independiente.

S = s1s2s3 . . . sn!1sn

R = r1r2r3 . . . rn!1rn

Dadas dos secuencias alineadas



independiente.

S = s1s2s3 . . . sn!1sn

R = r1r2r3 . . . rn!1rn


P (S | R, t) =n!

i=1

P (si | ri, t)La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:



independiente.

S = s1s2s3 . . . sn!1sn

R = r1r2r3 . . . rn!1rn


P (S | R, t) =n!

i=1

P (si | ri, t)La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:

Sólo necesitamos el modelo de evolución de cada sitio


Modelo de Jules-Cantor (1969)

Matriz de “velocidades”

!

"

"

#

!3! ! ! !

! !3! ! !

! ! !3! !

! ! ! !3!

$

%

%

&

Modelo de Jules-Cantor (1969)

Matriz de “velocidades”

!

"

"

#

!3! ! ! !

! !3! ! !

! ! !3! !

! ! ! !3!

$

%

%

&

Matriz de probabilidades!

"

"

"

"

"

"

"

"

#

1

4+

3

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t

1

4!

1

4e!4!t 1

4+

3

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t

1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4+

3

4e!4!t 1

4!

1

4e!4!t

1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4+

3

4e!4!t

$

%

%

%

%

%

%

%

%

&

A G

C T

Purinas

Piramidinas

Modelo de Kimura 2 parámetros

A G

C T

Purinas

Piramidinas


Transiciones

A G

C T

Purinas

Piramidinas


Transversiones

Una vez escogido el modelo, la distancia entre dos secuencias se puede pensar como la suma del tiempo de evolución transcurrido desde la “bifurcación” de su

ancestro común más cercano

S R

Ancestro?

El problema es que este ancestro no es conocido!!

Por lo tanto hay que estimar esa distancia evolutiva.

La forma más usual, ya que estamos metidos de lleno en probabilidades, es buscar lo más probable

(verosimil).

Como los sitios se suponen evolucionan de forma independiente, nos basta trabajar el

principio con secuencias de longitud 1.

S R

Ancestro?

Datos iniciales:El árbol, los nucleótidos de S y R

Datos a estimar: v1, v2

V1 V2

S R

Ancestro?



V1 V2

Si el ancestro fuese una G tendríamos

S R

Ancestro?



V1 V2

Si el ancestro fuese una G tendríamos

Esto nos lo da el modelo elegido

Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:

Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:

Lo que buscamos son los valores de v1, v2 que hagan máxima esa probabilidad.

Como los modelos que usamos son reversibles, esa probabilidad sólo depende de la suma v1+v2.

(Principio de la polea de Felsenstein)


Para un árbol arbitrario, se puede hacer algo análogo, salvo que tendremos muchos más parámetros que estimar.

El método de máxima verosimilitud se basa en la optimización de una función de verosimilitud obtenida a partir del árbol bajo el establecimiento de un modelo de

evolución y unas premisas o hipótesis simplificadoras.

Computacionalmente, si para un árbol, la búsqueda del óptimo no es sencilla, la búsqueda del árbol óptimo es casi

imposible si el número de taxones es alto.

Máxima parsimonia

Máxima parsimoniaParece ser el más usado.

La idea de partida es que las hipótesis simples son mejores que las más complejas y que las hipótesis

“ad hoc” deben ser evitadas si es posible.

Lo que se busca es encontrar el mínimo número de cambios que explique los datos.

Máxima parsimoniaEl algoritmo más simple es el de Fitch.

En un primer paso, se recorre el árbol hacia la raíz para determinar el número mínimo de cambios

que se necesitan.

En un segundo paso se intenta, ya partiendo de la raíz, reconstruir las secuencias de los ancestros

para obtener ese número mínimo.

Como los cambios en un sitio no afectan a los otro sitios, se puede hacer sitio a sitio.

Máxima parsimonia

1 32 4 5a g a t a

Máxima parsimonia

1 32 4

{a,t}

5a g a t a

Máxima parsimonia

1 32 4

{a,t}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

1 32 4

{a,t}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2.

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2.

Reconstrucción

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Ejemplos de uso de los árboles filogenéticos en el estudio del virus de la

gripe

La principal proteína de la capsula es la hemaglutinina. Ésta se une al ácido siálico de la superficie celular para entrar en ella.

La Hemaglutinina es también la primera proteína reconocida y atacada por el sistema inmune.

La supervivencia del virus depende de su capacidad de encontrar nuevos receptores o de su capacidad de mutación.

El virus de la gripe evoluciona a una velocidad de 6.7x 10–3 mutaciones por nucleótido por año. Es decir 1 millón de veces más rápido que los humanos.

Tras un examen de virus conocidos de 1968-1987

hecho por Fitch, se constató que en lugar de una variedad de linajes derivados de los

distintos virus del año 1968, había sólo uno y los otros se

habían extinguido.

Fitch y sus coautores comprobaron la hipótesis de un mayor número de mutaciones en la región antigénica en la línea vírica persistente que en las extintas.

Además las mutaciones sinónimas (el cambio en el nucleótido no modifica la proteína) aparecían en menor proporción.

Todo ello abunda en la tesis de la selección positiva.

El virus se especializa, y se observan diferentes tipos que infectan principalmente a humanos, principalmente cerdos,

principalmente pájaros, etc. respectivamente

En la pandemia de 1968, irrumpe el subtipo H3 en los humanos. ¿De dónde vino?

La hipótesis más aceptada entre los investigadores es que la pandemias

humanas comienzan cuando las cepas de la gripe de aves y humanos infectan simultáneamente un cerdo e

allí intercambian genes y se desplazan de cerdos a humanos.

¿Cómo podemos hacer una filogenia en la web

del NCBI?

AvesHumanosPorcino

Otras herramientasNo menos importantes

BLASTBases de datos de proteínas (PDBI, SwissProt, etc) Bases de datos funcionales (KEGG, GO)Etc...

El virus de la gripemathgene.usc.es/.../herramientas_gripe.pdf · El virus de la gripe española...

Documents

Transcript of El virus de la gripemathgene.usc.es/.../herramientas_gripe.pdf · El virus de la gripe española...