Evolución de las secuencias de ADN

54
Evolución de las secuencias de ADN

Transcript of Evolución de las secuencias de ADN

Page 1: Evolución de las secuencias de ADN

Evolución de las secuencias de ADN

Page 2: Evolución de las secuencias de ADN

Introducción

Hasta mediados de los ´80 del siglo XX, el estudio de la variabilidad se limitaba a la

identificación de alelos y como medida cuantitativa se usaba la Heterocigosidad. Sin

embargo, este estimador de la variación proporciona poca información, sólo nos dice si un

individuo tiene dos alelos iguales o diferentes. No brinda información acerca de las

diferencias entre alelos.

Todo empezó a cambiar con la amplificación por PCR y la secuenciación (técnica de Sanger)

de fragmentos de regiones específicas del genoma en muestras poblacionales.

Así se pudo contar con colecciones de secuencias de un mismo gen o región del genoma y

cuantificar el número de diferencias entre alelos o el número de sitios polimórficos a lo

largo de las secuencias y las relaciones genealógicas entre los alelos (secuencias).

Page 3: Evolución de las secuencias de ADN

El primer estudio, publicado en 1985, marcó la fundación de la genética molecular de poblaciónes y consistió

en la secuenciación de 11 alelos del locus Alcohol Deshidrogenasa (Adh) de Drosophila, 5 alelos Slow y 6 Fast

(definidos así por su movilidad electroforética). Este trabajo mostró que los alelos Slow, por un lado, y los Fast,

por otro, son familias de alelos que difieren entre sí en un sitio no sinónimo determinante de la diferencia en la

movilidad electroforética. Además, los alelos Slow se parecen más entre sí que con los Fast en cuanto a

variantes sinónimas.

Simultáneamente comenzó a desarrollarse la teoría de la Coalescencia, una teoría matemática que ofreció un

marco para interpreter los datos de secuencias de ADN y las propiedades de los árboles filogenéticos que

pueden generarse con ellas, que se llaman genealogías génicas o árboles de genes.

Page 4: Evolución de las secuencias de ADN

Los árboles de genes y la Teoría de la Coalescencia

Page 5: Evolución de las secuencias de ADN

Las bases de la genética de poblacionesclásica

1. El modelo de Wright-Fisher (WF)

S. Wright R.A. FisherLa teoría que

vamos a estudiarse basa en el

modelo de Wright-Fisher.

Considereremos

>>>˃

Page 6: Evolución de las secuencias de ADN

Modelo de Wright-Fisher (WF)

• La evolución de un locus neutral en una población de tamaño constante, con apareamiento al azar, y generaciones discretas.

• En cada generación t cada individuo tiene un número aleatorio de descendientes (mayor o igual a 0) en la generación t+1. Cadadescendiente es:• idéntico al parental con probabilidad 1-μ• o portador de una mutación

1. El modelo de Wright-Fisher (WF)

Page 7: Evolución de las secuencias de ADN

generation 0generation 1generation 2generation 3generation 4generation 5generation 6

1. El modelo de Wright-Fisher (WF)

Time

Page 8: Evolución de las secuencias de ADN

2. Las Genealogías y el árbol de la vida

Page 9: Evolución de las secuencias de ADN

2. Genealogías y el árbol de la vida

En las próximas diapositivas se muestra como se construye un árbolgenealógico que relaciona alelos de un locus de un segmento no-recombinante del cromosoma Y de 22 individuos de una muestratomada en la generación actual de una población.

EN el modelo cada hijo tiene un solo padre y cada padre puede tenermás de un hijo. A medida que vamos recorriendo la genealogía hacia el pasadoencontraremos ancestros communes entre dos individuos. Estoseventos se llaman coalescencia y resultan en la reducción de ancestros generación tras generación. Eventualmente, queda un solo ancestro – el Ancestro comúnMás Reciente (ACMR o Most Recent Common Ancestor).

La Genealogía de una muestraactual

Page 10: Evolución de las secuencias de ADN

Present

Time

Imaginemos una población grande. Millones de individuos y generaciones!!!

2. Genealogías y el árbol de la vida

Past

...

...

...:.

:.

:.

Page 11: Evolución de las secuencias de ADN

Present

Time

Se pueden simplificar mucho las cosas.Considerando solamente los ancestros de la muestra hasta el ACMR: el ARBOL GENEALOGICO de la muestra

2. Genealogías y el árbol de la vida

Page 12: Evolución de las secuencias de ADN

Present

Time

Ancestro común más reciente(ACMR)

2. Genealogías y el árbol de la vida

Page 13: Evolución de las secuencias de ADN

Tener un Ancestro Común y que ocurra una Mutación son procesos

aleatorios

2. Genealogías y el árbol de la vida

Page 14: Evolución de las secuencias de ADN

ARBOLES DE GENESAl comparar secuencias de ADN de una muestra

de individuos detectamos sitios polimórficos(segregantes) y sitios no variables. Además que algunos individuos comparten variantes y otros

no.

Esto permite inferior las relaciones genealógicasque podemos representar mediante árboles

Page 15: Evolución de las secuencias de ADN

111111111111111111111111111111111666666666666666666666666666666666001111111111112222222222222223333281224466788880112334667789991256561695878237899353097450863451080

ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCCGUI 1 ..............C..T...........C...GUI 2 ..............C..T...........C...GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..TGUI 4 ....A.T.TC.TGC...TG..........CT..GUI 5 C..C.......T.C...T...T.TT....C...GUI 6 C......G................T...T....GUI 7 ..TC.......T.C...T.T...TT.G..C...GUI 8 ....A.....C..C..GT.........T....TGUI 9 .........CC..C...T...............GUI 10 ....A......T.CC..T......T..T.C.TTGUI 11 ..............C..T..G........C...

Polimorfismos nucleotídicos (SNPs)

Page 16: Evolución de las secuencias de ADN

Si las mutaciones se mapean en la genealogía, pueden servir para dividirla en subgrupos (representados por colores diferentes)

Page 17: Evolución de las secuencias de ADN

Present

Time

mutation

Most recent common ancestor(MRCA)

TCGAGGTATTAACTCTAGGTATTAAC

2. Genealogies and the tree of life

Page 18: Evolución de las secuencias de ADN

Present

Time

mutation

Most recent common ancestor(MRCA)

TCGAGGTATTAACTCTAGGTATTAAC

2. Genealogies and the tree of life

Page 19: Evolución de las secuencias de ADN

Present

Time

Most recent common ancestor(MRCA)

TCGAGGTATTAACTCTAGGTATTAACTCGAGGCATTAACTCTAGGTGTTAACTCGAGGTATTAGCTCTAGGTATCAAC* ** * *

2. Genealogies and the tree of life

Page 20: Evolución de las secuencias de ADN

La estructura de la variación hereditaria actual de una población se puede pensar como la superposición de dos procesos aleatorios: el coalescente y la mutación

Resumiendo:

Page 21: Evolución de las secuencias de ADN

3. El coalescente

•El Tiempo de coalescencia se calcula recursivamente.•La Probabilidad de que dos alelos vengan del mismoprogenitor depende solo de N (tamaño poblacional).

• P (coalescencia) = , p (no coalescencia) = 1 -

• P(t) =

• E[TACMR] = 2N• 63% de los casos tienen TMRCA < 2N

N21

NN

t

21

211

1-

÷øö

çèæ -

La matemática es simple(ignorando la mutación y la recombinación)

N21

Page 22: Evolución de las secuencias de ADN

Tiempo al ACMR• El tiempo al ACMR de todos los linajes alélicos de la población es

T = 4N

el tiempo que tengo que recorrer hacia el pasado para encontrarel ACMR de la población depende del tamaño efectivo

3. El coalescente

Page 23: Evolución de las secuencias de ADN

3. The coalescent

A mayor N, el árbol es más largo, más variabilidad.

Población grande Población chica

Tiempo

Tiempo

Page 24: Evolución de las secuencias de ADN

Coalescencia y mutaciones neutras

Comparando las secuencias podemos calcular: 1) el número de bases en que difieren dos alelos de la población y 2) inferir las relaciones entre alelos, es decir reconstruir el árbol de genes

Presente

Tiempo

ACMR

3. El coalescente

Page 25: Evolución de las secuencias de ADN

La lógica del coalescente es la siguiente:

Si en cada linaje las mutaciones ocurren a una tasa µ por generación,

entonces dos alelos que compartieron un ancestro común tCA generaciones

en el pasado se habrán acumulado µ x tCA mutaciones en cada linaje.

Entonces, la esperanza del número de diferencias entre dos alelos

cualesquiera van a ser: 2 µ x tCA

Page 26: Evolución de las secuencias de ADN

En resumen: Qué parámetros importan del proceso

T = suma de la longitud de todas las ramas de la genealogíaE (T) = 4N (tiempo al ACMR)S = número de mutaciones en la genealogía o número de sitios segregantes)E(S) = µ E(T) ===> S = 4NµDonde θ = 4N µ (recordar heterocigosis en el equilibrio mutación/deriva)(aquí es donde se encuentran la Teoría de la coalescencia y la TN)

El número total de mutaciones o de sitios segregantes en la genealogía (S) es

un estimador de θ

Page 27: Evolución de las secuencias de ADN

ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCCGUI 1 ..............C..T...........C...GUI 2 ..............C..T...........C...GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..TGUI 4 ....A.T.TC.TGC...TG..........CT..GUI 5 C..C.......T.C...T...T.TT....C...GUI 6 C......G................T...T....GUI 7 ..TC.......T.C...T.T...TT.G..C...GUI 8 ....A.....C..C..GT.........T....TGUI 9 .........CC..C...T...............GUI 10 ....A......T.CC..T......T..T.C.TTGUI 11 ..............C..T..G........C...

El número de mutaciones o sitios segregantes es el parámetro central: ¿Cómo lo calculamos?Las/los contamos.¿Cómo? Contabilizando el número de sitios polimórficos

Page 28: Evolución de las secuencias de ADN

Otro estimador de θ:

𝜋: Heterocigosidad media por sitio (recordar: H=2pq) que equivale al número medio de diferencias entre pares de secuencias

𝜋 : dependiente de las frecuencias de las variantes que segregan en cada sitio

Si en un sitio p=0,9 y q=0,1 H=0,18 Si en otro sition p=q=0,5 H=0,5

Los sitios con frecuencias intermedias APORTAN MÁS a la heterocigosidad esperada

que los sitios con variants en baja frecuencia

Page 29: Evolución de las secuencias de ADN

Estimadores del parámetro mutacional q• Watterson: S (número de sitios

segregantes)

q = S / ai

• Tajima: número promedio de diferenciasentre alelos

q = P = (n / n - 1) S pi pj pij

Ambos son estimadores del parámetro mutacional. Entonces, si se cumplen los supuestos del modelo WF:1) no segregan variantes que afecten el fitness (neutralidad)2) el tamaño efectivo se mantuvo constanteambos estimadores deberían ser iguales.

Si alguno de los supuestos no se cumple () van a ser diferentes ya que se comportan de diferente manera bajo selección o cambios demográficos

Page 30: Evolución de las secuencias de ADN

¿Qué pasa cuando no se

cumplen las suposiciones del

modelo W-F?

A) Aparecen mutaciones no neutras. Los distintos de tipos de selección dejan huellas diferentes en la estructura de los árboles (en los patrones de variación neutra).

Ø la SN positiva que lleva a la fijación de una variante y acorta el tiempo al ACMR.

Ø En cambio la SN equilibradora que tiende a preservar alelos por mas tiempo que la DG (4N),

Ø La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.

B) N no constante Los eventos demográficos huellas diferentes en la estructura de los árboles (en los patrones de variación neutra).

• Si el tamaño de la población se ha incrementado las ramas del árbol son más cortas en el pasado (porque Ne era más chico)

• Si la población se ha reducido (cuello de botella) las ramas son cortas en el presente y más largas en el pasado

• La reunión de dos poblaciones alopátricas deja una huella sobre el genoma que consiste en un exceso de variantes en frecuencias intermedias

Page 31: Evolución de las secuencias de ADN

La selección positiva

Barrido Selectivo (Hitchhiking)• El rápido aumento de una variante ventajosa ( )

por selección positiva (direccional) puede reducir los niveles de variación neutra en regiones ligadas.

• La variante ventajosa aumenta rápidamente su frecuencia hasta alcanzar la fijación (el tiempo que lleva esto depende de la ventaja que tenga respecto de los que portan la variante ventajosa)

• Las nuevas variantes que ocurran serán raras (frecuencias cercanas a 1/2N) ya que el corto tiempo (< 4N) desde el barrido no habrán tenido tiempo de incrementar su frecuencia

Page 32: Evolución de las secuencias de ADN

Selección Positiva: la selección sobre una variante ventajosa (enrojo) produce “un Barrido Selectivo”

A--T---T-

T-A------

C------G-

AT-------

A--------

C--G-G-G-

G--A-----

G---CCC--

T--------

A-T------

T--------

T--------

G--------

A--------

A--------

G--------

G--------

G--------

T--------

A--------

No Recombination

3. Selección a nivel molecular

Sitios Sitios

Alelos

Page 33: Evolución de las secuencias de ADN

3. Selección a nivel molecular

Selección Positiva:¿Qué implican las regiones con huellas de selección positiva?

• Cambio adaptativo. Novedades evolutivas.

• si es en una región codificante Ka/Ks > 1

Page 34: Evolución de las secuencias de ADN

Genealogías de genes bajo modelos alternativos

Un barrido selectivo deja una huella en la variación que consiste en un exceso de

variantes raras o en baja frecuencia respecto de lo esperado bajo la TN

Page 35: Evolución de las secuencias de ADN

1) la SN positiva que lleva a la fijación de una variante disminuye el Ne y por lo tanto acorta la longitud del árbol.

2) La SN equilibradora: tiende a preservar alelos por mas tiempo que la DG, entonces habrá linajes del árbol que persistirán por mas tiempo que 4N, alargando las ramas del árbol

3) La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.

Page 36: Evolución de las secuencias de ADN

Selección equilibradora2. Selección y polimorfismo

Page 37: Evolución de las secuencias de ADN

La selección equilibradora

• Tiende a preservar alelos por un tiempo mayor a 4N generaciones, que es lo que persiste en promedio un alelo por deriva.

Þ los tiempos de coalescencia son mayores y las ramas son más largasÞ En Genética Evolutiva a más tiempo más variación

La persistencia de dos alelos por tiempos mayores a 4N se traduce en más variación y

un exceso de variantes en frecuencia intermedia respecto a lo esperado bajo la TN

Page 38: Evolución de las secuencias de ADN

Selección equilibradora

Page 39: Evolución de las secuencias de ADN

Selección purificadora. Elimina la variabilidad ligada a variantesdesventajosas (en rojo)

A--T---T-

T-A------

C------GG

AT-------

A--------

C--G-G-G-

G--A-----

G---CCC--

T--------

A-T------

A--T-----

T--------

C--------

AT-------

A--------

C--G-G---

G--A-----

G---CCC--

T--------

A--------

No Recombination

3. Selección a nivel molecular

Sitios Sitios

Alelos

Page 40: Evolución de las secuencias de ADN

3. Selección a nivel molecular

Selección purificadora:• Muestra lo que no puede cambiar (conservado)

• genes relacionados con enfermedades• Detección de nuevas funciones

Page 41: Evolución de las secuencias de ADN

¿Qué pasa cuando no se

cumplen las suposiciones del

modelo W-F?

B) N no constante Los eventos demográficos dejan huellas diferentes en en los patrones de variación neutra.

• Si el tamaño de la población se ha incrementado las ramas del árbol son más cortas en el pasado (porque Ne era más chico)

• Si la población se ha reducido (cuello de botella) las ramas son cortas en el presente y más largas en el pasado

• La reunión de dos poblaciones alopátricas deja una huella sobre el genoma que consiste en un exceso de variantes en frecuencias intermedias

Page 42: Evolución de las secuencias de ADN

Algunos eventos demográficos (cambios en el tamaño efectivo) dejan huellas en el genoma que pueden confundirse con SN

Page 43: Evolución de las secuencias de ADN

Expansión poblacional

Como la población se expandió en el pasado reciente las ramas del árbolposteriores a la expansión son más largas.

Vamos a tener un exceso de variantes en baja frecuencia (porque no han tenido tiempo de hacerse más frecuentes) respecto de lo esperado bajo la TN

4. El coalescente con selección

N

t

Page 44: Evolución de las secuencias de ADN

å=Pij

ijji xx p

å-

=

= 1

1

1n

i

W

i

Sq

µqq eW N4=¹P¹

4. El coalescente con selección

Bajo selección positiva o expansión poblacional, el estimador basado en S es más grande que P, porque hay exceso de mutaciones raras (en baja

frecuencia)

¿Cómo sabemos si el exceso de variantes raras es compatible con lo esperado bajo la teoría Neutralista?

Page 45: Evolución de las secuencias de ADN

La prueba de Tajima (D) compara P y S y determina si la distribución de frecuencias de las variantes es compatible con la

neutralidadP= número de diferencias entre pares de secuencias

S= número de sitios segregantes

4. El coalescente con selección

( ) ( )SS

W

W

VarD

VarD

qq

qqq

qˆˆ

ˆˆ

-

-=Þ

-P-P

=P

P

Bajo neutralidad D = 0

P y S se comportan de diferente manera frente a selección positiva y expansiones demográficas

D < 0

µqq eW N4==P=

Page 46: Evolución de las secuencias de ADN

mtDNA humano: exceso de variantesraras

• Ingman et al. (2000) 52 secuencias de mtDNA completas• 521 sitios segregantes

23.28.313.1152.44

8.31)(V̂

3.115/52.42.44

52

52

-=-

=

=

===p

D

d

aSa

Pronto responderemos a esta pregunta

Se trata de una Expansión poblacional o selección positiva?

0

20

40

60

80

100

120

140

160

180

200

1 11 21Rare allele frequency

No. sites

Observed

Expected

4. El coalescente con selección

Page 47: Evolución de las secuencias de ADN

4. El coalescente con selección

Selección equilibradora es equivalente a la subdivisión poblacional. En este caso el D de Tajima es positivo porque

habrá un exceso de variantes en frecuencia intermedia

( )W

W

VarD

qq-P

-P= D > 0

Page 48: Evolución de las secuencias de ADN

4. El coalescente con selección

¿Cómo sabemos si el estadístico D de Tajima es significativo?¡¡¡Usamos el coalescente!!!

Se corren simulaciones de coalescencia bajo neutralidad, usando N y S estimados a partir de los datos. En cada simulación se calcula un

valor de D y así obtenemos su distribución.

Page 49: Evolución de las secuencias de ADN

¿Expansión poblacional o selección positiva?¿Mezcla de poblaciones o selección equilibradora?

La teoría dice que los cambios demográficos afectan la variación genómica global, en cambio el efecto de la selección, positiva o equilibradora es más local.

¿Cómo diferenciamos procesos adaptativos de eventos demográficos?

Page 50: Evolución de las secuencias de ADN

Aplicación de la coalescencia

El origen del hombre moderno

Page 51: Evolución de las secuencias de ADN
Page 52: Evolución de las secuencias de ADN

Posibles ”outliers” respecto del valor másfrecuente:Si la separación de las poblaciones es reciente, el tiempo de coalescencia (tc) de los alelos es por lo general mayor o igual al tiempo de división de las poblaciones (tP) , sin embargo, en algunos casos

tc < tPdebido a pérdida aleatoria de alelos.

En regions donde hay polimorfismos equilibrados: tc >>> tP

Page 53: Evolución de las secuencias de ADN
Page 54: Evolución de las secuencias de ADN

Cuestionario orientativo1) ¿Qué es un árbol de genes, qué lo diferencia de los árboles de especies2) ¿Qué es la coalescencia? 3) Definir ancestro común más cercano y tiempo de coalescencia4) ¿Cómo se integran las teorías neutralista y de coalescencia?5) ¿En qué se diferencia, cuantitativamente, la variación neutra entre

poblaciones de diferente tamaño?6) ¿Qué efectos pueden tener las variantes adaptativas sobre la variación

neutra ligada?7) ¿Qué efecto pueden tener los eventos demográficos (expansión

poblacional o mezcla de poblaciones?8) ¿cómo diferenciamos los efectos de la selección de los eventos

demográficos?