Evolución de las secuencias de ADN

Post on 16-Oct-2021

3 views 0 download

Transcript of Evolución de las secuencias de ADN

Evolución de las secuencias de ADN

Introducción

Hasta mediados de los ´80 del siglo XX, el estudio de la variabilidad se limitaba a la

identificación de alelos y como medida cuantitativa se usaba la Heterocigosidad. Sin

embargo, este estimador de la variación proporciona poca información, sólo nos dice si un

individuo tiene dos alelos iguales o diferentes. No brinda información acerca de las

diferencias entre alelos.

Todo empezó a cambiar con la amplificación por PCR y la secuenciación (técnica de Sanger)

de fragmentos de regiones específicas del genoma en muestras poblacionales.

Así se pudo contar con colecciones de secuencias de un mismo gen o región del genoma y

cuantificar el número de diferencias entre alelos o el número de sitios polimórficos a lo

largo de las secuencias y las relaciones genealógicas entre los alelos (secuencias).

El primer estudio, publicado en 1985, marcó la fundación de la genética molecular de poblaciónes y consistió

en la secuenciación de 11 alelos del locus Alcohol Deshidrogenasa (Adh) de Drosophila, 5 alelos Slow y 6 Fast

(definidos así por su movilidad electroforética). Este trabajo mostró que los alelos Slow, por un lado, y los Fast,

por otro, son familias de alelos que difieren entre sí en un sitio no sinónimo determinante de la diferencia en la

movilidad electroforética. Además, los alelos Slow se parecen más entre sí que con los Fast en cuanto a

variantes sinónimas.

Simultáneamente comenzó a desarrollarse la teoría de la Coalescencia, una teoría matemática que ofreció un

marco para interpreter los datos de secuencias de ADN y las propiedades de los árboles filogenéticos que

pueden generarse con ellas, que se llaman genealogías génicas o árboles de genes.

Los árboles de genes y la Teoría de la Coalescencia

Las bases de la genética de poblacionesclásica

1. El modelo de Wright-Fisher (WF)

S. Wright R.A. FisherLa teoría que

vamos a estudiarse basa en el

modelo de Wright-Fisher.

Considereremos

>>>˃

Modelo de Wright-Fisher (WF)

• La evolución de un locus neutral en una población de tamaño constante, con apareamiento al azar, y generaciones discretas.

• En cada generación t cada individuo tiene un número aleatorio de descendientes (mayor o igual a 0) en la generación t+1. Cadadescendiente es:• idéntico al parental con probabilidad 1-μ• o portador de una mutación

1. El modelo de Wright-Fisher (WF)

generation 0generation 1generation 2generation 3generation 4generation 5generation 6

1. El modelo de Wright-Fisher (WF)

Time

2. Las Genealogías y el árbol de la vida

2. Genealogías y el árbol de la vida

En las próximas diapositivas se muestra como se construye un árbolgenealógico que relaciona alelos de un locus de un segmento no-recombinante del cromosoma Y de 22 individuos de una muestratomada en la generación actual de una población.

EN el modelo cada hijo tiene un solo padre y cada padre puede tenermás de un hijo. A medida que vamos recorriendo la genealogía hacia el pasadoencontraremos ancestros communes entre dos individuos. Estoseventos se llaman coalescencia y resultan en la reducción de ancestros generación tras generación. Eventualmente, queda un solo ancestro – el Ancestro comúnMás Reciente (ACMR o Most Recent Common Ancestor).

La Genealogía de una muestraactual

Present

Time

Imaginemos una población grande. Millones de individuos y generaciones!!!

2. Genealogías y el árbol de la vida

Past

...

...

...:.

:.

:.

Present

Time

Se pueden simplificar mucho las cosas.Considerando solamente los ancestros de la muestra hasta el ACMR: el ARBOL GENEALOGICO de la muestra

2. Genealogías y el árbol de la vida

Present

Time

Ancestro común más reciente(ACMR)

2. Genealogías y el árbol de la vida

Tener un Ancestro Común y que ocurra una Mutación son procesos

aleatorios

2. Genealogías y el árbol de la vida

ARBOLES DE GENESAl comparar secuencias de ADN de una muestra

de individuos detectamos sitios polimórficos(segregantes) y sitios no variables. Además que algunos individuos comparten variantes y otros

no.

Esto permite inferior las relaciones genealógicasque podemos representar mediante árboles

111111111111111111111111111111111666666666666666666666666666666666001111111111112222222222222223333281224466788880112334667789991256561695878237899353097450863451080

ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCCGUI 1 ..............C..T...........C...GUI 2 ..............C..T...........C...GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..TGUI 4 ....A.T.TC.TGC...TG..........CT..GUI 5 C..C.......T.C...T...T.TT....C...GUI 6 C......G................T...T....GUI 7 ..TC.......T.C...T.T...TT.G..C...GUI 8 ....A.....C..C..GT.........T....TGUI 9 .........CC..C...T...............GUI 10 ....A......T.CC..T......T..T.C.TTGUI 11 ..............C..T..G........C...

Polimorfismos nucleotídicos (SNPs)

Si las mutaciones se mapean en la genealogía, pueden servir para dividirla en subgrupos (representados por colores diferentes)

Present

Time

mutation

Most recent common ancestor(MRCA)

TCGAGGTATTAACTCTAGGTATTAAC

2. Genealogies and the tree of life

Present

Time

mutation

Most recent common ancestor(MRCA)

TCGAGGTATTAACTCTAGGTATTAAC

2. Genealogies and the tree of life

Present

Time

Most recent common ancestor(MRCA)

TCGAGGTATTAACTCTAGGTATTAACTCGAGGCATTAACTCTAGGTGTTAACTCGAGGTATTAGCTCTAGGTATCAAC* ** * *

2. Genealogies and the tree of life

La estructura de la variación hereditaria actual de una población se puede pensar como la superposición de dos procesos aleatorios: el coalescente y la mutación

Resumiendo:

3. El coalescente

•El Tiempo de coalescencia se calcula recursivamente.•La Probabilidad de que dos alelos vengan del mismoprogenitor depende solo de N (tamaño poblacional).

• P (coalescencia) = , p (no coalescencia) = 1 -

• P(t) =

• E[TACMR] = 2N• 63% de los casos tienen TMRCA < 2N

N21

NN

t

21

211

1-

÷øö

çèæ -

La matemática es simple(ignorando la mutación y la recombinación)

N21

Tiempo al ACMR• El tiempo al ACMR de todos los linajes alélicos de la población es

T = 4N

el tiempo que tengo que recorrer hacia el pasado para encontrarel ACMR de la población depende del tamaño efectivo

3. El coalescente

3. The coalescent

A mayor N, el árbol es más largo, más variabilidad.

Población grande Población chica

Tiempo

Tiempo

Coalescencia y mutaciones neutras

Comparando las secuencias podemos calcular: 1) el número de bases en que difieren dos alelos de la población y 2) inferir las relaciones entre alelos, es decir reconstruir el árbol de genes

Presente

Tiempo

ACMR

3. El coalescente

La lógica del coalescente es la siguiente:

Si en cada linaje las mutaciones ocurren a una tasa µ por generación,

entonces dos alelos que compartieron un ancestro común tCA generaciones

en el pasado se habrán acumulado µ x tCA mutaciones en cada linaje.

Entonces, la esperanza del número de diferencias entre dos alelos

cualesquiera van a ser: 2 µ x tCA

En resumen: Qué parámetros importan del proceso

T = suma de la longitud de todas las ramas de la genealogíaE (T) = 4N (tiempo al ACMR)S = número de mutaciones en la genealogía o número de sitios segregantes)E(S) = µ E(T) ===> S = 4NµDonde θ = 4N µ (recordar heterocigosis en el equilibrio mutación/deriva)(aquí es donde se encuentran la Teoría de la coalescencia y la TN)

El número total de mutaciones o de sitios segregantes en la genealogía (S) es

un estimador de θ

ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCCGUI 1 ..............C..T...........C...GUI 2 ..............C..T...........C...GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..TGUI 4 ....A.T.TC.TGC...TG..........CT..GUI 5 C..C.......T.C...T...T.TT....C...GUI 6 C......G................T...T....GUI 7 ..TC.......T.C...T.T...TT.G..C...GUI 8 ....A.....C..C..GT.........T....TGUI 9 .........CC..C...T...............GUI 10 ....A......T.CC..T......T..T.C.TTGUI 11 ..............C..T..G........C...

El número de mutaciones o sitios segregantes es el parámetro central: ¿Cómo lo calculamos?Las/los contamos.¿Cómo? Contabilizando el número de sitios polimórficos

Otro estimador de θ:

𝜋: Heterocigosidad media por sitio (recordar: H=2pq) que equivale al número medio de diferencias entre pares de secuencias

𝜋 : dependiente de las frecuencias de las variantes que segregan en cada sitio

Si en un sitio p=0,9 y q=0,1 H=0,18 Si en otro sition p=q=0,5 H=0,5

Los sitios con frecuencias intermedias APORTAN MÁS a la heterocigosidad esperada

que los sitios con variants en baja frecuencia

Estimadores del parámetro mutacional q• Watterson: S (número de sitios

segregantes)

q = S / ai

• Tajima: número promedio de diferenciasentre alelos

q = P = (n / n - 1) S pi pj pij

Ambos son estimadores del parámetro mutacional. Entonces, si se cumplen los supuestos del modelo WF:1) no segregan variantes que afecten el fitness (neutralidad)2) el tamaño efectivo se mantuvo constanteambos estimadores deberían ser iguales.

Si alguno de los supuestos no se cumple () van a ser diferentes ya que se comportan de diferente manera bajo selección o cambios demográficos

¿Qué pasa cuando no se

cumplen las suposiciones del

modelo W-F?

A) Aparecen mutaciones no neutras. Los distintos de tipos de selección dejan huellas diferentes en la estructura de los árboles (en los patrones de variación neutra).

Ø la SN positiva que lleva a la fijación de una variante y acorta el tiempo al ACMR.

Ø En cambio la SN equilibradora que tiende a preservar alelos por mas tiempo que la DG (4N),

Ø La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.

B) N no constante Los eventos demográficos huellas diferentes en la estructura de los árboles (en los patrones de variación neutra).

• Si el tamaño de la población se ha incrementado las ramas del árbol son más cortas en el pasado (porque Ne era más chico)

• Si la población se ha reducido (cuello de botella) las ramas son cortas en el presente y más largas en el pasado

• La reunión de dos poblaciones alopátricas deja una huella sobre el genoma que consiste en un exceso de variantes en frecuencias intermedias

La selección positiva

Barrido Selectivo (Hitchhiking)• El rápido aumento de una variante ventajosa ( )

por selección positiva (direccional) puede reducir los niveles de variación neutra en regiones ligadas.

• La variante ventajosa aumenta rápidamente su frecuencia hasta alcanzar la fijación (el tiempo que lleva esto depende de la ventaja que tenga respecto de los que portan la variante ventajosa)

• Las nuevas variantes que ocurran serán raras (frecuencias cercanas a 1/2N) ya que el corto tiempo (< 4N) desde el barrido no habrán tenido tiempo de incrementar su frecuencia

Selección Positiva: la selección sobre una variante ventajosa (enrojo) produce “un Barrido Selectivo”

A--T---T-

T-A------

C------G-

AT-------

A--------

C--G-G-G-

G--A-----

G---CCC--

T--------

A-T------

T--------

T--------

G--------

A--------

A--------

G--------

G--------

G--------

T--------

A--------

No Recombination

3. Selección a nivel molecular

Sitios Sitios

Alelos

3. Selección a nivel molecular

Selección Positiva:¿Qué implican las regiones con huellas de selección positiva?

• Cambio adaptativo. Novedades evolutivas.

• si es en una región codificante Ka/Ks > 1

Genealogías de genes bajo modelos alternativos

Un barrido selectivo deja una huella en la variación que consiste en un exceso de

variantes raras o en baja frecuencia respecto de lo esperado bajo la TN

1) la SN positiva que lleva a la fijación de una variante disminuye el Ne y por lo tanto acorta la longitud del árbol.

2) La SN equilibradora: tiende a preservar alelos por mas tiempo que la DG, entonces habrá linajes del árbol que persistirán por mas tiempo que 4N, alargando las ramas del árbol

3) La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.

Selección equilibradora2. Selección y polimorfismo

La selección equilibradora

• Tiende a preservar alelos por un tiempo mayor a 4N generaciones, que es lo que persiste en promedio un alelo por deriva.

Þ los tiempos de coalescencia son mayores y las ramas son más largasÞ En Genética Evolutiva a más tiempo más variación

La persistencia de dos alelos por tiempos mayores a 4N se traduce en más variación y

un exceso de variantes en frecuencia intermedia respecto a lo esperado bajo la TN

Selección equilibradora

Selección purificadora. Elimina la variabilidad ligada a variantesdesventajosas (en rojo)

A--T---T-

T-A------

C------GG

AT-------

A--------

C--G-G-G-

G--A-----

G---CCC--

T--------

A-T------

A--T-----

T--------

C--------

AT-------

A--------

C--G-G---

G--A-----

G---CCC--

T--------

A--------

No Recombination

3. Selección a nivel molecular

Sitios Sitios

Alelos

3. Selección a nivel molecular

Selección purificadora:• Muestra lo que no puede cambiar (conservado)

• genes relacionados con enfermedades• Detección de nuevas funciones

¿Qué pasa cuando no se

cumplen las suposiciones del

modelo W-F?

B) N no constante Los eventos demográficos dejan huellas diferentes en en los patrones de variación neutra.

• Si el tamaño de la población se ha incrementado las ramas del árbol son más cortas en el pasado (porque Ne era más chico)

• Si la población se ha reducido (cuello de botella) las ramas son cortas en el presente y más largas en el pasado

• La reunión de dos poblaciones alopátricas deja una huella sobre el genoma que consiste en un exceso de variantes en frecuencias intermedias

Algunos eventos demográficos (cambios en el tamaño efectivo) dejan huellas en el genoma que pueden confundirse con SN

Expansión poblacional

Como la población se expandió en el pasado reciente las ramas del árbolposteriores a la expansión son más largas.

Vamos a tener un exceso de variantes en baja frecuencia (porque no han tenido tiempo de hacerse más frecuentes) respecto de lo esperado bajo la TN

4. El coalescente con selección

N

t

å=Pij

ijji xx p

å-

=

= 1

1

1n

i

W

i

Sq

µqq eW N4=¹P¹

4. El coalescente con selección

Bajo selección positiva o expansión poblacional, el estimador basado en S es más grande que P, porque hay exceso de mutaciones raras (en baja

frecuencia)

¿Cómo sabemos si el exceso de variantes raras es compatible con lo esperado bajo la teoría Neutralista?

La prueba de Tajima (D) compara P y S y determina si la distribución de frecuencias de las variantes es compatible con la

neutralidadP= número de diferencias entre pares de secuencias

S= número de sitios segregantes

4. El coalescente con selección

( ) ( )SS

W

W

VarD

VarD

qq

qqq

qˆˆ

ˆˆ

-

-=Þ

-P-P

=P

P

Bajo neutralidad D = 0

P y S se comportan de diferente manera frente a selección positiva y expansiones demográficas

D < 0

µqq eW N4==P=

mtDNA humano: exceso de variantesraras

• Ingman et al. (2000) 52 secuencias de mtDNA completas• 521 sitios segregantes

23.28.313.1152.44

8.31)(V̂

3.115/52.42.44

52

52

-=-

=

=

===p

D

d

aSa

Pronto responderemos a esta pregunta

Se trata de una Expansión poblacional o selección positiva?

0

20

40

60

80

100

120

140

160

180

200

1 11 21Rare allele frequency

No. sites

Observed

Expected

4. El coalescente con selección

4. El coalescente con selección

Selección equilibradora es equivalente a la subdivisión poblacional. En este caso el D de Tajima es positivo porque

habrá un exceso de variantes en frecuencia intermedia

( )W

W

VarD

qq-P

-P= D > 0

4. El coalescente con selección

¿Cómo sabemos si el estadístico D de Tajima es significativo?¡¡¡Usamos el coalescente!!!

Se corren simulaciones de coalescencia bajo neutralidad, usando N y S estimados a partir de los datos. En cada simulación se calcula un

valor de D y así obtenemos su distribución.

¿Expansión poblacional o selección positiva?¿Mezcla de poblaciones o selección equilibradora?

La teoría dice que los cambios demográficos afectan la variación genómica global, en cambio el efecto de la selección, positiva o equilibradora es más local.

¿Cómo diferenciamos procesos adaptativos de eventos demográficos?

Aplicación de la coalescencia

El origen del hombre moderno

Posibles ”outliers” respecto del valor másfrecuente:Si la separación de las poblaciones es reciente, el tiempo de coalescencia (tc) de los alelos es por lo general mayor o igual al tiempo de división de las poblaciones (tP) , sin embargo, en algunos casos

tc < tPdebido a pérdida aleatoria de alelos.

En regions donde hay polimorfismos equilibrados: tc >>> tP

Cuestionario orientativo1) ¿Qué es un árbol de genes, qué lo diferencia de los árboles de especies2) ¿Qué es la coalescencia? 3) Definir ancestro común más cercano y tiempo de coalescencia4) ¿Cómo se integran las teorías neutralista y de coalescencia?5) ¿En qué se diferencia, cuantitativamente, la variación neutra entre

poblaciones de diferente tamaño?6) ¿Qué efectos pueden tener las variantes adaptativas sobre la variación

neutra ligada?7) ¿Qué efecto pueden tener los eventos demográficos (expansión

poblacional o mezcla de poblaciones?8) ¿cómo diferenciamos los efectos de la selección de los eventos

demográficos?