Post on 26-Jan-2016
description
Selección de SNPs en xenética médica
Javier Costas
Hospital Clínico Universitario
Orixe nos 80Unha visión global dos xenomas podería
acelerar significativamente a investigación biomédica
A dimensión do proxecto exixiría un esforzo comunitario de grande envergadura
O Proxecto Xenoma Humano
Grande desenvolvemento tecnolóxico
Primeiro borrador da secuencia do xenoma humano: febreiro 2001
O Proxecto Xenoma Humano
Principais logros iniciais3 x 109 bp
Identificación de 30000-40000 xenes (~22500 xenes)
Identificación de marcadores moleculares, microsatélites e SNPs (>1’4 millones)
Mapa físico do xenoma
O Proxecto Xenoma Humano
Marcadores moleculares
• Microsatélites (Simple tandem repeats, STRs)– Repeticións de secuencias cortas ACTT CGT CGT CGT CGT CGT CAAT
– Moi variables
• SNPs (Single nucleotide polymorphisms)– Cambios dun único nucleótido (frecuencia > 1%)
AAG T TACG AAG A TACG
– Moi abundantes (1 SNP/300 bp)– Doados de analizar a grande escala
Haplotipos
Cromosoma 1 AA(CTT)7ACT...CGCTCAA...CACTTG...
Cromosoma 2 AA(CTT)5ACT...CGCCCAA...CACATG...
Haplotipo 1 (CTT)7TT
Haplotipo 2 (CTT)5CA
Xenotipo
AA(CTT)5,7ACT...CGC(C/T)CAA...CAC(A/T)TG...
Enfermedades mendelianas
Debidas a mutacións nun único xenePouco frecuentesEx: Distrofia muscular de Duchenne, -
talasemia, hemofilia, fenilcetonuria, fibose cística...
1745 descripcións fenotípicas con base molecular coñecida
Human Gene Mutation Database 45875 mutacións en 1800 xenes
asociados con enfermedades
Haravuori et al. Am. J. Hum. Genet., 62:620-626, 1998
Mapeo xenético de enfermedades mendelianas Cosegregación de marcador e enfermedade: ligamento en familias
Enfermedades multifactoriais complexas
Alto risco de enfermedade
Factores xenéticos de risco
Factores xenéticos de protección
Factores ambientais de risco
Factores ambientais de protección
Baixo risco de enfermedade
Interaccións xene-xene e xene-ambiente
Múltiples xenes e/ou ambiente
Comúns Estudos de asociación en
poboacións Exemplos: asma, artrite,
cancro, hipertensión, trastorno bipolar...
Único xene Raras Estudos de ligamento en
familias Exemplo: distrofia
muscular (DMD), hemofilia, fibrose cística...
Enfermedades Mendelianas vs enfermedades complexas
Estudos de asociación
Diferencia significativa en distribución de SNPs en casos e controles
Muestreo mais simple que métodos baseados en familias
Mais potencia que estudos de ligamento en familias no caso de riscos relativos pequenos
Asociación frente a ligamento
Mag
nit
ud
e d
o ef
ecto
Frecuencia na poboación
Estudos de ligamentoen familias
Estudos de asociaciónen poboacións
Estudos de asociación
Hipótese enfermedade común/variante común
O risco xenético a padecer enfermedades comúns é xeralmente debido a alelos de predisposición que segregan a frecuencias relativamente elevadas na poboación (Lander, Science 1996)
Ex: ApoE4 e Alzheimer: Frec: ~15%, OR: 3’3, GRR-homoz:12
Localización (xenes candidato)
Validación
Frecuencia
Secuencia
Tipo de SNP (método de asociación)
dbSNP (NCBI) http://www.ncbi.nlm.nih.gov/SNP/
Selección de SNPs
dbSNP
SNPs H. sapiens
0
2000000
4000000
6000000
8000000
10000000
12000000
Localización (xenes candidato)
Validación
Frecuencia
Secuencia
Tipo de SNP (método de asociación)
Selección de SNPs
Selección xenes candidato Xenes candidato funcionais (función, expresión, interaccións)
Xenes candidato posicionais (ligamento)
Base bibliográfica: > 4800 revistas biomédicas > 15 millones de referencias
Gene Ontology
Vocabulario común para a descripción estructural de funcións protéicas en diferentes organismos organismos modelo
Actualmente, más de 16000 termos que describen función molecular, proceso biolóxico, localización celular
http://www.geneontology.org/
Artritis reumatoide
Ex.1: enfermedades autoinmunes, artrite reumatoide
Farmacogenética
Ex.2: farmacoxenética
Rutas metabólicas
Listado de vías metabólicas
Búsqueda por xene, enzima, composto o combinación de 2
100 rutas 300 rutas
Ruta de sinalización de NF-kB
Localización (xenes candidato)
Validación
Frecuencia
Secuencia
Tipo de SNP (método de asociación)
Selección de SNPs
dbSNP
SNPs H. sapiens
0
2000000
4000000
6000000
8000000
10000000
12000000
Totais
Validados
Localización (xenes candidato)
Validación
Frecuencia
Secuencia
Tipo de SNP (método de asociación)
Selección de SNPs
Distribución de frecuencias de SNPs
Frecuencia do alelo menor
Pro
porc
ión
de p
olim
orfi
smos
Risco relativo = 2
0
0,2
0,4
0,6
0,8
1
0 250 500 750 1000
Sample size
0,01
0,05
0,1
0,2
0,3
0,4
0,5
p0
Efecto da frecuencia sobre a potencia dun estudo de asociación caso-control
Diferencias de frecuencias entre poboacións
Hipótese “Out-of-Africa”
Cambios nas frecuencias xénicas (resultado de mutación, deriva xenética, selección e migración)
Colonización paleolítica
Dispersión paleolítica post-glaciación
Dispersión Neolítica
Diferencias de frecuencias entre poboacións
Localización (xenes candidato)
Validación
Frecuencia
Secuencia
Tipo de SNP (método de asociación)
Selección de SNPs
Secuencia en torno ao SNP
Depende do método de xenotipación (PCR)Non repetitivaSNPs secundarios
Localización (xenes candidato)
Validación
Frecuencia
Secuencia
Tipo de SNP (método de asociación)
Selección de SNPs
Estudos de asociación
Método indirecto: mapeo por desequilibrio de ligamento (LD)
Método directo: SNPs funcionais (causais)
T C
T CA T
LD LD
A C
Selección de SNPs funcionais
SNPs codificantes non sinónimos ou sen senso
SNPs que afecten ao “splicing”
SNPs en posibles sitios de unión de factores de transcripción (TFBS)
SNPs en rexións conservadas
SNPs codificantes non sinónimos ou sen senso
Código xenético
SNPs que afecten ao “splicing”
Rexión promotora
Sitios de unión de factores de transcripción (TFBS)
Secuencias curtas
Pouco específicas
Diferente afinidade e especificidade
Difíciles de predecir (non existe equivalente ao código xenético das rexións codificantes)
SNPs en posibles sitios de unión de factores de transcripción
SNPs en posibles sitios de unión de factores de transcripción
SNPs en posibles sitios de unión de factores de transcripción
Predicción de TFBS
Secuencias consenso: WAACCCTTT Matrices de posicións ponderadas (Positional weight matrices)
BS1 : BS2 : BS3 : BS4 : BS5 :
AAACCCTTTTAACCCTTTATACCCTATTCACCCATTAATCCCTTC
: 9 : 9 : 9 : 9 : 9
BS1 : BS2 : BS3 : BS4 : BS5 :
AAACCCTTTTAACCCTTTATACCCTATTCACCCATTAATCCCTTC
: 9 : 9 : 9 : 9 : 9
A 3 3 4 0 0 0 1 1 0 C 0 1 0 5 5 5 0 0 1G 0 0 0 0 0 0 0 0 0 T 2 1 1 0 0 0 4 4 4
2) Xeneración de matrices do aliñamento1) Colección de TFBS coñecidos
Identificación de TFBS mediante matrices de posicións ponderadas
3) Transformación a PWM baseado nas probabilidades a priori
Pesoij ~ lnFrecuenciaij
Probabilidadei
A 0.61 0.61 0.87 -1.79 -1.79 -1.79 -0.33 -0.33 -1.79
C -1.79 0.00 -1.79 1.47 1.47 1.47 -1.79 -1.79 0.00
G -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79
T 0.25 -0.33 -0.33 -1.79 -1.79 -1.79 0.87 0.87 0.87
SNPs en posibles sitios de unión de factores de transcripción
SNPs en rexións conservadas Se as secuencias non son funcionais acumulación de mutacións co tempo diverxencia
Se son funcionais selección eliminando mutacións conservación de secuencias
Comparación humano-rato: 5% do xenoma conservado
Ex: 1Mb cr11
SNPs en rexións conservadas
http://pipeline.lbl.gov/cgi-bin/vistatrack
SNPs en rexións conservadas
Obxectivo: identificación de tódalas secuencias funcionais do xenoma humano
Rexións escollidas na fase inicial: 30Mb, 1%
•50% escollidas manualmente:
- Xenes (o outros) ben coñecidos
- Datos comparativos
14 rexións, 0,5-2Mb
•50% escollidas ao longo do xenoma en función da densidade xénica e conservación de rexións non-exónicas
30 rexións de 500 Kb
Estudos de asociación
Método indirecto: mapeo por desequilibrio de ligamento (LD)
Método directo: SNPs funcionais (causais)
T C
T CA T
LD LD
A C
Desequilibrio de ligamiento (LD) Presencia conxunta de dous alelos próximos a unha frecuencia significativamente distinta á esperada en función das súas frecuencias individuais
B bA fAB = fA.fB + D fAb = fA.fb - D
a faB = fa.fB - D fab = fa.fb + D
Problema: depende das frecuencias
D’ = D/Dmax , –1< D’<1
r2 = D2/fA.fa.fB.fb, 0<r2<1
Xene 1
Xene 2
...AACATCTG...ACCTGCCTTA...CCTGTACT...
...AACATCTG...ACCTGCCTTA...CCTGCACT...
...AACTTCTG...ACCTGCCTTA...CCTGCACT...
...AACTTCTG...ACCTGCCTTA...CCTGTACT...
...AACATCTG...ACCTGCCTTA...CCTGTACT...
...AACATCTG...ACCTGCCTTA...CCTGCACT...
...AACTTCTG...ACCCGCCTTA...CCTGTACT...
...AACTTCTG...ACCTGCCTTA...CCTGTACT...
Orixe do LD
A T TA T CT C TT T T
Desequilibrio de ligamento (LD)Haplotipos
Mapeo por desequilibrio de ligamento (LD)
Non precisa coñecemento previo sobre a funcionalidade do SNP
Menor potencia que o método directo, a non ser que o LD sexa perfecto
T CA T
LD LD
C
LD
A
50% 50% 0%
50% 40% 10%
Bloques haplotípicos
Rexións do xenoma humano con baixa diversidade haplotípica e alto LD
Definición:– Diversidade haplotípica
– LD
– Test dos 4 gametos ( recombinación)
ACCT ACCTGCCT GCCT
GCCC
Bloques haplotípicos: LD
Bloque 2
Se hai recombinación: 2N = 512 haplotipos
Sen recombinación: N +1 = 10 haplotipos
Haplotipos > 1% Haplotipos > 5%
Bloques haplotípicos
Identificación de bloques haplotípicos
Selección dun subconxunto de SNPs que identifiquen os distintos haplotipos a frecuencias superiores a un mínimo establecido (5%, 10%)
Haplotipos > 5%
tagSNPs
Bloques haplotípicos: tagSNPs
“LD bins”Conxunto de SNPs, non necesariamente consecutivos, que presentan unha r2 elevada entre eles
1 tagSNP/LD bin
Selección SNPs para mapeo por LD: LD útil
O incremento do tamaño muestral preciso para manter a potencia nun estudo de asociación caso-control é inversamente proporcional a r2
Ex.: Se se precisan 1000 casos/controles asumindo que xenotipamos o SNP causal, precisaranse 2000 casos/controles usando un marcador con r2 = 0’5
International HapMap Project
Orixe no 2001
Xapón, Reino Unido, Canadá, China, EE.UU., Nixeria
Describir os patróns comúns de variación humana
Desenvolver un mapa haplotípico do xenoma humano
Información disponible públicamente http://www.hapmap.org/index.html.en
Densidade mínima 1 SNP/ 5 Kb
Identificar SNPs distintivos (tagSNPs)
International HapMap Project
Mostras de 4 poboacións representativas:CEU: 30 tríos de residentes en Utah con ascendencia no norte e oeste de Europa (Centre d'Etude du Polymorphisme Humain, 1980) CHB: 45 chinos Han de PekínJPT: 45 xaponeses de Tokio
YRI: 30 tríos de Yoruba de Ibadan (Nigeria)
Fase I finalizada
Fase II: incrementar densidade de SNPs nas rexións con pouco LD
International HapMap Project
Obxectivo final:
Facilitar o descubrimento de variantes de susceptibilidade a enfermedades comúns
Reducir o número de SNPs precisos para realizar estudos de asociación de todo o xenoma (whole-genome scans)
1.586.383 SNPs71 individuos americanos de ascendencia europea,
africana ou chinaDisponible públicamente
http://genome.perlegen.com/browser/index.html