Relacionando enfermedad y genética
Transcript of Relacionando enfermedad y genética
Relacionando enfermedad y genéticaElvira MayordomoBioinformática14-4-21
Lo que veremos hoy
¿Qué posiciones del DNA se pueden relacionar con una enfermedad?
Dos métodos principales para hacerlo:EstadísticaMachine learning
Diferencias entre los dos, inconvenientes de cada uno, etc
¿Cuándo decimos que una enfermedad es genética? Se ha encontrado diferencia significativa
entre la información genética de los individuos que tienen la enfermedad y los sanos
¿Cuánta diferencia? ¿Exactamente qué información genética?
Términos de genética
Alelo: una de los valores alternativos de DNA en una posición (cromosomas homólogos)
Polimorfismo: existen al menos dos alelos en una posición
Homocigótico: Los dos alelos de una posición son idénticos
Heterocigótico: Los dos alelos de una posición son diferentes
SNP
Single Nucleotide Polymorphism Variación de una sola base En teoría hasta 4 valores posibles En la práctica suelen ser dos Se exige frecuencia ≥ 1% de los
individuos
GAGGAGAACG[C/G]AACTCCGCCG
GWAS
Genome-wide association studies Se buscan unos SNPs en una población Casos= enfermos, Controles =sanos
GWAS
Queremos identificar asociación entre un fenotipo (tiene la enfermedad) con uno de los SNP estudiados
Tenemos el grupo casos vs controles La mayoría de los SNPs saldrán
invariantes, algunos sandrán sobre- o infra-rrepresentados
ESTADÍSTICA
Estadística: test de asociación
Para un SNP: comparar proporciones de cada alelo
GWAS Se prueban 105-106 SNPs “bastante”
independientes 103-105 casos Control de calidad estricto Se utiliza un test de hipotesis (chi
cuadrado) Aparecen a menudo cientos de casos con
p<0.001 Significancia a partir de p=5*10-7
GWAS o Linkage
En realidad no todos los SNPs van por separado, hay pares que se heredan siempre juntos (por su posición)
Si se tiene esto en cuenta aparecen más SNPs significativos
Linkage desequilibrium
Buscar el común a dos SNPs: cuanto más oscuro más se heredan juntos
Problemas de GWAS con estadística Funciona bien cuando se trata de un SNP Cuando se usa “linkage” la información
hay que tenerla a priori (qué SNPs se heredan juntos)
Considerar conjuntos de SNPs (es decir, enfermedades complejas multifactoriales) está más limitado
Poco escalable: ¿y si queremos añadir información epigenética?
Problemas de GWAS con estadística ¿Qué hacemos en realidad?Descartar la hipótesis de que un SNP no
influya en la enfermedadNo tenemos un resultado claro de cómo
influye, de si es el único o si es determinante La estadística hace “inferencia estadística”
infiere el modelo que representa unos datos
La predicción no es el objetivo
MACHINE LEARNING
¿Qué es el Aprendizaje Computacional?
Para GWAS
El objetivo es predecir a partir de los SNPs si un individuo va a tener la enfermedad
O sea predecir entre dos categorías posibles, enfermo o sano
Para GWAS
Experiencia: conjunto etiquetado de ejemplos (DNA(SNPs), diagnóstico)Conjunto de entrenamiento 60-80%Conjunto de validación 10-20%Conjunto de prueba 10-30%
Tarea: clasificar DNA entre los diagnósticos
Medida de prestaciones
Matriz de confusión
Importante
Todas las medidas de prestaciones se refieren a los datos que tenemos
Problemas de ML
Los datos tienen que ser equilibrados (el mismo número de enfermos que de controles)
Si no hay que equilibrarlos artificialmente
Comparando los dos
La estadística puede predecir pero lo suyo no es la precisión si no la predicción estadística
El aprendizaje computacional predice mucho mejor que la estadística lo que no hace muy bien es interpretar la razón de esa predicción
Comparando los dos
Aprendizaje: el mejor en el conjunto dadoHay un salto claro en creer que será la misma
precisión para datos desconocidosPero no es necesario asumir que los datos
son aleatorios, sólo que son representativos (en un sentido poco claro)
Estadística: asume que los datos son aleatorios
Problema de los dos
Reproducibilidad