Relacionando enfermedad y genética

38
Relacionando enfermedad y genética Elvira Mayordomo Bioinformática 14-4-21

Transcript of Relacionando enfermedad y genética

Page 1: Relacionando enfermedad y genética

Relacionando enfermedad y genéticaElvira MayordomoBioinformática14-4-21

Page 2: Relacionando enfermedad y genética

Lo que veremos hoy

¿Qué posiciones del DNA se pueden relacionar con una enfermedad?

Dos métodos principales para hacerlo:EstadísticaMachine learning

Diferencias entre los dos, inconvenientes de cada uno, etc

Page 3: Relacionando enfermedad y genética

¿Cuándo decimos que una enfermedad es genética? Se ha encontrado diferencia significativa

entre la información genética de los individuos que tienen la enfermedad y los sanos

¿Cuánta diferencia? ¿Exactamente qué información genética?

Page 4: Relacionando enfermedad y genética

Términos de genética

Alelo: una de los valores alternativos de DNA en una posición (cromosomas homólogos)

Polimorfismo: existen al menos dos alelos en una posición

Homocigótico: Los dos alelos de una posición son idénticos

Heterocigótico: Los dos alelos de una posición son diferentes

Page 5: Relacionando enfermedad y genética
Page 6: Relacionando enfermedad y genética

SNP

Single Nucleotide Polymorphism Variación de una sola base En teoría hasta 4 valores posibles En la práctica suelen ser dos Se exige frecuencia ≥ 1% de los

individuos

GAGGAGAACG[C/G]AACTCCGCCG

Page 7: Relacionando enfermedad y genética

GWAS

Genome-wide association studies Se buscan unos SNPs en una población Casos= enfermos, Controles =sanos

Page 8: Relacionando enfermedad y genética

GWAS

Queremos identificar asociación entre un fenotipo (tiene la enfermedad) con uno de los SNP estudiados

Tenemos el grupo casos vs controles La mayoría de los SNPs saldrán

invariantes, algunos sandrán sobre- o infra-rrepresentados

Page 9: Relacionando enfermedad y genética

ESTADÍSTICA

Page 10: Relacionando enfermedad y genética
Page 11: Relacionando enfermedad y genética

Estadística: test de asociación

Para un SNP: comparar proporciones de cada alelo

Page 12: Relacionando enfermedad y genética

GWAS Se prueban 105-106 SNPs “bastante”

independientes 103-105 casos Control de calidad estricto Se utiliza un test de hipotesis (chi

cuadrado) Aparecen a menudo cientos de casos con

p<0.001 Significancia a partir de p=5*10-7

Page 13: Relacionando enfermedad y genética
Page 14: Relacionando enfermedad y genética
Page 15: Relacionando enfermedad y genética

GWAS o Linkage

En realidad no todos los SNPs van por separado, hay pares que se heredan siempre juntos (por su posición)

Si se tiene esto en cuenta aparecen más SNPs significativos

Page 16: Relacionando enfermedad y genética

Linkage desequilibrium

Buscar el común a dos SNPs: cuanto más oscuro más se heredan juntos

Page 17: Relacionando enfermedad y genética
Page 18: Relacionando enfermedad y genética
Page 19: Relacionando enfermedad y genética
Page 20: Relacionando enfermedad y genética
Page 21: Relacionando enfermedad y genética

Problemas de GWAS con estadística Funciona bien cuando se trata de un SNP Cuando se usa “linkage” la información

hay que tenerla a priori (qué SNPs se heredan juntos)

Considerar conjuntos de SNPs (es decir, enfermedades complejas multifactoriales) está más limitado

Poco escalable: ¿y si queremos añadir información epigenética?

Page 22: Relacionando enfermedad y genética
Page 23: Relacionando enfermedad y genética

Problemas de GWAS con estadística ¿Qué hacemos en realidad?Descartar la hipótesis de que un SNP no

influya en la enfermedadNo tenemos un resultado claro de cómo

influye, de si es el único o si es determinante La estadística hace “inferencia estadística”

infiere el modelo que representa unos datos

La predicción no es el objetivo

Page 24: Relacionando enfermedad y genética

MACHINE LEARNING

Page 25: Relacionando enfermedad y genética

¿Qué es el Aprendizaje Computacional?

Page 26: Relacionando enfermedad y genética

Para GWAS

El objetivo es predecir a partir de los SNPs si un individuo va a tener la enfermedad

O sea predecir entre dos categorías posibles, enfermo o sano

Page 27: Relacionando enfermedad y genética

Para GWAS

Experiencia: conjunto etiquetado de ejemplos (DNA(SNPs), diagnóstico)Conjunto de entrenamiento 60-80%Conjunto de validación 10-20%Conjunto de prueba 10-30%

Tarea: clasificar DNA entre los diagnósticos

Page 28: Relacionando enfermedad y genética

Medida de prestaciones

Page 29: Relacionando enfermedad y genética

Matriz de confusión

Page 30: Relacionando enfermedad y genética

Importante

Todas las medidas de prestaciones se refieren a los datos que tenemos

Page 31: Relacionando enfermedad y genética
Page 32: Relacionando enfermedad y genética

Problemas de ML

Los datos tienen que ser equilibrados (el mismo número de enfermos que de controles)

Si no hay que equilibrarlos artificialmente

Page 33: Relacionando enfermedad y genética

Comparando los dos

La estadística puede predecir pero lo suyo no es la precisión si no la predicción estadística

El aprendizaje computacional predice mucho mejor que la estadística lo que no hace muy bien es interpretar la razón de esa predicción

Page 34: Relacionando enfermedad y genética

Comparando los dos

Aprendizaje: el mejor en el conjunto dadoHay un salto claro en creer que será la misma

precisión para datos desconocidosPero no es necesario asumir que los datos

son aleatorios, sólo que son representativos (en un sentido poco claro)

Estadística: asume que los datos son aleatorios

Page 35: Relacionando enfermedad y genética

Problema de los dos

Reproducibilidad

Page 36: Relacionando enfermedad y genética
Page 37: Relacionando enfermedad y genética
Page 38: Relacionando enfermedad y genética