Medidas difusas para comparación de TFBSs.
-
Upload
alberto-labarga -
Category
Technology
-
view
1.178 -
download
1
Transcript of Medidas difusas para comparación de TFBSs.
Medidas Difusaspara
Motivos de ADN
Fernando García Alcalde
¿Qué es la transcripción?
• Proceso por el cual se transforma el DNA en RNA
• Cuando la célula necesita una proteína una región del DNA de un cromosoma se copia en a RNA
• Primera etapa del dogma central de la biología molecular:– Transcripción: De DNA a RNA– Traducción: De RNA a proteína
¿Qué se transcribe?
• Cambio de “lenguaje”
• Pocas propiedades químicas cambian:– Nucleótidos son ribonucleótidos (ribosa)– Las bases se mantienen pero la Timina (T) se
transcribe como Uracilo (U)
• Gran cambio en la estructura global:– RNA se presenta como una cadena sencilla– Se pliega en diferentes formas
¿Cómo se transcribe?
• Se abre y desenrolla una zona de la doble hélice de DNA
• Se toma como molde una de las hebras que se deja al descubierto
• Mediante una reacción encimática (RNA polimerasa), se traduce nucleótido a nucleótido de forma que se obtiene una cadena complementaria (A<->U, G<->C)
Transcripción en eucariotas
• Descubrimiento de diferencias: Imposibilidad de conseguir la transcripción in vitro
• Se necesitan factores generales de transcripción (TFIIA, TFIIB,…)
• Se combinan entre ellas y/o se unen a la secuencia promotora para permitir la transcripción.
Transcripción en eucariotas
• Tres tipos de RNA polimerasas:
– RNA polimerasa I: Genes de los rRNA 5, 8S, 18S, 28S
– RNA polimerasa II: todos los genes codificadores de proteínas más algunos de snRNA
– RNA polimerasa III: genes de los tRNA, algunos de snRNA y los genes de otro RNA’s pequeños
RNA polimerasa II. Necesidades
• Factores generales de transcripción (TFIIA, TFIIB,…)
• Proteínas externas que ayudan/dificultan la trascripción -> TF
• Consecuentemente es necesario secuencias en el gen reconocible por las proteínas externas -> TFBS
Cómo actúan los TF• Activan la transcripción:
– Se unen al DNA por un lado y al mediador por otro para hacerlo más estable (Incluso distancias muy largas: doblado de la hélice)
– Se unen al DNA para modificar la cromatina y hacer la transcripción más “fácil”
– Se unen a otros TF’s y después al DNA (probable gap en medio) para modificar las propiedades de la cromatina.
• Reprimen la transcripción:– Se unen al DNA por un lado y al mediador por otro para hacerlo menos
estable– Se unen al “sitio” donde puede unirse un activador– Se unen al DNA y después a un activador por la parte con la que podría
activar la transcripción– Se unen al DNA para modificar la cromatina y hacer la transcripción
más “difícil”
Qué es un TFBS
• TFBS: Transcription Factor Binding Site
• Zona del gen donde se une un TF
• En definitiva una sucesión de aminoácidos (A,C,G,T) que proporcionan unas propiedades químicas adecuadas
• Es muy frecuente que un mismo TF se una a distintas secuencias parecidas de aminoacidos: motivos.
Representación de motivos
• Secuencia de consenso
• PFM -> Position Frequency Matrix -> Cuántas ocurrencias de cada base
• PWM -> Position Weighted Matrix -> weighti,j = ln (ni,j+pi)/(N+1) ~ ln fi,j pi pi
• Logos -> Representación gráfica
Representación de motivos
Ejemplo de motivo
• TATA Box:
Descubrimiento de TFBSs.Hipótesis
• Los genes que se comportan de forma parecida ante las mismas circunstancias son candidatos a compartir mecanismos regulatorios.
• Se intenta arrojar luz en el complejo “mundo” de la transcripción. No resuelve todo.
Esquema general
Genes relacionados
Genes con el motivo en su secuencia promotora
All Genes on the Microarray
Considerar la contribución de cada TFBS
41
…
21
12
5
All Genes
1.01CCCACTCCCG
………
1e-57TTTCTCTTTC
1e-710TTTCAGTTTC
1e-1012TTTCACTTTC
P-valueInduced GenesSequence
Construir un nuevo motivo basado en su contribución a la significatividad del
motivo
Buscar las 100 semillas más prometedoras (bajo p-value)
Degenerar cada semilla
Calcular el p-value de la intersección mediante la distribución hipergeométrica
Algoritmos
• Gibbs Motif: Basado en el Gibbs sampling• MEME: Maximización de la expectación del
TFBS• AlignACE: Basado en técnicas de alineamiento
del genoma• WebMOTIFS: Aplica varios algoritmos y
“mezcla” los resultados.
• Salida: Lista de motivos. MUCHOS falsos positivos
Medidas de comparación entre Motivos
• ¿Cómo de parecidos son dos TFBS degenerados?
Utilidades
• Aplicación directa en métodos de detección de TFBS -> A la hora de degenerar se puede hacer de forma más precisa.
• Filtrar las salidas de los algoritmos y obtener una común.
• Matching con TFBSs conocidos• Eliminación de redundancias en las bases de
datos• Construcción de familias de TFBSs• Otras…
Medidas existentes
• Distancia Euclidea
• Correlación de Pearson
• Average log-likelihood ratio: Media de los PWM
• Kullback-Leibler divergence (KLD): Mide la diferencia entre dos distribuciones
• Pearson Chi-cuadrado -> Columnas estadísticamente independientes
Teoría difusa
• Zadeh (1965) -> Modelar la imprecisión inherente a algunos conceptos
• Se permite a un objeto pertenecer a un conjunto con un valor de pertenencia entre 0 y 1
• Lógica clásica -> restringe los valores a 0 ó 1
Tecnología difusa ¿Por qué?
• Manejo de la incertidumbre
• Tolerancia al ruido típicamente presente en los datos biólogicos
Interpretación difusa de motivos
• En una PFM, cada posición se puede ver como los grados de pertenencia difusa a los conjuntos de los 4 nucleótidos (A,C,G,T)
• Ejemplo: A C G T1 0.1 0.2 0.3 0.62 0.9 0 0.1 0
Medidas difusas (I)
• Teoría de conjuntos: Jaccard coefficient
• Proximidad: Minkowsky r-métrica
∑ −=
),max(),(
21
21
21CC
CCJ
bb
bbCCS
1,)(),(1
21 21 ≥−= ∑ rbbCCd rrCCr
Medidas difusas (II)
• Coeficiente angular: distancia de Bhattacharyya
• Fuzzy polynucleotide space measure (FPSM)– Mapear la matriz en un punto en el hipercubo unitario de
12 dimensiones [0,1]12
( ) ( )∑∑∑
⋅
⋅=
2221
21
21
),(CC
CCB
bb
bbCCS
∑∑
=
=−
= 12
121
12
121
21
),max(),(
i
i
ii
ii
MM
MMMMFPSM
Datos sintéticos (I)
• Generar columnas aleatorias de distribuciones conocidas
• Generar columnas aleatorias de distribuciones aleatorias.
• Comparar la discriminación de las medidas en función del IC
Datos sintéticos (II)
Clustering de JASPAR (I)• JASPAR -> 71 motivos, 11 familias
• Computar FBPs (Familial Binding Profiles)
• Medir la similitud entre cada motivo y su FBP
Clustering de JASPAR (II)
0.480.080.410.650.550.57Media
0.920.260.090.770.690.70CREB0.070.010.910.530.440.45Nuclear0.370.020.730.590.470.47HOM0.500.050.900.680.540.55HMG0.170.030.260.580.490.50TRP0.770.190.270.760.680.70REL0.700.010.040.690.610.62MADS0.620.110.250.720.630.64EBP0.430.020.240.640.540.57bHLH0.050.010.020.550.450.46Fork0.710.190.750.710.620.63ETS
ALLRChi2AngMinkFPSMJacFam
Mejoras
• Bonificar la similitud entre posiciones bien conservadas
• Bonificar matrices que siguen la misma distribución
Conclusiones
• El estudio de la detección y comparación de TFBSs es un problema que permanece abierto.
• La tecnología difusa es aplicable a este tipo de problemas
• Se necesita profundizar en el tema:– Aplicación a genes relacionados
– Incoporación a algoritmos de detección de TFBSs
Ideas futuras
• Los TF no sólo se unen en función de los nucleótidos que se encuentran: aplicar reglas que además consideren características estructurales del cromosoma, lugares donde se encuentra el promotor, etc.
• Permitir gaps para hallar conjuntos de TF relacionados entre sí