Medidas difusas para comparación de TFBSs.

Medidas Difusaspara

Motivos de ADN

Fernando García Alcalde

¿Qué es la transcripción?

• Proceso por el cual se transforma el DNA en RNA

• Cuando la célula necesita una proteína una región del DNA de un cromosoma se copia en a RNA

• Primera etapa del dogma central de la biología molecular:– Transcripción: De DNA a RNA– Traducción: De RNA a proteína

¿Qué se transcribe?

• Cambio de “lenguaje”

• Pocas propiedades químicas cambian:– Nucleótidos son ribonucleótidos (ribosa)– Las bases se mantienen pero la Timina (T) se

transcribe como Uracilo (U)

• Gran cambio en la estructura global:– RNA se presenta como una cadena sencilla– Se pliega en diferentes formas

¿Cómo se transcribe?

• Se abre y desenrolla una zona de la doble hélice de DNA

• Se toma como molde una de las hebras que se deja al descubierto

• Mediante una reacción encimática (RNA polimerasa), se traduce nucleótido a nucleótido de forma que se obtiene una cadena complementaria (A<->U, G<->C)

Transcripción en eucariotas

• Descubrimiento de diferencias: Imposibilidad de conseguir la transcripción in vitro

• Se necesitan factores generales de transcripción (TFIIA, TFIIB,…)

• Se combinan entre ellas y/o se unen a la secuencia promotora para permitir la transcripción.

Transcripción en eucariotas

• Tres tipos de RNA polimerasas:

– RNA polimerasa I: Genes de los rRNA 5, 8S, 18S, 28S

– RNA polimerasa II: todos los genes codificadores de proteínas más algunos de snRNA

– RNA polimerasa III: genes de los tRNA, algunos de snRNA y los genes de otro RNA’s pequeños

RNA polimerasa II. Necesidades

• Factores generales de transcripción (TFIIA, TFIIB,…)

• Proteínas externas que ayudan/dificultan la trascripción -> TF

• Consecuentemente es necesario secuencias en el gen reconocible por las proteínas externas -> TFBS

Cómo actúan los TF• Activan la transcripción:

– Se unen al DNA por un lado y al mediador por otro para hacerlo más estable (Incluso distancias muy largas: doblado de la hélice)

– Se unen al DNA para modificar la cromatina y hacer la transcripción más “fácil”

– Se unen a otros TF’s y después al DNA (probable gap en medio) para modificar las propiedades de la cromatina.

• Reprimen la transcripción:– Se unen al DNA por un lado y al mediador por otro para hacerlo menos

estable– Se unen al “sitio” donde puede unirse un activador– Se unen al DNA y después a un activador por la parte con la que podría

activar la transcripción– Se unen al DNA para modificar la cromatina y hacer la transcripción

más “difícil”

Qué es un TFBS

• TFBS: Transcription Factor Binding Site

• Zona del gen donde se une un TF

• En definitiva una sucesión de aminoácidos (A,C,G,T) que proporcionan unas propiedades químicas adecuadas

• Es muy frecuente que un mismo TF se una a distintas secuencias parecidas de aminoacidos: motivos.

Representación de motivos

• Secuencia de consenso

• PFM -> Position Frequency Matrix -> Cuántas ocurrencias de cada base

• PWM -> Position Weighted Matrix -> weighti,j = ln (ni,j+pi)/(N+1) ~ ln fi,j pi pi

• Logos -> Representación gráfica

Representación de motivos

Ejemplo de motivo

• TATA Box:

Descubrimiento de TFBSs.Hipótesis

• Los genes que se comportan de forma parecida ante las mismas circunstancias son candidatos a compartir mecanismos regulatorios.

• Se intenta arrojar luz en el complejo “mundo” de la transcripción. No resuelve todo.

Esquema general

Genes relacionados

Genes con el motivo en su secuencia promotora

All Genes on the Microarray

Considerar la contribución de cada TFBS

41

…

21

12

5

All Genes

1.01CCCACTCCCG

………

1e-57TTTCTCTTTC

1e-710TTTCAGTTTC

1e-1012TTTCACTTTC

P-valueInduced GenesSequence

Construir un nuevo motivo basado en su contribución a la significatividad del

motivo

Buscar las 100 semillas más prometedoras (bajo p-value)

Degenerar cada semilla

Calcular el p-value de la intersección mediante la distribución hipergeométrica

Algoritmos

• Gibbs Motif: Basado en el Gibbs sampling• MEME: Maximización de la expectación del

TFBS• AlignACE: Basado en técnicas de alineamiento

del genoma• WebMOTIFS: Aplica varios algoritmos y

“mezcla” los resultados.

• Salida: Lista de motivos. MUCHOS falsos positivos

Medidas de comparación entre Motivos

• ¿Cómo de parecidos son dos TFBS degenerados?

Utilidades

• Aplicación directa en métodos de detección de TFBS -> A la hora de degenerar se puede hacer de forma más precisa.

• Filtrar las salidas de los algoritmos y obtener una común.

• Matching con TFBSs conocidos• Eliminación de redundancias en las bases de

datos• Construcción de familias de TFBSs• Otras…

Medidas existentes

• Distancia Euclidea

• Correlación de Pearson

• Average log-likelihood ratio: Media de los PWM

• Kullback-Leibler divergence (KLD): Mide la diferencia entre dos distribuciones

• Pearson Chi-cuadrado -> Columnas estadísticamente independientes

Teoría difusa

• Zadeh (1965) -> Modelar la imprecisión inherente a algunos conceptos

• Se permite a un objeto pertenecer a un conjunto con un valor de pertenencia entre 0 y 1

• Lógica clásica -> restringe los valores a 0 ó 1

Tecnología difusa ¿Por qué?

• Manejo de la incertidumbre

• Tolerancia al ruido típicamente presente en los datos biólogicos

Interpretación difusa de motivos

• En una PFM, cada posición se puede ver como los grados de pertenencia difusa a los conjuntos de los 4 nucleótidos (A,C,G,T)

• Ejemplo: A C G T1 0.1 0.2 0.3 0.62 0.9 0 0.1 0

Medidas difusas (I)

• Teoría de conjuntos: Jaccard coefficient

• Proximidad: Minkowsky r-métrica

∑ −=

),max(),(

21

21

21CC

CCJ

bb

bbCCS

1,)(),(1

21 21 ≥−= ∑ rbbCCd rrCCr

Medidas difusas (II)

• Coeficiente angular: distancia de Bhattacharyya

• Fuzzy polynucleotide space measure (FPSM)– Mapear la matriz en un punto en el hipercubo unitario de

12 dimensiones [0,1]12

( ) ( )∑∑∑

⋅

⋅=

2221

21

21

),(CC

CCB

bb

bbCCS

∑∑

=

=−

= 12

121

12

121

21

),max(),(

i

i

ii

ii

MM

MMMMFPSM

Datos sintéticos (I)

• Generar columnas aleatorias de distribuciones conocidas

• Generar columnas aleatorias de distribuciones aleatorias.

• Comparar la discriminación de las medidas en función del IC

Datos sintéticos (II)

Clustering de JASPAR (I)• JASPAR -> 71 motivos, 11 familias

• Computar FBPs (Familial Binding Profiles)

• Medir la similitud entre cada motivo y su FBP

Clustering de JASPAR (II)

0.480.080.410.650.550.57Media

0.920.260.090.770.690.70CREB0.070.010.910.530.440.45Nuclear0.370.020.730.590.470.47HOM0.500.050.900.680.540.55HMG0.170.030.260.580.490.50TRP0.770.190.270.760.680.70REL0.700.010.040.690.610.62MADS0.620.110.250.720.630.64EBP0.430.020.240.640.540.57bHLH0.050.010.020.550.450.46Fork0.710.190.750.710.620.63ETS

ALLRChi2AngMinkFPSMJacFam

Mejoras

• Bonificar la similitud entre posiciones bien conservadas

• Bonificar matrices que siguen la misma distribución

Conclusiones

• El estudio de la detección y comparación de TFBSs es un problema que permanece abierto.

• La tecnología difusa es aplicable a este tipo de problemas

• Se necesita profundizar en el tema:– Aplicación a genes relacionados

– Incoporación a algoritmos de detección de TFBSs

Ideas futuras

• Los TF no sólo se unen en función de los nucleótidos que se encuentran: aplicar reglas que además consideren características estructurales del cromosoma, lugares donde se encuentra el promotor, etc.

• Permitir gaps para hallar conjuntos de TF relacionados entre sí

Medidas difusas para comparación de TFBSs.

Technology

Transcript of Medidas difusas para comparación de TFBSs.