Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

53
Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC

Transcript of Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Page 1: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Predicción de características 1D

David de JuanGrupo de Diseño de ProteínasCNB-CSIC

Page 2: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Predicción de características 1D

David de JuanGrupo de Diseño de ProteínasCNB-CSIC

Page 3: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Construcción de un predictorPreparación (i)

1.- Definición del problema (Estructura secundaria, Accesibilidad, ...)

2.- Extracción de un conjunto de entrenamiento que debe:

i) ser tan amplio como sea posible, ya que extrapolaremos a otros casos a partir de la información asociada a este grupo.

ii) ser tan fiable como sea posible (debemos minimizar la presencia de ruido debido a la presencia de errores de partida).

iii) estar limpio de redundancias (introducen sesgos en las predicciones).

iv) debe estar equilibrado entre los distintos estados a predecir, para evitar que algunos estados sean ignorados en el entrenamiento.

Page 4: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Construcción de un predictorPreparación (ii)

3.- Determinar de qué datos que disponemos que puedan contener información sobre el problema a resolver.

4.- Decidir qué método vamos a usar para construir el predictor (Redes Neuronales, Algoritmos genéticos, HMMs, Sistemas basados en reglas, SVM, ...).

5.- Elegir una codificación de la información asociada al problema acorde a éste y compatible con el método elegido.

Page 5: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Construcción de un predictorDesarrollo y Validación

6.- Entrenar el sistema, es decir introducir la información sobre el problema, hasta que el método establezca una relación (normalmente compleja e imperfecta) entre ella y la solución del problema.

7.- Comprobar el éxito del predictor generado frente a un conjunto de validación independiente del de entrenamiento.

Page 6: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Predicción de características 1D

David de JuanGrupo de Diseño de ProteínasCNB-CSIC

Page 7: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Qué?● Denominamos características 1D de una secuencia a aquellas

características que pueden ser representadas por un único valor  asociado a cada aminoácido (B. Rost).

● Estos valores suelen tomar la forma de etiquetas de estado, como por ejemplo en el caso de la estructura secundaria (H->hélice, E->lámina, T->giro)

● Algunas características 1D:

– Estructura secundaria

– Accesibilidad al solvente

– Modificaciones post-transcripcionales

– Péptidos señal

– Regiones desordenadas

– etc.

Page 8: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Para qué?Uno de los principales retos de la bioinfomática es predecir cuál es la función de una proteína dada y cómo desarrolla esa función (estructura).

Pero ¿de qué información disponemos para ello?

Page 9: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Para qué?Uno de los principales retos de la bioinfomática es predecir cuál es la función de una proteína dada y cómo desarrolla esa función (estructura).

Pero ¿de qué información disponemos para ello?

Page 10: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Para qué?Uno de los principales retos de la bioinfomática es predecir cuál es la función de una proteína dada y cómo desarrolla esa función (estructura).

Pero ¿de qué información disponemos para ello?

Page 11: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Submitted on November 20, 2003Accepted on February 20, 2004

Environmental Genome Shotgun Sequencing of the Sargasso Sea

J. Craig Venter 1*, Karin Remington 1, John F. Heidelberg 2, Aaron L. Halpern 3, Doug Rusch 3, Jonathan A. Eisen 2, Dongying Wu 2, Ian Paulsen 2, Karen E. Nelson 2, William Nelson 2, Derrick E. Fouts 2, Samuel Levy 3, Anthony H. Knap 4, Michael W. Lomas 4, Ken Nealson 5, Owen White 2, Jeremy Peterson 2, Jeff Hoffman 1, Rachel Parsons 4, Holly Baden-Tillson 1, Cynthia Pfannkoch 1, Yu-Hui Rogers 6, Hamilton O. Smith 1

We have applied "whole genome shotgun sequencing" to microbial populations collected en mass on tangential flow and impact filters from sea water samples collected from the Sargasso Sea near Bermuda. A total of 1.045 billion basepairs of non-redundant sequence was generated, annotated and analyzed to elucidate the gene content, and diversity and relative abundance of the organisms within these environmental samples. These data are estimated to derive from at least 1800 genomic species based on sequence relatedness, including 148 novel bacterial phylotypes. We have identified over 1.2 million new genes represented in these samples, including more than 782 new rhodopsin-like photoreceptors. Variation in species present and stoichiometry suggests substantial oceanic microbial diversity.

Ejemplo

Page 12: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Secuencia→Estructura?

Ha sido verificado para muchas proteínas, que la estructura 3D de una proteína (es decir su plegamiento) viene determinada esencialmente por la especificidad de la secuencia.

Page 13: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Secuencia→Estructura?

Ha sido verificado para muchas proteínas, que la estructura 3D de una proteína (es decir su plegamiento) viene determinada esencialmente por la especificidad de la secuencia.

Dificultad para obtener valores suficientemente precisos de parámetros físicos fundamentales para la resolución del problema.

El cálculo pormenorizado de la influencia sobre cada resíduo del resto de los aminoácidos de la secuencia, así como del solvente resulta computacionalmente intratable.

Page 14: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Secuencia→Estructura?

Ha sido verificado para muchas proteínas, que la estructura 3D de una proteína (es decir su plegamiento) viene determinada esencialmente por la especificidad de la secuencia.

Dificultad para obtener valores suficientemente precisos de parámetros físicos fundamentales para la resolución del problema.

El cálculo pormenorizado de la influencia sobre cada resíduo del resto de los aminoácidos de la secuencia, así como del solvente resulta computacionalmente intratable.

Page 15: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Aproximaciones alternativas

● +++Extrapolación de estructura/función por homología de secuencia (secuencia→secuencia).

● ++Reconocimiento de plegamiento / Threading (secuencia→estructura

conocida).

● + Predicción de estructura ab initio (secuencia→→nueva estructura)

Page 16: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Aproximaciones alternativas

● +++Extrapolación de estructura/función por homología de secuencia (secuencia→secuencia).

● ++Reconocimiento de plegamiento / Threading (secuencia→estructura

conocida).

● + Predicción de estructura ab initio (secuencia→→nueva estructura)

Todas estas técnicas requieren o se benefician de información proporcionada en forma de características 1D

Page 17: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Los ladrillos

Page 18: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

El cemento

NH2CH

R1

C

O

N

H

CHC

O

NCH

R2

R3

HOOC

C-terminus

Peptide bonds

Page 19: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Estructura secundaria (los muros)

● Helices

Page 20: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Estructura secundaria (los muros)

● Cadenas

Page 21: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Estructura secundaria (los muros)

● Giros

Page 22: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

ᄎEstructura 3D (la casa)Estructura 3D (la casa)

Page 23: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Predicción de características 1D

David de JuanGrupo de Diseño de ProteínasCNB-CSIC

Page 24: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT

51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE

101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S EEE

151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE

201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK EEEEEEEE TT SSEEEEEEEEEEES

Notación de estructura secundariaNotación de estructura secundaria

T=hydrogen bond turn, H=helix, G=310 helix, I=phi helix, B=residue in isolated beta bridge, E=strand, and S=bend

Kabsch and Sander (1983) Biopolymers 22, 2577-2637

Predicción de Estructura Secundaria

Page 25: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT

51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE

101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S EEE

151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE

201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK EEEEEEEE TT SSEEEEEEEEEEES

Notación de estructura secundariaNotación de estructura secundaria

T=hydrogen bond turn, H=helix, G=310 helix,I=phi helix, B=residue in isolated beta bridge, E=strand, and S=bend

Predicción de Estructura Secundaria

Kabsch and Sander (1983) Biopolymers 22, 2577-2637

Page 26: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Predicción de Estructura Secundaria

● Chou y Fasman en 1974, propusieron el primero de estos métodos. Emplearon estadísticas extraídas de las 15 estructuras resueltas por cristalografía de rayos-X en aquella época. Estas probabilidades fueron calculadas para cada resíduo por separado. Más adelante este método mostró una exactitud del 57% sobre 62 proteínas.

● Garnier (1978). Estimó las probabilidades para interacciones de pares de resíduos significativas, obteniendo una mayor fiabilidad (~60%)

Primera generación de métodosPrimera generación de métodos

Métodos estadísticos basados simplemente en la tendencia de cada aminoácido a formar cada uno de los elementos de estructura secundaria

Page 27: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Chou-Fasman

Glu, Met Ala y Leu : fuertes formadores de hélices.Val, Ile y Tyr: fuertes formadores de láminas.

Name P(a) P(b) P(turn) f(i) f(i+1) f(i+2) f(i+3)Alanine 142 83 66 0.06 0.076 0.035 0.058Arginine 98 93 95 0.070 0.106 0.099 0.085Aspartic Acid 101 54 146 0.147 0.110 0.179 0.081Asparagine 67 89 156 0.161 0.083 0.191 0.091Cysteine 70 119 119 0.149 0.050 0.117 0.128Glutamic Acid 151 037 74 0.056 0.060 0.077 0.064Glutamine 111 110 98 0.074 0.098 0.037 0.098Glycine 57 75 156 0.102 0.085 0.190 0.152Histidine 100 87 95 0.140 0.047 0.093 0.054Isoleucine 108 160 47 0.043 0.034 0.013 0.056Leucine 121 130 59 0.061 0.025 0.036 0.070Lysine 114 74 101 0.055 0.115 0.072 0.095Methionine 145 105 60 0.068 0.082 0.014 0.055Phenylalanine 113 138 60 0.059 0.041 0.065 0.065Proline 57 55 152 0.102 0.301 0.034 0.068Serine 77 75 143 0.120 0.139 0.125 0.106Threonine 83 119 96 0.086 0.108 0.065 0.079Tryptophan 108 137 96 0.077 0.013 0.064 0.167Tyrosine 69 147 114 0.082 0.065 0.114 0.125Valine 106 170 50 0.062 0.048 0.028 0.053

Primera Generación de MétodosPrimera Generación de Métodos

Page 28: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Segunda Generación de MétodosSegunda Generación de Métodos

● La principal característica de estos métodos es la utilización de ventanas de resíduos adyacentes en secuencia, incluyendo así información de contexto a la predicción.

● Un gran número de algoritmos de predicción se usaron en esta generación de métodos:

– Redes Neuronales Artificiales

– Teoría de Grafos

– Métodos basados en reglas

– Estadística multivariable

– ...

● Esta innovación acercó la predicción de estructura secundaria a la barrera del 70% de fiabilidad.

Page 29: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Segunda Generación de MétodosSegunda Generación de Métodos

● Limitaciones

– Fiabilidad (prediccciones 3-estados < 70%)

– Se obtienen bajas fiabilidades para cadenas-– La hélices y láminas predichas tienden a ser demasiado cortas.● Debido a:

– El número de estructuras disponibles sigue siendo demasiado pequeño para extrapolar al espacio de secuencias. Difiriendo a veces entre distintos cristales para la misma secuencia.

– NO se tienen en cuenta los efectos provocados por resíduos situados a grandes distancias en secuencia (pero no en el espacio)

Page 30: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Tercera Generación de MétodosTercera Generación de Métodos

Iniciada por Levin en 1993 (~69%) y Rost y Sander en 1994 (PHD 72%)

– La principal innovación de esta tercera generación es la inclusión de información evolutiva adicional en forma de alineamientos múltiples (Levin, 1993).

– Además, se resuelve el sesgo en las predicciones de cadenas- balanceando el conjunto de entrenamiento (dado que las estructuras contienen más hélices que láminas; Rost y Sander, 1994)

Page 31: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Red Neuronal PHDRed Neuronal PHDTercera generación de Tercera generación de métodosmétodos

Rost et al. (1997) J. Mol. Biol. 270: 471-480

Información de secuencia de la familia de la proteína

Perfil derivado del alineamiento múltiple para una ventana de resíduos adyacentes

Page 32: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

● Varios métodos han seguido estrategias similares a PHD, mejorando sus resultados a través del prefiltrado de los alineamientos de entrada y la extensión de los perfiles mediante PSIBLAST introducido por David Jones en PSIPRED (1999) con fiabilidades próximas al 77% o mediante HMMs usados por Kevin Karplus et al. en SAMT99sec (1999).

● Otros métodos siguen una estrategia diferente, buscando el consenso de diferentes métodos, como es el caso de Jpred2 (Cuff y Barton, 2000).

Tercera generación de Tercera generación de métodosmétodos

Page 33: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Métodos de Primera generaciónMétodos de Primera generación: Chou & Fasman, Lim, GORI

Métodos de Segunda generaciónMétodos de Segunda generación : Schneider, ALB, GORIII

Métodos de Tercera generaciónMétodos de Tercera generación: LPAG, COMBINE, S83, NSSP, PHD

Ejemplos de fiabilidad de predicción Ejemplos de fiabilidad de predicción de estructura secundariade estructura secundaria

Page 34: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Sequence basedStatistics

GOR1/GOR3 (1978/1987)

DSC (1996)Nearest neighbour methods

PREDATOR (1996)NNSSP (1995)

Neural Networks MethodsPHD (1993)PsiPRED (1999)JNET (1999)

Structure basedHidden Markov Models

SAM-T99/SAM-T02 (1999/2002)

Chow-Fassman (1974)

Accuracy

57%63%/66%

70%

75%

72%

74%75.7%

73%??

~76%

Ejemplos de fiabilidad de predición Ejemplos de fiabilidad de predición de estructura secundariade estructura secundaria

Page 35: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Fiabilidad de PHD usando un conjunto de proteínas de prueba

La Fiabilidad de la predicción depende de la proteínaLa Fiabilidad de la predicción depende de la proteína

Page 36: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

● NO se tienen en cuenta los efectos provocados por resíduos situados a grandes distancias en secuencia (pero no en el espacio)

● Proteínas con características inusuales deben tratarse con cuidado

● Las predicciones siguen cosiderando sólo tres estados

● Malos alineamientos producen malas predicciones

Problemas no Problemas no resueltosresueltos

Page 37: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Algunas regiones de las secuencias no pueden clasificarse en ninguno de los tipos de estructura secundaria

Estas regiones normalmente no son visibles en los cristales y están desordenadas.

Las regiones desordenadas son rizos, caracterizados normalmente por elevados niveles de aminoácidos polares o regiones de baja complejidad.

Algunas regiones desordenadas cortas sin importancia funcional aparente suelen hallarse en los extremos de las cadenas proteícas.

Desorden Desorden estructuralestructural

Page 38: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Las regiones más largas están conservadas en posición dentro de las familias de proteínas. Posibles funciones se relacionan con regiones que conectan dominios, sitios proteolíticos y con el reconocimiento y unión a ligandos y otras proteínas.

Se encuentran amenudo en ciertas enzimas, como en aquellas involucradas en el crecimiento y división celular o en forforilación proteíca.

Las principales enzimas que contiene regiones desordenadas son los factores de transcripción, las kinasas y los reguladores de la transcripción.

Más desordenMás desorden

Page 39: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

193 ISTZORAN (Zoran Obradovic, Temple University) neural network096 CaspIta (Tosatto et al., Univ. of Padova) support vector machines003 Jones UCL (David Jones, University College London) support vector machines (DISOPRED)347 DRIP PRED (server from Bob MacCallum, Stockholm) Kohonen self-organizing maps472 Softberry. A combination of a neural network, linear discriminant function, and a smoothing procedure

Una evaluación de los Una evaluación de los métodosmétodos

(CASP 6)(CASP 6)

Page 40: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

AccesibilidAccesibilidad al ad al

solventesolvente

Page 41: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

●Al igual que con las predicciones de estructura secundaria, se puede estudiar la plausibilidad de las estructuras predichas por un método dado mediante el uso de la información de accesibilidad al solvente.●Además esta infomación puede ser de utilidad en otros ámbitos, como la predicción de superficies de interacción entre proteínas o de sitios funcionales.

¿Por qué?¿Por qué?

Page 42: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

La mayoría de los métodos reducen el problema a la predicción de dos estados oculto (accs. relativas. <16%) o expuesto (accs. relativas >= 16%).

Predicción de accesibilidad al Predicción de accesibilidad al solventesolvente

Ls

Page 43: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Aunque la accesibilidad es una función de la hidrofobicidad los métodos basados en perfiles de esta propiedad funcionan peor que aquellos más avanzados

La predicción de accesibilidad mejora por el uso de ventanas en secuencia.

Al igual que ocurre con la estructura secundaria, la accesibilidad al solvente es una propiedad sujeta a fuertes restricciones evolutivas, por lo que su predicción se beneficia del uso de alineamientos múltipes.

En la mayoría de los casos las metodologías usadas son pequeñas variaciones de las usadas en la predicción de estructura secundaria

Predicción de accesibilidad al Predicción de accesibilidad al solventesolvente

Page 44: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

● PHDacc y PROFacc (B. Rost) emplean redes neuronales e infomación PHDacc y PROFacc (B. Rost) emplean redes neuronales e infomación de alineamientos múltiples. Son los únicos métodos que predicen de alineamientos múltiples. Son los únicos métodos que predicen valores reales para accesibilidades relativas (de una matriz con los valores reales para accesibilidades relativas (de una matriz con los valores 0, 1, 4, 9, 16, 25, 36, 49, 64, 81).valores 0, 1, 4, 9, 16, 25, 36, 49, 64, 81).

● JPred2 usa perfiles de PSIBLAST como entrada para sus redes JPred2 usa perfiles de PSIBLAST como entrada para sus redes neuronales y devuelve predicciones del tipo oculto/expuesto.neuronales y devuelve predicciones del tipo oculto/expuesto.

Algunos métodosAlgunos métodos

Page 45: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Proteínas Transmembrana ...Proteínas Transmembrana ...

Page 46: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

¿Por qué?¿Por qué?

Aunque recientemente han aparecido algunos métodos orientados a la predicción de barriles beta, la escasez de estructuras disponibles hace que resulte muy difícil evaluar la calidad de dichos métodos.

•Las obtención de estructuras tridimensionales de proteínas transmembrana es un gran problema, ya que raramente producen cristales y su estudio por NMR no es posible. •De hecho aún no es posible una predicción de estructuras transmembrana a nivel atómico

Page 47: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Dos reglas básicasDos reglas básicas

(1) Las hélices transmembrana tienden a tener una logitud de 20-30 resíduos con una hidrofobidad total alta.

(2) Las regiones de conexión entre hélices del interior del citoplasma tienen una carga positiva mayor que las del exterior

Page 48: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

MEMSAT - http://bioinf.cs.ucl.ac.uk/psipred/Algoritmo de programación dinámica que hace predicciones basadas en tablas estadísticas compiladas de los datos de proteínas de membrana.TMAP - http://www.mbb.ki.se/tmap/index.htmlUsa estadíticas extraídas de perfiles de secuencia.TopPred2 - http://bioweb.pasteur.fr/seqanal/interfaces/toppred.htmlPromedia los valores de hidropatía con una ventana trapezoidalHMMTOP - http://www.enzim.hu/hmmtop/Se definen 5 estados estructurales y mediante HMMs para generar fragmentos de secuencia que maximizen la frecuencia de cada estado.PHDhtm - http://www.embl-heidelberg.de/predictprotein/Combina redes neuronales, alineamientos múltiples y programación dinámica (proporciona un índice de fiabilidad).DAS - http://www.enzim.hu/DAS/DAS.htmlUtiliza alineamientos múltiples de un conjunto no redundante de proteínas de membrana.TMHMM - http://www.cbs.dtu.dk/services/TMHMM/Métodos estadísticos y HMMs que ayudan a mejorar la localización y orientación de hélices trans-membrana.

Algunos métodos de predicción de Algunos métodos de predicción de hélices trans-membranahélices trans-membrana

Page 49: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Ejemplo de predicción de topologíaEjemplo de predicción de topología

Page 50: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

• Los métodos actuales dicen identificar correctamente >90% de los segmentos tras-membrana y predecir correctamente la topología en >80% de los casos.

• Sin embargo, el pequeño tamaño de de los conjuntos de entrenamiento hacen estas estimaciones poco fiables (¿~60-70%?)

• Se sabe que todos los métodos tienden a predecir péptidos señal como helices trans-membrana, así como a sobrepredecir en proteínas globulares.

FiabilidadFiabilidad

Page 51: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

ExPASy Proteomics toolsExPASy Proteomics tools http://www.expasy.ch/tools/

PSORT - prediction of signal proteins and localisation sites TargetP - prediction of subcellular localisationSignalP - prediction of signal peptides

ChloroP - prediction of chloroplast peptidesNetOGlyc - prediction of O-glycosilation sites in mammalian proteinsBig-PI - prediction of glycosil -phosphatidyl inositol modification sites DGPI - prediction of anchor and breakage sites for GPI

NetPhos - prediction of phosphorylation sites (Ser, Thr, Tyr) in eukaryotesNetPicoRNA - prediction of cleavage sites for proteases in the picornavirusNMT - prediction of N-miristoilation of N-terminalsSulfinator - predicts sulphattation sites in tyrosines

Algunos predictores de otras Algunos predictores de otras características 1D.características 1D.(Modificaciones Post-(Modificaciones Post-Transcripcionales, localización, etc).Transcripcionales, localización, etc).

Page 52: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.

Agradecimientos ...Agradecimientos ...

Michael TressAmalia MuñozAna Rojas

y el resto del PDG

Page 53: Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC.