Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC
Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC
Construcción de un predictor Preparación (i) 1.- Definición del problema (Estructura secundaria, Accesibilidad,...) 2.- Extracción de un conjunto de entrenamiento que debe: i) ser tan amplio como sea posible, ya que extrapolaremos a otros casos a partir de la información asociada a este grupo. ii) ser tan fiable como sea posible (debemos minimizar la presencia de ruido debido a la presencia de errores de partida). iii) estar limpio de redundancias (introducen sesgos en las predicciones). iv) debe estar equilibrado entre los distintos estados a predecir, para evitar que algunos estados sean ignorados en el entrenamiento.
Construcción de un predictor Preparación (ii) 3.- Determinar de qué datos que disponemos que puedan contener información sobre el problema a resolver. 4.- Decidir qué método vamos a usar para construir el predictor (Redes Neuronales, Algoritmos genéticos, HMMs, Sistemas basados en reglas, SVM,...). 5.- Elegir una codificación de la información asociada al problema acorde a éste y compatible con el método elegido.
Construcción de un predictor Desarrollo y Validación 6.- Entrenar el sistema, es decir introducir la información sobre el problema, hasta que el método establezca una relación (normalmente compleja e imperfecta) entre ella y la solución del problema. 7.- Comprobar el éxito del predictor generado frente a un conjunto de validación independiente del de entrenamiento.
Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC
¿Qué? ● Denominamos características 1D de una secuencia a aquellas características que pueden ser representadas por un único valor asociado a cada aminoácido (B. Rost). ● Estos valores suelen tomar la forma de etiquetas de estado, como por ejemplo en el caso de la estructura secundaria (H- >hélice, E->lámina, T->giro) ● Algunas características 1D: – Estructura secundaria – Accesibilidad al solvente – Modificaciones post-transcripcionales – Péptidos señal – Regiones desordenadas – etc.
¿Para qué? Uno de los principales retos de la bioinfomática es predecir cuál es la función de una proteína dada y cómo desarrolla esa función (estructura). Pero ¿de qué información disponemos para ello?
¿Para qué? Uno de los principales retos de la bioinfomática es predecir cuál es la función de una proteína dada y cómo desarrolla esa función (estructura). Pero ¿de qué información disponemos para ello?
¿Para qué? Uno de los principales retos de la bioinfomática es predecir cuál es la función de una proteína dada y cómo desarrolla esa función (estructura). Pero ¿de qué información disponemos para ello?
Submitted on November 20, 2003 Accepted on February 20, 2004 Environmental Genome Shotgun Sequencing of the Sargasso Sea J. Craig Venter 1*, Karin Remington 1, John F. Heidelberg 2, Aaron L. Halpern 3, Doug Rusch 3, Jonathan A. Eisen 2, Dongying Wu 2, Ian Paulsen 2, Karen E. Nelson 2, William Nelson 2, Derrick E. Fouts 2, Samuel Levy 3, Anthony H. Knap 4, Michael W. Lomas 4, Ken Nealson 5, Owen White 2, Jeremy Peterson 2, Jeff Hoffman 1, Rachel Parsons 4, Holly Baden-Tillson 1, Cynthia Pfannkoch 1, Yu-Hui Rogers 6, Hamilton O. Smith 1 We have applied "whole genome shotgun sequencing" to microbial populations collected en mass on tangential flow and impact filters from sea water samples collected from the Sargasso Sea near Bermuda. A total of billion basepairs of non-redundant sequence was generated, annotated and analyzed to elucidate the gene content, and diversity and relative abundance of the organisms within these environmental samples. These data are estimated to derive from at least 1800 genomic species based on sequence relatedness, including 148 novel bacterial phylotypes. We have identified over 1.2 million new genes represented in these samples, including more than 782 new rhodopsin-like photoreceptors. Variation in species present and stoichiometry suggests substantial oceanic microbial diversity. Ejemplo
¿Secuencia→Estructura? Ha sido verificado para muchas proteínas, que la estructura 3D de una proteína (es decir su plegamiento) viene determinada esencialmente por la especificidad de la secuencia.
¿Secuencia→Estructura? Ha sido verificado para muchas proteínas, que la estructura 3D de una proteína (es decir su plegamiento) viene determinada esencialmente por la especificidad de la secuencia. Dificultad para obtener valores suficientemente precisos de parámetros físicos fundamentales para la resolución del problema. El cálculo pormenorizado de la influencia sobre cada resíduo del resto de los aminoácidos de la secuencia, así como del solvente resulta computacionalmente intratable.
¿Secuencia→Estructura? Ha sido verificado para muchas proteínas, que la estructura 3D de una proteína (es decir su plegamiento) viene determinada esencialmente por la especificidad de la secuencia. Dificultad para obtener valores suficientemente precisos de parámetros físicos fundamentales para la resolución del problema. El cálculo pormenorizado de la influencia sobre cada resíduo del resto de los aminoácidos de la secuencia, así como del solvente resulta computacionalmente intratable.
Aproximaciones alternativas ● +++ Extrapolación de estructura/función por homología de secuencia (secuencia→secuencia). ● ++ Reconocimiento de plegamiento / Threading (secuencia→estructura conocida). ● + Predicción de estructura ab initio (secuencia→→nueva estructura)
Aproximaciones alternativas ● +++ Extrapolación de estructura/función por homología de secuencia (secuencia→secuencia). ● ++ Reconocimiento de plegamiento / Threading (secuencia→estructura conocida). ● + Predicción de estructura ab initio (secuencia→→nueva estructura) Todas estas técnicas requieren o se benefician de información proporcionada en forma de características 1D
Los ladrillos
El cemento NH2 CH R1 C O N H CH C O N R2 R3 HOOC C-terminus Peptide bonds
Estructura secundaria (los muros) Helices
Estructura secundaria (los muros) ● Cadenas
Estructura secundaria (los muros) ● Giros
ᄎ Estructura 3D (la casa)
Predicción de características 1D David de Juan Grupo de Diseño de Proteínas CNB-CSIC
1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT 51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE 101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S EEE 151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE 201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK EEEEEEEE TT SSEEEEEEEEEEES Notación de estructura secundaria T=hydrogen bond turn, H=helix, G=310 helix, I=phi helix, B=residue in isolated beta bridge, E=strand, and S=bend Kabsch and Sander (1983) Biopolymers 22, Predicción de Estructura Secundaria
1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT 51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE 101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S EEE 151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE 201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK EEEEEEEE TT SSEEEEEEEEEEES Notación de estructura secundaria T=hydrogen bond turn, H=helix, G=310 helix, I=phi helix, B=residue in isolated beta bridge, E=strand, and S=bend Predicción de Estructura Secundaria Kabsch and Sander (1983) Biopolymers 22,
Predicción de Estructura Secundaria ● Chou y Fasman en 1974, propusieron el primero de estos métodos. Emplearon estadísticas extraídas de las 15 estructuras resueltas por cristalografía de rayos-X en aquella época. Estas probabilidades fueron calculadas para cada resíduo por separado. Más adelante este método mostró una exactitud del 57% sobre 62 proteínas. ● Garnier (1978). Estimó las probabilidades para interacciones de pares de resíduos significativas, obteniendo una mayor fiabilidad (~60%) Primera generación de métodos Métodos estadísticos basados simplemente en la tendencia de cada aminoácido a formar cada uno de los elementos de estructura secundaria
Chou-Fasman Glu, Met Ala y Leu : fuertes formadores de hélices. Val, Ile y Tyr: fuertes formadores de láminas. Name P(a) P(b) P(turn) f(i) f(i+1) f(i+2) f(i+3) Alanine Arginine Aspartic Acid Asparagine Cysteine Glutamic Acid Glutamine Glycine Histidine Isoleucine Leucine Lysine Methionine Phenylalanine Proline Serine Threonine Tryptophan Tyrosine Valine Primera Generación de Métodos
Segunda Generación de Métodos ● La principal característica de estos métodos es la utilización de ventanas de resíduos adyacentes en secuencia, incluyendo así información de contexto a la predicción. ● Un gran número de algoritmos de predicción se usaron en esta generación de métodos: – Redes Neuronales Artificiales – Teoría de Grafos – Métodos basados en reglas – Estadística multivariable –... ● Esta innovación acercó la predicción de estructura secundaria a la barrera del 70% de fiabilidad.
Segunda Generación de Métodos ● Limitaciones – Fiabilidad (prediccciones 3-estados < 70%) – Se obtienen bajas fiabilidades para cadenas- – La hélices y láminas predichas tienden a ser demasiado cortas. Debido a: – El número de estructuras disponibles sigue siendo demasiado pequeño para extrapolar al espacio de secuencias. Difiriendo a veces entre distintos cristales para la misma secuencia. – NO se tienen en cuenta los efectos provocados por resíduos situados a grandes distancias en secuencia (pero no en el espacio)
Tercera Generación de Métodos Iniciada por Levin en 1993 (~69%) y Rost y Sander en 1994 (PHD 72%) – La principal innovación de esta tercera generación es la inclusión de información evolutiva adicional en forma de alineamientos múltiples (Levin, 1993). – Además, se resuelve el sesgo en las predicciones de cadenas- balanceando el conjunto de entrenamiento (dado que las estructuras contienen más hélices que láminas; Rost y Sander, 1994)
Red Neuronal PHD Tercera generación de métodos Rost et al. (1997) J. Mol. Biol. 270: Información de secuencia de la familia de la proteína Perfil derivado del alineamiento múltiple para una ventana de resíduos adyacentes
● Varios métodos han seguido estrategias similares a PHD, mejorando sus resultados a través del prefiltrado de los alineamientos de entrada y la extensión de los perfiles mediante PSIBLAST introducido por David Jones en PSIPRED (1999) con fiabilidades próximas al 77% o mediante HMMs usados por Kevin Karplus et al. en SAMT99sec (1999). ● Otros métodos siguen una estrategia diferente, buscando el consenso de diferentes métodos, como es el caso de Jpred2 (Cuff y Barton, 2000). Tercera generación de métodos
Métodos de Primera generación Métodos de Primera generación: Chou & Fasman, Lim, GORI Métodos de Segunda generación Métodos de Segunda generación : Schneider, ALB, GORIII Métodos de Tercera generación Métodos de Tercera generación: LPAG, COMBINE, S83, NSSP, PHD Ejemplos de fiabilidad de predicción de estructura secundaria
Sequence based Statistics GOR1/GOR3 (1978/1987) DSC (1996) Nearest neighbour methods PREDATOR (1996) NNSSP (1995) Neural Networks Methods PHD (1993) PsiPRED (1999) JNET (1999) Structure based Hidden Markov Models SAM-T99/SAM-T02 (1999/2002) Chow-Fassman (1974) Accuracy 57% 63%/66% 70% 75% 72% 74% 75.7% 73%?? ~76% Ejemplos de fiabilidad de predición de estructura secundaria
Fiabilidad de PHD usando un conjunto de proteínas de prueba La Fiabilidad de la predicción depende de la proteína
● NO se tienen en cuenta los efectos provocados por resíduos situados a grandes distancias en secuencia (pero no en el espacio) ● Proteínas con características inusuales deben tratarse con cuidado ● Las predicciones siguen cosiderando sólo tres estados ● Malos alineamientos producen malas predicciones Problemas no resueltos
Algunas regiones de las secuencias no pueden clasificarse en ninguno de los tipos de estructura secundaria Estas regiones normalmente no son visibles en los cristales y están desordenadas. Las regiones desordenadas son rizos, caracterizados normalmente por elevados niveles de aminoácidos polares o regiones de baja complejidad. Algunas regiones desordenadas cortas sin importancia funcional aparente suelen hallarse en los extremos de las cadenas proteícas. Desorden estructural
Las regiones más largas están conservadas en posición dentro de las familias de proteínas. Posibles funciones se relacionan con regiones que conectan dominios, sitios proteolíticos y con el reconocimiento y unión a ligandos y otras proteínas. Se encuentran amenudo en ciertas enzimas, como en aquellas involucradas en el crecimiento y división celular o en forforilación proteíca. Las principales enzimas que contiene regiones desordenadas son los factores de transcripción, las kinasas y los reguladores de la transcripción. Más desorden
193 ISTZORAN (Zoran Obradovic, Temple University) neural network 096 CaspIta (Tosatto et al., Univ. of Padova) support vector machines 003 Jones UCL (David Jones, University College London) support vector machines (DISOPRED) 347 DRIP PRED (server from Bob MacCallum, Stockholm) Kohonen self-organizing maps 472 Softberry. A combination of a neural network, linear discriminant function, and a smoothing procedure Una evaluación de los métodos (CASP 6)
Accesibilida d al solvente
● Al igual que con las predicciones de estructura secundaria, se puede estudiar la plausibilidad de las estructuras predichas por un método dado mediante el uso de la información de accesibilidad al solvente. ● Además esta infomación puede ser de utilidad en otros ámbitos, como la predicción de superficies de interacción entre proteínas o de sitios funcionales. ¿Por qué?
La mayoría de los métodos reducen el problema a la predicción de dos estados oculto (accs. relativas. = 16%). Predicción de accesibilidad al solvente Ls
Aunque la accesibilidad es una función de la hidrofobicidad los métodos basados en perfiles de esta propiedad funcionan peor que aquellos más avanzados La predicción de accesibilidad mejora por el uso de ventanas en secuencia. Al igual que ocurre con la estructura secundaria, la accesibilidad al solvente es una propiedad sujeta a fuertes restricciones evolutivas, por lo que su predicción se beneficia del uso de alineamientos múltipes. En la mayoría de los casos las metodologías usadas son pequeñas variaciones de las usadas en la predicción de estructura secundaria Predicción de accesibilidad al solvente
● PHDacc y PROFacc (B. Rost) emplean redes neuronales e infomación de alineamientos múltiples. Son los únicos métodos que predicen valores reales para accesibilidades relativas (de una matriz con los valores 0, 1, 4, 9, 16, 25, 36, 49, 64, 81). ● JPred2 usa perfiles de PSIBLAST como entrada para sus redes neuronales y devuelve predicciones del tipo oculto/expuesto. Algunos métodos
Proteínas Transmembrana...
¿Por qué? Aunque recientemente han aparecido algunos métodos orientados a la predicción de barriles beta, la escasez de estructuras disponibles hace que resulte muy difícil evaluar la calidad de dichos métodos. Las obtención de estructuras tridimensionales de proteínas transmembrana es un gran problema, ya que raramente producen cristales y su estudio por NMR no es posible. De hecho aún no es posible una predicción de estructuras transmembrana a nivel atómico
Dos reglas básicas (1) Las hélices transmembrana tienden a tener una logitud de resíduos con una hidrofobidad total alta. (2) Las regiones de conexión entre hélices del interior del citoplasma tienen una carga positiva mayor que las del exterior
MEMSAT - Algoritmo de programación dinámica que hace predicciones basadas en tablas estadísticas compiladas de los datos de proteínas de membrana. TMAP - Usa estadíticas extraídas de perfiles de secuencia. TopPred2 - Promedia los valores de hidropatía con una ventana trapezoidal HMMTOP - Se definen 5 estados estructurales y mediante HMMs para generar fragmentos de secuencia que maximizen la frecuencia de cada estado. PHDhtm - Combina redes neuronales, alineamientos múltiples y programación dinámica (proporciona un índice de fiabilidad). DAS - Utiliza alineamientos múltiples de un conjunto no redundante de proteínas de membrana. TMHMM - Métodos estadísticos y HMMs que ayudan a mejorar la localización y orientación de hélices trans-membrana. Algunos métodos de predicción de hélices trans-membrana
Ejemplo de predicción de topología
Los métodos actuales dicen identificar correctamente >90% de los segmentos tras- membrana y predecir correctamente la topología en >80% de los casos. Sin embargo, el pequeño tamaño de de los conjuntos de entrenamiento hacen estas estimaciones poco fiables (¿~60-70%?) Se sabe que todos los métodos tienden a predecir péptidos señal como helices trans- membrana, así como a sobrepredecir en proteínas globulares. Fiabilidad
ExPASy Proteomics tools ExPASy Proteomics toolshttp:// PSORT - prediction of signal proteins and localisation sites TargetP - prediction of subcellular localisation SignalP - prediction of signal peptides ChloroP - prediction of chloroplast peptides NetOGlyc - prediction of O-glycosilation sites in mammalian proteins Big-PI - prediction of glycosil -phosphatidyl inositol modification sites DGPI - prediction of anchor and breakage sites for GPI NetPhos - prediction of phosphorylation sites (Ser, Thr, Tyr) in eukaryotes NetPicoRNA - prediction of cleavage sites for proteases in the picornavirus NMT - prediction of N-miristoilation of N-terminals Sulfinator - predicts sulphattation sites in tyrosines Algunos predictores de otras características 1D. (Modificaciones Post-Transcripcionales, localización, etc).
Agradecimientos... Michael Tress Amalia Muñoz Ana Rojas y el resto del PDG