Protein sequence analysis Structural Bioinformatics

Protein sequence analysis Structural Bioinformatics
Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín 2007

El flujo de información en biología
Gen Función > DNA AATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACAC TGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAA TCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTA ACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGG TTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAA TTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTG GTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGA CGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGC TACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGA ACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGG TAAGAAGATCGCGAACATCTAGTAGA > Proteina MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNI DELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGK KVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNE PDEAEQDCIEFGKKIANI

Conformación proteica
Christian Anfinsen Estudios sobre desnaturalización reversible: “la secuencia determina la conformación” Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final. A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales? Respuesta: predicción ab initio (no muy confiable!!!)

Protein sequence analysis
Ancestro común? Función conservada? Dominio o secuencia completa?

BLAST Identifica high-scoring segment pairs (HSPs)
Un par de secuencias que pueden ser alineados sin gaps Cuando están alineadas tienen un score agregado máximo (no puede ser mejorado por extensión o por recorte del alineamiento) El score debe estar por arriba de un determinado valor (threshold) S. gapped (2.0) o ungapped (1.4) Modos de uso (interfases disponibles) WWW search form Unix command line blastall -p progname -d db -i query > outfile

Algoritmos BLAST Program Query Sequence Target Sequence
BLASTN Nucleotide Nucleotide BLASTP Protein Protein BLASTX Nucleotide, Protein six-frame translation TBLASTN Protein Nucleotide, TBLASTX Nucleotide, Nucleotide, six-frame translation six-frame translation

Palabras cercanas (neighborhood words)
Query Word (W = 3) Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED Neighborhood Words PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Neighborhood Score Threshold (T = 13)

High-scoring segment pairs (HSPs)
PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Query: SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TP G R++ +W+ P+ D + ER + A Sbjct: TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330

Requerimientos de una búsqueda de BLAST
Una secuencia query, en formato FASTA. Qué programa de BLAST usar. Qué base de datos buscar. Parámetros de la búsqueda.

Secuencia query BLASTP / SWISSPROT / BLOSUM62
>N-terminal unknown protein MSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNL FGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN... BLASTP / SWISSPROT / BLOSUM62 Score E Sequences producing significant alignments: (bits) Value sp|P29617|PRO_DROME PROTEIN PROSPERO sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH e-63 sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) e-55 sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) e-55 sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) e-54 sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) sp|P31000|VIME_RAT VIMENTIN sp|P48670|VIME_CRIGR VIMENTIN Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!!

Número de HSPs hallados por puro azar
Requerimientos BLAST Una secuencia query, en formato FASTA. Qué programa de BLAST usar. Qué base de datos buscar. Parámetros de la búsqueda. E = kNe-S Número de HSPs hallados por puro azar X HSP X Cumulative Score Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico. S T Extension

Matrices de scoring Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional) Cys : puentes disulfuro o unión a metales: estabilizan la estructura. Pro : relativamente voluminoso y sin grupo N-H para cadenas laterales: ocurre en codos (turns). Trp: cadena lateral voluminosa. Lys/Arg: cadenas laterales cargadas positivamente. Gly: no tiene cadena lateral. Permite rotar a la cadena porlipeptídica: ocurre en codos (turns). Ala: sinpropiedades particulaes. Cadena lateral pequeña: ocurre frecuentemente en alpha-hélices. Glu/Asp: frecuentes al comienzo de alpha-hélices. Lys/Arg: frecuentes hacia el final de alpha-hélices.

Matrices de scoring: importancia
Es importante comprender las matrices de scoring Aparecen (y son la base) de todos los análisis que involucran comparación de secuencias. Representan en forma implícita una teoría particular de la evolución. La elección de la matriz puede influenciar fuertemente los resultados que se obtengan.

Estructura de una matriz
A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X *

Triple-PAM (Altschul, 1991)
Hay tantas matrices ... Triple-PAM (Altschul, 1991) PAM 40 Alineamientos cortos, alta similitud PAM 120 PAM 250 Alineamientos largos, baja similitud BLOSUM 62 (Henikoff, 1993) La más efectiva para detectar miembros de una familia de proteínas. (BLAST default). No hay una matriz que sea la respuesta completa para todas las comparaciones!!!

Point Accepted Mutation (PAM)
Matrices PAM Margaret Dayhoff, 1978 Point Accepted Mutation (PAM) Se observan los patrones de sustituciones en proteínas relacionadas. La nueva cadena lateral debe funcionar en forma similar a la anterior (aceptación) En promedio 1 PAM, corresponde al cambio de 1 amino ácido cada 100 residuos. 1 PAM ~ 1% divergencia Se extrapola para predecir patterns de mutación a mayores distancias.

Matrices PAM (cont.) Suposiciones Fuentes de error
Una mutación es independiente de los residuos que la rodean. Las secuencias comparadas son de una composición promedio. Todos los sitios son igualmente reemplazables. Fuentes de error Para derivar las matrices se utilizaron proteínas pequeñas, globulares (desvío de la composición promedio). Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250 No considera, ni es flexible para considerar bloques conservados o dominios.

Blocks Substitution Matrix (BLOSUM)
Matrices BLOSUM Henikoff and Henikoff, 1992 Blocks Substitution Matrix (BLOSUM) Considera sólo diferencias en regiones conservadas, libres de gaps, de una familia proteica. Más sensible a sustituciones estructurales o funcionales. BLOSUM n Contribución de secuencias > n% idénticas pesan 1. Reduce la contribución de secuencias muy similares. Incrementar n ~ incrementar la distancia PAM.

Ancestro común? Función conservada? Dominio o secuencia completa?

Profiles Representación númerica de un alineamiento múltiple.
Depende de patrones (patterns) o motivos (motifs) que contengan residuos conservados. Representan las características comunes de una familia de proteínas. Permite identificar similitud entre secuencias con poca o ninguna identidad. Permite incorporar al análisis secuencias relacionadas en forma distante.

Construcción de profiles
Qué residuos aparecen en cada posición? Cuál es la frecuencia de los residuos observados? Qué posiciones están conservadas? Dónde pueden introducirse gaps? APHIIVATPG GCEIVIATPG GVEICIATPG GVDILIGTTG RPHIIVATPG KPHIIIATPG KVQLIIATPG RPDIVIATPG APHIIVGTPG GCHVVIATPG NQDIVVATTG Position-Specific Scoring Table Cons A B C D E F G H I K L M N P Q R S T V W Y Z G P H I V V A T P G

ProfileScan Compara una secuencia contra una colección de profiles.
Bases de datos disponibles PROSITE entries Pfam entries

Query ProfileScan E-value Signatures
>C-terminal end MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... Selecciono TODAS las bases de datos Sólo matches significativos normalized raw from - to Profile|Description pos PF00012|HSP70 Heat shock hsp70 proteins E-value Signatures NScore SwissProt e-211 [IV]-D-L-G-T-[ST]-x-[SC] [LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)- [ST]-[LIVM]-[LIVMFC] [LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x- [DEQKRSTA]

BLOCKS Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle
Alineamientos múltiples de regiones conservadas en familias de proteínas. 1 “block” = 1 alineamiento corto, sin gaps Cada familia puede definirse por uno o más ‘blocks’ Las búsquedas permiten detectar uno o más blocks representantes de una familia. Interfases disponibles Web

Query BLOCKS Search blocks Examine blocks >C-terminal end
MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... Search blocks BL00297A HSCA_ECOLI ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA ||||||||||||||||||||||||||||||||||||||||||||||||||||||| C-terminal ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA Examine blocks ID HSP70_1; BLOCK AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607

BLOCKS entry ID HSP70_1; BLOCK
AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607 HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19 HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75 HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45 HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28 YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100 DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7 DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3 DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3 DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5 DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10 DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8 DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5 DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5 DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6 .

BLOCK Maker MOTIF/GIBBS >Histone chk-H5 family
SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS >hum-H1 TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK >pea-H1 PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP MOTIF/GIBBS >Histone chk-H5 family 6 sequences are included in 2 blocks HistoneA, width = 31 chk-H SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI hum-H SGPPVSELITKAVAASKERSGVSLAALKKAL pea-H SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI sce-H SSKSYRELIIEGLTALKERKGSSRPALKKFI sce-H SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV xla-H SGPSASELIVKAVSSSKERSGVSLAALKKAL HistoneB, width = 15 chk-H5 ( 21) IRRLLAAGVLKQTKG hum-H1 ( 21) LKSLVSKGTLVQTKG pea-H1 ( 21) LKKNVASGKLIKVKG sce-H1.1 ( 21) IKKGVEAGDFEQPKG sce-H1.2 ( 21) IKKCVENGELVQPKG xla-H1 ( 21) LKALVTKGTLTQVKG

CD-Search (RPS-BLAST)
Compara una secuencia contra una colección de profiles (Reverse PSI-BLAST) Bases de datos disponibles Pfam entries Smart entries Oasis (combined pfam, smart and cdd) 3019 profiles. Buscar usando Blast Buscar la base de datos CDD (Conserved Domains from 3D structures)

Position-Specific Iterated BLAST search
PSI-BLAST Position-Specific Iterated BLAST search Easy-to-use version of a profile-based search Hace una búsqueda utilizando BLAST contra una base de datos de proteínas. Utiliza los resultados para derivar una matriz posición- específica (position-specific scoring matrix, PSSM) En la próximas rondas (iteraciones) se utiliza la PSSM en lugar de la secuencia query original Se puede iterar hasta que no aparezcan nuevos alineamientos significativos. Convergencia – todas las secuencias relacionadas fueron encontradas. Divergencia – el query es demasiado amplio, utilizar criterios (cut-offs) más estringentes.

estructura secundaria módulos de señalización estructura terciaria plegamientos especializados

Predicción de estructura secundaria
Dada una secuencia primaria de una proteína GHWIATRGQLIREAYEDYRHFSSECPFIP Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils) CEEEEECHHHHHHHHHHHCCCHHCCCCCC

Predicción de estructura secundaria
Predice la posición más probable de alfa-hélices y hojas beta. Cuando la similitud con otras secuencias es baja, confirma características estructurales o funcionales compartidas entre dos secuencias. Guía la selección racional de mutantes específicas para el estudio en el laboratorio. Es la base para futuros estudios estructurales.

-hélice sacacorchos La cadena principal forma un esqueleto del cual las cadenas laterales se proyectan hacia afuera. Puentes de hidrogeno entre Grupo CO en n y grupo NH en n+4 Formadores de -helice: Ala, Glu, Leu, Met Helix-breaker: Pro

Hojas  Estructura extendida (plegada)
Los enlaces peptídicos apuntan en direcciones opuestas. Las cadenas laterales apuntan en direcciones opuestas. No hay puentes de hidrógeno intra- catenarios.

Hojas  Estabilización a través de puentes de hidrógeno inter-catenarios. Paralelas o anti- paralelas. Variante : beta-turn

nnpredict Estrategia de predicción basada en una red neural (Kneller et al., 1990) Best-case accuracy > 65% Interfases Web ~nomi/nnpredict.html

Red neural que simula un interruptor (gate) booleano
Produce 1 si tanto X como Y son mayores a 0 X Out Y Elegir funciones centrales de X e Y y dejar a la computadora decidir la mejor manera de combinar los inputs. X Funciones centrales: +,-,*,/,X^2,y^2,etc.. Out Y Combinar las funciones centrales usando pesos elegidos por la computadora. Out=w1+w2*X+w3*Y+w4*X*Y +w5*X/Y+w6*Y2+w7*X2

K P R S A Y   Red Neural Output layer Hidden layer Input layer
Cada input puede o no tener una contribución importante en la predicción final. Esto se determina durante la fase de entrenamiento de la red neural (es necesario proveer a la computadora con ejemplos suficientes para cubrir los grados de libertad en las ecuaciones).

nnpredict query folding class option: a/b
>flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL folding class Tertiary structure class: alpha/beta Sequence: AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG ELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYW PIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL Secondary structure prediction (H = helix, E = strand, - = no prediction): ----EEE------EEEHHHHHHH------EEEH EEEE HHHH---EEEE H--HHHHHHHH------E--E- -E HH--E EHHHHH------

Dos métodos de predicción Red neural (SignalP-NN)
Modelos de Markov (SignalP-HMM) Entrenamiento basado en filogenia. Gram-negative prokaryotic Gram-positive prokaryotic Eukaryotic Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares)

SignalP query N-terminal end only Eukaryotic set
>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG N-terminal end only Eukaryotic set ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y . 46 A 47 T 48 A 49 G 50 P < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C YES max. Y YES max. S YES mean S YES # Most likely cleavage site between pos. 48 and 49: ATA-GP

SignalP query N-terminal end only Eukaryotic set
>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG N-terminal end only Eukaryotic set ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y . 46 A 47 T 48 A 49 G 50 P < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C YES max. Y YES max. S YES mean S YES # Most likely cleavage site between pos. 48 and 49: ATA-GP C = cleavage site score S = signal peptide score Y = combined score

PredictProtein Algoritmo predictivo en varios pasos. (Rost et al., 1994) La secuencia de proteína se compara contra SWISS- PROT Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991) El alineamiento multiple se utiliza como input para una red neural (PHDsec) Precisión Average > 70% Best-case > 90% Interfases Web

Predict protein query Estructura secundaria SWISS-PROT hits
Joe Buzzcut National Human Genome Research Institute, NIH # flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL Estructura secundaria ...., , , , , ,....6 AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG| PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE | Rel sec | | Detail: prH sec | | prE sec | | prL sec | | SWISS-PROT hits Multiple alignment PDB homologues

PHDtopology Estrategia similar a PredictProtein (PHDsec)
Precisión total 94.7% Predicción de hélices 92.0% Predicción de loops 96.0% Incluye predicción de topología. Gratuito para uso académico. Licencia comercial disponible. Interfases disponibles Web

PHDtopology query Joe Buzzcut
National Human Genome Research Institute, NIH predict htm topology # pendrin MAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPILEWLPKYRV KEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSMAP... ...., , , , , ,....42 AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII| PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH| Rel htm | | detail: | | prH htm | | prL htm | | . PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT|

Precisión de las predicciones

estructura secundaria módulos de señalización estructura terciaria plegamientos especializados

Predicción de estructura terciaria
La secuencia determina la conformación pero no viceversa. La estructura se conserva mucho más que la secuencia. Númer limitado de plegamientos conocidos. Similitud entre proteínas no siempre detectada por métodos ‘tradicionales’.

PDB Growth

ab initio structure prediction
Funciones de energía que describan la estructura 3D de una proteína bond energy bond angle energy dihedral angle energy van der Waals energy electrostatic energy Minimizar las funciones y obtener la estructura. En general poco práctico. Computacionalmente costoso Precisión pobre Funciona razonablemente para proteínas chicas Péptidos (~ 20 aa)

Contact order Orden de contacto
Medida que refleja las interacciones entre aminoácidos en una proteína Distancia promedio entre aminoácidos que interaccionan entre sí Suma de las distancias / Longitud de la proteína Está relacionada con el tiempo de plegamiento de una proteína Low contact order proteins = fast folding High contact order proteinas = slow folding Las estructuras de proteínas con valores de contact order bajos son más fáciles de predecir ab initio

Ab initio prediction: Rosetta
Análisis de MSAs de proteínas de estructura conocida Gran número de patrones de 3-15 aminoácidos, algunos de los cuales están fuertemente asociados a ciertas estructuras locales Algunas de estas estructuras tienen energías predecibles (datos experimentales de NMR) I-Sites La estrategia recrea el proceso de folding Análisis usando una ventana de 9 aminoacidos Identificación de I-Sites Muestreo de posibles estructuras minimizando energía (Monte Carlo)

Rosetta online: Robetta

Predicción de estructura basado en el reconocimiento del fold nativo
Threading Predicción de estructura basado en el reconocimiento del fold nativo thread (alinear o acomodar) una proteína query sobre una estructura molde de alguna forma óptima. Un alineamiento bueno provee un backbone aproximado Requerimientos Una biblioteca de moldes Una función de scoring Un alineamiento Evaluar confidencia Fuerza bruta Threading de una secuencia contra todas las estructuras disponibles (PDB)

Threading: performance
Predicted model X-ray structure

Threading: aplicaciones
Predecir estructura Identificar homologías distantes Predecir función de proteínas con bajo grado de similitud con otras proteínas

Bases de datos representativas (no- redundantes)
Threading: moldes Bases de datos representativas (no- redundantes) Estructuras secundarias y formas de combinarlas Idealmente de dominios, pero depende de que la partición en dominios se haga correctamente

Clases de plegamientos: all alpha
Cyt C Globins EF-hand

Clases de plegamientos: all beta
Plasminogen Activator Phospatidylinositol 3-kinase Beta-2-microglobulin Fibroblast Growth Factor

Clases de plegamientos: alpha/beta
PCNA Cytochrome P450 Dehydrogenases (Rossman fold)

Proteínas trans-membrana: clases
Paquete de hélices (helix bundle) Largas extensiones de amino ácidos apolares. Plegamiento en -hélices trans- membrana. “Positive-inside rule” Receptores de superficie Canales iónicos Transportadores activos y pasivos. Barriles  Hojas anti-paralelas dispuestas en cilindro. Membrana externa de Gram-negativas. Porinas (difusión selectiva, pasiva).

Bases de datos de clasificación de estructuras
SCOP Structural Classification of Proteins Basada en definición de similitud estructural a cargo de expertos Luego de clasificar por clase, SCOP clasifica proteínas en una jerarquía que incluye: superfamilia, familia y fold

Clasificación estructural de proteínas
CATH Classification by Class, Architecture, Topology and Homology Clasifica por Clase (contenido de estructura 2daria) Arquitectura (orientación gruesa de la estructura secundaria) Fold (topología fina) Superfamilia (estructura y función similar) Utiliza SSAP (secondary structure alignment) para alinear estructuras

CATH: catherine wheel C: Class level A: Architecture level
T: Topology (fold-family) H: Homologous superfamily S: Sequence families

FSSP Fold Classification based on Structure-Structure alignment of Proteins Alineamiento estructural de todas las combinaciones posibles de proteínas en la base de datos PDB A nivel de dominios Usa DALI (Distance alignment tool) Generación de un set no-redundante de folds Cada fold está representado por un cluster de folds de estructura similar Valor estadístico Z, describe el grado en que los átomos comparten posiciones estructurales similares Z > 16 = muy buen alineamiento estructural 8 < Z < 16 = buenos alineamientos 2 < Z < 8 = pobres (2 es el límite de detección). 8320 PDB entries  947 estructuras representativas, dominios, 540 tipos de folds estructuralmente diferentes

Alineamiento estructural: distance matrix
Similar a dot-plots Se hace un gráfico por proteína Cada posición en la grilla corresponde a la distancia entre los átomos C-a correspondientes Las regiones con más alta densidad de átomos se resaltan dibujando un punto Se comparan las estructuras a través de estos gráficos DALI (

Alineamiento estructural: distance matrix
Similar a dot-plots Se hace un gráfico por proteína Cada posición en la grilla corresponde a la distancia entre los átomos C-a correspondientes Las regiones con más alta densidad de átomos se resaltan dibujando un punto (< 12 Å) Se comparan las estructuras a través de estos gráficos DALI (Distance Alignment Tool)

DALI Ejemplo con 3 hélices a
Identificación del patrón en la proteína A y búsqueda (scanning) del plot de la proteína B buscando similitudes Las búsquedas se hacen en subplots (particiones del espacio de búsqueda) Finalmente todas las similitudes se ensamblan (se remueven inserciones / deleciones y se reordenan las secuencias) para producir el alineamiento final

Comparacion de estructuras 3D
DALI Server Comparacion de estructuras 3D Query: coordenadas Search against PDB

MMDB Molecular Modelling Database Proteínas en PDB agrupadas de acuerdo a similitud estructural usando VAST (Vector Alignment Search Tool) Entrez provee ‘structural neighbors’ como links

VAST Compara los tipos y ordenamientos de hélices a y hojas b entre y las maneras en que están conectadas. Pocos tipos de elementos de estructura secundaria La localización y dirección de estos elementos se describen con vectores

Comparación de estructuras: VAST
Step 1: Construct vectors for secondary structure elements Ricin Chain B

Comparación de estructuras: VAST (cont.)
Paso 2: Obtener un alineamiento óptimo de los vectores estructurales. 1 2 3 4 1 2 3 4 5 Proteína 1 Proteína 2 1 2 3 4 1 2 3 4 5 2 3 4 5 1 1 3 4 5 2 Alineamiento 1 Alineamiento 2 Alineamiento 3 Alineamiento 4

Comparación de estructuras: VAST (cont.)
Paso 3: refinar residuo por residuo el alineamiento Hisactophilin Ricin B (both domains)

Double dynamic programming: SSAP
Secuencias: cada caracter en la grilla es un aminoácido o una base Estructuras: cada caracter en la grilla es un vector Describe el ambiente local de cada aminoácido Distancias interatómicas Angulos de enlace Cadenas laterales Se derivan vectores desde C-b hacia otros aminoácidos Vision geométrica desde un punto en la proteína

SSAP Se restan los vectores
Vector de F-E en proteína A Menos Vector de C-Q en proteína B Se hace dynamic programming (global) para todos los vectores Luego se itera: Se cambia el centro al próximo aminoácido (V), se generan los vectores, se calcula el mejor camino Finalmente se deriva una matriz de resultados Los caminos compartidos suman sus puntajes Se hace dynamic programming sobre esta matriz final para obtener el alineamiento

Alineamientos estructurales
La estructura tridimensional de un dominio proteico se alinea en el espacio con la estructura 3D de un segundo dominio proteico Alineamiento de secuencias descubrir similitud de secuencias (origen evolutivo común) Modela procesos evolutivos (mutación, inserción/deleción) Alineamiento de estructuras descubrir similitud estructural Convergencia evolutiva Funcional (función idéntica o similar, estructuras diferentes) Estructural (estructura similar, función divergente) Alineamientos significativos entre estructuras no necesariamente indican origen evolutivo común.

Alineamientos estructurales: loops
La deleción de un loop ilustra la diferencia entre los dos tipos de alineamientos PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS PHE ASN VAL CYS ARG THR PRO GLU ALA ILE CYS PHE ASN VAL CYS ARG THR PRO GLU ALA ILE CYS ARG GLU ALA CYS

Predicción de estructura terciaria
En Entrez todas las estructuras tienen una proteína asociada, lo cual facilita linkear una estructura a la base de datos de proteínas. En Entrez, si una proteína no tiene structure links, buscar los protein links relacionados. Luego buscar los structure links de todas estas secuencias relacionadas. Usando Cn3D (NCBI) se puede visualizar la estructura y el alineamiento de la secuencia inicial con la secuencia que tienen su estructura resuelta. Es también posible encontrar una estructura que pegue mejor a la proteína query.

Proceso de predicción de estructura terciaria
Query Protein Protein neighbours Structure links View in Cn3D Structure neighbours of structures. Ver en Cn3D, mejor match entre estructura y proteína query, dado que la similitud inicial era débil.

SWISS-MODEL Servidor de modelado automatizado de proteínas automatizado. Resultados por Búsqueda BLAST para encontrar secuencias similares en PDB Selecciona moldes con identidad > 25% y un modelo proyectado > 20 aa Genera modelos Minimiza energía Genera archivo PDB para el nuevo modelo

Gene 3D Base de datos de asignaciones estructurales pre-calculadas para proteínas en genomas completos

Cuando todo lo demás no funciona! Composición Hidrofobicidad

Panorama informativo Nonpolar Polar Neutral Polar Basic Polar Acidic

Funciones comunes asociadas a distintos residuos
C disulphide-rich, metallo-thionein, zinc fingers DE acidic proteins (unknown) G collagens H histidine-rich glycoprotein KR nuclear proteins, nuclear localisation P collagen, filaments SR RNA binding motifs ST mucins Polar (C,D,E,H,K,N,Q,R,S,T) - active sites Aromatic (F,H,W,Y) - protein ligand- binding sites Zn+-coord (C,D,E,H,N,Q) - active site, zinc finger Ca2+-coord (D,E,N,Q) - ligand-binding site Mg/Mn-coord (D,E,N,S,R,T) - Mg2+ or Mn2+ catalysis, ligand binding Ph-bind (H,K,R,S,T) - phosphate and sulphate binding

Parámetros físico-químicos
Proteínas con los mismo parámetros físico-químicos, a menudo son aisladas juntas. Gel Electrophoresis. Iso-Electric focusing in pH Gradient. 2D Gels Mass Spectroscopy (o Time-of-flight spectroscopy, más precisa) requiere masses of polypeptides MALDI: espectroscopía de masa de péptidos trípticos. Electrospray: producción de péptidos por ruptura física, seguida de espectroscopía de masa. Nano-electrospray: descompone peptidos en los aminoácidos individuales. Requere composición de amino ácidos y peso molecular para identificar péptidos y proteínas. Parámetros clásicos. pI teórico (punto isoeléctrico) Peso molecular (Mass Spectroscopy. Con o sin modificaciones post-traduccionales) Composición aminoacídica. (Mass Spectroscopy) Coeficiente de extinción

Parámetros físico-químicos
Proteinas con características físico-químicas similares pueden estar relacionadas. motivos relacionados (contenido de aa similar) Distribución similar de amino ácidos polares o cargados. Proteínas de trans-membrana. Proteínas de membrana. Proteínas de unión a DNA. Hidrofóbicas o hidrofílicas. Señales de localización.

Calcula parámetros físico-químicos.
ProtParam Calcula parámetros físico-químicos. Molecular weight Theoretical pI (isoelectric point pH) Amino acid composition Extinction coefficient Query simple SWISS-PROT accession number. Secuencia ingresada por el usuario.

ProtParam query Compute parameters
MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM... Compute parameters Number of amino acids: 727 Molecular weight: Theoretical pI: 5.44 Amino acid composition: Ala (A) % Leu (L) % Arg (R) % Lys (K) % Asn (N) % Met (M) % Asp (D) % Phe (F) % Cys (C) % Pro (P) % Gln (Q) % Ser (S) % Glu (E) % Thr (T) % Gly (G) % Trp (W) % His (H) % Tyr (Y) % Ile (I) % Val (V) % Asx (B) % Glx (Z) % Xaa (X) % Total number of negatively charged residues (Asp + Glu): 156 Total number of positively charged residues (Arg + Lys): 136

PropSearch Utiliza la composición de amino ácidos para detectar relaciones entre proteínas. Puede ser utilizado para distinguir miembros de la misma familia de proteínas. 144 propiedades físicas se utilizan en el análisis (‘vector’) Molecular weight Bulky residue content Average hydrophobicity and charge Búsquedas contra la ‘base de datos de vectores’ (PIR and SWISS-PROT) montp1.fr/SERVEUR/PROPSEARCH/propsearch.html

PropSearch query Vector search DIST Odds < 10 87.0% < 8.7 94.0%
>S18193 autoantigen NOR-90 - human MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM... Vector search DIST Odds < % < % < % Rank ID DIST LEN2 POS1 POS2 pI DE _____________________________________________________________________________________________ 1 >p1;s autoantigen NOR-90 - human 2 ubf1_human NUCLEOLAR TRANSCRIPTION FACTOR 1 3 ubf1_mouse NUCLEOLAR TRANSCRIPTION FACTOR 1 4 ubf1_rat NUCLEOLAR TRANSCRIPTION FACTOR 1 5 ubf1_xenla NUCLEOLAR TRANSCRIPTION FACTOR 1 6 ubf2_xenla NUCLEOLAR TRANSCRIPTION FACTOR 2 7 >p1;s hypothetical protein YPR018w - yeast 8 >p1;i protein kinase - chicken 9 >p1;h protein kinase (EC ) cdc2-related 10 >p1;b protein kinase (EC ) cdc2-related 11 >p1;g protein kinase (EC ) cdc2-related 12 >p1;a cyclin-dependent kinase p130-PITSLRE - mouse 13 >p1;f protein kinase (EC ) cdc2-related 14 >p1;e protein kinase (EC ) cdc2-related 15 yaa5_schpo HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 16 >p1;s hypothetical protein SPAC22G fission 17 >f1;i retinoblastoma binding protein 1 isoform I 18 >p1;s hypothetical protein YNL227c - yeast 19 ynw7_yeast HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 20 >p1;s hypothetical protein YML093w - yeast 21 ymj3_yeast HYPOTHETICAL KD PROTEIN IN RAD10-PRS4 22 radi_human RADIXIN. radi_pig RADIXIN (MOESIN B). 24 >f1;i retinoblastoma binding protein 1 isoform II 25 >p1;b retinoblastoma-associated protein 2 - human 26 >p1;a RalBP1 - rat

Calcula la hidrofobicidad de una proteína
TGREASE Calcula la hidrofobicidad de una proteína Distingue regiones putativas trans-membranas Regiones putativas que formarían el core hidrofóbico de una proteína globular Parte del paquete FASTA (Pearson, U. Virginia)

Entender los resultados
Secuencia Resultados Inspección

Protein sequence analysis Structural Bioinformatics

Presentaciones similares

Presentación del tema: "Protein sequence analysis Structural Bioinformatics"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Protein sequence analysis Structural Bioinformatics

Presentaciones similares

Presentación del tema: "Protein sequence analysis Structural Bioinformatics"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback