1Fernán Agüero 2004 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis.

1Fernán Agüero 2004 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis

2Fernán Agüero El flujo de información en biología > DNA AATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACAC TGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAA TCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTA ACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGG TTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAA TTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTG GTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGA CGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGC TACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGA ACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGG TAAGAAGATCGCGAACATCTAGTAGA > Proteina MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNI DELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGK KVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNE PDEAEQDCIEFGKKIANI Gen Función

3Fernán Agüero Conformación proteica Christian Anfinsen Estudios sobre desnaturalización reversible: la secuencia determina la conformación Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final. A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales? Respuesta: predicción ab initio (no muy confiable!!!)

4Fernán Agüero Protein sequence analysis Ancestro común? Función conservada? Dominio o secuencia completa?

5Fernán Agüero BLAST Identifica high-scoring segment pairs (HSPs) –Un par de secuencias que pueden ser alineados sin gaps –Cuando están alineadas tienen un score agregado máximo (no puede ser mejorado por extensión o por recorte del alineamiento) –El score debe estar por arriba de un determinado valor (threshold) S. –gapped (2.0) o ungapped (1.4) Modos de uso (interfases disponibles) –WWW search form http://www.ncbi.nlm.nih.gov/BLAST –Unix command line blastall -p progname -d db -i query > outfile –E-mail server blast@ncbi.nlm.nih.gov

6Fernán Agüero Algoritmos BLAST ProgramQuery SequenceTarget Sequence BLASTNNucleotideNucleotide BLASTPProteinProtein BLASTXNucleotide,Protein six-frame translation TBLASTNProteinNucleotide, six-frame translation TBLASTXNucleotide,Nucleotide,six-frame translation

7Fernán Agüero Palabras cercanas (neighborhood words) Query Word (W = 3) Neighborhood Score Threshold (T = 13) Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc.NeighborhoodWords

8Fernán Agüero High-scoring segment pairs (HSPs) Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TP G R++ +W+ P+ D + ER + A Sbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330 PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc.

9Fernán Agüero Requerimientos de una búsqueda de BLAST Una secuencia query, en formato FASTA. Qué programa de BLAST usar. Qué base de datos buscar. Parámetros de la búsqueda.

10Fernán Agüero Secuencia query >N-terminal unknown protein MSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNL FGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN... BLASTP / SWISSPROT / BLOSUM62 Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!! Score E Sequences producing significant alignments: (bits) Value sp|P29617|PRO_DROME PROTEIN PROSPERO 948 0.0 sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH-26 242 4e-63 sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55 sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55 sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 213 2e-54 sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) 35 0.79 sp|P31000|VIME_RAT VIMENTIN 34 1.4 sp|P48670|VIME_CRIGR VIMENTIN 34 1.4

11Fernán Agüero Requerimientos BLAST Una secuencia query, en formato FASTA. Qué programa de BLAST usar. Qué base de datos buscar. Parámetros de la búsqueda. Extension Cumulative Score T S X E = kNe - S Número de HSPs hallados por puro azar HSP Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico. X

12Fernán Agüero Matrices de scoring Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional) –Cys : puentes disulfuro o unión a metales: estabilizan la estructura. –Pro : relativamente voluminoso y sin grupo N-H para cadenas laterales: ocurre en codos (turns). –Trp: cadena lateral voluminosa. –Lys/Arg: cadenas laterales cargadas positivamente. –Gly: no tiene cadena lateral. Permite rotar a la cadena porlipeptídica: ocurre en codos (turns). –Ala: sinpropiedades particulaes. Cadena lateral pequeña: ocurre frecuentemente en alpha-hélices. –Glu/Asp: frecuentes al comienzo de alpha-hélices. –Lys/Arg: frecuentes hacia el final de alpha-hélices.

13Fernán Agüero Matrices de scoring: importancia Es importante comprender las matrices de scoring Aparecen (y son la base) de todos los análisis que involucran comparación de secuencias. Representan en forma implícita una teoría particular de la evolución. La elección de la matriz puede influenciar fuertemente los resultados que se obtengan.

14Fernán Agüero Estructura de una matriz A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

15Fernán Agüero Hay tantas matrices... Triple-PAM (Altschul, 1991) –PAM 40Alineamientos cortos, alta similitud –PAM 120 –PAM 250Alineamientos largos, baja similitud BLOSUM 62 (Henikoff, 1993) –La más efectiva para detectar miembros de una familia de proteínas. (BLAST default). No hay una matriz que sea la respuesta completa para todas las comparaciones!!!

16Fernán Agüero Matrices PAM Margaret Dayhoff, 1978 Point Accepted Mutation (PAM) –Se observan los patrones de sustituciones en proteínas relacionadas. –La nueva cadena lateral debe funcionar en forma similar a la anterior (aceptación) –En promedio 1 PAM, corresponde al cambio de 1 amino ácido cada 100 residuos. –1 PAM ~ 1% divergencia –Se extrapola para predecir patterns de mutación a mayores distancias.

17Fernán Agüero Matrices PAM (cont.) Suposiciones –Una mutación es independiente de los residuos que la rodean. –Las secuencias comparadas son de una composición promedio. –Todos los sitios son igualmente reemplazables. Fuentes de error –Para derivar las matrices se utilizaron proteínas pequeñas, globulares (desvío de la composición promedio). –Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250 –No considera, ni es flexible para considerar bloques conservados o dominios.

18Fernán Agüero Matrices BLOSUM Henikoff and Henikoff, 1992 Blocks Substitution Matrix (BLOSUM) –Considera sólo diferencias en regiones conservadas, libres de gaps, de una familia proteica. –Más sensible a sustituciones estructurales o funcionales. –BLOSUM n Contribución de secuencias > n% idénticas pesan 1. Reduce la contribución de secuencias muy similares. Incrementar n ~ incrementar la distancia PAM.

19Fernán Agüero Protein sequence analysis Ancestro común? Función conservada? Dominio o secuencia completa?

20Fernán Agüero Profiles Representación númerica de un alineamiento múltiple. Depende de patrones (patterns) o motivos (motifs) que contengan residuos conservados. Representan las características comunes de una familia de proteínas. Permite identificar similitud entre secuencias con poca o ninguna identidad. Permite incorporar al análisis secuencias relacionadas en forma distante.

21Fernán Agüero Construcción de profiles Cons A B C D E F G H I K L M N P Q R S T V W Y Z G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11 P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1 H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27 I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11 V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8 V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9 A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10 T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10 P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12 G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30 APHIIVATPG GCEIVIATPG GVEICIATPG GVDILIGTTG RPHIIVATPG KPHIIIATPG KVQLIIATPG RPDIVIATPG APHIIVGTPG GCHVVIATPG NQDIVVATTG Qué residuos aparecen en cada posición? Cuál es la frecuencia de los residuos observados? Qué posiciones están conservadas? Dónde pueden introducirse gaps? Position-Specific Scoring Table

22Fernán Agüero ProfileScan Compara una secuencia contra una colección de profiles. Bases de datos disponibles –PROSITE 17.391609 entries –Pfam 8.0 5193 entries http://hits.isb-sib.ch/cgi-bin/PFSCAN

23Fernán Agüero Query ProfileScan Selecciono TODAS las bases de datos Sólo matches significativos E-value >C-terminal end MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... normalized raw from - to Profile|Description 219.3535 27400 pos. 21 - 600 PF00012|HSP70 Heat shock hsp70 proteins NScore SwissProt 7.0 1.8000 8.0 0.1800 9.0 0.0180 10.0 0.0018 219.4 3e-211 [IV]-D-L-G-T-[ST]-x-[SC] [LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)- [ST]-[LIVM]-[LIVMFC] [LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x- [DEQKRSTA] Signatures

24Fernán Agüero BLOCKS Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle Alineamientos múltiples de regiones conservadas en familias de proteínas. –1 block = 1 alineamiento corto, sin gaps –Cada familia puede definirse por uno o más blocks –Las búsquedas permiten detectar uno o más blocks representantes de una familia. Interfases disponibles –E-Mailblocks@howard.fchrc.org –Webhttp://blocks.fhcrc.org/

25Fernán Agüero Query BLOCKS ID HSP70_1; BLOCK AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607 >C-terminal end MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... BL00297A HSCA_ECOLI 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA ||||||||||||||||||||||||||||||||||||||||||||||||||||||| C-terminal 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA Search blocks Examine blocks

26Fernán Agüero BLOCKS entry ID HSP70_1; BLOCK AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607 HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19 HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75 HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45 HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28 YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100 DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7 DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3 DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3 DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5 DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10 DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8 DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5 DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5 DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6.

27Fernán Agüero BLOCK Maker >Histone chk-H5 family 6 sequences are included in 2 blocks HistoneA, width = 31 chk-H5 1 SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI hum-H1 1 SGPPVSELITKAVAASKERSGVSLAALKKAL pea-H1 1 SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI sce-H1.1 1 SSKSYRELIIEGLTALKERKGSSRPALKKFI sce-H1.2 1 SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV xla-H1 1 SGPSASELIVKAVSSSKERSGVSLAALKKAL HistoneB, width = 15 chk-H5 ( 21) 53 IRRLLAAGVLKQTKG hum-H1 ( 21) 53 LKSLVSKGTLVQTKG pea-H1 ( 21) 53 LKKNVASGKLIKVKG sce-H1.1 ( 21) 53 IKKGVEAGDFEQPKG sce-H1.2 ( 21) 53 IKKCVENGELVQPKG xla-H1 ( 21) 53 LKALVTKGTLTQVKG MOTIF/GIBBS >chk-H5 SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS >hum-H1 TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK >pea-H1 PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP

28Fernán Agüero CD-Search (RPS-BLAST) Compara una secuencia contra una colección de profiles. Bases de datos disponibles –Pfam 2478 entries –Smart 488 entries –Oasis (combined pfam, smart and cdd) 3019 profiles. Buscar usando Blast http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Buscar la base de datos CDD (Conserved Domains from 3D structures) –http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtmlhttp://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

29Fernán Agüero PSI-BLAST Position-Specific Iterated BLAST search Easy-to-use version of a profile-based search –Hace una búsqueda utilizando BLAST contra una base de datos de proteínas. –Utiliza los resultados para derivar una matriz posición- específica (position-specific scoring matrix, PSSM) –En la próximas rondas (iteraciones) se utiliza la PSSM en lugar de la secuencia query original –Se puede iterar hasta que no aparezcan nuevos alineamientos significativos. Convergencia – todas las secuencias relacionadas fueron encontradas. Divergencia – el query es demasiado amplio, utilizar criterios (cut-offs) más estringentes.

30Fernán Agüero Protein sequence analysis estructura secundaria módulos de señalización estructura terciaria plegamientos especializados

31Fernán Agüero Predicción de estructura secundaria Dada una secuencia primaria de una proteína GHWIATRGQLIREAYEDYRHFSSECPFIP Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils) CEEEEECHHHHHHHHHHHCCCHHCCCCCC

32Fernán Agüero Predicción de estructura secundaria Predice la posición más probable de alfa-hélices y hojas beta. Cuando la similitud con otras secuencias es baja, confirma características estructurales o funcionales compartidas entre dos secuencias. Guía la selección racional de mutantes específicas para el estudio en el laboratorio. Es la base para futuros estudios estructurales.

33Fernán Agüero -hélice sacacorchos La cadena principal forma un esqueleto del cual las cadenas laterales se proyectan hacia afuera. Puentes de hidrogeno entre Grupo CO en n y grupo NH en n+4 Formadores de -helice: Ala, Glu, Leu, Met Helix-breaker: Pro

34Fernán Agüero Hojas Estructura extendida (plegada) Los enlaces peptídicos apuntan en direcciones opuestas. Las cadenas laterales apuntan en direcciones opuestas. No hay puentes de hidrógeno intra-catenarios.

35Fernán Agüero Hojas Estabilización a través de puentes de hidrógeno inter-catenarios. Paralelas o anti-paralelas. Variante : beta-turn

36Fernán Agüero nnpredict Estrategia de predicción basada en una red neural (Kneller et al., 1990) Best-case accuracy > 65% Interfases –E-mailnnpredict@celeste.ucsf.edu –Webhttp://www.cmpharm.ucsf.edu/ ~nomi/nnpredict.html

37Fernán Agüero Red neural que simula un interruptor (gate) booleano X Y Produce 1 si tanto X como Y son mayores a 0 X Y Elegir funciones centrales de X e Y y dejar a la computadora decidirla mejor manera de combinar los inputs. Funciones centrales : +,-,*,/,X^2,y^2,etc.. Combinar las funciones centrales usando pesos elegidos por la computadora. Out Out=w 1 +w 2 *X+w 3 *Y+w 4 *X*Y +w 5 *X/Y+w 6 *Y 2 +w 7 *X 2

38Fernán Agüero Red Neural Output layer Input layer Hidden layer KPR P SSAY R Cada input puede o no tener una contribución importante en la predicción final. Esto se determina durante la fase de entrenamiento de la red neural (es necesario proveer a la computadora con ejemplos suficientes para cubrir los grados de libertad en las ecuaciones).

39Fernán Agüero nnpredict query option: a/b >flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL Tertiary structure class: alpha/beta Sequence: AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG ELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYW PIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL Secondary structure prediction (H = helix, E = strand, - = no prediction): ----EEE------EEEHHHHHHH------EEEH---------------EEEE-------- ---------------HHHH---EEEE------------H--HHHHHHHH------E--E- -E--------------HH--E----------------EHHHHH------ folding class

40Fernán Agüero SignalP Red neural con entrenamiento basado en filogenia. –Gram-negative prokaryotic –Gram-positive prokaryotic –Eukaryotic Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares) http://www.cbs.dtu.dk/services/SignalP/

41Fernán Agüero SignalP query ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y. 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376. < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES # Most likely cleavage site between pos. 48 and 49: ATA-GP >sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG N-terminal end only Eukaryotic set

42Fernán Agüero SignalP query ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y. 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376. < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES # Most likely cleavage site between pos. 48 and 49: ATA-GP >sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG N-terminal end only Eukaryotic set C = cleavage site score S = signal peptide score Y = combined score

43Fernán Agüero PredictProtein Algoritmo predictivo en varios pasos. (Rost et al., 1994) –La secuencia de proteína se compara contra SWISS-PROT –Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991) –El alineamiento multiple se utiliza como input para una red neural (PHDsec) Precisión –Average> 70% –Best-case> 90% Interfases –E-mailpredictprotein@embl-heidelberg.de –Webhttp://www.embl-heidelberg.de/ predictprotein/

44Fernán Agüero Predict protein query Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@nhgri.nih.gov # flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL Estructura secundaria....,....1....,....2....,....3....,....4....,....5....,....6 AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG| PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE | Rel sec |938999736982489999999999767982443213241278631241999861547765| Detail: prH sec |000000000014689999999999821000011112565388764321000001111111| prE sec |058998852000000000000000000003665542100000000014899874120002| prL sec |931000137985310000000000178985222344324511234554000114667776| SWISS-PROT hits Multiple alignment PDB homologues

45Fernán Agüero PHDtopology Estrategia similar a PredictProtein (PHDsec) Precisión total94.7% –Predicción de hélices92.0% –Predicción de loops96.0% Incluye predicción de topología. Gratuito para uso académico. Licencia comercial disponible. Interfases disponibles –E-mailpredictprotein@embl-heidelberg.de –Webhttp://www.embl- heidelberg.de/predictprotein/

46Fernán Agüero PHDtopology query Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@nhgri.nih.gov predict htm topology # pendrin MAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPIL EWLPKYRV KEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSM AP.......,....37...,....38...,....39...,....40...,....41...,....42 AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII| PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH| Rel htm |368899999999999998641104667777655431257778887777621467788888| detail: | | prH htm |310000000000000000124457888888877765321110000111135788899999| prL htm |689999999999999999875542111111122234678889999888864211100000|. PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT|

47Fernán Agüero Precisión de las predicciones

48Fernán Agüero Protein sequence analysis estructura secundaria módulos de señalización estructura terciaria plegamientos especializados

49Fernán Agüero Predicción de estructura terciaria La secuencia determina la conformación pero no viceversa. La estructura se conserva mucho más que la secuencia. –Númer limitado de plegamientos conocidos. Similitud entre proteínas no siempre detectada por métodos tradicionales.

50Fernán Agüero PDB Growth

51Fernán Agüero ab initio structure prediction Funciones de energía que describan la estructura 3D de una proteína obond energy obond angle energy odihedral angle energy ovan der Waals energy oelectrostatic energy oMinimizar las funciones y obtener la estructura. En general poco práctico. oComputacionalmente costoso oPrecisión pobre

52Fernán Agüero Threading Predicción de estructura basado en el reconocimiento del fold nativo –thread (alinear o acomodar) una proteína query sobre una estructura molde de alguna forma óptima. –Un alineamiento bueno provee un backbone aproximado Requerimientos –Una biblioteca de moldes –Una función de scoring –Un alineamiento –Evaluar confidencia

53Fernán Agüero Threading: performance Predicted model X-ray structure

54Fernán Agüero Threading: aplicaciones Predecir estructura Identificar homologías distantes Predecir función de proteínas con bajo grado de similitud con otras proteínas

55Fernán Agüero Threading: moldes Bases de datos representativas (no- redundantes) –Estructuras secundarias y formas de combinarlas –Idealmente de dominios, pero depende de que la partición en dominios se haga correctamente

56Fernán Agüero Clases de plegamientos Cyt cCD4StaphTriose nucleasephosphate isomerase GlobinsOrthogonalSplit sandwichTIM barrel OrthogonalSuper-barrelMeanderDoubly-wound EF-handGreek keyMetal-rich Up-DownSandwichOpen roll CytochromeJelly rollOB/UB roll

57Fernán Agüero Proteínas trans-membrana: clases Paquete de hélices (helix bundle) Largas extensiones de amino ácidos apolares. Plegamiento en -hélices trans- membrana. Positive-inside rule –Receptores de superficie –Canales iónicos –Transportadores activos y pasivos. Barriles Hojas anti-paralelas dispuestas en cilindro. –Membrana externa de Gram-negativas. –Porinas (difusión selectiva, pasiva).

58Fernán Agüero Bases de datos de clasificación de estructuras SCOP –Structural Classification of Proteins –http://scop.mrc-lmb.cam.ac.uk/scop –Basada en definición de similitud estructural a cargo de expertos –Luego de clasificar por clase, SCOP clasifica proteínas en una jerarquía que incluye: superfamilia, familia y fold

59Fernán Agüero Clasificación estructural de proteínas CATH –Classification by Class, Architecture, Topology and Homology –http://www.biochem.ucl.ac.uk/bsm/cath –Clasifica por clase, luego por arquitectura, fold, superfamilia y familia –Utiliza SSAP (secondary structure alignment) para alinear estructuras

60Fernán Agüero CATH: catherine wheel C: Class level A: Architecture level T: Topology (fold-family) H: Homologous superfamily S: Sequence families

61Fernán Agüero Clasificación estructural de proteínas FSSP –Fold Classification based on Structure-Structure alignment of Proteins –http://www.ebi.ac.uk/dali/fssp –Alineamiento estructural de todas las combinaciones posibles de proteínas en la base de datos PDB –Usa DALI (Distance alignment tool) –Generación de un set no-redundante de folds –8320 PDB entries 947 estructuras representativas, 1484 dominios, 540 tipos de folds estructuralmente diferentes

62Fernán Agüero DALI Server Comparacion de estructuras 3D –Query: coordenadas –Search against PDB http://www.ebi.ac.uk/dali

63Fernán Agüero Clasificación estructural de proteínas MMDB –Molecular Modelling Database –http://www.ncbi.nlm.nih.gov/Entrez –Proteínas en PDB agrupadas de acuerdo a similitud estructural usando VAST (Vector Alignment Search Tool) –Entrez provee structural neighbors como links

64Fernán Agüero Alineamientos estructurales La estructura tridimensional de un dominio proteico se alinea en el espacio con la estructura 3D de un segundo dominio proteico Alineamiento de secuencias descubrir similitud de secuencias (origen evolutivo común) Alineamiento de estructuras descubrir similitud estructural Alineamientos significativos entre estructuras no necesariamente indican origen evolutivo común.

65Fernán Agüero Alineamientos estructurales: loops La deleción de un loop ilustra la diferencia entre los dos tipos de alineamientos PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS ARG GLU ALA CYS

66Fernán Agüero Predicción de estructura terciaria En Entrez todas las estructuras tienen una proteína asociada, lo cual facilita linkear una estructura a la base de datos de proteínas. En Entrez, si una proteína no tiene structure links, buscar los protein links relacionados. Luego buscar los structure links de todas estas secuencias relacionadas. Usando Cn3D (NCBI) se puede visualizar la estructura y el alineamiento de la secuencia inicial con la secuencia que tienen su estructura resuelta. Es también posible encontrar una estructura que pegue mejor a la proteína query.

67Fernán Agüero Proceso de predicción de estructura terciaria Query Protein Protein neighbours Structure links Structure neighbours of structures. View in Cn3D Ver en Cn3D, mejor match entre estructura y proteína query, dado que la similitud inicial era débil.

68Fernán Agüero Comparación de estructuras: VAST Ricin Chain B Step 1: Construct vectors for secondary structure elements

69Fernán Agüero Comparación de estructuras: VAST (cont.) Paso 2: Obtener un alineamiento óptimo de los vectores estructurales. 1 2 34 5 1234 1 2 34 1234 2 34 5 1234 1 34 5 1234 1234 1 2 3 5 1234 Proteína 1Proteína 2 Alineamiento 1Alineamiento 2Alineamiento 3Alineamiento 4

70Fernán Agüero Comparación de estructuras: VAST (cont.) Paso 3: refinar residuo por residuo el alineamiento Ricin B (both domains) Hisactophilin

71Fernán Agüero SWISS-MODEL Servidor de modelado automatizado de proteínas automatizado. http://swissmodel.expasy.org/ Resultados por E-mail Búsqueda BLAST para encontrar secuencias similares en PDB Selecciona moldes con identidad > 25% y un modelo proyectado > 20 aa Genera modelos Minimiza energía Genera archivo PDB para el nuevo modelo

72Fernán Agüero Gene 3D Base de datos de asignaciones estructurales pre-calculadas para proteínas en genomas completos http://www.biochem.ucl.ac.uk/bsm/cath/Gene3D/

73Fernán Agüero Protein sequence analysis Cuando todo lo demás no funciona! Composición Hidrofobicidad

74Fernán Agüero Panorama informativo Nonpolar Polar Neutral PolarBasic Polar Acidic

75Fernán Agüero Funciones comunes asociadas a distintos residuos Cdisulphide-rich, metallo-thionein, zinc fingers DEacidic proteins (unknown) Gcollagens Hhistidine-rich glycoprotein KRnuclear proteins, nuclear localisation Pcollagen, filaments SRRNA binding motifs STmucins Polar (C,D,E,H,K,N,Q,R,S,T) - active sites Aromatic (F,H,W,Y) - protein ligand- binding sites Zn+-coord (C,D,E,H,N,Q) - active site, zinc finger Ca2+-coord (D,E,N,Q) - ligand-binding site Mg/Mn-coord (D,E,N,S,R,T) - Mg2+ or Mn2+ catalysis, ligand binding Ph-bind (H,K,R,S,T) - phosphate and sulphate binding

76Fernán Agüero Parámetros físico-químicos Proteínas con los mismo parámetros físico-químicos, a menudo son aisladas juntas. –Gel Electrophoresis. –Iso-Electric focusing in pH Gradient. –2D Gels –Mass Spectroscopy (o Time-of-flight spectroscopy, más precisa) requiere masses of polypeptides MALDI: espectroscopía de masa de péptidos trípticos. Electrospray: producción de péptidos por ruptura física, seguida de espectroscopía de masa. Nano-electrospray: descompone peptidos en los aminoácidos individuales. Requere composición de amino ácidos y peso molecular para identificar péptidos y proteínas. Parámetros clásicos. –pI teórico (punto isoeléctrico) –Peso molecular (Mass Spectroscopy. Con o sin modificaciones post-traduccionales) –Composición aminoacídica. (Mass Spectroscopy) –Coeficiente de extinción

77Fernán Agüero Parámetros físico-químicos Proteinas con características físico-químicas similares pueden estar relacionadas. – motivos relacionados (contenido de aa similar) Distribución similar de amino ácidos polares o cargados. –Proteínas de trans-membrana. –Proteínas de membrana. –Proteínas de unión a DNA. –Hidrofóbicas o hidrofílicas. –Señales de localización.

78Fernán Agüero ProtParam Calcula parámetros físico-químicos. –Molecular weight –Theoretical pI (isoelectric point pH) –Amino acid composition –Extinction coefficient Query simple –SWISS-PROT accession number. –Secuencia ingresada por el usuario. http://www.expasy.org/tools/protparam.html

79Fernán Agüero ProtParam query MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM... Compute parameters Number of amino acids: 727 Molecular weight: 84936.8 Theoretical pI: 5.44 Amino acid composition: Ala (A) 35 4.8%Leu (L) 57 7.8% Arg (R) 39 5.4%Lys (K) 97 13.3% Asn (N) 28 3.9%Met (M) 25 3.4% Asp (D) 58 8.0%Phe (F) 18 2.5% Cys (C) 6 0.8%Pro (P) 39 5.4% Gln (Q) 36 5.0%Ser (S) 67 9.2% Glu (E) 98 13.5%Thr (T) 22 3.0% Gly (G) 26 3.6%Trp (W) 11 1.5% His (H) 11 1.5%Tyr (Y) 20 2.8% Ile (I) 18 2.5%Val (V) 16 2.2% Asx (B) 0 0.0% Glx (Z) 0 0.0% Xaa (X) 0 0.0% Total number of negatively charged residues (Asp + Glu): 156 Total number of positively charged residues (Arg + Lys): 136

80Fernán Agüero PropSearch Utiliza la composición de amino ácidos para detectar relaciones entre proteínas. Puede ser utilizado para distinguir miembros de la misma familia de proteínas. 144 propiedades físicas se utilizan en el análisis (vector) –Molecular weight –Bulky residue content –Average hydrophobicity and charge Búsquedas contra la base de datos de vectores (PIR and SWISS-PROT) http://www.infobiosud.univ- montp1.fr/SERVEUR/PROPSEARCH/propsearch.html

81Fernán Agüero PropSearch query Rank ID DIST LEN2 POS1 POS2 pI DE _____________________________________________________________________________________________ 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 - human 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w - yeast 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase - chicken 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase p130-PITSLRE - mouse 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 - fission 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c - yeast 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w - yeast 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 22 radi_human 9.76 583 1 583 6.33 RADIXIN. 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B). 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 - human 26 >p1;a57467 9.91 647 1 647 5.74 RalBP1 - rat >S18193 autoantigen NOR-90 - human MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM... Vector search DISTOdds < 1087.0% < 8.794.0% < 7.599.6%

82Fernán Agüero TGREASE Calcula la hidrofobicidad de una proteína –Distingue regiones putativas trans-membranas –Regiones putativas que formarían el core hidrofóbico de una proteína globular –Parte del paquete FASTA (Pearson, U. Virginia)

83Fernán Agüero Protein sequence analysis

84Fernán Agüero Entender los resultados Secuencia Resultados Inspección

1Fernán Agüero 2004 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis.

Presentaciones similares

Presentación del tema: "1Fernán Agüero 2004 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

1Fernán Agüero 2004 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis.

Presentaciones similares

Presentación del tema: "1Fernán Agüero 2004 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback