Protein sequence analysis Structural Bioinformatics

Slides:



Advertisements
Presentaciones similares
PROTEIOS= PRIMERO O PRINCIPAL
Advertisements

BLAST.
HOMOLOGY MODELLING Modelado por homologia o comparativo
PRINCIPIOS DE MODELADO POR HOMOLOGÍA
DESCUBRIMIENTO Y DISEÑO DE DROGAS
1Fernán Agüero 2004 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis.
Bioinformática estructural
en general, mínimos energéticos
AMINOÁCIDOS Y PROTEÍNAS
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
Clase # 8: Análisis Conformacional (II)
Encuentra las 12 diferencias
OXIDO NITRICO (NO) Sintetizado en vivo por la enzima NO-sintetasa
El sistema de puntuación
Unidad VIII: Química de Aminoácidos, péptidos y proteínas.
TUTORIAL PDBSUM Proteína 3NVY
TEMA 4 ESTRUCTURA TRIDIMENSIONAL DE LAS PROTEINAS
TEMA 4 CONFORMACIÓN PROTEICA: DISPOSICIÓN ESPACIAL DE LOS ÁTOMOS DE UNA PROTEÍNA LA INFORMACIÓN QUE CONTIENE LA SECUENCIA DE AMINOÁCIDOS DICTA EL MODO.
AMINOÁCIDOS Y PROTEÍNAS
La PD no es adecuada para buscar en BD
Proteínas II Sebastián Acuña Área Bioquímica.
Población y Muestra.
Especificación de Consultas M
AMINOACIDOS/ PROTEINAS
Proteínas Las cantidades relativas de los diversos aminoácidos de una proteína, varia según la naturaleza y función del material proteínico. En las proteínas.
NIVELES ESTRUCTURALES DE LAS PROTEINAS
Unidad VIII: Química de Aminoácidos, péptidos y proteínas.
En PDB hay estructuras experimentales de proteínas.
Modelamiento de Proteinas
Plegamiento de Proteínas
DESCUBRIMIENTO Y DISEÑO DE DROGAS
Sesión 6: Campos de Markov
Descripción de Contenidos con Wavelets Jaime Gaviria.
FACULTAD DE CIENCIAS EXACTAS Y NATURALES DEPARTAMENTO DE QUIMICA BIOLOGICA BIOQUIMICA AVANZADA UNIVERSIDAD DE BUENOS AIRES.
Estructura de Proteinas Antonio Flores Giancarlo Alvarez 12 de setiembre de 2008.
Combinación de Clasificadores
Matrices de Substitución PAM Y BLOSUM
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Predicción de Estructura 3D de Proteínas Reconocimiento de Plegamiento (threading) Florencio Pazos ALMA Bioinformatics, S. L.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Una introducción a la computación evolutiva
SIGLO XVII: Isaac Newton
© 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico.
© 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico.
Funciones de las macromoléculas Proteínas Ácidos nucleicos.. Carbohidratos..... Lípidos Enzimas Reconocimiento molecular.
R 1 │ + H 3 N –CH – C – O – + ║ O H2OH2O R 1 R 2 │ │ + H 3 N — CH — C — N — CH — COO — ║ O dipéptido + H R 2 │ HN –CH – C – O – │ ║ H O.
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
1 Image Segmentation Chapter 9 Dr. Mario Chacón DSP & Vision Lab.
Clase # 7: Análisis Conformacional (I)
Alineamiento local: búsqueda de homologías
 Funciones:  Sirven como componentes estructurales de las células y tejidos. Estructurales  Transportan y almacenan pequeñas moléculas. Transportadoras.
Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Victoria Alejandra Montoya Expositora
PROTEÍNAS.
Análisis de estructuras. Problemas  No hay diferencias evidentes entre un modelo correcto y uno incorrecto  La utilización de una estructura desde el.
RIESGO, RENDIMIENTO Y VALOR
Cap.3 Moléculas Biológicas
Otra variedad de biomoléculas
© Copyright Ebiointel,SL 2006 Motivos, estructura y función Prof. Inma Ponte Motivos, estructura y función Prof. Inma Ponte.
OPTIMIZACION DEL DESEMPEÑO DE ERROR
Estructura de las Proteínas
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
PROSITE: Guía rápida Dirección URL de PROSITE.
Análisis de proteínas Alberto Vivoni Alonso.
PROTEÍNAS Cátedra de Química Orgánica. F.C.A.yF. – UNLP Curso 2013.
Transcripción de la presentación:

Protein sequence analysis Structural Bioinformatics Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín 2007

El flujo de información en biología Gen Función > DNA AATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACAC TGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAA TCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTA ACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGG TTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAA TTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTG GTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGA CGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGC TACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGA ACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGG TAAGAAGATCGCGAACATCTAGTAGA > Proteina MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNI DELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGK KVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNE PDEAEQDCIEFGKKIANI

Conformación proteica Christian Anfinsen Estudios sobre desnaturalización reversible: “la secuencia determina la conformación” Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final. A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales? Respuesta: predicción ab initio (no muy confiable!!!)

Protein sequence analysis Ancestro común? Función conservada? Dominio o secuencia completa?

BLAST Identifica high-scoring segment pairs (HSPs) Un par de secuencias que pueden ser alineados sin gaps Cuando están alineadas tienen un score agregado máximo (no puede ser mejorado por extensión o por recorte del alineamiento) El score debe estar por arriba de un determinado valor (threshold) S. gapped (2.0) o ungapped (1.4) Modos de uso (interfases disponibles) WWW search form http://www.ncbi.nlm.nih.gov/BLAST Unix command line blastall -p progname -d db -i query > outfile

Algoritmos BLAST Program Query Sequence Target Sequence BLASTN Nucleotide Nucleotide BLASTP Protein Protein BLASTX Nucleotide, Protein six-frame translation TBLASTN Protein Nucleotide, TBLASTX Nucleotide, Nucleotide, six-frame translation six-frame translation

Palabras cercanas (neighborhood words) Query Word (W = 3) Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED Neighborhood Words PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Neighborhood Score Threshold (T = 13)

High-scoring segment pairs (HSPs) PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12 etc. Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TP G R++ +W+ P+ D + ER + A Sbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330

Requerimientos de una búsqueda de BLAST Una secuencia query, en formato FASTA. Qué programa de BLAST usar. Qué base de datos buscar. Parámetros de la búsqueda.

Secuencia query BLASTP / SWISSPROT / BLOSUM62 >N-terminal unknown protein MSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNL FGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN... BLASTP / SWISSPROT / BLOSUM62 Score E Sequences producing significant alignments: (bits) Value sp|P29617|PRO_DROME PROTEIN PROSPERO 948 0.0 sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH-26 242 4e-63 sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55 sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55 sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 213 2e-54 sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) 35 0.79 sp|P31000|VIME_RAT VIMENTIN 34 1.4 sp|P48670|VIME_CRIGR VIMENTIN 34 1.4 Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!!

Número de HSPs hallados por puro azar Requerimientos BLAST Una secuencia query, en formato FASTA. Qué programa de BLAST usar. Qué base de datos buscar. Parámetros de la búsqueda. E = kNe-S Número de HSPs hallados por puro azar X HSP X Cumulative Score Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico. S T Extension

Matrices de scoring Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional) Cys : puentes disulfuro o unión a metales: estabilizan la estructura. Pro : relativamente voluminoso y sin grupo N-H para cadenas laterales: ocurre en codos (turns). Trp: cadena lateral voluminosa. Lys/Arg: cadenas laterales cargadas positivamente. Gly: no tiene cadena lateral. Permite rotar a la cadena porlipeptídica: ocurre en codos (turns). Ala: sinpropiedades particulaes. Cadena lateral pequeña: ocurre frecuentemente en alpha-hélices. Glu/Asp: frecuentes al comienzo de alpha-hélices. Lys/Arg: frecuentes hacia el final de alpha-hélices.

Matrices de scoring: importancia Es importante comprender las matrices de scoring Aparecen (y son la base) de todos los análisis que involucran comparación de secuencias. Representan en forma implícita una teoría particular de la evolución. La elección de la matriz puede influenciar fuertemente los resultados que se obtengan.

Estructura de una matriz A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Triple-PAM (Altschul, 1991) Hay tantas matrices ... Triple-PAM (Altschul, 1991) PAM 40 Alineamientos cortos, alta similitud PAM 120 PAM 250 Alineamientos largos, baja similitud BLOSUM 62 (Henikoff, 1993) La más efectiva para detectar miembros de una familia de proteínas. (BLAST default). No hay una matriz que sea la respuesta completa para todas las comparaciones!!!

Point Accepted Mutation (PAM) Matrices PAM Margaret Dayhoff, 1978 Point Accepted Mutation (PAM) Se observan los patrones de sustituciones en proteínas relacionadas. La nueva cadena lateral debe funcionar en forma similar a la anterior (aceptación) En promedio 1 PAM, corresponde al cambio de 1 amino ácido cada 100 residuos. 1 PAM ~ 1% divergencia Se extrapola para predecir patterns de mutación a mayores distancias.

Matrices PAM (cont.) Suposiciones Fuentes de error Una mutación es independiente de los residuos que la rodean. Las secuencias comparadas son de una composición promedio. Todos los sitios son igualmente reemplazables. Fuentes de error Para derivar las matrices se utilizaron proteínas pequeñas, globulares (desvío de la composición promedio). Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250 No considera, ni es flexible para considerar bloques conservados o dominios.

Blocks Substitution Matrix (BLOSUM) Matrices BLOSUM Henikoff and Henikoff, 1992 Blocks Substitution Matrix (BLOSUM) Considera sólo diferencias en regiones conservadas, libres de gaps, de una familia proteica. Más sensible a sustituciones estructurales o funcionales. BLOSUM n Contribución de secuencias > n% idénticas pesan 1. Reduce la contribución de secuencias muy similares. Incrementar n ~ incrementar la distancia PAM.

Protein sequence analysis Ancestro común? Función conservada? Dominio o secuencia completa?

Profiles Representación númerica de un alineamiento múltiple. Depende de patrones (patterns) o motivos (motifs) que contengan residuos conservados. Representan las características comunes de una familia de proteínas. Permite identificar similitud entre secuencias con poca o ninguna identidad. Permite incorporar al análisis secuencias relacionadas en forma distante.

Construcción de profiles Qué residuos aparecen en cada posición? Cuál es la frecuencia de los residuos observados? Qué posiciones están conservadas? Dónde pueden introducirse gaps? APHIIVATPG GCEIVIATPG GVEICIATPG GVDILIGTTG RPHIIVATPG KPHIIIATPG KVQLIIATPG RPDIVIATPG APHIIVGTPG GCHVVIATPG NQDIVVATTG Position-Specific Scoring Table Cons A B C D E F G H I K L M N P Q R S T V W Y Z G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11 P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1 H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27 I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11 V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8 V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9 A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10 T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10 P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12 G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30

ProfileScan Compara una secuencia contra una colección de profiles. Bases de datos disponibles PROSITE 17.39 1609 entries Pfam 8.0 5193 entries http://expasy.org/prosite

Query ProfileScan E-value Signatures >C-terminal end MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... Selecciono TODAS las bases de datos Sólo matches significativos normalized raw from - to Profile|Description 219.3535 27400 pos. 21 - 600 PF00012|HSP70 Heat shock hsp70 proteins E-value Signatures NScore SwissProt 7.0 1.8000 8.0 0.1800 9.0 0.0180 10.0 0.0018 219.4 3e-211 [IV]-D-L-G-T-[ST]-x-[SC] [LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)- [ST]-[LIVM]-[LIVMFC] [LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x- [DEQKRSTA]

BLOCKS Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle Alineamientos múltiples de regiones conservadas en familias de proteínas. 1 “block” = 1 alineamiento corto, sin gaps Cada familia puede definirse por uno o más ‘blocks’ Las búsquedas permiten detectar uno o más blocks representantes de una familia. Interfases disponibles E-Mail blocks@howard.fchrc.org Web http://blocks.fhcrc.org/

Query BLOCKS Search blocks Examine blocks >C-terminal end MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA... Search blocks BL00297A HSCA_ECOLI 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA ||||||||||||||||||||||||||||||||||||||||||||||||||||||| C-terminal 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA Examine blocks ID HSP70_1; BLOCK AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607

BLOCKS entry ID HSP70_1; BLOCK AC BL00297A; distance from previous block=(94,187) DE Heat shock hsp70 proteins family proteins. BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607 HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19 HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75 HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45 HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28 YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100 DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7 DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3 DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3 DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5 DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10 DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8 DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5 DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3 DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5 DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6 .

BLOCK Maker MOTIF/GIBBS >Histone chk-H5 family SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS >hum-H1 TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK >pea-H1 PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP MOTIF/GIBBS >Histone chk-H5 family 6 sequences are included in 2 blocks HistoneA, width = 31 chk-H5 1 SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI hum-H1 1 SGPPVSELITKAVAASKERSGVSLAALKKAL pea-H1 1 SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI sce-H1.1 1 SSKSYRELIIEGLTALKERKGSSRPALKKFI sce-H1.2 1 SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV xla-H1 1 SGPSASELIVKAVSSSKERSGVSLAALKKAL HistoneB, width = 15 chk-H5 ( 21) 53 IRRLLAAGVLKQTKG hum-H1 ( 21) 53 LKSLVSKGTLVQTKG pea-H1 ( 21) 53 LKKNVASGKLIKVKG sce-H1.1 ( 21) 53 IKKGVEAGDFEQPKG sce-H1.2 ( 21) 53 IKKCVENGELVQPKG xla-H1 ( 21) 53 LKALVTKGTLTQVKG

CD-Search (RPS-BLAST) Compara una secuencia contra una colección de profiles (Reverse PSI-BLAST) Bases de datos disponibles Pfam 2478 entries Smart 488 entries Oasis (combined pfam, smart and cdd) 3019 profiles. Buscar usando Blast http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Buscar la base de datos CDD (Conserved Domains from 3D structures) http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

Position-Specific Iterated BLAST search PSI-BLAST Position-Specific Iterated BLAST search Easy-to-use version of a profile-based search Hace una búsqueda utilizando BLAST contra una base de datos de proteínas. Utiliza los resultados para derivar una matriz posición- específica (position-specific scoring matrix, PSSM) En la próximas rondas (iteraciones) se utiliza la PSSM en lugar de la secuencia query original Se puede iterar hasta que no aparezcan nuevos alineamientos significativos. Convergencia – todas las secuencias relacionadas fueron encontradas. Divergencia – el query es demasiado amplio, utilizar criterios (cut-offs) más estringentes.

Protein sequence analysis estructura secundaria módulos de señalización estructura terciaria plegamientos especializados

Predicción de estructura secundaria Dada una secuencia primaria de una proteína GHWIATRGQLIREAYEDYRHFSSECPFIP Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils) CEEEEECHHHHHHHHHHHCCCHHCCCCCC

Predicción de estructura secundaria Predice la posición más probable de alfa-hélices y hojas beta. Cuando la similitud con otras secuencias es baja, confirma características estructurales o funcionales compartidas entre dos secuencias. Guía la selección racional de mutantes específicas para el estudio en el laboratorio. Es la base para futuros estudios estructurales.

-hélice sacacorchos La cadena principal forma un esqueleto del cual las cadenas laterales se proyectan hacia afuera. Puentes de hidrogeno entre Grupo CO en n y grupo NH en n+4 Formadores de -helice: Ala, Glu, Leu, Met Helix-breaker: Pro

Hojas  Estructura extendida (plegada) Los enlaces peptídicos apuntan en direcciones opuestas. Las cadenas laterales apuntan en direcciones opuestas. No hay puentes de hidrógeno intra- catenarios.

Hojas  Estabilización a través de puentes de hidrógeno inter-catenarios. Paralelas o anti- paralelas. Variante : beta-turn

nnpredict Estrategia de predicción basada en una red neural (Kneller et al., 1990) Best-case accuracy > 65% Interfases E-mail nnpredict@celeste.ucsf.edu Web http://www.cmpharm.ucsf.edu/ ~nomi/nnpredict.html

Red neural que simula un interruptor (gate) booleano Produce 1 si tanto X como Y son mayores a 0 X Out Y Elegir funciones centrales de X e Y y dejar a la computadora decidir la mejor manera de combinar los inputs. X Funciones centrales: +,-,*,/,X^2,y^2,etc.. Out Y Combinar las funciones centrales usando pesos elegidos por la computadora. Out=w1+w2*X+w3*Y+w4*X*Y +w5*X/Y+w6*Y2+w7*X2

K P R S A Y   Red Neural Output layer Hidden layer Input layer Cada input puede o no tener una contribución importante en la predicción final. Esto se determina durante la fase de entrenamiento de la red neural (es necesario proveer a la computadora con ejemplos suficientes para cubrir los grados de libertad en las ecuaciones).

nnpredict query folding class option: a/b >flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL folding class Tertiary structure class: alpha/beta Sequence: AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG ELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYW PIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL Secondary structure prediction (H = helix, E = strand, - = no prediction): ----EEE------EEEHHHHHHH------EEEH---------------EEEE-------- ---------------HHHH---EEEE------------H--HHHHHHHH------E--E- -E--------------HH--E----------------EHHHHH------

Dos métodos de predicción Red neural (SignalP-NN) Modelos de Markov (SignalP-HMM) Entrenamiento basado en filogenia. Gram-negative prokaryotic Gram-positive prokaryotic Eukaryotic Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares) http://www.cbs.dtu.dk/services/SignalP/

SignalP query N-terminal end only Eukaryotic set >sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG N-terminal end only Eukaryotic set ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES # Most likely cleavage site between pos. 48 and 49: ATA-GP

SignalP query N-terminal end only Eukaryotic set >sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG N-terminal end only Eukaryotic set ************************* SignalP predictions ************************* Using networks trained on euk data >IGF-IB length = 195 # pos aa C S Y . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 < Is the sequence a signal peptide? # Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES # Most likely cleavage site between pos. 48 and 49: ATA-GP C = cleavage site score S = signal peptide score Y = combined score

PredictProtein Algoritmo predictivo en varios pasos. (Rost et al., 1994) La secuencia de proteína se compara contra SWISS- PROT Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991) El alineamiento multiple se utiliza como input para una red neural (PHDsec) Precisión Average > 70% Best-case > 90% Interfases Web http://predictprotein.org/

Predict protein query Estructura secundaria SWISS-PROT hits Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@nhgri.nih.gov # flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL Estructura secundaria ....,....1....,....2....,....3....,....4....,....5....,....6 AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG| PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE | Rel sec |938999736982489999999999767982443213241278631241999861547765| Detail: prH sec |000000000014689999999999821000011112565388764321000001111111| prE sec |058998852000000000000000000003665542100000000014899874120002| prL sec |931000137985310000000000178985222344324511234554000114667776| SWISS-PROT hits Multiple alignment PDB homologues

PHDtopology Estrategia similar a PredictProtein (PHDsec) Precisión total 94.7% Predicción de hélices 92.0% Predicción de loops 96.0% Incluye predicción de topología. Gratuito para uso académico. Licencia comercial disponible. Interfases disponibles E-mail predictprotein@embl-heidelberg.de Web http://predictprotein.org

PHDtopology query Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@nhgri.nih.gov predict htm topology # pendrin MAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPILEWLPKYRV KEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSMAP... ....,....37...,....38...,....39...,....40...,....41...,....42 AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII| PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH| Rel htm |368899999999999998641104667777655431257778887777621467788888| detail: | | prH htm |310000000000000000124457888888877765321110000111135788899999| prL htm |689999999999999999875542111111122234678889999888864211100000| . PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT|

Precisión de las predicciones

Protein sequence analysis estructura secundaria módulos de señalización estructura terciaria plegamientos especializados

Predicción de estructura terciaria La secuencia determina la conformación pero no viceversa. La estructura se conserva mucho más que la secuencia. Númer limitado de plegamientos conocidos. Similitud entre proteínas no siempre detectada por métodos ‘tradicionales’.

PDB Growth

ab initio structure prediction Funciones de energía que describan la estructura 3D de una proteína bond energy bond angle energy dihedral angle energy van der Waals energy electrostatic energy Minimizar las funciones y obtener la estructura. En general poco práctico. Computacionalmente costoso Precisión pobre Funciona razonablemente para proteínas chicas Péptidos (~ 20 aa)

Contact order Orden de contacto Medida que refleja las interacciones entre aminoácidos en una proteína Distancia promedio entre aminoácidos que interaccionan entre sí Suma de las distancias / Longitud de la proteína Está relacionada con el tiempo de plegamiento de una proteína Low contact order proteins = fast folding High contact order proteinas = slow folding Las estructuras de proteínas con valores de contact order bajos son más fáciles de predecir ab initio

Ab initio prediction: Rosetta Análisis de MSAs de proteínas de estructura conocida Gran número de patrones de 3-15 aminoácidos, algunos de los cuales están fuertemente asociados a ciertas estructuras locales Algunas de estas estructuras tienen energías predecibles (datos experimentales de NMR) I-Sites La estrategia recrea el proceso de folding Análisis usando una ventana de 9 aminoacidos Identificación de I-Sites Muestreo de posibles estructuras minimizando energía (Monte Carlo)

Rosetta online: Robetta

Predicción de estructura basado en el reconocimiento del fold nativo Threading Predicción de estructura basado en el reconocimiento del fold nativo thread (alinear o acomodar) una proteína query sobre una estructura molde de alguna forma óptima. Un alineamiento bueno provee un backbone aproximado Requerimientos Una biblioteca de moldes Una función de scoring Un alineamiento Evaluar confidencia Fuerza bruta Threading de una secuencia contra todas las estructuras disponibles (PDB)

Threading: performance Predicted model X-ray structure

Threading: aplicaciones Predecir estructura Identificar homologías distantes Predecir función de proteínas con bajo grado de similitud con otras proteínas

Bases de datos representativas (no- redundantes) Threading: moldes Bases de datos representativas (no- redundantes) Estructuras secundarias y formas de combinarlas Idealmente de dominios, pero depende de que la partición en dominios se haga correctamente

Clases de plegamientos: all alpha Cyt C Globins EF-hand

Clases de plegamientos: all beta Plasminogen Activator Phospatidylinositol 3-kinase Beta-2-microglobulin Fibroblast Growth Factor

Clases de plegamientos: alpha/beta PCNA Cytochrome P450 Dehydrogenases (Rossman fold)

Proteínas trans-membrana: clases Paquete de hélices (helix bundle) Largas extensiones de amino ácidos apolares. Plegamiento en -hélices trans- membrana. “Positive-inside rule” Receptores de superficie Canales iónicos Transportadores activos y pasivos. Barriles  Hojas anti-paralelas dispuestas en cilindro. Membrana externa de Gram-negativas. Porinas (difusión selectiva, pasiva).

Bases de datos de clasificación de estructuras SCOP Structural Classification of Proteins http://scop.mrc-lmb.cam.ac.uk/scop Basada en definición de similitud estructural a cargo de expertos Luego de clasificar por clase, SCOP clasifica proteínas en una jerarquía que incluye: superfamilia, familia y fold

Clasificación estructural de proteínas CATH Classification by Class, Architecture, Topology and Homology http://www.biochem.ucl.ac.uk/bsm/cath Clasifica por Clase (contenido de estructura 2daria) Arquitectura (orientación gruesa de la estructura secundaria) Fold (topología fina) Superfamilia (estructura y función similar) Utiliza SSAP (secondary structure alignment) para alinear estructuras

CATH: catherine wheel C: Class level A: Architecture level T: Topology (fold-family) H: Homologous superfamily S: Sequence families

Clasificación estructural de proteínas FSSP Fold Classification based on Structure-Structure alignment of Proteins http://www.ebi.ac.uk/dali/fssp Alineamiento estructural de todas las combinaciones posibles de proteínas en la base de datos PDB A nivel de dominios Usa DALI (Distance alignment tool) Generación de un set no-redundante de folds Cada fold está representado por un cluster de folds de estructura similar Valor estadístico Z, describe el grado en que los átomos comparten posiciones estructurales similares Z > 16 = muy buen alineamiento estructural 8 < Z < 16 = buenos alineamientos 2 < Z < 8 = pobres (2 es el límite de detección). 8320 PDB entries  947 estructuras representativas, 1484 dominios, 540 tipos de folds estructuralmente diferentes

Alineamiento estructural: distance matrix Similar a dot-plots Se hace un gráfico por proteína Cada posición en la grilla corresponde a la distancia entre los átomos C-a correspondientes Las regiones con más alta densidad de átomos se resaltan dibujando un punto Se comparan las estructuras a través de estos gráficos DALI (

Alineamiento estructural: distance matrix Similar a dot-plots Se hace un gráfico por proteína Cada posición en la grilla corresponde a la distancia entre los átomos C-a correspondientes Las regiones con más alta densidad de átomos se resaltan dibujando un punto (< 12 Å) Se comparan las estructuras a través de estos gráficos DALI (Distance Alignment Tool)

DALI Ejemplo con 3 hélices a Identificación del patrón en la proteína A y búsqueda (scanning) del plot de la proteína B buscando similitudes Las búsquedas se hacen en subplots (particiones del espacio de búsqueda) Finalmente todas las similitudes se ensamblan (se remueven inserciones / deleciones y se reordenan las secuencias) para producir el alineamiento final

Comparacion de estructuras 3D DALI Server Comparacion de estructuras 3D Query: coordenadas Search against PDB http://www.ebi.ac.uk/dali

Clasificación estructural de proteínas MMDB Molecular Modelling Database http://www.ncbi.nlm.nih.gov/Entrez Proteínas en PDB agrupadas de acuerdo a similitud estructural usando VAST (Vector Alignment Search Tool) Entrez provee ‘structural neighbors’ como links

VAST Compara los tipos y ordenamientos de hélices a y hojas b entre y las maneras en que están conectadas. Pocos tipos de elementos de estructura secundaria La localización y dirección de estos elementos se describen con vectores

Comparación de estructuras: VAST Step 1: Construct vectors for secondary structure elements Ricin Chain B

Comparación de estructuras: VAST (cont.) Paso 2: Obtener un alineamiento óptimo de los vectores estructurales. 1 2 3 4 1 2 3 4 5 Proteína 1 Proteína 2 1 2 3 4 1 2 3 4 5 2 3 4 5 1 1 3 4 5 2 Alineamiento 1 Alineamiento 2 Alineamiento 3 Alineamiento 4

Comparación de estructuras: VAST (cont.) Paso 3: refinar residuo por residuo el alineamiento Hisactophilin Ricin B (both domains)

Double dynamic programming: SSAP Secuencias: cada caracter en la grilla es un aminoácido o una base Estructuras: cada caracter en la grilla es un vector Describe el ambiente local de cada aminoácido Distancias interatómicas Angulos de enlace Cadenas laterales Se derivan vectores desde C-b hacia otros aminoácidos Vision geométrica desde un punto en la proteína http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl

SSAP Se restan los vectores Vector de F-E en proteína A Menos Vector de C-Q en proteína B Se hace dynamic programming (global) para todos los vectores Luego se itera: Se cambia el centro al próximo aminoácido (V), se generan los vectores, se calcula el mejor camino Finalmente se deriva una matriz de resultados Los caminos compartidos suman sus puntajes Se hace dynamic programming sobre esta matriz final para obtener el alineamiento

SSAP http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl

Alineamientos estructurales La estructura tridimensional de un dominio proteico se alinea en el espacio con la estructura 3D de un segundo dominio proteico Alineamiento de secuencias descubrir similitud de secuencias (origen evolutivo común) Modela procesos evolutivos (mutación, inserción/deleción) Alineamiento de estructuras descubrir similitud estructural Convergencia evolutiva Funcional (función idéntica o similar, estructuras diferentes) Estructural (estructura similar, función divergente) Alineamientos significativos entre estructuras no necesariamente indican origen evolutivo común.

Alineamientos estructurales: loops La deleción de un loop ilustra la diferencia entre los dos tipos de alineamientos PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS ARG GLU ALA CYS

Predicción de estructura terciaria En Entrez todas las estructuras tienen una proteína asociada, lo cual facilita linkear una estructura a la base de datos de proteínas. En Entrez, si una proteína no tiene structure links, buscar los protein links relacionados. Luego buscar los structure links de todas estas secuencias relacionadas. Usando Cn3D (NCBI) se puede visualizar la estructura y el alineamiento de la secuencia inicial con la secuencia que tienen su estructura resuelta. Es también posible encontrar una estructura que pegue mejor a la proteína query.

Proceso de predicción de estructura terciaria Query Protein Protein neighbours Structure links View in Cn3D Structure neighbours of structures. Ver en Cn3D, mejor match entre estructura y proteína query, dado que la similitud inicial era débil.

SWISS-MODEL Servidor de modelado automatizado de proteínas automatizado. http://swissmodel.expasy.org/ Resultados por E-mail Búsqueda BLAST para encontrar secuencias similares en PDB Selecciona moldes con identidad > 25% y un modelo proyectado > 20 aa Genera modelos Minimiza energía Genera archivo PDB para el nuevo modelo

Gene 3D Base de datos de asignaciones estructurales pre-calculadas para proteínas en genomas completos http://www.biochem.ucl.ac.uk/bsm/cath/Gene3D/

Protein sequence analysis Cuando todo lo demás no funciona! Composición Hidrofobicidad

Panorama informativo Nonpolar Polar Neutral Polar Basic Polar Acidic

Funciones comunes asociadas a distintos residuos C disulphide-rich, metallo-thionein, zinc fingers DE acidic proteins (unknown) G collagens H histidine-rich glycoprotein KR nuclear proteins, nuclear localisation P collagen, filaments SR RNA binding motifs ST mucins Polar (C,D,E,H,K,N,Q,R,S,T) - active sites Aromatic (F,H,W,Y) - protein ligand- binding sites Zn+-coord (C,D,E,H,N,Q) - active site, zinc finger Ca2+-coord (D,E,N,Q) - ligand-binding site Mg/Mn-coord (D,E,N,S,R,T) - Mg2+ or Mn2+ catalysis, ligand binding Ph-bind (H,K,R,S,T) - phosphate and sulphate binding

Parámetros físico-químicos Proteínas con los mismo parámetros físico-químicos, a menudo son aisladas juntas. Gel Electrophoresis. Iso-Electric focusing in pH Gradient. 2D Gels Mass Spectroscopy (o Time-of-flight spectroscopy, más precisa) requiere masses of polypeptides MALDI: espectroscopía de masa de péptidos trípticos. Electrospray: producción de péptidos por ruptura física, seguida de espectroscopía de masa. Nano-electrospray: descompone peptidos en los aminoácidos individuales. Requere composición de amino ácidos y peso molecular para identificar péptidos y proteínas. Parámetros clásicos. pI teórico (punto isoeléctrico) Peso molecular (Mass Spectroscopy. Con o sin modificaciones post-traduccionales) Composición aminoacídica. (Mass Spectroscopy) Coeficiente de extinción

Parámetros físico-químicos Proteinas con características físico-químicas similares pueden estar relacionadas. motivos relacionados (contenido de aa similar) Distribución similar de amino ácidos polares o cargados. Proteínas de trans-membrana. Proteínas de membrana. Proteínas de unión a DNA. Hidrofóbicas o hidrofílicas. Señales de localización.

Calcula parámetros físico-químicos. ProtParam Calcula parámetros físico-químicos. Molecular weight Theoretical pI (isoelectric point pH) Amino acid composition Extinction coefficient Query simple SWISS-PROT accession number. Secuencia ingresada por el usuario. http://www.expasy.org/tools/protparam.html

ProtParam query Compute parameters MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM... Compute parameters Number of amino acids: 727 Molecular weight: 84936.8 Theoretical pI: 5.44 Amino acid composition: Ala (A) 35 4.8% Leu (L) 57 7.8% Arg (R) 39 5.4% Lys (K) 97 13.3% Asn (N) 28 3.9% Met (M) 25 3.4% Asp (D) 58 8.0% Phe (F) 18 2.5% Cys (C) 6 0.8% Pro (P) 39 5.4% Gln (Q) 36 5.0% Ser (S) 67 9.2% Glu (E) 98 13.5% Thr (T) 22 3.0% Gly (G) 26 3.6% Trp (W) 11 1.5% His (H) 11 1.5% Tyr (Y) 20 2.8% Ile (I) 18 2.5% Val (V) 16 2.2% Asx (B) 0 0.0% Glx (Z) 0 0.0% Xaa (X) 0 0.0% Total number of negatively charged residues (Asp + Glu): 156 Total number of positively charged residues (Arg + Lys): 136

PropSearch Utiliza la composición de amino ácidos para detectar relaciones entre proteínas. Puede ser utilizado para distinguir miembros de la misma familia de proteínas. 144 propiedades físicas se utilizan en el análisis (‘vector’) Molecular weight Bulky residue content Average hydrophobicity and charge Búsquedas contra la ‘base de datos de vectores’ (PIR and SWISS-PROT) http://www.infobiosud.univ- montp1.fr/SERVEUR/PROPSEARCH/propsearch.html

PropSearch query Vector search DIST Odds < 10 87.0% < 8.7 94.0% >S18193 autoantigen NOR-90 - human MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM... Vector search DIST Odds < 10 87.0% < 8.7 94.0% < 7.5 99.6% Rank ID DIST LEN2 POS1 POS2 pI DE _____________________________________________________________________________________________ 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 - human 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w - yeast 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase - chicken 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase p130-PITSLRE - mouse 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 - fission 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c - yeast 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w - yeast 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 22 radi_human 9.76 583 1 583 6.33 RADIXIN. 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B). 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 - human 26 >p1;a57467 9.91 647 1 647 5.74 RalBP1 - rat

Calcula la hidrofobicidad de una proteína TGREASE Calcula la hidrofobicidad de una proteína Distingue regiones putativas trans-membranas Regiones putativas que formarían el core hidrofóbico de una proteína globular Parte del paquete FASTA (Pearson, U. Virginia)

Protein sequence analysis

Entender los resultados Secuencia Resultados Inspección