TEMA 7 MÉTODOS TEÓRICOS DE ESTUDIO DE ESTUDIO ESTRUCTURAL.

TEMA 7 MÉTODOS TEÓRICOS DE ESTUDIO DE ESTUDIO ESTRUCTURAL

Características sistemas biológicos (p.v. Teoría) Reacciones y procesos biológicos son en general sencillos Problemas en su representación: –Conocimiento parcial del conjunto de procesos bioquímicos en la célula. –Gran incertidumbre sobre la naturaleza del “entorno fisiológico”. –Las macromoléculas biológicasn son muy grandes.

Métodos estudio estructural de sistemas bioquímicos Métodos estadísticos. –Emplean criterios de comparación. Del análisis de bases de datos derivan reglas de conocimiento que luego aplican al sistema desconocido. Métodos físicos o microscópicos. –Emplean principios básicos de la física y química.

Métodos estadísticos: Bioinformática estructural

Métodos estadísticos (1) Predicción de perfiles de hidrofobicidad, sitios de glicosilación, determinantes antigénicos y otras propiedades primarias derivadas de secuencia. Predicción de funcionalidad por similitud de secuencia. Predicción estructura secundaria (RNA, proteínas,...) Predicción de fragmentos transmembrana. Predicción de dominios estructurales Predicción de IDP Ver por ejemplo http://www.expasy.ch

Métodos estadísticos (2) Predicción de estructura 3-D por homología Predicción de estructura 3-D por “threading” Predicción “ab initio” a partir de potenciales estadísticos Predicción e identificación de centros activos y lugares de unión. Ver por ejemplo http://www.expasy.ch

1. Predicción propiedades primarias En muchos casos basados en composición aminoacídica: –Masa molecular, pI, coeficiente extinción, curvas de titración –Perfiles hidrofóbicos. –Regiones de glicosilación, determiantes antigénicos, sensibilidad a degradación proteolítica.

2. Predicción funcionalidad por similitud de secuencia Métodos basados en similitud general –BLAST, FASTA,... Métodos basados en existencia de secuencias cortas características –PROSITE

ScanProsite Scan Swiss-Prot with a PROSITE pattern Swiss-Prot Release 41.22 of 29-Aug-2003: 133723 entries PDOC00965PDOC00965 PS01253 FIBRONECTIN_1 Type I fibronectin domain. Pattern: C-x(6,8)-[LFY]-x(5)-[FYW]-x-[RK]-x(8,10)-C-x-C- x(6,9)-C Approximate number of expected random pattern matches in Swiss-Prot release 41.0 (122564 sequences): 0.18 [Ref: PMID 11535175]PS01253PMID 11535175 >P98140 (FA12_BOVIN) Coagulation factor XII precursor (EC 3.4.21.38) (Hageman factor) (HAF) (Fragment) [Bos taurus (Bovine)] (593 AA). 125 - 160 CfepqffrfFheneiWhRlepagvvk..CqCkgpnaq...CP98140 Ejemplo output PROSITE-search contra swissprot

Accession number or sequence Enter a Swiss-Prot/TrEMBL accession number or a PROTEIN sequence in RAW format. Ejemplo input BLAST Secuencia de la proteína problema

Query length: 61 AA Date run: 2003-09-08 17:20:12 UTC+0100 on sib- blast.unil.ch Program: NCBI BLASTP 2.2.5 [Nov-16-2002] Database: XXtremblnew; XXtrembl; XXswissprot 1,249,251 sequences; 402,609,643 total letters Swiss-Prot Release 41.22 of 29-Aug-2003 TrEMBL Release 24.10 of 29-Aug-2003 TrEMBL_new of 29-Aug-2003 List of potentially matching sequences Send selected sequences to Include query sequence Db AC Description Score E-value tr Q8XMW7Q8XMW7 Hypothetical protein CPE0571 [CPE0571] [Clostridium pe... 142 5e-34 Q8EMU9 Hypothetical conserved protein [OB2741] [Oceanobacillu... 74 2e-13142Q8EMU9 74 (...) Ejemplo output BLAST Listado de proteínas con similitud

Taxonomy reports Distribution of 63 Blast Hits on the Query Sequence Ejemplo alineamientos after Blast

>gi|18309553|ref|NP_561487.1| conserved hypothetical protein [Clostridium perfringens] gi|18144230|dbj|BAB80277.1| conserved hypothetical protein [Clostridium perfringens str. 13] Length = 135 Score = 113 bits (283), Expect = 7e-25 Identities = 59/61 (96%), Positives = 59/61 (96%), Gaps = 1/61 (1%)gi|18309553|ref|NP_561487.1|gi|18144230|dbj|BAB80277.1| Query: 1 MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV 60 MNNFFKHTLETHT QSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV Sbjct: 1 MNNFFKHTLETHT-PQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV 59 Query: 61 V 61 V Sbjct: 60 V 60 Ejemplo alineamiento en PsiBlast servidor http://www.ncbi.nlm.nih.gov/blast/http://www.ncbi.nlm.nih.gov/blast/

2. Predicción estructura secundaria Se puede predecir cantidad total de estructura secundaria Métodos basados en existencia de secuencias cortas características –PROSITE

AGADIR - An algorithm to predict the helical content of peptidesAGADIR BCM PSSP - Baylor College of MedicineBCM PSSP Prof - Cascaded Multiple Classifiers for Secondary Structure PredictionProf GOR I (Garnier et al, 1978) [At PBIL or at SBDS]PBILSBDS GOR II (Gibrat et al, 1987)GOR II GOR IV (Garnier et al, 1996)GOR IV HNN - Hierarchical Neural Network method (Guermeur, 1997)HNN Jpred - A consensus method for protein secondary structure prediction at University of DundeeJpred nnPredict - University of California at San Francisco (UCSF)nnPredict PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSec from Columbia UniversityPredictProtein PSA - BioMolecular Engineering Research Center (BMERC) / BostonPSA PSIpred - Various protein structure prediction methods at Brunel UniversityPSIpred SOPM (Geourjon and Deléage, 1994)SOPM SOPMA (Geourjon and Deléage, 1995)SOPMA Ejemplo de programas predicción estructura secundaria http://www.expasy.ch

Métodos predicción estructura secundaria Definen un número limitado de estructuras secundarias de referencia (hélice, giro, cadena típicamente). Analizan la base de datos de estructura calculando las veces en que cada tipo de residuo se encuentra en una estructura secundaria. De los datos de distribución derivan propensiones Con estas propensiones predicen Est. Sec. De proteínas problema.

MODEL F C 0.945 F C 0.589 K E 0.793 H E 0.861 T E 0.871 L E 0.885 E E 0.825 T E 0.648 H C 0.630 T C 0.832 A C 0.844 A C 0.800 (....) Ejemplo de output de un programa de predicción Estructura secundaria

Método de Chou-Fasman Tres tipos de E.secundaria: , turn. Se estudia la base de datos se mira cada residuo en que E.secundaria está Se calculan probabilidades Se derivan propensiones “tendencia intrínseca de un residuo” a pertenecer a una E.secundaria data Se promedian las P obtenidas en ventanas de 5 o 6 residuos para derivar estructura del fragmento

Propensiones Chou-Fasman Biochemistry 17, 4277 1978 Favor  Favor  Favor turn

Reglas Chou-Fasman (resumidas) Cada secuencia con 6 o mas residuos y >1,03 y y que no tengan Pro son hélices . Fragmentos de 5 residuos o más con >1,05 y > será hoja beta Tetrapéptidos con > son posiblemente giros. Las reglas reales son más complejas

Métodos predicción fragmentos transmembranas Emplean datos de homología con estructuras transmembranas conocidas Emplean datos de predicción de estructura secundaria Emplean perfiles de hidrofobicidad. Emplean datos sobre la necesidad de existencia de hélice anfipáticas y otras señales más difusas

Por ejemplo, si ejecutamos Sosui sobre esta secuencia (Rodopsina) http://sosui.proteome.bio.tuat.ac.jp MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAY MFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVF GGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAI ERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGW SRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFC YGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWL PYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNK QFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA

This amino acid sequence is of a MEMBRANE PROTEIN which has 7 transmembrane helices. N o. N terminaltransmembrane regionC terminaltype lengt h 140LAAYMFLLIMLGFPINFLTLYVT62PRIMARY23 271PLNYILLNLAVADLFMVFGGFTT93SECONDARY23 3113EGFFATLGGEIALWSLVVLAIER135SECONDARY23 4156GVAFTWVMALACAAPPLVGWSRY178SECONDARY23 5207MFVVHFIIPLIVIFFCYGQLVFT229PRIMARY23 6261FLICWLPYAGVAFYIFTHQGSDF283PRIMARY23 7300VYNPVIYIMMNKQFRNCMVTTLC322SECONDARY23

Métodos predicción dominios estructurales En general se aplican criterios de homología contra alineamientos múltiples. Normalmente se ejecutan contra bases de datos de alineamientos como PFAM. Incluyen información sobre presencia de determinados motivos estructurales: ej regiones de baja complejidad, transmembranas,... Se pueden emplear técnicas de Threading

Q9P201/571-786 Q9P201/571-786 LLLKYSK...KSELWTAQETIVYLGDYLTVKKKGRQRNA.FWVHHLHQ.....................................EEILGRYVGKD YKEQKGLWHHFTDVERQMTAQHYVTEFNKRLYEQNIPTQIFYIPSTILLILEDKTIKG.....CISVEPYILGEFVKL SNNTK.....VVKTEYKATEYGLAYGHFSYEFSNHRDVVVDLQGWVTGNGKGLIYLTDPQIHSVD......QKVFTTN FGKRGIFYFFNNQHVECNEIC Q9P201Q9P201 Q9HEI0/537-758 Q9HEI0/537-758 MLDRMME...SDTNMPVSVFGLNLCKRRTPFAKGALRLASFACTECSRS..............................RHVVKEFKTDGD DEDD.GSGNRSLAHLVDDMRSQALCKAFALEFNSLLADC..PEHNIDFVVTSCFKCNDRRGSQ...GKCMSIEPFL AGKFVKYNGNAGYANKEANLTHDPSNQAAQAFSHFTFERSRGRFLVCDLQGVG.......KTMTDPAIHTLDP...YR FSLSQTNLGAEGFMFFF..AYHECNHLC Q9HEI0KMHA_DICDI/561-800 ILWEFDP...IINKWIRLSMKLKVERK..PFAEGALREA.YHTVSLGVGTDENYPLGTTTKLFPPIEMISPISKNNEA MTQLKNGTKFVLKLYKKEAEQQASRELYFEDVKMQMVCRDWGNKFNQKK.....PPKKIEFLMSWVVELIDRS PSSNGQPILCSIEPLLVGEFKKNNSNYG......AVLT.N.RSTPQAFSHFTYELSNKQMIVVDIQGVD.......DLYTDPQI HTPD.....GKGFGLGNLGKAGINKFI..TTHKCNAVC P42527O76739/34-235 IKWELTIGDDLKPKWTHSIVCVSIEKT..PFAKGSCRTA.HKLKDWSQP...................................DQGLVGKFST...NK KTTRDSYFTDVLMQTFCAKWAEKFNEAK.....PPKPITFLPSYVYELIDHPPP....YPVCGGEPFIEGDYKKHNNNS G......YVSS.DARNTPQSFSHFSYELSNHELLIVDIQGVN.......DFYTDPQIHTKS.....GEGFGEGNLGETGFHKFL.. QTHKCNPVC O76739KMHB_DICDI/119-320 IKWEYDP.YTTTAQWTCTATLVKVEPV..PFAEGAFRKA.YHTLDLSK.....................................SGASGRYVSKIGK KPTPRPSYFEDVKMQMIAKKWADKYNSFK.....PPKKIEFLQSCVLEFVDRTSS....DLICGAEPYVEGQYRKYNN NSG......FVSN.DERNTPQSFSHFTYEHSNHQLLIIDIQGVG.......DHYTDPQIHTYD.....GVGFGIGNLGQKGFEKF L..DTHKCNAIC P90648EF2K_RAT/112-317 TRHRYNA...VTGEWLKDEVLIKMASQ..PFGRGAMREC.FRTKKLSN...............................FLHAQHWKGASNYV AKRYLEPVDRSVYFEDVQLQMEAKLWGEEYNRHK.....PPKQVDIMQMCIIELKDRQGQ.....PLFHLEHYIEGK YIKYNSNSG......FVRDDNIRLTPQAFSHFTFERSGHQLIVVDIQGVG.......DLYTDPQIHTEK.....GTDFGDGNLGV RGMALFF..YSHACNRIC P70531Q9HEI0KMHA_DICDI/561-800P42527O76739/34-235O76739KMHB_DICDI/119-320P90648EF2K_RAT/112-317P70531 Ejemplo familia PFAM (  -kinases)

Modelado de proteínas por homología Técnicas muy poderosas cuando existe una fuerte identidad de secuencia entre la proteína problema y otra de estructura conocida. Es una técnica sencilla, implementada en programas automáticos/semiautomáticos como SWISMODEL o MODELLER

Modelado de proteínas por homología Alineamiento de la proteína problema con una o varias estructuras de proteínas de estructura conocida. Se sobreponen las cadenas principales de la proteína problema y de la proteína(s) de referencia. Se satisfacen los criterios de mantenimiento de la topología de enlace de la proteína Se orientan en lo posible las cadenas laterales (Cb) según la proteína de referencia. Se relajan las cadenas laterales y se optimiza parcialmente el conjunto Se valida el sistema

Identificación homólogos Alineamiento Determinación restricciones Construcción modelo Refinado Validación Etapas generales modelado por homología

Modelado de proteínas por homología (problemas) Los modelos no suelen tener la misma calidad en las cadenas laterales que en la cadena principal. Cuando la identidad de secuencia baja por debajo del 30% entramos en una zona (twilight-zone) donde está poco clara la calidad del modelo. Cuando bajamos del 20% de identidad la técnica no es aplicable. Solo es fiable cuando se aplica a nivel de dominio. Proteínas con varios dominios no son modeladas con fiabilidad.

Métodos de Threading Métodos sirven para obtener modelos estructurales cuando identidad con modelos de estructura conocida es baja. Se usan también para recuperar proteínas con función similar a pesar de tener baja homología de secuencia Métodos arriesgados (última opción), funcionan solo a nivel de dominio

Métodos de threading: evolución base de datos de estructura

Métodos de Threading(2) Intentan adaptar la secuencia de la proteína a plegamientos (folds) de referencia Emplea tipos de folds canónicos (SCOP, CATH). Se evalua la “estabilidad” de cada uno de los folds teóricos en los que se ha plegado la proteína Se escoge el de mayor puntuación. En muchos casos se emplean “meta-servers” que conectan con diferentes servidores de predicción y realizan evaluación promedio (www.bioinfo.pl www.sbc.su.se o www.sbg.bio.ic.ac.uk)www.bioinfo.pl www.sbc.su.sewww.sbg.bio.ic.ac.uk

Jerarquía SCOP 1.Familia. Clara relación evolutiva 2.Superfamilia. Probable origen evolutivo común 3.Plegamiento. Fuerte homología estructural

Class Number of folds Number of superfamilies Number of families All alpha proteins138224337 All beta proteins93171276 Alpha and beta proteins (a/b)97167374 Alpha and beta proteins (a+b)184263391 Multi-domain proteins28 35 Membrane and cell surface proteins 111728 Small proteins5477116 Total6059471557 Plegamientos en SCOP

BASE DATOS CATH

Jerarquía CATH C: Clase (contenido en estructura secundaria) A: Arquitectura (disposición de los elementos de estructura secundaria) T: Topología (disposición de las conexiones entre elementos) H: Homología (homología estructural) S: Secuencia (homología de secuencia)

Ejemplo de clasificación CATH

Métodos de plegamiento “ab initio” Intentan plegar proteínas pequeñas a partir de potenciales estadísticos, sin recurrir “a priori” al conocimiento previo del plegamiento de proteínas similares Emplean métodos muy sencillos de muestreo del espacio conformacional de las proteínas Muy poco precisos. Aplicables solo a proteínas pequeñas.

Potenciales estadísticos Priman la posición (externa / interna) de residuos aminoacídicos Pueden primar tendencia a estar en E. Secundaria de un tipo Representan la tendencia diferencial de residuos a estar cerca o lejos en el espacio Se también usan para evaluar estabilidad de proteínas ya plegadas

Ejemplo perfil PROSA Total Hidrophobic C  -C  http://lore.came.sbg.ac.at:8080/CAME/CAME_EXTERN/ProsaII/index_html Very stable Low stability

Predicción IDPs En bacterias IDPs son un 5% del proteoma, son un 40% en eucariotas evolucionados y un 60- 70% si miramos proteínas de señalización. IDPs se refiere tanto a proteinas sin ninguna estructura como a otras que tienen una parte bien estructurada

Predicción IDPs Contenido bajo residuos hidrofóbicos, alto en residuos cargados. Baja complejidad. Poca estructura secundaria predicha. Predictores como IUPRED, DISPROT o DisEMBL

Ej,… DisEMBL

Métodos microscópicos

Métodos microscópicos/físicos: Metodos de simulación molecular Pretenden reproducir sistemas bioquímicos a partir de principios fisicoquímicos. Se pueden basar en dos esquemas diferentes. –Mecánica cuántica –Mecánica clásica

Mecánica cuántica Basada en primeros principios. E=E(X,x) Muy rigurosa Uso universal Demasiado costosa computacionalmente Poco aplicable en sistemas bioquímicos

Mecánica clásica E=E(X) Utiliza aproximaciones empíricas a la energía Muy eficiente computacionalmente Menos precisa que la Mec. Cuántica Aplicable solo a sistemas sin cambio de topología y sin efectos cuánticos

Ejemplo: Un enlace químico

Cerca del equilibrio,...

El force-field Bonded-terms Non bonded-terms Other restrains

Force-field Stretchings Bendings

Torsión

Torsión: en general se representa como:

Términos de no-enlace Interacciones entre átomos no enlazados ni formando un ángulo –Término electrostático –Término de van der Waals

Término electrostático

Término de van der Waals

Sirve para simular las interacciones estéricas (repulsivas y atractivas) Evita “fusión nuclear” entre átomos con cargas opuestas

Parametrización A partir de datos mecanocuánticos A partir de datos experimentales Mixta Proceso lento y difícil pero clave Stretching-Bending (QM, IR, Raman, X- ray, microondas) Torsiones (QM, NMR) Electrostático (QM, fase condensada) Van der Waals (X- ray, fase condensada)

Parametrización con datos fases condensadas Parámetros iniciales Simulación MD, MC OK? Cálculo propiedades Modificar parámetros END

Pros and Cont Mec. Clásica Rapidez, i.e. Posibilidad de tratar sistemas realistas Si el force-field es correcto los resultados también lo son Resultados dependen del force-field. No aplicable a reacciones químicas. No aplicable cuando el comportamiento cuántico del sistema es relevante.

Métodos que emplean Mec. Clásica Mecánica molecular: –Su objetivo es encontrar la disposición espacial de los núcleos más estable. Dinámica molecular: –Su objetivo es determinar el movimiento interno de una molécula a lo largo del tiempo

Algoritmo general de MM Epot g= Epot/∂x Algoritmo de búsqueda {x} 0 Nuevo conjunto {x} 1 Convergido? Final SI NO

Pro y Cont. MM Rápida y económica computacionalmente Suele ser etapa previa a un cálculo más complejo. Da visión estática del sistema. En sistemas grandes el resultado depende de la conformación inicial

Dinámica Molecular (MD) Obtener visiones promediadas de un sistema (Boltzman’s sampling). Obtener muestreo de transiciones temporales. Estudiar cambios en un sistema inducido por perturbaciones externas Mejorar geometría de un sistema. Obtener la termodinámica de un sistema y sus interacciones. Ayudar en el refinado de estructuras a partir de restricciones X-Ray o NMR.

Dinámica molecular Epot {x i } F i = -∂Epot/∂x i a i = F i /m i v i (t+dt)=v(t) i +a i dt x i (t+dt)=x(t) i +v i dt Trayectoria

Pros, cont MD Técnica muy potente para obtener visiones de un sistema clásico. La etapa de integración es pequeña (1 fs)  muy difícil estudiar escalas temporales grandes

Metodos coarse-grained Simplifican el sistema reduciendo grados de libertad Pierden precisión ganan velocidad. –Coarse Grain MD –Elastic Network Models

TEMA 7 MÉTODOS TEÓRICOS DE ESTUDIO DE ESTUDIO ESTRUCTURAL.

Presentaciones similares

Presentación del tema: "TEMA 7 MÉTODOS TEÓRICOS DE ESTUDIO DE ESTUDIO ESTRUCTURAL."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

TEMA 7 MÉTODOS TEÓRICOS DE ESTUDIO DE ESTUDIO ESTRUCTURAL.

Presentaciones similares

Presentación del tema: "TEMA 7 MÉTODOS TEÓRICOS DE ESTUDIO DE ESTUDIO ESTRUCTURAL."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback