La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

en general, mínimos energéticos

Presentaciones similares


Presentación del tema: "en general, mínimos energéticos"— Transcripción de la presentación:

1 en general, mínimos energéticos
ANALISIS CONFORMACIONAL Def.: estudio de las conformaciones moleculares y su influencia sobre las propiedades Desarrollo reciente Barton (1950) Apogeo de NMR, EI, X-ray Conformaciones  arreglos atómicos espaciales interconvertibles por rotación alrededor de enlaces simples Búsqueda conformacional - identificación de las conformaciones “preferidas” por las moléculas El origen del análisis conformacional data de un trabajo de Barton en 1950 en el cual se demostró que la reactividad de cicloalcanos sustituidos estaba influenciada por la naturaleza axial o ecuatorial de los sustituyentes. La razón para el desarrollo rápido de las técnicas de análisis conformacional fue la introducción de técnicas experimentales como la espectroscopía infrarrojo, NMR y cristalografía de rayos X, las cuales permiten la elucidación de conformaciones moleculares. La definición original de conformaciones se ha flexibilizado un tanto en atención a que pueden también existir rotaciones alrededor de enlaces en sistemas conjugados donde los mismos tienen un orden intermedio entre 1 y 2. También se sabe que durante los cambios conformacionales, además del cambio en las torsiones, ocurren cambios (más pequeños) a nivel de ángulos y enlaces. En general, las conformaciones observadas para las moléculas corresponden a mínimos energéticos de la superficie de energía potencial, por lo cual es claro la necesidad de utilizar métodos de minimización de energía en el estudio conformacional. Dado que estos métodos en general exploran la región más próxima de la curva de energía potencial de manera de converger al mínimo más cercano, es necesario también poseer otro tipo de algoritmos que sean capaces de generar estructuras iniciales. Estos son los algortimos fundamentales en el análisis conformacional. Veremos de aquí en más algunos de ellos. en general, mínimos energéticos La búsqueda conformacional requiere algoritmos de generación de estructuras iniciales a optimizar

2 Análisis conformacional ≠ simulación (MD o MC)
Pero …. MD y MC se utilizan en estrategias de búsqueda conformacional Es imposible encontrar todos los mínimos energéticos de una molécula - búsqueda del mínimo global? Métodos conformacionales 1) Sistemáticos 2) Construcción de modelos 3) Aleatorios 4) Algortimos genéticos 5) Geometría por distancia (distance geometry) 6) Dinámica molecular Modelos mecánicos pueden dar buenas aproximaciones en algunos casos! La diferencia entre la búsqueda conformacional y los métodos de simulación es que la primera concierne solamente a la localización de estructuras de mínima energía mientras que las simulaciones generan un ensamble de conformaciones que incluyen estructuras fuera de mínimos energéticos. Pero por otro lado, las simulaciones se utilizan como herramientas para el análisis conformacional. Lo ideal es identificar todos los mínimos energéticos, pero esto es imposible para casi todos los casos, salvo moléculas muy pequeñas con pocos grados de libertad (recordar que en la realidad, la estructura de una molécula está representada por poblaciones de moléculas en diferentes mínimos con una proporción según la distribución de Boltzmann a la temperatura de referencia). Como una aproximación, se puede considerar que la estructura molecular está representada por el mínimo global. Pero aún en el caso que este se pueda encontrar, muchas veces la estructura real no corresponde al mismo debido a contribuciones vibracionales. En otros casos, la estructura activa no corresponde al mínimo energético (ej: cambios conformacionales en ligandos unidos a proteínas). A veces, los modelos mecánicos pueden ser un buen punto de partida a pesar de que no poseen carácter cuantitativo y es difícil realizar medidas con ellos. Tienen la ventaja que son portables y fáciles de manejar, aunque esto último puede cambiar con el desarrollo de realidad virtual para los modelos de modelado molecular.

3 1) Métodos sistemáticos
Exploran el espacio conformacional realizando cambios regulares y predecibles sobre la estructura molecular Búsqueda en grilla (grid search) Procedimiento: 1) Identificación de ángulos torsionales rotables 2) Rotación sistemática de cada torsional usando un incremento fijo 3) Minimización de energía de cada conformación Ejemplo: análisis conformacional del dipéptido Ala-Ala Dos diedros a modificar (f y y) El método grid search es el más sencillo de los métodos sistemáticos. En el ejemplo, sólo se consideran dos ángulos diedros ya que se acepta que los enlaces amida adopta solamente una conformacion trans (como se sugiere experimentalmente).

4 Muchas conformaciones convergen al mismo mínimo
Gráfico de Ramachandran Los aa en proteínas adoptan valores restringidos de f y y Muchas conformaciones convergen al mismo mínimo Inconveniente: “combinatorial explotion” La representación de la energía en función de los dos ángulos torsionales de una proteína se conoce como el gráfico o mapa de Ramachandran, quien demostró que los aa en proteínas estaban restringidos a ciertos valores de estos ángulos. Notar las aglomeraciones más significativas que definen las estructuras secundarias (hélices alfa y hojas beta). Ál realizar una búsqueda sistemática, se observa que muchas de las conformaciones iniciales convergen al mismo punto energético (mínimo) y también que muchas estructuras originales tienen una energía muy elevada. Pero la desventaja fundamental es lo que se conoce como explosión combinatoria en donde la cantidad de conformaciones a ensayar aumenta geométricamente con la cantidad de torsionales.. Por ejemplo, con 5 torsionales y un incremento razonable (digamos 30 grados) para cada uno, se generan conformaciones! Aún peor, con 7 torsionales, el número llega a casi 36 millones!!!! Es evidente que esto es sólo practicable para moléculas con muy pocos ángulos diedros. Cantidad de conformaciones aumenta exponencialmente con torsionales qi = incremento en cada torsional N = número de torsionales

5 Se eliminan conf. previamente a la minimización energética
Árboles de búsqueda Se eliminan conf. previamente a la minimización energética Árbol nodos (estados) bordes (conectan nodos) Nodos: raíz, terminales, hijos y objetivos La solución para aplicar los métodos sistemáticos a casos reales es eliminar del paso de minimización de energía a las estructuras de partida con una energía muy alta o improbables. Esto se logra mediante la técnicas de búsqueda en árbol. Los nodos representan estados y los bordes unen nodos relacionados. Entre los nodos se distingue el nodo raíz que representa el estado inicial del sistema, nodos terminales, es decir de los cuales no se generan otros nodos (nodos hijo) y nodos objetivos que representan soluciones aceptables al problema. En el ejemplo que se muestra para el hexano, se asume que los metilos terminales no tienen rotación por lo que hay tres torsionales a variar. Para cada torsional, se permiten tres posiciones, dos gauches y una trans, dando 27 nodos terminales diferentes.

6 Los sistemas cíclicos son problemáticos
Generación de nuevas conformaciones - backtracking Algoritmo “depth-first search” Desecho de conformaciones -control de energía -control geométrico (conformaciones “pruned”) Los sistemas cíclicos son problemáticos Se rompe el anillo para obtener una molécula pseudo-cíclica Se realizan controles adicionales (Ej: distancia entre átomos de cierre del anillo) Criterios a establecer en métodos sistemáticos -tamaño de la grilla -distancia no enlazante -cierre de anillo Para generar una nueva conformación una vez que se llega a un nodo terminal, es necesario aplicar backtracking, es decir, moverse hacia el nivel anterior y bajar por otra rama. Ej: para pasar de 13 a 14 en la figura, se debe volver a 4 y luego bajar a 14. Esto se logra modificando el torsional que se varió en tercer término (en el ejemplo). Este algoritmo se denomina depth-first search, búsqueda primero en profundidad. La ventaja de este algoritmo es que hace más fácil y sistemático el desecho de conformaciones no aceptables. Además del control energético que puede hacerse también con los algoritmos más simples, se pueden hacer controles geométricos (de interacción no enlazante). Ej: si a partir de un punto, hay problemas geométricos (ej: átomos demasiado cercanos), ya se pueden descartar todos los nodos hijos (suponiendo que para cada uno de ellos, el torsional problemático no va a cambiar). En el ejemplo, la conformación 9 está impedida estéricamente por lo que la 28, 29 y 30 no se cuentan. Los sistemas cíclicos traen inconvenientes al aplicar estos algoritmos sistemáticos de rotación de enlaces. Lo que se hace es romper el anillo en algún punto y tratar a la molécula como si fuera acíclica. Pero se deben hacer controles especiales para asegurar que los anillos se forman adecuadamente. Al menos, controlar la distancia entre los átomos que cierran el anillo, también los ángulos que involucran a estos átomos. Estos chequeos se deben hacer bastante avanzada la búsqueda puesto que es necesario casi completar el anillo antes de controlar la estructura. Cualquier método sistemático de búsqueda debe definir el tamaño de la grilla a utilizar llegando a un compromiso (entre exactitud y tiempo del algoritmo). También el criterio no enlazante o bump check, entre los átomos. En sistemas cíclicos se debe también establecer un criterio para considerar a un anillo cerrado.

7 2) Construcción de modelos
Uso de bloques de construcción (building blocks) Se unen los bloques tridimensionales para formar las conf. Más eficiente - menos combinaciones de fragmentos Especificación automática o manual para unión de fragmentos El enfoque de construcción de modelos puede considerarse como de índole sistemático aunque al usar building blocks para construir conformaciones de moléculas, se van a tener bastante menor cantidad de combinaciones que combinaciones de torsionales. En la molécula del ejemplo, se pueden obtener conformaciones uniendo 7 fragmentos (7 diedros), muchos menos que en el caso de la combinación de diedros. En general, el usuario debe indicar que fragmentos deben unirse y de que manera, aunque si existen muchas posibilidades de unión, se va a necesitar algún tipo de automatización. En el último caso, se debe aplicar un algoritmo de búsqueda de subestructuras, en donde el programa compara diferentes partes de la molécula problema con una base de datos de fragmentos. Además, para cada fragmento se deben asignar las distintas conformaciones (ej: en el ciclohexano se tiene la conformación silla y bote). Fuentes de fragmentos: -base de datos estructurales -otros métodos de análisis conformacional

8 Enfoque opuesto al sistemático Generación de conformaciones al azar:
Métodos aleatorios Enfoque opuesto al sistemático Generación de conformaciones al azar: -cambio de coordenadas cartesianas -cambio en diedros de torsión Selección de conformaciones en cada paso: -a partir de la anterior -aplicación de criterio Monte Carlo -a partir de la conformación de menor energía Cambios parciales o globales de diedros y coordenadas No existe un punto de finalización concreto  finaliza al no obtener nuevas estructuras Corolario: se obtiene una misma estructura muchas veces Los métodos aleatorios de búsqueda conformacional toman el enfoque opuesto al de los sistemáticos, en vez de explorar la superficie energética en una manera predecible, los primeros se mueven en la misma entre regiones completamente inconexas en pasos adyacentes. Los cambios se introducen a nivel de las coordenadas atómicas o a nivel de los torsionales. La conformación obtenida se minimiza como de costumbre y si no se obtuvo ya, se almacena. La variación de coordenadas cartesianas es más simple pero tiene el inconveniente que puede generar estructuras iniciales con energía demasiado altas para el algoritmo de minimización. En la modalidad de variación de diedros, se tiene menor cantidad de grados de libertad aunque es más complicado de implementar. La estructura de partida para cada ciclo del algoritmo se elige según diferentes criterios: puede ser la del paso anterior, la de menor energía hasta el momento o puede surgir de aplicar el criterio Metropolis Monte Carlo ya visto en clases anteriores (exp(-(Vnew – Vold)/kBT y comparar con un número al azar entre 0 y 1). También se puede aplicar esquemas de tipo “random walk” y dirigidos (ciclando entre los distintos mínimos obtenidos hasta el momento). Una diferencia obvia con respecto a los métodos sistemáticos es que al aplicar un enfoque aleatorio, no existe un punto final natural al procedimiento. Lo más común es seguir generando conformaciones hasta que no se obtengan nuevas lo que seguramente lleva a generar una misma conformación varias veces.

9 Métodos aleatorios y sistemáticos
Flow chart general para los métodos aleatorios y sistemáticos de análisis conformacional.

10 4) Algoritmos genéticos Métodos basados en biología evolutiva
Cada miembro de la población se codifica por un “cromosoma” conformación arreglo lineal de bits La secuencia de bits (gen) codifica el valor de los torsionales Asignación de fitness para cada miembro Los algoritmos genéticos son una técnica de búsqueda global usados para encontrar soluciones óptimas o cuasi-óptimas en problemas de optimización complejos. Su nombre hace referencia a que siguen conceptualmente los pasos del proceso biológico de evolución natural. Al contrario de la mayoría de los algoritmos estocásticos, no operan sobre una posible solución sino sobre un conjunto de soluciones (población). En este método, cada conformación posible es considerada como miembro de una población de posibles soluciones. Cada miembro se representa por un denominado cromosoma, que es una cadena lineal de bits (0s y 1s) el cual (cada gen) va a codificar para los diferentes torsionales de la conformación. Además cada miembro va a tener asociado un “fitness” o calidad de ajuste que va a estar dado por la energía interna de la conformación. Se implementa la máxima de la evolución natural: supervivencia del más adaptado

11 1) Seteo de bits al azar en cada cromosoma (población inicial)
Algoritmo 1) Seteo de bits al azar en cada cromosoma (población inicial) 2) Decodificación de bits para obtener ángulos torsionales 3) Cálculo de fitness (energía interna) 4) Ciclo: generación de nueva población con operadores: a) reproducción b) entrecruzamiento (cross over) c) mutación Algoritmos sesgados  se conservan miembros con más fitness 5) Geometría por distancia Descripción de conformaciones por distancias interatómicas (matrices aleatorias) En cada ciclo del algoritmo lo que se hace es generar una población inicial de soluciones posibles para la molécula de interés (conformaciones) por medio de la asignación al azar de bits en cada cromosoma. Esto implica la decodificación del cromosoma para obtener los ángulos diedros. Paso seguido se calcula el fitness de cada conformación. Finalmente se genera otra población utilizando los denominados operadores: Reproducción: sencillamente se copian los miembros a nuevos cromosomas de manera que los de mejor fitness tengan más probabilidad de ser copiados. Esto se logra por un procedimiento al azar implementado por medio de una ruleta en donde cada miembro está representado por un casillero de tamaño proporcional a su fitness. Entrecruzamiento: se seleccionan pares de “cromosomas” para apareamiento. El procedimiento es análogo a lo que sucede en la recombinación celular. Mutación: se transforman al azar bits 0s en 1s y viceversa. Comúnmente estos operadores se aplican cuidando de conservar las mejores conformaciones (con mejor fitness) de un ciclo a otro. Esto se conoce como estrategia elitista. El método de geometría por distancias se basa en que se puede describir la conformación de una molécula basándose en distancias interatómicas en vez de coordenadas. Existen n(n-1)/2 distancias interatómicas en una molécula de N átomos, las cuales se representan en matrices simétricas, con los elementos de la diagonal nulos. El método genera matrices aleatorias de distancias las cuales son luego convertidas en conformaciones en el espacio tridimensional

12 Sólo algunas combinaciones de distancias son válidas Procedimiento:
1) Cálculo de matriz con valores máximos y mínimos de distancias interatómicas 2) Asignación de valores de distancia al azar dentro de los límites 3) Conversión de matriz en coordenadas cartesianas (o internas) 4) Minimización de energía Criterios para definir los límites de distancias -datos cristalográficos o NMR (NOESY,COSY) -átomos involucrados -reglas geométricas -radios de van der waals La base de los métodos de geometría por distancia es que en una molécula dada sólo existirán algunas pocas combinaciones de distancias interatómicas válidas, es decir que arrojen conformaciones plausibles (baja energía). A grandes rasgos, el procedimiento consta de cuatro etapas. Primero se define una matriz de límites (superior e inferior) de distancias interatómicas. Luego se asignan valores aleatorios a las distancias interatómicas de las moléculas entre los valores límites. En el tercer paso, se convierte la matriz de distancias en coordenadas espaciales y finalmente se minimizan las coordenadas obtenidas. Los criterios de asignación de topes mínimo (lower) y máximo (upper) para las distancias son variados y pueden provenir por ejemplo de información experimental (x-ray y NMR, en particular nuclear Overhauser enhancement spectroscopy que da información sobre átomos cercanos en el espacio pero separados por varios enlaces, y correlated spectroscopy que da información sobre átomos separados por tres enlaces (torsionales). Otra fuente de información es a partir de la naturaleza de los átomos involucrados, la hibridación, etc. Además, se pueden seguir algunas simples reglas geométricas como ser que la distancia entre dos átomos unidos a uno central se puede calcular a partir de las distancias de los dos enlaces y del ángulo de enlace. De la misma forma, la distancia entre dos átomos 1,4 (separados por dos átomos) va a estar dentro del rango comprendido por las distancias que corresponden a la posición eclipsada y alternada. Para átomos más lejanos entre si, las reglas no son claras pero en general se requiere que la distancia sea al menos igual a la suma de los radios de van der waals de ambos átomos. Para el límite superior se asignan valores grandes.

13 Triangle smoothing (“suavizamiento triangular”)
Procedimiento para refinar el set inicial de topes de distancias Dos restricciones: a) uac <= uab + ubc uac  distancia máx. A-C uab  distancia máx. A-B ubc  distancia máx. B-C b) lac >= lab –ubc lac  distancia mín. A-C lab  distancia mín A-B ubc  distancia máx B-C Embedding (“embebición”) Transformación de matriz de distancias en coordenadas espaciales Para refinar el conjunto inicial de topes de distancia se aplica lo que se denomina triangle smoothing que usa dos restricciones simples trigonométricas sobre grupos de tres átomos. Las dos desigualdades se aplican repetidamente para todo el set de topes de distancias interatómicas de la molécula hasta que todas satisfagan las mismas (iterativo). Luego de la generación de un set de distancias al azar (para cada una de ellas, el valor estará entre los límites impuestos), se hace la transformación a coordenadas (cartesianas o internas) por medio del embedding. A estos efectos ser realizan algunas operaciones matriciales. Se calcula la denominada matriz métrica G, cuyos elementos corresponden al producto escalar de los vectores desde el origen a ambos átomos involucrados. Estos elementos se hayan aplicando la regla del coseno. Gij = matriz métrica i = vector desde origen hasta i j = vector desde origen hasta j dxo = distancia entre origen y átomo x dij = distancia entre átomo i y j

14 El origen de coordenadas es el centro de la molécula:
La matriz G (simétrica) se puede representar como: diagonal de L2  valores propios de G columnas de V  vectores propios de G Las coordenadas atómicas se calculan como: Como la matriz métrica es simétrica, se puede descomponer como se muestra en la diapositiva. La matriz X contiene las coordenadas atómicas. Dado que L es una matriz diagonal, es igual a su transpuesta por lo que las coordenadas atómicas se obtienen a partir del producto de los vectores propios por la raíz cuadrada de los valores propios. Se deduce que: Se multiplica la raíz cuadrada de los eigen values por los eigen vectors

15 Funciones de penalización
dij > uij lij <= dij <= uij dij < lij dij > uij lij <= dij <= uij dij < lij Otros tipos de restricciones: -centros quirales -grupos en el plano 6) Métodos de simulación -Dinámica Molecular (MD) - (simulated annealing) -Monte Carlo (MC) En el paso final del algoritmo, se refinan las coordenadas para asegurar que se cumplan todas las restricciones de límites, introduciendo una función de penalización sobre las distancias fuera de los límites. Se muestran dos ejemplos de funciones usadas. Otra cosa que se puede controlar son los centros quirales ya que las distancias interatómicas de dos enantiómeros son las mismas por lo que no se puede distinguir entre ellos. Se puede introducir entonces una función adicional expresada como un producto escalar representando un volumen. Se pueden introducir restricciones similares para mantener ciertos grupos en un plano, etc. Los métodos de simulación vistos en clases anteriores son de utilidad también para el análisis conformacional dado que durante la simulación es posible remontar barreras energéticas de manera de explorar diferentes regiones del espacio conformacional accesible (más en MC). Quizás es más utilizada la MD para el análisis conformacional dada la dificultad de la aplicación de MC para moléculas flexibles (típicamente el objeto del análisis conformacional). La técnica que se usa normalmente es el simulated annealing.

16 Teóricamente se obtiene el mínimo absoluto
Simulated annealing (SA) 1) Corridas MD a altas temperaturas (>2500° K) 2) Enfriamiento lento hasta 0 ° K luego del equilibrio 3) Poblamiento de estados de menor energía según distribución de Boltzmann 4) Refinación geométrica (minimización de energía) Teóricamente se obtiene el mínimo absoluto En la práctica, se obtienen diferentes mínimos más representativos del espacio configuracional La técnica de annealing es un proceso muy usado en manufacturas (incluida la producción de chips de cristales de silício para computadoras) en el cual a una sustancia derretida se le baja paulatinamente la temperatura para generar un cristal de gran tamaño. Teóricamente, se genera el cristal óptimo correspondiente al mínimo de energía libre. En simulaciones, se usa un método análogo, simulated annealing en el cual se trata de obtener el mínimo energético global de un sistema contolando cuidadosamente también la temperatura y donde la energía interna sustituye a la energía libre en el annealing. En la práctica, se realizan varias corridas de simulación. En cada una de las cuales se permite al sistema llegar a equilibrio a la temperatura de referencia y luego se enfría lentamente el sistema pudiendo llegar hasta al cero absoluto. Al bajar la temperatura, los estados de mínima energía se van a ir poblando con una proporción de acuerdo a la distribución de boltzmann. De esa manera, en teoría se obtendría el mínimo absoluto del sistema pero en la práctica esto no es así puesto que se necesitarían simulaciones infinitas en el tiempo. De ahí, es que se realizan varias corridas (desde diferentes puntos de partida) y se obtienen un conjunto de conformaciones de mínima energía pero que representan una mayor porción del espacio configuracional accesible que lo que se obtiene con una corrida clásica. Corolario: mediante simulated annealing uno se asegura que el espacio conformacional accesible a una molécula es explorado de manera más adecuada.

17 combinación de SA y MD restringida
Refinamiento de estructuras cristalográficas combinación de SA y MD restringida Refinamiento de Cristalografía de rayos X Resolución de estructuras moleculares a partir de patrones de difracción Amplitud de radiación difractada proporcional a la densidad electrónica Relación entre densidad electrónica y el factor de estructura F Una aplicación importante de SA (simulated annealing) es en el refinamiento de estructuras obtenidas cristalográficamente en particular macromoléculas como las proteínas. En este caso, se realizan corridas de MD siguiendo el procedimiento de SA pero introduciendo restraints (restricciones) en el sistema de manera de no obtenerse conformaciones que colidan con la información experimental. Las restraints son implementadas a partir de funciones de penalización como las vistas anteriormente (centros quirales, etc.). La cristalografía de rayos X se basa en la obtención de un patrón de difracción a partir de interferencias constructivas y destructivas entre rayos X dispersados (básicamente por electrones) a partir de un cristal. La difracción se define como el cambio de dirección y dispersión de radiación electromagnética cuando la misma entra en contacto con obstáculos y/o aberturas. No es lo mismo que la reflexión o que la refracción. La ventaja de tener a la sustancia en estado cristalino es que el patrón de difracción será mucho más intenso debido a la periodicidad del cristal. Las interferencias constructivas y destructivas se relacionan con la diferencia de caminos que transitan los rayos dispersados hasta el detector dependiendo de la posición de los electrones que los difractan. De esta manera los rayos van a tener diferentes fases y se interferirán. Existen direcciones en donde los rayos no se interfieren y producen una señal que se puede registrar (reflexión). Las reflexiones corresponden a la señal que proviene de conjunto de planos igualmente espaciados en el cristal. Esto está gobernado por la ley de Bragg. El detector se mueve en torno a diferentes ángulos de dispersión de manera que la intensidad de la radiación variará entre 0 y el doble de la amplitud del rayo (interferencia destructiva y constructiva). A diferentes ángulos de rotación, se toman fotos bidimensionales que luego se combinan para generar un mapa tridimensional de difracción. Se usan rayos x porque su longitud de onda es similar a la separación entre los planos de un cristal molecular y eso asegura una difracción significativa. En una muestra real, la amplitud de la radiación dispersada desde un punto es proporcional a la densidad electrónica en ese punto. Al integrar la densidad electrónica en todo el cristal, se obtiene el factor de estructura que es un número complejo.

18 Estimación de las fases
amplitud en cristalografía interesa derivar la distribución electrónica a partir del factor de estructura Problema central = determinación de las fases Para proteínas - reemplazo isomórfico múltiple: -Preparación de cristales en diferentes soluciones con metales pesados: mercurio, platino, plata. -Comparación de patrones de difracción de cristales nativos y derivados de átomos pesados Entonces, si se sabe la estructura tridimensional del cristal, por ende la distribución de densidad electrónica, se puede derivar el factor de estructura y el patrón de difracción. Pero en cristalografía se está interesado en el problema inverso, es decir, obtener la estructura tridimensional (densidad electrónica) a partir del patrón de difracción y en último término esto significa calcular el factor de estructura. La transformada de Fourier es la que relaciona la densidad electrónica con el factor de estructura. Pero el problema es que lo que se pueden medir son intensidades de los puntos obtenidos iguales a las amplitudes de los rayos (el cuadrado de la norma de F) y no las fases: este es el famoso problema de las fases. Para proteínas específicamente se aplica la técnica de re-emplazo isomórfico múltiple en el cual se preparan cristales en diferentes soluciones de metales pesados (que se unen a diferentes partes de la proteína) y se comparan los patrones de difracción con el del cristal nativo, algunas fases se pueden deducir, a partir de las cuales se obtienen las restantes para producir un mapa de densidad electrónica. Estimación de las fases

19 Se ajusta un modelo estructural al mapa de densidad electrónica
Refinamiento del modelo  obtención de la mejor estructura Se comparan las amplitudes de F calculadas y observadas (fact. R) Se alternan métodos de cuadrados mínimos con inspección visual - proceso complejo y trabajoso Para facilitar el proceso - uso de Mecánica Molecular: -Minimización de energía -MD restringida (SA) En general, el ajuste de un modelo estructural al mapa de densidad electrónica no da muy buenos resultados para proteínas a menos que la resolución sea muy buena. Para mejorar el primer modelo, se realiza un refinamiento basándose en las diferencias entre los factores estructurales calculados y observados de manera de minimizar las mismas. Para esto, se usan tradicionalmente métodos de cuadrados mínimos en los cuales un set de ecuaciones simultáneas se obtienen cuyas soluciones son mínimos del factor R para cada una de las coordenadas. Este procedimiento es bastante complicado y aún mas puesto que necesita de inspección visual alternada con los ciclos de cuadrados mínimos para impedir que se obtengan mínimos no deseados. Se introdujeron modificaciones a la técnica básica, usando MM para ayudar en este proceso. Una de ellas es realizar minimizaciones de energía alternadas con los cuadrados mínimos. Otra modificación más elaborada involucra simulated annealing y MD restringida (como vimos antes). Aquí se usa una función de penalización para cada corrida que depende de las diferencias entre los factores estructurales calculados y observados. De esta manera, se obtienen estructuras con baja energía y con bajo factor R! No confundir R con la resolución de la cristalografía. Esta última se refiere al pico más alto discernible en el patrón de difracción término de restricción S = factor de escala

20 Qué método de búsqueda conformacional usar?
No hay ningún método óptimo en todos los aspectos Ejemplos: -explosión combinatoria en búsquedas sistemáticas -ausencia de punto final en búsquedas aleatorias -costo computacional (geometría por distancia y MD) En general, ningún método será capaz de encontrar todas las conformaciones de mínima energía de una molécula Bases de datos estructurales (BDE) Almacenan información cristalográfica (y NMR) para un gran número de moléculas. Tres grandes bases: -PDB (Protein Data Bank) -CSD (Cambridge Structural Database) -ISD (Inorganic Structural Database) Cada método de búsqueda conformacional tiene sus fortalezas y debilidades. Por ejemplo, los métodos sistemáticos no son apropiados para estudiar anillos y sufren de explosión combinatoria. Los métodos aleatorios por su parte tienen la desventaja que no tienen un punto final definido. Los métodos distance geometry y de simulación pueden resultar costosos computacionalmente por la mayor cantidad de cálculo a realizar. Se han hecho estudios comparativos entre los diferentes métodos disponibles y según los casos, cual es el mejor método. Pero lo que si es general es que un método particular es seguramente incapaz de localizar todos los puntos de mínima energía accesibles al sistema. La comunidad cristalográfica del mundo ha creado centros de almacenamiento de estructuras resueltas cristalográficamente (bases de datos cristalográficas) de manera de que estén accesibles en forma electrónica. Las dos principales bases de datos son CSD y PDB, la primera para moléculas orgánicas y organometálicas y la segunda para macromoléculas, fundamentalmente proteínas aunque también incluye estructuras polinucleotídicas. Otra interesante es la ISD donde se almacenan estructuras inorgánicas y sus complejos.

21 Comprensión de factores que influencian las conformaciones
Aplicaciones de BDE CSD Comprensión de factores que influencian las conformaciones Estudio de formas de interacción entre moléculas Búsqueda de subestructuras en diferentes moléculas PDB Comprensión de principios determinantes del plegamiento Obtención de fragmentos pequeños para ajuste de modelos Limitaciones Sólo moléculas cristalizables Influencia de fuerzas de empaquetamiento en cristales (mol. peq.) La CSD ha sido muy útil para comprender la influencia de números atómicos, ambiente e hibridación en la adopción de diferente valores de enlaces, ángulos y diedros de las conformaciones Una aplicación muy importante es la búsqueda de subfragmentos en diferentes moléculas de manera de investigar las conformaciones que los mismos pueden adoptar. El PDB ha sido una fuente importantísima de información proteica, en particular, con respecto a los principios que regulan el plegamiento de una secuencia determinada de aminoácidos. También, a partir de él se pueden obtener estructuras de fragmentos pequeños (hasta 4 residuos) que pueden usarse para generar el modelo estructural que se ajuste al patrón de densidad electrónica obtenida (ver antes). Esto ayuda en buena medida al trabajo del cristalógrafo. La base de esto es que un segmento polipeptídico dado puede adoptar sólo un conjunto limitado de conformaciones. Las limitaciones de las bases de datos se relacionan con el hecho que sólo incluyen moléculas que puedan ser cristalizables y que han sido de hecho resueltas por rayos X. También, hay que considerar que el estado adoptado en un cristal puede no ser el mismo que en solución, esto es más importante para moléculas pequeñas puesto que las proteínas forman cristales con una gran cantidad de moléculas de agua.

22 Ajuste molecular (Molecular Fitting)
Orientación de dos o más conformaciones para superponer óptimamente los grupos funcionales de las mismas Búsqueda conformacional - control de conf. duplicadas Medida del ajuste (fit) N = número de átomos di = distancia de átomo i en ambas estructuras Interesan las conformaciones que verifican min(RMSD) Variantes de fitting -Iterativo -Directo -Ajuste flexible (template forcing) -Rotación alrededor de enlaces simples -Restrained MD El ajuste molecular puede implicar conformaciones de la misma o diferentes moléculas y busca las orientaciones de las mismas en donde se obtienen las mejores superposiciones entre los grupos funcionales. Molecular fitting es importante para los métodos de búsqueda conformacional, en particular para los que pueden producir estructuras repetidas (métodos aleatorios o de simulación). Existen varias medidas de fitting pero la más usada es rmsd (root mean square distance). Lo que se busca es que la función RMSD esté en un mínimo. Existen varios tipos de algoritmos de fitting, los iterativos, en los cuales las moléculas se mueven una en relación a la otra de manera de reducir gradualmente el rmsd. También existen algoritmos que realizan directamente el fit (hacen coincidir las posiciones de ciertos átomos que el usuario haya seleccionado). Si las moléculas son flexibles se pueden obtener mejores ajustes por medio de la rotación en torno a enlaces simples además de traslación y rotación del centro de masas. Esto se denomina flexible fitting o template forcing. Alternativamente, se puede usar MD restringida de manera que cada superposición se cuenta como una penalización adicional. Esto se efectiviza restringiendo las distancias entre los átomos “matcheados”. Con esta última modalidad se puede explorar mejor el espacio conformacional.

23 Algoritmos de clustering y reconocimiento de patrones
Selección de conformaciones “representativas” Análisis de cluster (cluster analysis) Requiere medir similitud entre pares de conformaciones: RMSD Distancia de ángulos torsionales: -Euclídea (camino en línea recta) A menudo, el análisis conformacional produce una gran cantidad de información la cual debe ser procesada y analizada. En particular, muchos de los algoritmos vistos generan conformaciones que aunque no iguales son similares. En esas circunstancias, es deseable poder seleccionar un set más chico y representativo para el análisis. Esto es lo que logra el análisis en cluster (cluster análisis). El clustering es una de las actividades básicas del data mining. Este tipo de análisis requiere una medida de la similitud entre conformaciones. Ya se vio el método RMSD que aporta una medida sobre el ajuste molecular (fitting). Pero también se pueden generar valores a partir de las distancias entre ángulos torsionales y no ya entre distancias interatómicas. Para esto, se puede calcular tanto la distancia euclideana como la denominada Manhattan o city-block. La distancia de Manhattan es siempre mayor que la distancia euclídea. Su nombre viene de considerar que el trayecto recorrido se asemeja a como se recorren las ciudades (no podemos siempre unir dos puntos por una línea recta sino que debemos ir en derredor de las manzanas!) Esto es lo mismo que debe hacer un taxi (transita por las calles). Una ventaja evidente de la distancia de Manhattan es su mayor rapidez de cómputo con respecto a la distancia euclídea. wm,i =diedro m en conf. i Ntor =cant. diedros -Manhattan (camino en grilla)

24 Métodos de vinculación (linkage methods) Procedimiento
1) Cálculo de distancia entre conformaciones (Existen tantos clusters como conformaciones) 2) Reducción en 1 del número de clusters (se unen los dos clusters más cercanos en uno sólo) 3) Repetición del paso 2 hasta el final 4) Elección de conf. representativa de cada cluster Criterios de finalización: -distancia entre los dos clusters más cercanos -mínimo número de clusters -reducción a un único cluster Tipos de métodos de vinculación: -Simple (single) -Promedio (average) -Completo (complete) Los métodos de vinculación (linkage methods) son una familia bastante utilizada de algoritmos de clustering. El procedimiento es bastante sencillo. Se comienza calculando las distancias entre todos los pares de conformaciones. Al inicio existen tanto clusters como conformaciones haya. En cada paso del algoritmo, se van uniendo los dos clusters más cercanos entre sí (sólo el par más cercano). El criterio de máxima cercanía es el de mínima distancia. Para finalizar el algoritmo hay varios criterios, puede finalizar cuando existe un único cluster, cuando el número de clusters es menor que cierto valor o cuando la distancia entre los clusters más cercanos es mayor que un valor pre-determinado. Luego de finalizar, se eligen las conformaciones más representativas de cada cluster (una sola). Existen varios tipos de métodos de vínculo los cuales difieren en el criterio que toman para definir la distancia entre dos clusters cualesquiera. En el método single, la distancia corresponde a la mínima distancia entre cualquier par de conformaciones de los clusters (una de cada cluster obviamente). La variante completa es la opuesta ya que considera el par de conformaciones más alejado en los dos clusters. La modalidad promedio finalmente computa la similitud promedio entre todos los pares de conformaciones en ambos clusters. Estos algoritmos son denominados jerárquicos puesto que existe un orden específico en el cual los clusters se forman. algoritmos jerárquicos

25 Algoritmo Jarvis-Patrick (no jerárquico)
Enfoque de vecinos más cercanos Dos conformaciones en el mismo cluster  -Cada una está en la lista de vecinos (m) más cercanos de la otra -Poseen p (p<m) vecinos más cercanos en común El ejemplo muestra la aplicación de los algoritmos de linkage para el fragmento de ribosa fosfato. Se obtuvieron 44 moléculas donde existía ese fragmento (a partir del CSD) y se determinaron los ángulos de los diedros que muestra la figura (t1 y t2). Se muestran sólo 8 fragmentos. Un cluster de tipo jerárquico como los presentados se puede representar mediante un dendograma el cual representa la relación entre los items en el set de datos. Una ventaja que tiene este tipo de representaciones es que permite “leer” cuantos clusters existen a una medida de distancia determinada. Un ejemplo de algoritmo de cluster no jerárquico es el de Jarvis-Patrick, en el cual el criterio es el de encontrar los vecinos más cercanos de cada conformación. Para considerar a dos conformaciones formando parte del mismo cluster, cada una deben estar en la lista de vecinos más próximos de la otra y además deben compartir un número de vecinos en común, siendo ese número menor que la cantidad de vecinos más cercanos de cada una. La ventaja de este método por sobre los de tipo jerárquico es que se aplica sin inconvenientes a muestras grandes de conformaciones, cosa difícil en los algoritmos jerárquicos que deben calcular una matriz de distancias proporcional a NXN (N el número de conformaciones) en varios pasos sucesivos.

26 Algoritmo k-means (no jerárquico)
Deben de conocerse a priori los k grupos en los cuales se separarán las medidas Procedimiento: 1) Definir la cantidad de clusters a generar (k) 2) Dividir al azar las conformaciones en k grupos iniciales (k medias al azar) 3) Calcular para cada grupo el centroide como el vector que representa la medida promedio del grupo 4) Reasignar las conformaciones a los centroides más próximos (según criterio de distancia) 5) Repetir los pasos 3 y 4 hasta que los centroides sean estables En este método la cantidad de clusters es fija y se define al inicio del algoritmo. En general, el usuario fija la cantidad guiándose por conocimientos previos (es decir, este método no es deseable de aplicar cuando no se tiene una cierta idea de cómo se agrupan las conformaciones).

27 Algoritmo k-means (no jerárquico)
1) 2) Una de las ventajas principales del algoritmo k-means es que es muy rápido aunque tiene un grado alto de heurística en cuanto a la cantidad inicial de clusters a generar. 3) Iter (2-3)

28 Análisis de componentes principales
Útiles para el análisis de clusters Reducen la dimensionalidad de un set de datos Concepto de componente principal (PC)  combinación lineal de variables: A menudo, se encuentra que existe una correlación significativa entre un conjunto de variables que describen un objeto. En estos casos, el análisis en clusters puede ser facilitado mediante la reducción de la dimensionalidad de ese conjunto de variables de manera de eliminar las correlaciones. También con el objetivo de poder visualizar mejor el comportamiento de los datos. La idea fundamental es entender las fuentes de variabilidad de los datos y ordenarlas por orden de importancia. El método más popular a estos efectos es el análisis de componentes principales (PCA). En el ejemplo, se aprecia una gran correlación entre las variables x e y. Se puede expresar la mayor parte de la variación en los datos por medio de los valores que adoptaría una nueva variable Z (z=x+y). A z se le llama componente principal. Como se ve en la fórmula, en general un componente principal es una combinación lineal de variables. El primer componente principal corresponde a la combinación lineal de variables que dan el mejor ajuste (la mejor recta) sobre los datos al graficarse sobre el espacio v-dimensional. pi = componente principal iésimo cij = coeficiente de variable xj n = cantidad de variables

29 Los datos tienen la máxima dispersión a lo largo del 1er CP
1er CP maximiza la varianza en los datos Variación total de los datos - todo el conjunto de PCs Generalmente, son suficiente los dos o tres primeros PCs Cálculo de PCs: Z = DTD Z = matriz varianza-covarianza D = matriz (v,s) s = cant. de valores v = cant. de variables Con los vectores propios de Z se calculan los PCs Valor propio mayor - primer componente principal, etc. Específicamente, el primer componente principal (PC) maximiza la varianza en los datos de manera que éstos tengan la mayor dispersión a lo largo de él. El segundo PC y los subsiguientes son los que explican la máxima varianza no tenida en cuenta ya por los componente previos. De forma de explicar la variación total en los datos se deberían considerar todos los componentes principales. En la práctica, con los dos o tres primeros PCs es suficiente. Para calcular los PCs se deben aplicar técnicas estandar de matrices. Se calcula la matriz Z de varianza-covarianza (simétrica) a partir de la matriz D de variables y medidas. Diagonalizando Z, se obtienen los valores propios que están asociados a los PCs (cuya dirección se obtiene a partir de los vectores propios que son los coeficientes de la expansión). El valor propio mayor corresponde al primer componente principal y así sucesivamente. Como se conocen los coeficientes de la combinación lineal de cada componente principal, se puede determinar (según el valor) cuales son las variables originales que más aporte hacen al componente principal.

30 Contribución del PC iésimo a la varianza total:
Ejemplo: conformaciones de anillo de ribosa (5 torsionales) PC1 + PC2 = 99% de varianza de datos La proporción de la varianza total aportada por un PC determinado va a corresponder al cociente entre el valor propio correspondiente y la suma de los valores propios. En el ejemplo, se aplica el PCA a las conformaciones adoptadas por un anillo de ribosa en un set de conformaciones extraído del CSD. Se usan cinco torsionales para describir las conformaciones. Al realizar el PCA, es evidente el clustering en dos grupos discretos. Esto no puede visualizarse trabajando con cinco dimensiones (una para cada coordenada). Nota: ambos componentes explican un 99.9 % de la varianza total de los datos.


Descargar ppt "en general, mínimos energéticos"

Presentaciones similares


Anuncios Google