Taboada, Fernando Gómez Germán

Taboada, Fernando Gómez Germán
Predicción de genes Taboada, Fernando Gómez Germán

Definición: predicción de genes
Para una secuencia de DNA no caracterizada identificar la presencia de genes que codifican proteínas. Se habla de predecir o buscar genes.

Definición: predicción de genes
Dada una secuencia de DNA se puede encontrar: Qué región codifica para una proteína. Qué hebra codifica el gen. Cuál es el marco de lectura. Dónde comienza y termina el gen. Dónde comienza y terminan los intrones/exones. Opcionalmente se encuentran las regiones regulatorias del gen.

Transcripción y traducción

Estructura de los genes
En procariotas las secuencias q codifican proteínas son transcriptas en mRNA y el mRNA se traduce en proteinas sin demasiadas modificaciones. En eucariotas la transcripcion iniciada en una determinada secuencia promotora es seguida de la eliminación de secuencias no codificantes (los intrones) del pre-mRNA por un mecanismo llamado splicing. Luego el mRNA puede ser traducido en la dirección 5’ 3’ desde el primer codon de start hasta el primer codon de stop.

Eucariotas vs. procariotas
Genomas pequeños Alta densidad de genes Sin intrones Identificación de genes es relativamente simple Eucariotas Genomas grandes Baja densidad de genes Intrones y exones Identificación de genes es un problema complejo

Predicción de genes en procariotas y eucariotas
Predecir genes que codifican a proteínas es más fácil en procariotas que en eucariotas. Algunos motivos: - procariotas carecen de intrones - patrones de secuencia altamente conservados se encuentran con gran frecuencia en regiones promotoras y alrededor de zonas de comienzo de transcripción y traducción.

Señal - una región en el ADN reconocida por la maquinaria celular

Estrategias de predicción de genes
Basados en similitud (extrínsecos) Usan herramientas de alineamiento local para comparar contra secuencias anotadas (proteínas, cDNAs, Est) Pros: se basan en información biológica preexistemte Contras: limitado a información preexistente errores en las bases de datos difícil comparar los limites de un gen en base a similitud hay métodos más rápidos que comparar contra base de datos Errores en las bases de datos Limitado a información biologica preexistente

Métodos intrínsecos Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras

Búsqueda de Open Reading Frames (ORF)
ORF es una porción de DNA que contiene un conjunto contiguo de codones que codifican aminoácidos. Forma más simple de buscar secuencias que codifican proteínas. En cada secuencia hay 6 posibles ORFS: 3 comenzando en las posiciones 1, 2 y 3 llendo en la dirección 5’ 3’ de una secuencia y su complementaria.

Búsqueda de Open Reading Frames (ORF)
En procariotas el mayor ORF comenzando desde el primer codón de start hasta el primer codón de stop es una buena (pero no segura) predicción de una región que codifica proteínas. En eucariotas es algo más complejo debido a la presencia de intrones que suelen generar codones de stop.

Cómo testear una predicción de ORF
Nos podemos basar en las siguientes propiedades: Las secuencias codificantes no son una cadena al azar de posibles codones (nonrandom property). Cada especie tiene patrones característicos de uso de codones sinónimos (codifican para el mismo aminoácido) Hay pares de codones que suelen aparecer en exones de secuencias eucariotas. Por ejemplo en E. Coli hay cierta preferencia de pares de codones en las regiones codificantes y de ciertos codones en la zona siguiente al codon de stop.

Cómo testear una predicción de ORF
En base a las propiedades anteriores hay 3 tests: 1. Se basa en que toda tercera base tiene más chance de ser la misma que de cambiar (TestCode) 2. Es un análisis que determina qué codones en el ORF son los mismos que se utilizan en otros genes del mismo organismo (CODONFRECUENCY). 3. El ORF es traducido en una secuencia de amino ácidos y luego comparado contra otras secuencias de amino ácidos de proteínas base de datos existentes. Se basa en característica no-random de la secuencia. Es verdadera para toda especie. No necesita información de nucleotidos. Es necesaria información en el uso de codones para el organismo. Debe ser calculado un parametro que refleje la frecuencia del uso de codones.

TestCode La cantidad de cada base es contada en todas las terceras posiciones comenzando en las posiciones 1,2 y 3. Para cada base se calcula el máximo de los 3 marcos de lectura dividido el minimo más 1 (asymmetry score). Se calcula la frecuencia de cada base (frecuency score) Los scores son convertidos en probabilidades Las probabilidades son multiplicadas por factores determinados de manera tal que discriminen zonas codificantes de no codificantes y luego son sumadas. Si el valor resultante es mayor a 0.95 la secuencia codifica, si es menor a 0.74 no codifica.

Secuencias consenso Representan la secuencia del motivo para una cierta mayoría de ejemplos. Ejemplo: obtenidas por selección de la base más frecuente en cada posición de un alineamiento múltiple. Desventaja: pueden producir muchos falsos positivos o falsos negativos.

Positional weight matrix
Se calcula midiendo la frecuencia de cada elemento para cada posición en el sitio El score para cada sitio putativo es la suma de los valores de la matriz (convertidos en probabilidades) para esa secuencia Desventaja: supone independencia entre bases adyacentes TACGAT TATAAT GATACT TATGAT TATGTT 6 1 5 T 3 G C 4 A 2

Modelos ocultos de Markov
Alfabeto Conjunto de estados Probabilidades de transición entre estados Probabilidades de emisión dentro de un estado Probabilidades iniciales de transición 3 problemas: evaluación, decodificación y aprendizaje

HMM para predicción de genes
Los estados del modelo corresponden a las unidades funcionales de un gen. Las transiciones entre estados son de manera tal que aseguren que la forma en que el modelo marcha sea biológicamente consistente. HMM es entrenado o calibrado con genes conocidos para estimar los parámetros Se busca la secuencia de estados Pi que maximiza P(x,Pi). X secuencia de entrada Pi secuencia de estados

Se generan estados para elementos límites (start, stop,…) y para regiones de longitud variable. Las regiones suelen ser intrones, exones y regiones intergenicas. Una region intergénica es una secuencia de codones que no codifica a ninguna proteína. A su vez los exones son divididos en iniciales, internos y externos. Son conocidas estadísticas diferentes según las regiones.

Modelo simple de un HMM sin intrones: En cada estado se generan nucleótidos con cierta probabilidad

Modelo simple de un HMM que tiene en cuenta intrones, exones y alguna señales: B = gene start S = translation start D = donor A = accceptor T = translation stop E = gene end

Inicialmente para los elementos límite se usaban secuencias consenso. Las regiones suelen ser modeladas con modelos de Markov de orden mayor a 6. Las conexiones entre estados se utilizan tanto para modelar los diferentes marcos de lectura como la longitud de cada componente. Como los genes pueden ocurrir en ambas direcciones, los HMM suelen ser espejados.

El modelo leerá una secuencia de ADN y encontrará los genes más parecidos al conjunto con los cuales se entrenó o calibró el modelo. Como el uso de codones y secuencias de cambio puede variar de un genoma a otro entonces el entrenamiento deberá hacerse por genoma. La precisión del modelo depende de - la precisión de la información respecto al comienzo (start) y fin (stop) del gen con la que se entrena o calibra el modelo - el número de genes usado para entrenar. Decir que para el caso del E. coli se conocen, con precisión, las posiciones de muchos genes pero que para otros organismos esta información no está disponible con lo cual tienen que usarse genes predecidos por alineamiento de proteinas predecidas con proteinas de E. coli. Modelos similares se han armado para otros genomas microbianos.

Uso de HMM para predicción de genes
Algoritmo para generar una secuencia de DNA de longitud L Set n=1 Hacer { Si n=1 elegir estado q1 de acuerdo a las probabilidades iniciales Sino elegir estado qn en base a las probabilidades de transición del estado actual Elegir dn de acuerdo a la distribución de longitudes para el estado qn Elegir un string sn de longitud dn de acuerdo al modelo probabilistico del estado qn } Hasta que la suma de los dn sea mayor a L Las secuencias q1…qn y d1…dn constituyen un parseo de la secuencia S=s1…sn

Uso de HMM para predicción de genes
Para encontrar el conjunto de estados Pi que maximizan P(x, Pi) se utiliza el algoritmo de Viterbi: Input: x = x1……xN Inicialización: V0(0) = 1 (0 es la posición inicial) Vk(0) = 0, para todo k > 0 Iteración: Vj(i) = ej(xi)  maxk akj Vk(i-1) ptrj(i) = argmaxk akj Vk(i-1) Terminación: P(x, *) = maxk Vk(N) Rastreo: N* = argmaxk Vk(N) i-1* = ptri (i)

Combinando HMM con redes neuronales
Combinar poder de expresividad de las redes neuronales con el aspecto secuencial de los HMM. RN re utiliza para reparametrizar y modular el HMM. La idea básica consiste en utilizar RN en el tope de los HNN para el calculo de las funciones de transición y emisión. Ambos modelos son entrenados con algoritmos unificados

GenMark para procariotas

GenMark.hmm para procariotas

GenMark.hmm para eucariotas

GenScan para eucariotas
Notar la presencia de estados para las señales PolyA

HMM de 5to orden El análisis de codones secuenciales en genes ha mostrado que algunos pares de bases se encuentran con mayor frecuencia que la esperada por sí solas. Considerando ésto tendríamos un HMM lineal. Una mejor elección es un modelo que use información desde el 5ta base anterior. O sea utilizar un HMM de 5to orden. En lugar de usar pares de bases para diferenciar secuencias codificantes de no codificantes se usan hexámeros (la base actual más las 5 anteriores). GenMark.HMM es una versión de GenMark que usa un HMM de 5to orden para buscar genes E. coli.

HMM de 5to orden Problema:
HMM de 5to orden dará predicciones de genes precisas si hay varios representantes de cada hexámero en los genes, de lo contrario el método estará estadísdicamente limitado. Solución: IMM (interpolated Markov model) busca los posibles patrones más largos (de hasta 8 bases) presentes en secuencias de genes conocidos. Si no hay suficientes hexámeros entonces buscará pentámeros y así sucesivamente. En general cuanto más largo es el patrón más precisa es la predicción. IMM combina probabilidades de los patrones con distintos tamaños dando énfacis a los patrones de mayor longitud y otorgando mayor peso a las secuencias bien formadas en las secuencias de entrenamiento.

HMM de 5to orden Problema
Tanto GenMark.HMM como IMM asumen que la predicción de genes hecha por otros métodos son precisos, tal es el caso de los métodos usados para determinar la similitud entre las secuencias de las proteinas traducidas y las conocidas proteinas de la E. coli. El resultado de ésto podrían ser predicciónes confiables de genes que NO se corresponden con ninguna secuencia de ninguna proteina ya conocida.

HMM de 5to orden Solución
Existe una mejora de la predicción de la posición del codón de comienzo. El método consiste en tomar un conjunto de predicciones para un codón de start en un conjunto de secuencias para el cual sí se conoce la posición del codón. Se otorga un determinado peso a cada conjunto de secuencias input Los pesos se ajustan de manera tal que las predicciones se hacen más precisas por un método llamado programación entera mixta.

Redes neuronales: Grail II
Usado para encontrar exones en genes de eucariotas. Provee analisis de regiones codificadoras de proteinas, poly(A) y regiones promotoras y realiza búsqueda en bases de datos. El método usa una red neuronal para identificar patrones carácterísticos de secuencias codificantes. El sistema es entrenado con secuencias codificantes conocidas.

Se establecen candidatos de exones. Son evaluados utilizando una red neuronal La red neuronal tiene 3 capas: una capa de input, que tiene la información del exon candidato. Una capa hidden para discernir relaciones entre los valores de entrada. Una capa de output que indica si efectivamente es un exon

Inputs: Indicadores de patrones de secuencia. Modelo de Markov. Resultados de lugares de splice (splice sites)provenientes de otras dos redes neuronales. Indicador de preferencia de 6-mer (hexámeros). Etc. Hablar de hexómeros y GC richness, pág 354 del Mount

Output Cada neuron recibe información de la capa inferior, la suma y la convierte en un valor de aprox. a 0 o 1. Si la salida de la red neuronal el un valor próximo a 1 ent. se predice que la secuencia candidata es exon. La secuencia candidata es evaluada calculando frecuencias de patrones en la secuenciasy aplicando estos valores a la red neuronal.

Redes neuronales: GeneParser
Predice la combinación de intrones y exones más probable mediante el uso programación dinámica y redes neuronales. Para cada posición de la secuencia se determina la probabilidad de estar en un intrón o exon . Las posiciones de intrones y exones son alineadas con la restricción de que deben alternar en el gen. Output: secuencia de intrones y exones del gen.

Provee mecanismos para ajustar los pesos asignados a cada tipo de patrón que aparece en intrones y exones. La red neuronal se usa para ajustar los pesos dados a - indicadores de secuencia de regiones conocidas de intrones y exones. - uso preferencail de codones - frecuencia de hexámeros - matrices de scoring para señales de splicing

Se prepara una tabla de frecuencia de hexameros para un conjunto de exones. Iteramos, para cada secuencia de entrenamientose hace lo siguiente Se arman matrices indicadoras. - Una matriz tal que cada posición (i,j) representa una subsecuencia con principio en la posición i y fin en la j de la secuencias. Cada posición contiene la probabilidad de que un exon comience y termine en tales posiciones. Para ésto se considera la frecuencia de hexámeros. - Basta con usar media matriz. - En la otra mitad se hace lo mismo pero para intrones. - Se arman otras matrices basadas en distribución de longitudes, señales de splice, etc.

2.2 Cada uno de los valores (i,j) de la matriz es transformado según un pero asignado. Los pesos iniciales usados son arbitrarios, luego son ajustados hasta proveer la correcta estructura de la secu. de entrenamiento. 2.3 Se suman lo nuevos valores, s, y se transforma el resultado en un número L próximo a 0 ó 1 L = 1/ [ 1 – h ] donde h es e elevado a -s

Los valores (i,j) transformados son puestos en nuevas matrices Le y Li para exones e intrones. Ambas matrices son medias matrices. 2.5. El fin de estas transformaciones es usar esta información como input de la red neuronal. Se usa programación dinámica para predecir el número y longitudes de intrones hasta cualquier posición de la secuencia de entrenamiento.

Se determina la presición de la predicción. Si no se alcanza el nivel de presición requerido se usa una red neuronal parecida a la de Grail II para ajustar los pesos de la características de cada exon e intrón input. Si el nivel de presición es alcanzado es método está listo para determinar la estructura de secuencias genómicas de DNS desconocidas.

Estrategias integradoras
Hay otros programas que combinan métodos intrínsecos y extrínsecos, por ejemplo, GenomeScan, FGENESH+, Procrustes Otras posibilidad es combinar predicciones de diferentes programas Por ejemplo, combinar GenScan y HMMGene que son los mejores candidatos

Evaluación de resultados
A nivel de la secuencia TN FN TP FP TN FN TP FN TN REALITY PREDICTION Sensibilidad Especificidad

Evaluación de resultados
A nivel de los exones Incorrect Correct Missing Reality Prediction ER exones reales TP predicciones de exones Sensibilidad Especificidad

Conclusiones La mayoría de los tests se entrenan sobre secuencias particulares, por lo cual funcionan mejor en la predicción de genes similares al set de entrenamiento. Muchos métodos requieren para funcionar predecir un comienzo y fin concretos con lo cual van a cometer errores frente a genes truncados o múltiples genes. Hay genes que no tienen ninguna estructura canónica, por lo que no pueden ser detectados por ningún método actual.

Bibliografía David W.Mount. Bioinfoimatics – Sequence and Genome Analysis. Durbin et al. Biological Sequence Analysis – Probabilistic models of proteins and nucleis acids. Meidanis y Setubal. Introduction to Computational Molecular Biology Brunak. Chapter 9, Probabilistic Graphical Models in Bioinformatics. Larry Ruzzo. Lecture 9, Gene Prediction, II Diapositivas de la cátedra.

Taboada, Fernando Gómez Germán

Presentaciones similares

Presentación del tema: "Taboada, Fernando Gómez Germán"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Taboada, Fernando Gómez Germán

Presentaciones similares

Presentación del tema: "Taboada, Fernando Gómez Germán"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback