Otras aplicaciones de HMM Búsqueda de familias (dominios)Búsqueda de familias (dominios) Alineamientos no globales (búsqueda de secuencias flanqueantes.

Slides:



Advertisements
Presentaciones similares
La síntesis de proteínas
Advertisements

TRANSCRIPCIÓN Y TRADUCCIÓN
CURSO de Actualizaciones en Genética Molecular y sus aplicaciones
9.1.- ¿QUÉ SON LOS GENES? Lo que determina un rasgo particular.
BLAST.
Taboada, Fernando Gómez Germán
Control en cascada.
CODIGO GENETICO SINTESIS PROTEICA.
9.1.- UN GEN, UN ENZIMA Garrod, en 1902 descubre la enfermedad hereditaria fenilcetonuria (Acumula Phe) Falta el enzima Phehidroxilasa No se produce Tyr.
Replicación, Transcripción y Traducción en Procariota
Ejercicios con listas.
Predicción de genes.
expresión diferencial del genoma
Encuentra las 12 diferencias
La Ecuación de Schrödinger
Posibles puntos de regulación de la expresión génica
Síntesis de proteínas.
LA SINTESIS DE PROTEINAS A PARTIR DEL ADN
Código genético y el mecanismo de expresión
Detección de Secuencias Reguladoras en el Genoma
9 Regresión Lineal Simple
Stem-changing verbs.
Profile HMMs Perfiles de Modelos ocultos de Markov
Question words question WORDS? Cómo Cuándo Cuánto Dónde Por qué Qué Cuál Quién A qué hora Adónde.
Análisis de Algoritmos
Future. Before learning to form the future it in English: I will speak. The future tense in English ALWAYS has the word “will” (or “shall”). It can be.
Encontrando sentido a las secuencias de ADN
1 Concepción de Sistemas de Información Instituto de Computación – Facultad de Ingeniería – Universidad de la República Estudio de modelos y técnicas de.
Sesión 6: Campos de Markov
Antes de la mitosis (el proceso por el cual no reproductoras o dividir las células somáticas) y la meiosis (proceso mediante el cual los precursores de.
4.1 Continuidad en un punto 4.2 Tipos de discontinuidades 4.3 Continuidad en intervalos.
PCR PV92 Secuencias Alu.
Matrices de Substitución PAM Y BLOSUM
The Normal Distribution To calculate the probability of a Normal distribution between a and b:
Verbos con Cambio de Raiz en el Subjuntivo.
VARIACIÓN EN EL TAMAÑO DEL GENOMA
INVESTIGACION DE OPERACIONES
-AR Verbs In Spanish, there are three classes (or conjugations) of verbs: those that end in –AR, those that end in –ER, and those that end in –IR. This.
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Convirtiendo lecturas de secuencia en un mapa de secuencia
Traducción de proteínas
Matrices de sustitución
1. Inicio de la transcripción
Arboles B (búsqueda externa)
Alineamiento local: búsqueda de homologías
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
BIOLOGIA COMPUTACIONAL
DEL ADN A LAS PROTEÍNAS Material genético en procariotas y eucariotas
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Las Preguntas (the questions) Tengo una pregunta… Sí, Juan habla mucho con el profesor en clase. No, Juan no habla mucho en clase. s vo s vo Forming.
Modelos ocultos de Markov (HMM)
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Introducción a la Bioinformática
TEMA 4.7 mRNAs EUCARIÓTICOS.
Replicación ADN REPLICACIÓN: ANIMACIÓN. ¿QUÉ SON LOS GENES? Lo que determina un rasgo particular. La unidad de la herencia. Un segmento de ADN que codifica.
TENER, ESTAR and ANDAR in the Preterite. The verbs tener, estar, and andar have similar stem changes in the Preterite tense. They all have “uv” in the.
Genomas.
Del ADN a la proteína: expresión génica
El pretérito You may remember reading about the use of the preterit- that it is used for “completed actions”. The acronym SOFIA will help you remember.
2.7 Confiabilidad basada en mantenimiento
DEL ADN AL ARN MENSAJERO
GENE MUTATIONS/ MUTACIONES GENICAS
 Material genético en procariotas y eucariotas  Dogma Central de la Biología Molecular  Transcripción  Código genético  Traducción  Regulación de.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Simulacion. Simulación Es la construcción de modelos informáticos que describen la parte esencial del comportamiento de un sistema de interés, así como.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Aim: How do scientists use biotechnology to manipulate genomes? Objetivo: ¿Cómo los científicos utilizan biotecnología para manipular genomas?
Las Preguntas (the questions) Tengo una pregunta… Sí, Juan habla mucho con el profesor en clase. No, Juan no habla mucho en clase. s vo s vo Forming.
Transcripción de la presentación:

Otras aplicaciones de HMM Búsqueda de familias (dominios)Búsqueda de familias (dominios) Alineamientos no globales (búsqueda de secuencias flanqueantes a un patrón particular)Alineamientos no globales (búsqueda de secuencias flanqueantes a un patrón particular)

En eucariotas los genes son interrumpidos, consisten de series interrumpidas de exones e intrones. Los exones son secuencias presentes en el RNA maduro. Por definición un gen termina y empieza con un exón. Los intrones son secuencias que son removidas cuando el transcripto primario es procesado.

Algunas características de los genes eucariotas : Muestran una distribución muyyyyy amplia de tamañosMuestran una distribución muyyyyy amplia de tamaños No hay grandes diferencias en el tamaño de los exones en diferentes tipos de organismosNo hay grandes diferencias en el tamaño de los exones en diferentes tipos de organismos En general los intrones son mas largos que los exonesEn general los intrones son mas largos que los exones La distribución de los tamaños de los intrones varía desde el mismo largo que los exones (>200 pb) hasta Kb en casos extremosLa distribución de los tamaños de los intrones varía desde el mismo largo que los exones (>200 pb) hasta Kb en casos extremos

El orden de las partes de un gen es el mismo en el genoma como en el RNA maduroEl orden de las partes de un gen es el mismo en el genoma como en el RNA maduro Los genes que están evolutivamente relacionados tiene organizaciones similares.Los genes que están evolutivamente relacionados tiene organizaciones similares. Los genes tienen la misma estructura en todos los tejidos, incluida la línea germinal y somática en las que puede estar expresado o no. La presencia de un intrón es una característica invariable.Los genes tienen la misma estructura en todos los tejidos, incluida la línea germinal y somática en las que puede estar expresado o no. La presencia de un intrón es una característica invariable.

Genes muy largos son el resultados de intrones muy largosGenes muy largos son el resultados de intrones muy largos No hay una correlación entre el tamaño del gen y el tamaño de los RNAms No hay buena una correlación entre tamaño del gen y el número de exonesNo hay buena una correlación entre tamaño del gen y el número de exones Las secuencias de los exones son conservadas pero los intrones varían Las secuencias de los exones son conservadas pero los intrones varían

Especies Promedio de Nº de exones Promedio del largo del gen (Kb) Promedio de largo mRNA(kb) S. cerevisae Fungi C.elegans443 Drosophila melanogaster Aves Mamíferos 1.2x x x x x10 4 Tamaño del genoma 3.3x10 6

Los intrones son removidos del RNA nuclear por un sistema que reconoce secuencias de consenso conservadas en las uniones intrón-exón y dentro del intrónLos intrones son removidos del RNA nuclear por un sistema que reconoce secuencias de consenso conservadas en las uniones intrón-exón y dentro del intrón Esto requiere un complejo aparato de splicing (splicisoma) donde proteínas y riboproteínas forman una gran partícula compleja.Esto requiere un complejo aparato de splicing (splicisoma) donde proteínas y riboproteínas forman una gran partícula compleja.

Algunas caracteristicas importantes.. No hay homolgía o complementariedad entre los extremos de los intrones.No hay homolgía o complementariedad entre los extremos de los intrones. Los sitios de unión son muy conservados. Los sitios de unión son muy conservados. La secuencia altamente conservada (99%) se encuentra inmediatamente dentro del intrón en los sitios de unión La secuencia de un intrón genérico se define como GT………….AG GT-AG = 99.24% GC-AG = 0.7% AT-AC = 0.05%

Un ejemplo sencillo…… Modelos oculto de Markov: Es un modelo probabilístico de problema de etiquetado de secuencias lineales Reconocer un sitio de splicing 5’

Asumimos que : La secuencia de ADN comienza en un exón, contiene solo un sitio de splice 5´ y termina en un intrón.La secuencia de ADN comienza en un exón, contiene solo un sitio de splice 5´ y termina en un intrón. El problema es identificar donde ocurre el splicing Las secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticasLas secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticas Exones: tienen una composición uniforme de bases, ATCG (25%) de cada una. Intronesricos en A/T (40% de A, 40% de T), 10% de C y 10%G. Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G. Sitio de Splicing (SS) :es casi siempre una G (95%) y A (5%) Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%)

El HMM tiene tres estados El HMM tiene tres estados E (exon), 5’ sitio de splicing e I (intron) Cada estado tiene su propia probabilidad de emisión y transición probabilidad de emisión: es la probabilidad de composición de bases en cada estado, describe las características estadística de los residuos de ADNprobabilidad de emisión: es la probabilidad de composición de bases en cada estado, describe las características estadística de los residuos de ADN probabilidad de transición:probabilidad de transición: es la probabilidad de moverse del estado en el que se está a otro nuevo estado, describe el orden linear que esperamos que los estados ocurran en uno o mas: E´s, un 5’, uno o mas I´s.

Cuando visitamos un estado emitimos un residuo de acuerdo a la distribución de las probabilidades de emisión de los estados, luego elegimos cual estado visitar de acuerdo a la distribución de las probabilidades de transición de los estados. El modelo genera dos strings de información: una cadena de estados subyacente (etiquetas), la otra es la secuencia observada de ADN Cadena de estados = cadena de Markov: el estado siguiente al que se llega depende sólo del estado en que se está. La cadena de estados subyacentes (etiquetas que queremos inferir) está oculta,es una CADENA OCULTA DE MARKOV.

La Probabilidad P (S, π/HMM, θ) que una HMM con parámetros θ genere una cadena de estados π y una secuencia observada S es el producto de todas las probabilidades de emisión y transición que fueron usadas.

Una HMM es un modelo probabilístico completo tiene que tener significancia estadística : se usa la teoría de probabilidad Bayesiana para optimizar parámetros, interpretar las significancia estadística de los scores. P tiene que tener significancia estadística : se usa la teoría de probabilidad Bayesiana para optimizar parámetros, interpretar las significancia estadística de los scores. Para problemas mas reales hay muchas secuencias de estados posibles, se usa Algoritmo de Viterbi (programación dinámica) para hallar la secuencia mas probable de estados dada una determinada secuencia y una HMM. Para problemas mas grandes, se usan algoritmos de programación dinámica Forward y Backward : suman todos los posibles secuencias de estados en lugar de elegir la mejor.

Las limitaciones del modelo HMM asume que cada residuo depende solo de un estado subyacente y cada estado en la cadena de estados depende solamente del estado previo, HMM no es bueno en análisis de estructura secundaria de ARN donde apareamiento de bases conservadas inducen correlaciones entre residuos distantes HMM asume que cada residuo depende solo de un estado subyacente y cada estado en la cadena de estados depende solamente del estado previo, HMM no es bueno en análisis de estructura secundaria de ARN donde apareamiento de bases conservadas inducen correlaciones entre residuos distantes La cadena de estado de una HMM no tiene memoria

Para localizar genes el método más simple es buscar ORFs, los cuales comienzan con un codón Start (AUG) y finaliza con uno de los tres codones stops. En procariotas es mas sencillo DNA que codifica para proteínas se transcribe en RNA m el cual se traduce a proteínas sin modificaciones En eucariotas es mas difícil, porque el RNA m se procesa. La búsqueda por homología de los posibles ORF sólo predice un 50% de los genes El 50% remanente debe ser hallado usando otro mecanismo

Programas de Predicción de genes Procariota: Sistema Glimmer (Gene Locator and Interpolated Markov Modeler) permite hallar genes en DNA microbiano, usa IMM para identificar regiones codificantes y distinguir regiones no codificantes. Consiste de dos programas principales: build-imm : programa de entrenamiento, toma un input de secuencias y construye las IMM para ellas, las secuencias pueden ser genes completos o ORFs parciales. Para un nuevo genoma pueden consistir de genes con fuertes hits en bases de datos o ORFs que son estadísticamente cercanos a genes.build-imm : programa de entrenamiento, toma un input de secuencias y construye las IMM para ellas, las secuencias pueden ser genes completos o ORFs parciales. Para un nuevo genoma pueden consistir de genes con fuertes hits en bases de datos o ORFs que son estadísticamente cercanos a genes. *Glimmer: usa IMM para identificar posibles genes en un genoma entero

Output from HMMgene The output of the program is in GFF format, which is a sequence annotation format developed with gene finding in mind. It is very simple and therefore it is easy to develop programs in perl or awk to post-process the output. The following is an example of the form it takes with hmmgene.GFF Note that hmmgene only predicts coding regions. That is, the first exon (`firstex' below) is only the coding part of the first coding exon and similarly for the last exon (`lastex' below). Below a `gene' therefore means the region of the gene from start to stop codon. SEQ1 HMMgene1.1 firstex bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 exon_ bestparse:cds_1 SEQ1 HMMgene1.1 lastex bestparse:cds_1 SEQ1 HMMgene1.1 CDS bestparse:cds_1 Columns 1. Sequence identifier 2. Program name 3. Prediction. 4. Beginning 5. End 6. Score between 0 and 1 7. Strand: $+$ for direct and $-$ for complementary 8. Frame (for exons it is the position of the donor in the frame) 9. Group to which prediction belong. If several CDS's are found they will be called cds_1, cds_2, etc. `bestparse:' is there because alternative predictions will also be available (see below). The score that comes with all the exons as well as the entire gene `CDS' above) is a probability, so a value close to one means that the program is fairly certain.