Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porJaime Alvarado Rubio Modificado hace 10 años
1
Otras aplicaciones de HMM Búsqueda de familias (dominios)Búsqueda de familias (dominios) Alineamientos no globales (búsqueda de secuencias flanqueantes a un patrón particular)Alineamientos no globales (búsqueda de secuencias flanqueantes a un patrón particular)
2
En eucariotas los genes son interrumpidos, consisten de series interrumpidas de exones e intrones. Los exones son secuencias presentes en el RNA maduro. Por definición un gen termina y empieza con un exón. Los intrones son secuencias que son removidas cuando el transcripto primario es procesado.
3
Algunas características de los genes eucariotas : Muestran una distribución muyyyyy amplia de tamañosMuestran una distribución muyyyyy amplia de tamaños No hay grandes diferencias en el tamaño de los exones en diferentes tipos de organismosNo hay grandes diferencias en el tamaño de los exones en diferentes tipos de organismos En general los intrones son mas largos que los exonesEn general los intrones son mas largos que los exones La distribución de los tamaños de los intrones varía desde el mismo largo que los exones (>200 pb) hasta 50-60 Kb en casos extremosLa distribución de los tamaños de los intrones varía desde el mismo largo que los exones (>200 pb) hasta 50-60 Kb en casos extremos
4
El orden de las partes de un gen es el mismo en el genoma como en el RNA maduroEl orden de las partes de un gen es el mismo en el genoma como en el RNA maduro Los genes que están evolutivamente relacionados tiene organizaciones similares.Los genes que están evolutivamente relacionados tiene organizaciones similares. Los genes tienen la misma estructura en todos los tejidos, incluida la línea germinal y somática en las que puede estar expresado o no. La presencia de un intrón es una característica invariable.Los genes tienen la misma estructura en todos los tejidos, incluida la línea germinal y somática en las que puede estar expresado o no. La presencia de un intrón es una característica invariable.
5
Genes muy largos son el resultados de intrones muy largosGenes muy largos son el resultados de intrones muy largos No hay una correlación entre el tamaño del gen y el tamaño de los RNAms No hay buena una correlación entre tamaño del gen y el número de exonesNo hay buena una correlación entre tamaño del gen y el número de exones Las secuencias de los exones son conservadas pero los intrones varían Las secuencias de los exones son conservadas pero los intrones varían
6
Especies Promedio de Nº de exones Promedio del largo del gen (Kb) Promedio de largo mRNA(kb) S. cerevisae 11.61.6 Fungi31.51.4 C.elegans443 Drosophila melanogaster 411.32.7 Aves913.92.4 2.216.67Mamíferos 1.2x10 6 1.4x10 5 8 x10 4 2.7x10 4 1.3x10 4 Tamaño del genoma 3.3x10 6
7
Los intrones son removidos del RNA nuclear por un sistema que reconoce secuencias de consenso conservadas en las uniones intrón-exón y dentro del intrónLos intrones son removidos del RNA nuclear por un sistema que reconoce secuencias de consenso conservadas en las uniones intrón-exón y dentro del intrón Esto requiere un complejo aparato de splicing (splicisoma) donde proteínas y riboproteínas forman una gran partícula compleja.Esto requiere un complejo aparato de splicing (splicisoma) donde proteínas y riboproteínas forman una gran partícula compleja.
8
Algunas caracteristicas importantes.. No hay homolgía o complementariedad entre los extremos de los intrones.No hay homolgía o complementariedad entre los extremos de los intrones. Los sitios de unión son muy conservados. Los sitios de unión son muy conservados. La secuencia altamente conservada (99%) se encuentra inmediatamente dentro del intrón en los sitios de unión La secuencia de un intrón genérico se define como GT………….AG GT-AG = 99.24% GC-AG = 0.7% AT-AC = 0.05%
9
Un ejemplo sencillo…… Modelos oculto de Markov: Es un modelo probabilístico de problema de etiquetado de secuencias lineales Reconocer un sitio de splicing 5’
10
Asumimos que : La secuencia de ADN comienza en un exón, contiene solo un sitio de splice 5´ y termina en un intrón.La secuencia de ADN comienza en un exón, contiene solo un sitio de splice 5´ y termina en un intrón. El problema es identificar donde ocurre el splicing Las secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticasLas secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticas Exones: tienen una composición uniforme de bases, ATCG (25%) de cada una. Intronesricos en A/T (40% de A, 40% de T), 10% de C y 10%G. Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G. Sitio de Splicing (SS) :es casi siempre una G (95%) y A (5%) Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%)
11
El HMM tiene tres estados El HMM tiene tres estados E (exon), 5’ sitio de splicing e I (intron) Cada estado tiene su propia probabilidad de emisión y transición probabilidad de emisión: es la probabilidad de composición de bases en cada estado, describe las características estadística de los residuos de ADNprobabilidad de emisión: es la probabilidad de composición de bases en cada estado, describe las características estadística de los residuos de ADN probabilidad de transición:probabilidad de transición: es la probabilidad de moverse del estado en el que se está a otro nuevo estado, describe el orden linear que esperamos que los estados ocurran en uno o mas: E´s, un 5’, uno o mas I´s.
12
Cuando visitamos un estado emitimos un residuo de acuerdo a la distribución de las probabilidades de emisión de los estados, luego elegimos cual estado visitar de acuerdo a la distribución de las probabilidades de transición de los estados. El modelo genera dos strings de información: una cadena de estados subyacente (etiquetas), la otra es la secuencia observada de ADN Cadena de estados = cadena de Markov: el estado siguiente al que se llega depende sólo del estado en que se está. La cadena de estados subyacentes (etiquetas que queremos inferir) está oculta,es una CADENA OCULTA DE MARKOV.
13
La Probabilidad P (S, π/HMM, θ) que una HMM con parámetros θ genere una cadena de estados π y una secuencia observada S es el producto de todas las probabilidades de emisión y transición que fueron usadas.
14
Una HMM es un modelo probabilístico completo tiene que tener significancia estadística : se usa la teoría de probabilidad Bayesiana para optimizar parámetros, interpretar las significancia estadística de los scores. P tiene que tener significancia estadística : se usa la teoría de probabilidad Bayesiana para optimizar parámetros, interpretar las significancia estadística de los scores. Para problemas mas reales hay muchas secuencias de estados posibles, se usa Algoritmo de Viterbi (programación dinámica) para hallar la secuencia mas probable de estados dada una determinada secuencia y una HMM. Para problemas mas grandes, se usan algoritmos de programación dinámica Forward y Backward : suman todos los posibles secuencias de estados en lugar de elegir la mejor.
15
Las limitaciones del modelo HMM asume que cada residuo depende solo de un estado subyacente y cada estado en la cadena de estados depende solamente del estado previo, HMM no es bueno en análisis de estructura secundaria de ARN donde apareamiento de bases conservadas inducen correlaciones entre residuos distantes HMM asume que cada residuo depende solo de un estado subyacente y cada estado en la cadena de estados depende solamente del estado previo, HMM no es bueno en análisis de estructura secundaria de ARN donde apareamiento de bases conservadas inducen correlaciones entre residuos distantes La cadena de estado de una HMM no tiene memoria
16
Para localizar genes el método más simple es buscar ORFs, los cuales comienzan con un codón Start (AUG) y finaliza con uno de los tres codones stops. En procariotas es mas sencillo DNA que codifica para proteínas se transcribe en RNA m el cual se traduce a proteínas sin modificaciones En eucariotas es mas difícil, porque el RNA m se procesa. La búsqueda por homología de los posibles ORF sólo predice un 50% de los genes El 50% remanente debe ser hallado usando otro mecanismo
17
Programas de Predicción de genes Procariota: Sistema Glimmer (Gene Locator and Interpolated Markov Modeler) permite hallar genes en DNA microbiano, usa IMM para identificar regiones codificantes y distinguir regiones no codificantes. Consiste de dos programas principales: build-imm : programa de entrenamiento, toma un input de secuencias y construye las IMM para ellas, las secuencias pueden ser genes completos o ORFs parciales. Para un nuevo genoma pueden consistir de genes con fuertes hits en bases de datos o ORFs que son estadísticamente cercanos a genes.build-imm : programa de entrenamiento, toma un input de secuencias y construye las IMM para ellas, las secuencias pueden ser genes completos o ORFs parciales. Para un nuevo genoma pueden consistir de genes con fuertes hits en bases de datos o ORFs que son estadísticamente cercanos a genes. *Glimmer: usa IMM para identificar posibles genes en un genoma entero http://glimmer.sourceforge.net/
19
Output from HMMgene The output of the program is in GFF format, which is a sequence annotation format developed with gene finding in mind. It is very simple and therefore it is easy to develop programs in perl or awk to post-process the output. The following is an example of the form it takes with hmmgene.GFF Note that hmmgene only predicts coding regions. That is, the first exon (`firstex' below) is only the coding part of the first coding exon and similarly for the last exon (`lastex' below). Below a `gene' therefore means the region of the gene from start to stop codon. SEQ1 HMMgene1.1 firstex 692 702 0.347 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_1 2473 2711 0.421 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_2 2897 3081 0.544 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_3 10376 10563 0.861 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_4 11841 11891 0.857 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_5 12387 12483 0.993 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_6 13076 13211 0.970 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_7 13332 13415 0.926 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_8 13515 13603 1.000 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_9 14180 14235 1.000 + 2 bestparse:cds_1 SEQ1 HMMgene1.1 exon_10 14321 14408 0.999 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_11 14483 14579 0.877 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 exon_12 14697 14764 0.639 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 exon_13 14901 15030 0.835 + 1 bestparse:cds_1 SEQ1 HMMgene1.1 lastex 15643 15704 0.987 + 0 bestparse:cds_1 SEQ1 HMMgene1.1 CDS 692 15704 0.132 +. bestparse:cds_1 Columns 1. Sequence identifier 2. Program name 3. Prediction. 4. Beginning 5. End 6. Score between 0 and 1 7. Strand: $+$ for direct and $-$ for complementary 8. Frame (for exons it is the position of the donor in the frame) 9. Group to which prediction belong. If several CDS's are found they will be called cds_1, cds_2, etc. `bestparse:' is there because alternative predictions will also be available (see below). The score that comes with all the exons as well as the entire gene `CDS' above) is a probability, so a value close to one means that the program is fairly certain.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.