Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porAsdrubal Cardenas Modificado hace 10 años
1
GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS
2
Secuencias y estructuras
Los algoritmos de análisis de secuencias tratan al DNA, RNA y a las proteínas como strings de nucleótidos o aminoácidos La mayoría de estos algoritmos asume strings de elementos sin relación, donde el valor de un residuo en una posición no tiene efecto sobre el valor de otro residuo. Þ Esta suposición se rompe dramáticamente para el RNA!
3
La estructura secundaria del RNA pone constrains sobre la secuencia del RNA.
4
tRNA en acción!
5
Se deben adoptar nuevos modelos que consideren las correlaciones a larga distancia entre pares de residuos
6
Erase una vez un lenguaje...
GRAMATICAS Erase una vez un lenguaje...
7
Gramáticas transformacionales
Una gramática caracteriza un lenguaje Una gramática consiste de: N: Un conjunto de símbolos no terminales V: Un conjunto de símbolos terminales (son los que realmente aparecen en el string) S: Un símbolo no terminal de start S P: Un conjunto de producciones
8
Una gramática para codones stop
Lenguaje: UAA, UAG, UGA N: {s, c1, c2, c3, c4} S: s V: {A, C, G, U} P: s ® c1 c1® Uc2 c2 ® Ac c3 ® A c2 ® Gc4 c3 ® G c4 ® A
9
Árbol de parsing para UAG
10
Gramáticas probabilísticas
11
Jerarquía de Chomsky
12
Gramáticas libres de contexto Gramáticas sensitivas al contexto
Gramáticas regulares u®Xv u®X Gramáticas libres de contexto u®b Gramáticas sensitivas al contexto a1 u a2 ® a1 b a2 Gramáticas irrestrictas a1 u a2 ® g donde u y v son no terminales, X es un terminal, a y g son cualquier secuencia de terminales / no terminales, excluyendo el string nulo, y b es cualquier secuencia de terminales / no terminales
13
Gramaticas y parsers Automata de parsing Gramática Máquina de Turing
Gramática irrestricta Automata linealmente acotado Gramática sensitiva al contexto Automata de pila Gramática libre de contexto Automata de estados finitos Gramática Regular Automata de parsing Gramática
14
De las gramáticas regulares a las gramáticas libres de contexto
15
RNA: palindromos complementarios
16
Lo que necesitamos modelar para nuestro problema del RNA es la simetría, como un palíndromo
17
Extensión Para cubrir estas interacciones a larga distancia necesitamos hacer una extensión a nuestras reglas de escritura: Gramáticas regulares {NoTerminal} ® {Terminal}{NoTerminal} | {Terminal} Gramáticas libres de contexto {NoTerminal} ® string de simbolos
18
Principal ventaja Las gramaticas regulares generan strings de izquierda a derecha, las gramaticas libres de contexto pueden generar strings de afuera hacia adentro. Veamos: S ® aSa | bSb | bb | aa | (Context Free) Versus: S ® aS | bS | b | a (Regular)
19
CFG y RNA Aca vemos una gramatica context free que puede generar un stem de 3 bases, y un loop de GAAA o GCAA
20
De las gramáticas libres de contexto a las gramáticas sensitivas al contexto
21
Pseudoknots Las gramaticas sensitivas al contexto permiten modelar lenguajes Copy, que son los que se presentan en los pseudoknots.
22
Problema No se conocen algoritmos generales en tiempo polinomial para
parsear gramaticas sensitivas al contexto
23
Tres problemas basicos
Scoring: Cuan probable es una secuencia dado un SCFG parametrizado? Algoritmo Inside Training: Dada un conjunto de secuencias, como estimamos los parametros de un SCFG? Algoritmo Inside Outside Alineamiento: Cual es el parsing mas probable de una secuencia a un SCFG parametrizado? Algoritmo CYK
24
Determinando la probabilidad de una secuencia: El Algoritmo Inside
α (i,j,v): la probabilidad suma de todos los subtrees de parsing de raiz v para la subsecuencia de i a j
25
El algoritmo Inside
26
El algoritmo Inside Inicializacion: (i,i,v) = ev (xi ) Iteracion
Terminacion: Pr(x) = (1,L,1)
27
El algoritmo Outside: b(i,j,v)
28
Algoritmo CYK Dada una secuencia X encontrar el parsing mas probable.
A la probabilidad del parsing mas probable del substring Xi...Xj con raiz en V la llamamos g (i,j,V). Empezamos con g (i,i,V) = log P(V®Xi) Para todo j > i, buscamos todas las producciones V®YZ y nos quedamos con la de maxima probabilidad.
29
Algoritmo CYK g (i,i,V) = log P(V®Xi), " no terminal V, " 1£i£N
for i=1 to N-1 for j=i+1 to N " no terminal V g (i,j,V) = maxx maxy maxi£k£j [log P(V®XY)+ g (i,k,X)+ g (k+1,j,Y)]; endfor return g (1,N,S)
30
Recordamos las elecciones hechas en CYK en cada paso para reconstruir el parser optimo!
31
Veamos una aplicación de la gramatica a la estructura secundaria del RNA
.
32
Algoritmo Nussinov Dada: Una secuencia RNA
Objetivo: Encontrar la estructura secundaria que maximice el numero de apareamiento de bases Algoritmo recursivo: Encuentra la mejor estructura para los inputs i...j intentando una de las siguientes 4 posibilidades: Agregar el par i, j sobre la mejor estructura i+1...j-1 Agregar i sin aparear a la mejor estructura i+1...j Agregar j sin aparear a la mejor estructura i...j-1 Combinar las dos estructuras optimas i...k y k+1...j
33
Casos en Nussinov
34
Algoritmo Nussinov La secuencia a analizar tiene longitud L.
Es un algoritmo de programacion dinamica que llena una matriz de L x L, con la informacion del maximo apareamiento de las bases. Hacemos la funcion (xi, xj) = 1, si xi y xj se aparearian entre si, y (xi, xj) = 0, en caso contrario.
35
Algoritmo Nussinov Inicializacion: (i, i-1) = 0, i= 2...L
Recursion: for i=1...L-1, j=i+1...L Terminacion: maxima cantidad de apareamientos de bases: (1, L)
36
Nussinov traceback Inicializacion: Push (1,L) en el stack
Recursion: Repetir hasta que el stack este vacio pop(i,j) if i > j continuar else if (i+1, j) = (i, j) push (i+1, j) else if (i, j-1) = (i, j) push (i, j-1) else if (i+1, j-1)+ij = (i, j): registrar i, j como apareamiento push (i+1, j-1) else for k= i+1 to j-1: if (i,k)+ (k+1,j)= (i,j): push (k+1,j) push (i,k) break
37
Ejemplo
38
Version SCFG de Nussinov
S ® GSC: 3 ½ CSG: 3 ½ ASU: 2½USA: 2 ½GSU: 1 ½ USG: 1 S ® SS: 0 ½ e: 0 S ® AS: 0 ½ CS: 0 ½ GS: 0 ½ US: 0 S ® SA: 0 ½ SC: 0 ½ SG: 0 ½ SU: 0
39
Para profundizar sobre el tema...
Biological sequence analysis (Capitulos 9 y 10). Durbin, R., Eddy, S., Krogh, A., Mitchison, G., Cambridge University Press, 1998. Bioinformatics, The Machine Learning Approach, 2da. Edicion (Capitulo 11). Baldi, P. & Brunak, S., MIT press, 2001. Bioinformatics: sequence and genome analysis (Capitulo 5). Mount, D., Cold Spring Harbor Laboratory Press, 2001. The language of RNA: a formal grammar that includes pseudoknots. Rivas E., Eddy, S.R., Bioinformatics Apr;16(4):
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.