DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir.

DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir

Idea ppal: COMPARAR SEGMENTOS DE SECUENCIA EN VEZ DE RESIDUOS INDIVIDUALES. Los segmentos que van a ser comparados deben tener el mismo largo y sin gaps. Dado que dicho par de segmentos aparecen como diagonales en una matriz de puntos se refiere a los mismos como DIAGONALES y llaman al método DIALIGN por diagonal alignments.

CONSISTENCIA: Diagonales D1 y D2 que pertenecen al alineamiento, D1<<D2 las posiciones alineadas entre si en D1 preceden a las que están alineadas en D2 en las dos secuencias respectivas. YIAVLFAEDDNAHWKT D1 D2

Los fragmentos de un alineamiento A pueden solaparse si están formados por diferentes pares de secuencias. Si dos fragmentos f1 y f2 pertenecientes a A están formados por los pares de secuencias si, sj y sj, sk, respectivamente, f1 y f2 pueden solaparse. Si dos fragmentos están formados por el mismo par de secuencias no se permiten solapamientos. f1 S i S j S k S j f2

Dialign Dialign T Usan un algoritmo greedy para la realización de alineamiento múltple Se calculan los alineamientos pareados optimos para las secuencias de entrada. Fragmentos de los alineamientos pareados son ordenados por un puntaje (peso ) Se los incluye uno por uno en un conjunto creciente de fragmentos siempre que cumplan la condición de ser consistentes con los fragmentos incluidos previamente. Dialign TX El orden en el que los fragmnetos eran chequeados para ver su consistencia es determinados por sus pesos (weight scores) También se toma en cuenta el grado de semejanza entre las 2 secuencias que forman el fragmento. Implementación de estrategia progresiva

La medida que nos da el peso de cada diagonal es llamada weight score w(f) y depende de la probabilidad P(f) de ocurrencia aleatoria de dicho fragmento. Siendo D una diagonal,l su largo y m el número de matches que contiene D P(l,m) es la probabilidad de que cualquier diagonal de largo l contenga por lo menos m matches. Tomando el logaritmo negativo de ésta probabilidad se define el peso de una diagonal como: E(l,m) := - ln (Pl,m) [2] E(l,m), if E(l,m) > T w(D) 0 Donde T es un umbral definido por el usuario para limitar el número de diagonales consideradas

Calculo del alineamiento máximo = Encontrar el conjunto consistente de diagonales con máximo peso. El alineamiento máximo de dos secuencias X = (XI...., XLI) y Y = (Y1,..., YL2) de largos L1 y L2, respectivamente,puede ser calculado por un algoritmo similar al de programación dinámica. primero se determina para cada par de posiciones (i,j) con 1 =0 con k<=min (i-1, j-1) para los que la diagonal (xi-k, yj-k,….,xi,yj) de (i-k, j-k) a (i,j) tenga peso positivo. i-3i-2i-1ii+1i+2 j-3 j-2 j-1 j j+1 j+2

Luego para cada par (i,j) se define un score que es el score del alineamiento máximo de los prefijos (x1,…,xi) y (y1,…,yj) Si este alineamiento máximo consiste de D1,…,Dk con D1<<D2<<…Dk se guarda la información de la ultima diagonal en prec(i,j):=Dk σD--  max peso acumulado incluyendo D ПD-  diagonal formada hasta (i,j) i-3i-2i-1ii+1i+2 j-3 j-2 j-1 j j+1 j+2 prec(i,j - 1) if score(i,j) = score(i,j - 1), prec(i - 1,j) if score(i,j- 1) < score(i,j) = score(i - 1,j), prec(i,j) := Dij if score(i,j - 1),score(i - 1,j)< score(i,j) =σ(Dij). Se calculan todos los valores y despues se encuentra el alineamiento máximo con un backtracking. D1:=prec(L1,L2) Di+1:=П(Di) que es П(D)=prec(i-k-1,j-k-1) El alineamiento múltiple para N>2 se construye a través de diagonales bidimensionales seleccionadas del conjunto de diagonales originadas de los 1/2N(N-1) secuencias pareadas.

Chequeo de consistencias mediante Teo de grafos: Se puede verificar la consistencia entre cualquier par de fragmentos (f1 y f2) creando un grafo con un nodo n f por cada fragmento. El peso de cada nodo es w(n f ) definido por el peso del fragmento w(f). Por cada par de fragmentos existe una arista que conecta n f1 y n f2 si existe inconsistencia entre f1 y f2. n f1 n f2

Para encontrar un alineamiento múltiple óptimo sin inconsistencias pareadas se va removiendo el vértice con inconsistencias y de menor menor peso. u v x w w(u):= w(u) – degree(v) w(v) w(x):= w(x) – degree(v) w(v) w(w):= w(w) – degree(v) w(v) Al remover el vértice se prueban nuevamente los fragmentos que anteriormente eran inconsistentes.

Estrategia mixta greedy-progresiva implementada por Dialign TX : Divide las diagonales contenidas en los alineamientos pareados en 2 conj: F0 y F1 F0 = todos los fragmentos de peso por debajo del promedio del peso de la totalidad de los fragmentos. F1 = todos los fragmentos de peso por arriba del promedio del peso de la totalidad de los fragmentos. Con F1 hacen un alineamiento múltiple de forma progresiva utilizando un árbol guia y luego agrega los fragmentos de F0 en forma greedy siempre que sean consistentes con los ya alineados. Construye un alineamiento múltiple alternativo únicamente mediante aproximación greedy. FINALMENTE EL PROGRAMA RETORNA EL ALINEAMIENTO MÚLTIPLE DE MAYOR PESO

Seudocódigo general del algoritmo de Dialign: F ← ∅ for all si, sj such that i < j do F ← F ∪ PAIRWISE ALIGNMENT (si, sj, ∅ ) end for /* initial computation of A1: original DIALIGN alignment */ A1 ← ∅ A1 ← GREEDY ALIGNMENT (A1, F) /* initial computation of A0: ”progressive DIALIGN” alignment */ a = AV ERAGE(w(f)|f ∈ F) F0 = {f ∈ F|w(f) < a} F1 = {f ∈ F|w(f) ≥ a} T = BUILD UPGMA(F) while there is an unprocessed non-leaf node in T do Let p be an unprocess non-leaf node such that the child-nodes are either marked as processed or are leaf. A(p) ← MERGE(p, F1) PROCESSED(p) ← TRUE end while A0 ← A(ROOT (T )) A0 ← GREEDY ALIGNMENT (A0, F0) /* adding further fragmets to A1 */ while additional fragments can be found do F ← ∅ for all si, sj such that i < j do F ← F ∪ PAIRWISE ALIGNMENT (si, sj,A1) end for A1 ← GREEDY ALIGNMENT (A1, F) end while /* adding further fragmets to A0 */ while additional fragments can be found do F ← ∅ for all si, sj such that i < j do F ← F ∪ PAIRWISE ALIGNMENT (si, sj,A0) end for A0 ← GREEDY ALIGNMENT (A0, F) end while if W(A0)>W(A1) then RETURN ← A0 else RETURN ← A1 end if

Conclusiones: La mayor diferencia de DIALIGN con aproximaciones de alineamiento m á s tradicionales radica en el hecho de que el score de alineamiento se basa en p-values de similitudes locales de secuencia en vez de sumar scores de sustituci ó n para residuos alineados y restar las penalizaciones de gap. Solo se alinean partes de secuencias que comparten alguna similitud estad í sticamente significativa. Ejemplo: Alineamientos de secuencias con largas extensiones N/C terminales. Seg ú n nuestros resultados de CS (column score) de baliscore DIALIGN que utiliza una estrategia de alineamiento puramente local obtiene mejores resultados que el resto de los programas.

DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir.

Presentaciones similares

Presentación del tema: "DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir.

Presentaciones similares

Presentación del tema: "DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback