ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005
ALINEAMIENTO SIMPLE Consiste en establecer un segmento entre dos secuencias biológicas donde el número de coincidencias sea máximo
INDELS Inserción: INSERT Se asigna una base demasiado pronto Eliminación: DELETED Queda sin asignar una base Se introduce una nueva letra en el alfabeto DNA: El “hueco” (gap)-
Comparación Secuencia 1: M A R I A Secuencia 2: M I R I A M Secuencia 3: M A R I O Secuencia 4: A R I A D N A
Comparación MR I A Secuencia 1: M A R I A MR I A Secuencia 2: M I R I A M 4 coincidencias
Comparación MAR I Secuencia 1: M A R I A MAR I Secuencia 3: M A R I O 3 coincidencias
Comparación Secuencia 1: M A R I A Secuencia 4: A R I A D N A 0 Coincidencias
Comparación A R I A Secuencia 1: M A R I A A R I A Secuencia 4: - A R I A D N A 4 Coincidencias
Comparación Secuencia 5: J O S E Secuencia 6: P E P E
Comparación E Secuencia 5: J O S E E Secuencia 6: P E P E 1 coincidencia
Comparación DNA - Comparación DNA - Leucina T Secuencia : T T A T Secuencia : C T G 1 coincidencia
ALINEAMIENTO SIMILITUD Cuantitativo HOMOLOGÍA Cualitativo
Clasificación Alineamientos
Por número de secuencias Simple Múltiple
Por nivel de análisis Global Local
Programas BLAST (Basic Local Alignment Search Tool) FASTA
BLAST blastp blastn blastx tblastn tblastx
Ejemplo g c t g a a c g c t a t a a t c
2 coincidencias gctgaacg ctataatc
Otro alineamiento (Muy malo) gctgaacg ctataatc
Otro alineamiento (1 coincidencia) ----gctgaacg ctataatc----
Otro alineamiento (malo) gctga-a--cg --ct-ataatc
Otro alineamiento (bueno) Otro alineamiento (bueno) 5 coincidencias gctg-aa-cg -ctataatc-
¿Cuántos alineamientos posibles hay? Problema combinatorio No se permite alinear dos huecos Hay un número finito de alineamientos
Número de alineamientos Primera secuencia: 8 letras Segunda secuencia: 8 letras Hay alineamientos posibles
¿Cómo elegir el mejor alineamiento? Hay que dar un valor a cada alineamiento Elegiremos el (los) que tengan mayor puntuación. Por ej.: Coincidencia +1 puntos No coincidencia 0 puntos número de coincidencias Nos da el número de coincidencias
Otra puntuación Por ej.: Coincidencia +2 puntos No coincidencia -1 punto
2 coincidencias Puntuación: -2 puntos gctgaacg ctataatc
Otro alineamiento -10 puntos ----gctgaacg ctataatc----
Otro alineamiento - 11 puntos gctga-a--cg --ct-ataatc
Otro alineamiento 5 puntos gctg-aa-cg -ctataatc-
Algoritmo (teórico) Paso 1 : Considerar todos los alineamientos posibles Paso 2 :Determinar un valor para ese alineamiento Paso 3 :Guardar el valor máximo
Problema El número de operaciones crece e una forma “exagerada”
Número de alineamientos de dos secuencias de longitud n,m n = m = 8 alineamientos n = m = 10 alineamientos
Fórmula del número de alineamientos posibles para dos secuencias de longitud n y m: f(n,m)
Fórmula de recurrencia f(n+1, m+1) = f(n,m+1) + f(n+1,m) + f(n,m)
Demostración Se basa en que el final de un alineamiento es: (-, letra), (letra, - ) ó (letra, letra) A. Torres, A. Cabada, J.J. Nieto “An exact formula for the number of alignments between two DNA sequences” DNA SEQUENCE (2003)
Consecuencias f(n+1,n+1) > 3 n f (107, 107 ) > Una secuencia “pequeña” tiene nucleótidos Una proteína sobre aminoácidos
Alineamiento global: Algoritmo de Neddleman&Wunsch (1970)
Ejemplo gctgaacg ctataatc
gctgaacg c11 t1 a11 t1 a11 a11 t1 c11
¿Cómo se puede determinar el alineamiento óptimo? Aunque no tengamos ni idea, sabemos una cosa: El alineamiento tiene que tener una de las tres terminaciones siguientes g-g -cc
gctgaacg c11 t1 a11 t1 a11 a11 t1 c11
Terminación cg c-
gctgaacg c11 t1 a11 t1 a11 a11 t1 c11
gctgaa c1 t1 a11 t1 a11 a11 t1
Simplificación del problema original Secuencia 1: g c t g a a Longitud 6 Secuencia 2: c t a t a a t Longitud 7
Posibles terminaciones a-a -tt
gctgaa c1 t1 a11 t1 a11 a11 t1
Terminación a- at
gctgaa c1 t1 a11 t1 a11 a11 t1
4 últimas posiciones del alineamiento a-cg atc-
gctga c1 t1 a1 t1 a1
gctga c1 t1 a1 t1 a1
Posibles terminaciones a-a -aa
5 últimas posiciones del alineamiento aa-cg aatc-
gctg c1 t1 a t1
gctg c1 t1 a t1
Posibles terminaciones g-g -tt
Terminación correspondiente a la última submatriz tg t-
gctg c1 t1 a t1
7 últimas posiciones del alineamiento tgaa-cg t -aatc-
gc c1 t a
gc c1 t a
Posibles terminaciones c-c -aa
Terminación correspondiente a la última submatriz gc-- -cta
Alineamiento Final 5 coincidencias g c - - t g a a - c g - c t a t - a a t c -
Alineamiento Final 5 coincidencias g c - - t g a a - c g - c t a t - a a t c -
Observación importante Hemos valorado positivamente las coincidencias, pero no hemos penalizado la introducción de huecos ni las no coincidencias
Alineamiento global PROGRAMACIÓN DINÁMICA 1.- Función de similitud 2.- Los indels se penalizan con un peso 3.- Se construye una matriz 4.- Se recupera la solución
Programación Dinámica 1.- Coincidencia: +1 No coincidencia: Introducción de “huecos”: 0
Ejemplo Programación dinámica g g a t c g a g a a t t c a g t t a
ggatcga g a a t t c a g t t a
ggatcga g0 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0
ggatcga g0 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0
Cálculo de los elementos de la matriz H(i-1,j-1)H(i,j-1) H(i-1,j)H(i,j)
Entradas matriz H(i,j) es el máximo entre: H(i-1,j-1)+c(x i,y i ) H(i-1,j)-w H(i,j-1)-w
ggatcga g0 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0
ggatcga g01 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0
ggatcga g a01 a01 t01 t01 c01 a01 g01 t01 t01 a01
ggatcga g a01 a01 t01 t01 c01 a01 g01 t01 t01 a01
ggatcga g a011 a01 t01 t01 c01 a01 g01 t01 t01 a01
ggatcga g a011 a01 t01 t01 c01 a01 g01 t01 t01 a01
ggatcga g a0112 a01 t01 t01 c01 a01 g01 t01 t01 a01
ggatcga g a a t t c a g t t a
ggatcga g a a t t c a g t t a
Alineamiento Programación dinámica g g a - t - c - g - - a g - a a t t c a g t t a
Alineamiento Programación dinámica Alineamiento Programación dinámica 6 coincidencias g g a - t - c - g - - a g - a a t t c a g t t a
Ejemplo Programación dinámica gctgaacg ctataatc
ctataatc g0 c0 t0 g0 a0 a0 c0 g0
ctataatc g c t g a a c g
ctataatc g c t g a a c g
Alineamiento Final Programación dinámica 5 coincidencias / 5 puntos - c t a t a a t c - g c t g - a a - c g
ctataatc g c t g a a c g
Alineamiento Final Programación dinámica 5 coincidencias / 5 puntos - c t - a t a a t c - g c t g a - a - - c g
Programación Dinámica 1.- Coincidencia: +2 No coincidencia: Introducción de “huecos”: -1
ctataatc g c t g a a c g
ctataatc g c t g a a c g
Alineamiento Final Programación dinámica 5 coincidencias / 4 puntos - c t - a t a a t c - g c t g a - a - - c g
M. Tuberculosis cta ttgaccgatgaccccggttcaggcttc accacagtgtggaacgcggtcgtctc cgaacttaacggcgaccctaaggttg acgacggacccagcagtgatg
BlastN BlastN c t a t
BlastN BlastN c t a t a a t
c t a t a a t c t a t a a t EMBL:HS216E10Z83840Human DNA sequence from clone CTA-216E10 on chromosone EMBL:CHCRRU573U57326 Chlamudomonas reinhardtii RpoC2 protein
Alineamiento Múltiple
FIN