ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.

Slides:



Advertisements
Presentaciones similares
Capítulo 2 Algoritmos.
Advertisements

ALGORITMOS GENETICOS EVOLUCIÓN DE UNA POBLACIÓN DE
Diseño y análisis de algoritmos
Diseño y análisis de algoritmos
PSI-BLAST.
BLAST.
Investigación de Operaciones
BENEMERITA UNIVERSIDAD AUTONOMA DE PUEBLA
Códigos Detectores y Correctores de Errores
PROGRAMACION DE ESTRUCTURAS DE DATOS
Alineamiento de Secuencias Biológicas
Programación dinámica (1)
PROGRAMA DE ALGEBRA LINEAL
DECISIONES MULTICRETERIO Y MULTIATRIBUTOS
Encuentra las 12 diferencias
El sistema de puntuación
2.1 Recursividad El hecho de que una función pueda llamarse a sí misma.
O (m × n).
La PD no es adecuada para buscar en BD
Juan José Cortés Orozco. Antonio Muñoz Torres.
AED I. Estructuras de Datos.
PROGRAMACIÓN PARALELA EN ALGORITMOS SOBRE GRAFOS
Programación Lineal Unidad 1 Parte 3.
UNIDAD 2:Crear, abrir y cerrar una base de datos Hacer clic sobre la opción Nuevo de la pestaña Archivo. Se mostrarán las distintas opciones para nuevos.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
CC3001 Algoritmos y Estructuras de Datos
Los HMM son modelos probabilísticos de una secuencia
ALGORITMOS APROXIMADOS
Distancia entre dos secuencias: Jukes - Cantor
GRUPO I ESTADISTICA I YIRA LOPEZ WILLIAM ESTEVEZ CAROLINA PEREZ
Divide y vencerás 1. Método general.
Aplicación de estructuras de datos
Matrices de Substitución PAM Y BLOSUM
1 Algoritmos Avaros (Greedy Algorithms) Agustín J. González ELO-320: Estructura de Datos y Algoritmos.
Capítulo 7 Gestión de memoria.
Busqueda avanzada con BLAST Preparada por Genis Parra.
Comparar secuencias = Obtener información
División de un segmento en una razón dada
Alineamiento de dos secuencias
Actividades Plenario con las respuesta del caso: CISCO
RESOLVER LA ECUACIÓN:. Para resolver la ecuación en este caso, ambos miembros de la ecuación las transformaremos a coseno, sabiendo que Multiplicamos.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Parte I. Estructuras de Datos.
Estructura de Datos M.C. José Andrés Vázquez Flores FCC/BUAP
Matrices de sustitución
Parte I. Estructuras de Datos.
Tema 10: Algoritmos voraces
¿Qué matemáticas están presentes en la aplicación de la computación en el ámbito científico? César Fernández R. Hipótesis cognitiva: La matemática que.
Alex Sánchez Introducción a la Bioinformática Herramientas de búsqueda en bases de datos SRS y Entrez.
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Departamento de Sistemas Informáticos y Programación Universidad Complutense de Madrid Bloque 2: Divide y Vencerás Unidad 1: Nociones básicas.
Arboles B (búsqueda externa)
Alineamiento local: búsqueda de homologías
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
TEMA 5: El problema del flujo con costo mínimo
SITUACION PROBLEMICA UN TECNICO DE COMPUTACION Manuel cobra 15 soles por reparar cada computadora y por cada reparación adicional cobra 2 más que.
ALGORÍTMICA Ingeniería Técnica en Informática de Gestión y de Sistemas curso Teoría: Domingo Giménez Seminario C: José María Rodríguez Prácticas.
INTRODUCCION A LA GENETICA
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Reconocimiento de patrones
Introducción a la Bioinformática
Search and learning problems in sequence analysis.
DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir.
LO: SWBAT explain how protein shape is determined and differentiate between the different types of mutations. Objetivo: Explica como se determina la forma.
Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.
Ejercicio 1 Eliminación iterativa de estrategias estrictamente dominadas Resuelva, mediante la eliminación iterativa de estrategias estrictamente dominadas,
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
1 C OMPUTACIÓN A VANZADA PARA M ÚSICA POR O RDENADOR ALGORITHMS FOR COMPUTING GEOMETRIC MEASURES OF MELODIC SIMILARITY 1.
Transcripción de la presentación:

ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005

ALINEAMIENTO SIMPLE Consiste en establecer un segmento entre dos secuencias biológicas donde el número de coincidencias sea máximo

INDELS Inserción: INSERT Se asigna una base demasiado pronto Eliminación: DELETED Queda sin asignar una base Se introduce una nueva letra en el alfabeto DNA: El “hueco” (gap)-

Comparación Secuencia 1: M A R I A Secuencia 2: M I R I A M Secuencia 3: M A R I O Secuencia 4: A R I A D N A

Comparación MR I A Secuencia 1: M A R I A MR I A Secuencia 2: M I R I A M 4 coincidencias

Comparación MAR I Secuencia 1: M A R I A MAR I Secuencia 3: M A R I O 3 coincidencias

Comparación Secuencia 1: M A R I A Secuencia 4: A R I A D N A 0 Coincidencias

Comparación A R I A Secuencia 1: M A R I A A R I A Secuencia 4: - A R I A D N A 4 Coincidencias

Comparación Secuencia 5: J O S E Secuencia 6: P E P E

Comparación E Secuencia 5: J O S E E Secuencia 6: P E P E 1 coincidencia

Comparación DNA - Comparación DNA - Leucina T Secuencia : T T A T Secuencia : C T G 1 coincidencia

ALINEAMIENTO SIMILITUD  Cuantitativo HOMOLOGÍA  Cualitativo

Clasificación Alineamientos

Por número de secuencias Simple Múltiple

Por nivel de análisis Global Local

Programas BLAST (Basic Local Alignment Search Tool) FASTA

BLAST blastp blastn blastx tblastn tblastx

Ejemplo g c t g a a c g c t a t a a t c

2 coincidencias gctgaacg ctataatc

Otro alineamiento (Muy malo) gctgaacg ctataatc

Otro alineamiento (1 coincidencia) ----gctgaacg ctataatc----

Otro alineamiento (malo) gctga-a--cg --ct-ataatc

Otro alineamiento (bueno) Otro alineamiento (bueno) 5 coincidencias gctg-aa-cg -ctataatc-

¿Cuántos alineamientos posibles hay? Problema combinatorio No se permite alinear dos huecos Hay un número finito de alineamientos

Número de alineamientos Primera secuencia: 8 letras Segunda secuencia: 8 letras Hay alineamientos posibles

¿Cómo elegir el mejor alineamiento? Hay que dar un valor a cada alineamiento Elegiremos el (los) que tengan mayor puntuación. Por ej.: Coincidencia  +1 puntos No coincidencia  0 puntos número de coincidencias Nos da el número de coincidencias

Otra puntuación Por ej.: Coincidencia  +2 puntos No coincidencia  -1 punto

2 coincidencias Puntuación: -2 puntos gctgaacg ctataatc

Otro alineamiento -10 puntos ----gctgaacg ctataatc----

Otro alineamiento - 11 puntos gctga-a--cg --ct-ataatc

Otro alineamiento 5 puntos gctg-aa-cg -ctataatc-

Algoritmo (teórico) Paso 1 : Considerar todos los alineamientos posibles Paso 2 :Determinar un valor para ese alineamiento Paso 3 :Guardar el valor máximo

Problema El número de operaciones crece e una forma “exagerada”

Número de alineamientos de dos secuencias de longitud n,m n = m = 8  alineamientos n = m = 10  alineamientos

Fórmula del número de alineamientos posibles para dos secuencias de longitud n y m: f(n,m)

Fórmula de recurrencia f(n+1, m+1) = f(n,m+1) + f(n+1,m) + f(n,m)

Demostración Se basa en que el final de un alineamiento es: (-, letra), (letra, - ) ó (letra, letra) A. Torres, A. Cabada, J.J. Nieto “An exact formula for the number of alignments between two DNA sequences” DNA SEQUENCE (2003)

Consecuencias f(n+1,n+1) > 3 n f (107, 107 ) > Una secuencia “pequeña” tiene nucleótidos Una proteína sobre aminoácidos

Alineamiento global: Algoritmo de Neddleman&Wunsch (1970)

Ejemplo gctgaacg ctataatc

gctgaacg c11 t1 a11 t1 a11 a11 t1 c11

¿Cómo se puede determinar el alineamiento óptimo? Aunque no tengamos ni idea, sabemos una cosa: El alineamiento tiene que tener una de las tres terminaciones siguientes g-g -cc

gctgaacg c11 t1 a11 t1 a11 a11 t1 c11

Terminación cg c-

gctgaacg c11 t1 a11 t1 a11 a11 t1 c11

gctgaa c1 t1 a11 t1 a11 a11 t1

Simplificación del problema original Secuencia 1: g c t g a a Longitud 6 Secuencia 2: c t a t a a t Longitud 7

Posibles terminaciones a-a -tt

gctgaa c1 t1 a11 t1 a11 a11 t1

Terminación a- at

gctgaa c1 t1 a11 t1 a11 a11 t1

4 últimas posiciones del alineamiento a-cg atc-

gctga c1 t1 a1 t1 a1

gctga c1 t1 a1 t1 a1

Posibles terminaciones a-a -aa

5 últimas posiciones del alineamiento aa-cg aatc-

gctg c1 t1 a t1

gctg c1 t1 a t1

Posibles terminaciones g-g -tt

Terminación correspondiente a la última submatriz tg t-

gctg c1 t1 a t1

7 últimas posiciones del alineamiento tgaa-cg t -aatc-

gc c1 t a

gc c1 t a

Posibles terminaciones c-c -aa

Terminación correspondiente a la última submatriz gc-- -cta

Alineamiento Final 5 coincidencias g c - - t g a a - c g - c t a t - a a t c -

Alineamiento Final 5 coincidencias g c - - t g a a - c g - c t a t - a a t c -

Observación importante Hemos valorado positivamente las coincidencias, pero no hemos penalizado la introducción de huecos ni las no coincidencias

Alineamiento global PROGRAMACIÓN DINÁMICA 1.- Función de similitud 2.- Los indels se penalizan con un peso 3.- Se construye una matriz 4.- Se recupera la solución

Programación Dinámica 1.- Coincidencia: +1 No coincidencia: Introducción de “huecos”: 0

Ejemplo Programación dinámica g g a t c g a g a a t t c a g t t a

ggatcga g a a t t c a g t t a

ggatcga g0 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0

ggatcga g0 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0

Cálculo de los elementos de la matriz H(i-1,j-1)H(i,j-1) H(i-1,j)H(i,j)

Entradas matriz H(i,j) es el máximo entre:  H(i-1,j-1)+c(x i,y i )  H(i-1,j)-w  H(i,j-1)-w

ggatcga g0 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0

ggatcga g01 a0 a0 t0 t0 c0 a0 g0 t0 t0 a0

ggatcga g a01 a01 t01 t01 c01 a01 g01 t01 t01 a01

ggatcga g a01 a01 t01 t01 c01 a01 g01 t01 t01 a01

ggatcga g a011 a01 t01 t01 c01 a01 g01 t01 t01 a01

ggatcga g a011 a01 t01 t01 c01 a01 g01 t01 t01 a01

ggatcga g a0112 a01 t01 t01 c01 a01 g01 t01 t01 a01

ggatcga g a a t t c a g t t a

ggatcga g a a t t c a g t t a

Alineamiento Programación dinámica g g a - t - c - g - - a g - a a t t c a g t t a

Alineamiento Programación dinámica Alineamiento Programación dinámica 6 coincidencias g g a - t - c - g - - a g - a a t t c a g t t a

Ejemplo Programación dinámica gctgaacg ctataatc

ctataatc g0 c0 t0 g0 a0 a0 c0 g0

ctataatc g c t g a a c g

ctataatc g c t g a a c g

Alineamiento Final Programación dinámica 5 coincidencias / 5 puntos - c t a t a a t c - g c t g - a a - c g

ctataatc g c t g a a c g

Alineamiento Final Programación dinámica 5 coincidencias / 5 puntos - c t - a t a a t c - g c t g a - a - - c g

Programación Dinámica 1.- Coincidencia: +2 No coincidencia: Introducción de “huecos”: -1

ctataatc g c t g a a c g

ctataatc g c t g a a c g

Alineamiento Final Programación dinámica 5 coincidencias / 4 puntos - c t - a t a a t c - g c t g a - a - - c g

M. Tuberculosis cta ttgaccgatgaccccggttcaggcttc accacagtgtggaacgcggtcgtctc cgaacttaacggcgaccctaaggttg acgacggacccagcagtgatg

BlastN BlastN c t a t

BlastN BlastN c t a t a a t

c t a t a a t c t a t a a t EMBL:HS216E10Z83840Human DNA sequence from clone CTA-216E10 on chromosone EMBL:CHCRRU573U57326 Chlamudomonas reinhardtii RpoC2 protein

Alineamiento Múltiple

FIN