TEORIA DE GRAFOS EN BIOINFORMATICA

Slides:



Advertisements
Presentaciones similares
PCR (Polymerase Chain Reaction).
Advertisements

Diseño y análisis de algoritmos
La reacción en cadena de la polimerasa, ya más conocida como PCR, es una técnica que permite replicar miles de veces, en el transcurrir de pocas horas.
TEMA 4 LOS GENES Aula de Milagro Biología Jorge Muñoz Aranda.
Hoja 3.- Grafos ej ¿Cuál es el mínimo número de veces que hay que levantar el lápiz del papel para trazar los siguientes dibujos? El primer.
Sesión 3: Teoría de Grafos
Teoría de Grafos I semestre 2009 UNIVERSIDAD NACIONAL DE INGENIERIA
Relación genes- proteínas
La maquina de Turing La máquina de Turing es una caja negra (tan simple como una máquina de escribir y tan compleja como un ser humano) capaz no sólo de.
Analisis deAlgoritmos
Computadoras basadas en ADN
MATEMÁTICAS DISCRETAS.
Investigación Algorítmica
PARTE II CAPÍTULO 17 METODOLOGÍA DEL ADN RECOMBINANTE
PROGRAMACION DE ESTRUCTURAS DE DATOS
RafaC - Matemática Discreta - UCM 07/08

¿Cómo se descubrió la función de los genes?
¿Cómo se descubrió la función de los genes?
CAPÍTULO I EL ESTUDIO DE LA VIDA.
Teoría de Grafos.
Complejidad Problemas NP-Completos
Problemes de Viatjants
AED I. Estructuras de Datos.
GRAFOS HUGO ARAYA CARRASCO.
Estructuras de datos y algoritmos
Matemáticas para Ciencias de la Computación MCC3182
PROGRAMACIÓN PARALELA EN ALGORITMOS SOBRE GRAFOS
Ciudad de Könisberg, Prusia, en XVIII:
1 Ensamblado de fragmentos de ADN Grupo 6. 2 ORGANIZACIÓN 1. Background Biológico 2.Modelos 3.Algoritmos.
Teoria de grafos.-clase 4
Árbol recubridor mínimo Distancias
Problemas de Decisión y Optimización
Cesar Luis García Castro
Matemáticas Discretas
Diseño y análisis de algoritmos

(Organización y Manejo de Archivos)
Genoma Humano. Introducción Todas las instrucciones necesarias para crear un ser humano pueden ser escritas con la combinación de cuatro letras que representan.
Grafos planos Jose hungria.
Teoría de Grafos.-Clase 2
Algoritmos y Estructuras de Datos III (segunda parte) 1er cuatrimestre 2010 Min Chih Lin Irene Loiseau.
Resuma el uso de la reacción en cadena de la polimerasa (PCR) para copiar y amplificar cantidades mínimas de ADN.
Agustín J. González ELO320: Estructura de Datos y Algoritmos
Ensayos de restricción
Matemáticas Discretas
División de Ciencias Biológicas y de la Salud
Métodos para secuenciar el ARN
s t a c b d Grafos.
Análisis y Diseño de Algoritmos
T.P Nº 8: Diseño de oligonucleótidos
Sesión 3: Teoría de Grafos
Problemas de grafos y Tratabilidad Computacional
Agustín J. González ELO320: Estructura de Datos y Algoritmos
Asignación de Horarios
Algoritmos y Estructuras de Datos III (Historia Grafos) 2do cuatrimestre 2012.
Cecilia Laborde González
Instituto Tecnológico De Villahermosa Alumno: Lázaro García Hernández.
II.- LAS TECNOLOGÍAS DEL ADN RECOMBINANTE Y LA INGENIERÍA GENÉTICA
Reconocimiento de patrones
TIPOS DE PRUEBAS DEL SOFTWARE
Escuela de Ciencias Basicas, Tecnología e Ingeniería
Taller: Inteligencia Computacional

Matemáticas Discretas MISTI
GRAFOS HAMILTONIANOA Subtítulo.
La clase P juega un papel importante en la teoría de la complejidad computacional debido a que: 1. P es invariante para todos los modelos de cómputo que.
ALGORITMO FLOYD WARSHALL
REPLICACIÓN DE ADN.
Anexo a la Maestría de B Mol.
Transcripción de la presentación:

TEORIA DE GRAFOS EN BIOINFORMATICA

Contenidos Introducción a la Teoría de Grafos Circuito Euleriano y Ciclo Hamiltoniano Grafo de Intervalos y Experimento de Benzer Secuenciación del ADN Problemas SSP y TSP Secuenciación mediante Hibridación Ensamblado de Fragmentos Réplicas de ADN

El Problema de Königsberg Hallar un tour que pase por cada puente exactamente una vez (sin repetir visita). Leonhard Euler, 1735 Puentes de Königsberg

Problema del Circuito Euleriano Hallar un circuito que visite cada arista. exactamente una vez Se resuelve en orden lineal en la cantidad de aristas. En ejemplo más complejo

Problema del Ciclo Hamiltoniano Hallar un ciclo que visite cada vértice una vez. Pertenece a la clase de Probemas NP completos “Juego” inventado por William Hamilton en 1857

Grafos en Química Arthur Cayley estudió estructuras químicas de hidrocarburos a mediados de 1800. Usó árboles para enumerar isómeros

Teoría de Grafos en Biología: Inicios Experimento de Benzer Desarrolló “deletion maping”. “Probó” la linealidad del gen. Halló la estructura interna del gen. Seymour Benzer, 1950

¡Virus atacando Bacterias! Normalmente el bacteriófago T4 mata bacterias. Si le removemos un gen pierde su habilidad de matar a la bacteria. Si la bacteria es atacada con dos mutados diferentes, ¿la bacteria sobrevivirá? Sorprendentemente, dos virus mutados matarán a la bacteria en ocasiones especiales. Cómo es posible?

Experimento de Benzer Idea: infectar bacterias con bacteriófagos mutantes T4 (virus). Cada mutante T4 carece de un intervalo de su genoma. Si los intervalos se solapan, el par T4 carece de parte esencial de su genoma y la bacteria sobrevive. Si no se solapan: el par T4 tiene su genoma completo y la bacteria muere.

Experimento de Benzer y Grafos Construir un grafo intervalo: cada mutante es un vértice T4. Dos T4 se conectan con arista cuando cuando la bacteria sobrevive (los intervalos borrados se solapan). La estructura del grafo intervalo revela si el ADN es lineal o ramificada.

Grafos intervalo: Genes Lineales

Grafos Intervalo: Genes Ramificados

Comparación Genoma Lineal Genoma Ramificado

Secuenciación del ADN: Historia Gilbert method (1977): Método químico (tóxico) Rompe la cadena de ADN en puntos (G, G+A, T+C, C). Método de Sanger (1977): Terminales ddNTPs Copia de ADN en puntos aleatorios. Ambos generan fragmentos de largos variables luego sometidos a electroforesis.

Lecturas de Sanger Iniciar el cebo. Crecer el largo de la cadena de ADN Incluir ddNTPs. Frenar la reacción en varios puntos. Separar productos según largos, en base a electroforesis.

Secuenciación del ADN Romper el ADN en millones de fragmentos. Tomar lecturas de 500 a 700 nucleótidos de los fragmentos prqueños (método de Sanger)

Ensamble de los Fragmentos Desafío Computational: ensamblar lecturas asociadas a fragmentos individuales en una única secuencia genómica (“supercadena”) Hasta la década del 90` el ensamble de fragmentos del genoma humano por disparo era visto como un problema computacional intratable.

Problema de la Supercadena (SSP) Problema: Dado un conjunto de cadenas, encontrar la cadena más corta que las contenga. Entrada: Cadenas s1, s2,…., sn Salida: Cadena s de largo mínimo tal que contiene s1, s2,…., sn como subcadenas. Complejidad: Este problema es NP – completo Nota: Esta formulación no toma en cuenta errores de secuenciación.

Ejemplo:

Reducción del SSP al TSP Sea (sm, sn ) el largo del mayor prefijo de sn que es sufijo de sm. Ejemplo: aaaggcatcaaatctaaaggcatcaaa Cuánto vale (sm, sn ) ?

Reducción del SSP al TSP Sea (sm, sn ) el largo del mayor prefijo de sn que es sufijo de sm. Ejemplo: aaaggcatcaaatctaaaggcatcaaa (sm, sn ) = 12

Reducción del SSP al TSP Sea (sm, sn ) el largo del mayor prefijo de sn que es sufijo de sm. aaaggcatcaaatctaaaggcatcaaa Construir un grafo con n vértices que representan las cadenas s1, s2,…., sn. Insertar aristas de largo (su, sv ) entre los vértices su y sv. Hallar el tour más corto que visite cada vértice exactamente una vez. Este es el Traveling Salesman Problem (TSP), que es NP – completo.

Reducción del SSP al TSP

Del SSP al TSP: Ejemplo S = { ATC, CCA, CAG, TCC, AGT } SSP AGT CCA ATCCAGT TCC CAG TSP ATC 2 1 1 AGT 1 CCA 1 2 2 2 1 CAG TCC ATCCAGT

Secuenciación por Hibridación (SBH) 1988: SBH sugiere un método nuevo de secuenciación. Nadie creía que fuese a funcionar 1991: Steve Fodor desarrolla la síntesis polimeral con luz dirigida. 1994: Affymetrix desarrolla el primer microarreglo de 64-kb de ADN Primer prototipo microarreglo (1989) Primer microarreglo comercial (1994) 500000 características por chip (2002)

¿Cómo funciona SBH? Adjuntar todas las posibles cadenas de ADN de largo l a una superficie plana en puntos conocidos. A este conjunto se le denomina arreglo de ADN. Aplicar una solución fluorescente al arreglo que contiene fragmentos de ADN. Los fragmentos de ADN hibridizan con pruebas complementarias a las subcadenas de largo l del fragmento.

¿Cómo funciona SBH? Mediante detector espectroscópico se determina qué pruebas hibridizan al fragmento de ADN para obtener todas las subcadenas de largo l del fragmento objetivo del ADN. Aplicar un algoritmo combinatorio que reconstruya la secuencia de ADN objetivo a partir de sus subcomposiciones.

Hibridazión del Arreglo de ADN

Composición por Subcadenas Espectro( s, l ) – es un multiset desordenado con todas las posibles (n – l + 1) subcadenas de largo l de una cadena s con largo n. El orden de los elementos del espectro no importa. Ejemplo: si s = TATGGTGC todas las siguientes representaciones del Espectro ( s, 3 ) son correctas {TAT, ATG, TGG, GGT, GTG, TGC} {ATG, GGT, GTG, TAT, TGC, TGG} {TGG, TGC, TAT, GTG, GGT, ATG}

Secuencias Co-Espectrales Diferentes secuencias pueden tener el mismo espectro: Espectro(GTATCT,2)= Espectro(GTCTAT,2)= {AT, CT, GT, TA, TC}

Problema de Hibridazión (SBH) Objetivo: Reconstruir una cadena de sus subcadenas de tamaño l. Entrada: Un conjunto S, que representa todas las subcadenas de largo l de una cadena s. Salida: Cadena s tal que Espectro(s,l ) = S

SBH: Enfoque Hamiltoniano S = { ATG AGG TGC TCC GTC GGT GCA CAG } H ATG AGG TGC TCC GTC GGT GCA CAG ATG C A G G T C C Camino que visita una vez cada vértice

SBH: Enfoque Hamiltoniano Un grafo más complicado: S = {ATG TGG TGC GTG GGC GCA GCG CGT }

SBH: Enfoque Hamiltoniano S={ ATG TGG TGC GTG GGC GCA GCG CGT} Camino 1: ATGCGTGGCA Camino 2: ATGGCGTGCA

SBH: Enfoque Euleriano S = { ATG, TGC, GTG, GGC, GCA, GCG, CGT } Los vértices son las l – subcadenas : { AT, TG, GC, GG, GT, CA, CG } Las aristas son las subcadenas de mayor solapamiento de S AT GT CG CA GC TG GG Se visita una vez cada arista

SBH: Enfoque Euleriano S = { AT, TG, GC, GG, GT, CA, CG } se corresponde con dos caminos diferentes: GT CG GT CG AT TG GC AT TG GC CA CA GG GG ATGGCGTGCA ATGCGTGGCA

Teorema de Euler Diremos que un grafo es balanceado si la cantidad de aristas entrantes y salientes coinciden en cada vértice: in(v)=out(v) Teorema: Un grafo conexo es Euleriano si y sólo si es balanceado.

Teorema de Euler: Demostración Euleriano → Balanceado El circuito euleriano entra y sale la misma cantidad de veces en cada vértice. Entonces: in(v)=out(v) Balanceado → Euleriano ???

Algoritmo para Construir Circuito Euleriano Empezar en un vértice arbitrario v y formar un circuito. Por ser el grafo Eluleriano, este terminal es necesariamente el vértice v.

Algoritmo para Construir Circuito Euleriano b. Si el circuito no es Euleriano, debe contener un vértice con aristas no atravesadas. Repetir el paso (a) desde tal vértice inicial w. Terminaremos nuevamente en w.

Algoritmo para Construir Circuito Euleriano c. Combinar los circuitos obtenidos de (a) y (b) e iterar.

Teorema de Euler: Extensión Teorema: Un grafo conexo posee camino Euleriano si y sólo si contiene exactamente dos vértices no balanceados.

Algunas dificultades con SBH Fidelidad de Hibridización: dificultad para detectar diferencias entre hibridizadas con emparejamientos perfectos y 1 o 2 desajustes. Tamaño del Arreglo: se puede lidiar con la Fidelidad con el tamaño del arreglo. No obstante, este último está limitado por cuestiones tecnológicas. Practicidad: SBH es aún impráctico. Con mejoras tecnológicas en la tecnología de microarreglos, puede practicarse en el futuro.

Secuenciación de ADN + = ADN Mezcla Fragmentos Ubicación conocida Genoma Circular (bacteria) + =

Diagramas de Electroforesis

Desafíos para leer la respuesta

Secuenciación por Disparo Segmento genómico Cortes al azar (Disparos) Conseguimos una o dos lecturas por segmento ~500 bp ~700 bp

Problema de Ensamblado lecturas Cubrimos la región con redundancia 7 Lecturas de solapamiento permiten reconstruir más fácilmente la región genómica original.

Redundancia C Largo del Segmento genómico: L Número de lecturas: n Cobertura C = n l / L Largo de cada lectura: l ¿Qué cobertura es suficiente? Modelo de Lander-Waterman: Bajo hipótesis de distribución uniforme en las lecturas, C=10 resulta en una falla de lectura cada 1000000 de nucleótidos

Desafíos al Ensamblar Fragmentos Repetidas: un GRAN problema de ensamblado de fragmentos. > 50% del genoma humano son repetidos: - cerca de 1 millón de Alu repetidos - unas 200000 líneas repetidas Repetida Los fragmentos verdes y azules son intercambiables cuando se ensambla ADN repetido

Triazzle: Un ejemplo en miniatura Suena simple, PERO ¡¡¡Hay repetidas!!! Las repetidas lo hace un juego MUY difícil...

Conclusiones La Teoría de Grafos es una herramienta vital para la resolución de problemas biológicos. Posee una gran gama de aplicaciones biológicas, que incluye la secuenciación, reconocimiento de patrones de consenso local, redes de proteínas y muchas otras. Gran cantidad de información genómica espera ser descifrada.

Referencias An Introduction to Bioinformatics Algorithms. Neil C. Jones and Pavel A. Pevzner (2004) Simons, Robert W. Advanced Molecular Genetics Course, UCLA (2002). http://www.mimg.ucla.edu/bobs/C159/Presentations/Benzer.pdf Batzoglou, S. Computational Genomics Course, Stanford University (2004). http://www.stanford.edu/class/cs262/handouts.html