TEORIA DE GRAFOS EN BIOINFORMATICA

TEORIA DE GRAFOS EN BIOINFORMATICA

Contenidos Introducción a la Teoría de Grafos
Circuito Euleriano y Ciclo Hamiltoniano Grafo de Intervalos y Experimento de Benzer Secuenciación del ADN Problemas SSP y TSP Secuenciación mediante Hibridación Ensamblado de Fragmentos Réplicas de ADN

El Problema de Königsberg
Hallar un tour que pase por cada puente exactamente una vez (sin repetir visita). Leonhard Euler, 1735 Puentes de Königsberg

Problema del Circuito Euleriano
Hallar un circuito que visite cada arista. exactamente una vez Se resuelve en orden lineal en la cantidad de aristas. En ejemplo más complejo

Problema del Ciclo Hamiltoniano
Hallar un ciclo que visite cada vértice una vez. Pertenece a la clase de Probemas NP completos “Juego” inventado por William Hamilton en 1857

Grafos en Química Arthur Cayley estudió estructuras químicas de hidrocarburos a mediados de 1800. Usó árboles para enumerar isómeros

Teoría de Grafos en Biología: Inicios
Experimento de Benzer Desarrolló “deletion maping”. “Probó” la linealidad del gen. Halló la estructura interna del gen. Seymour Benzer, 1950

¡Virus atacando Bacterias!
Normalmente el bacteriófago T4 mata bacterias. Si le removemos un gen pierde su habilidad de matar a la bacteria. Si la bacteria es atacada con dos mutados diferentes, ¿la bacteria sobrevivirá? Sorprendentemente, dos virus mutados matarán a la bacteria en ocasiones especiales. Cómo es posible?

Experimento de Benzer Idea: infectar bacterias con bacteriófagos mutantes T4 (virus). Cada mutante T4 carece de un intervalo de su genoma. Si los intervalos se solapan, el par T4 carece de parte esencial de su genoma y la bacteria sobrevive. Si no se solapan: el par T4 tiene su genoma completo y la bacteria muere.

Experimento de Benzer y Grafos
Construir un grafo intervalo: cada mutante es un vértice T4. Dos T4 se conectan con arista cuando cuando la bacteria sobrevive (los intervalos borrados se solapan). La estructura del grafo intervalo revela si el ADN es lineal o ramificada.

Grafos intervalo: Genes Lineales

Grafos Intervalo: Genes Ramificados

Comparación Genoma Lineal Genoma Ramificado

Secuenciación del ADN: Historia
Gilbert method (1977): Método químico (tóxico) Rompe la cadena de ADN en puntos (G, G+A, T+C, C). Método de Sanger (1977): Terminales ddNTPs Copia de ADN en puntos aleatorios. Ambos generan fragmentos de largos variables luego sometidos a electroforesis.

Lecturas de Sanger Iniciar el cebo.
Crecer el largo de la cadena de ADN Incluir ddNTPs. Frenar la reacción en varios puntos. Separar productos según largos, en base a electroforesis.

Secuenciación del ADN Romper el ADN en millones de fragmentos.
Tomar lecturas de 500 a 700 nucleótidos de los fragmentos prqueños (método de Sanger)

Ensamble de los Fragmentos
Desafío Computational: ensamblar lecturas asociadas a fragmentos individuales en una única secuencia genómica (“supercadena”) Hasta la década del 90` el ensamble de fragmentos del genoma humano por disparo era visto como un problema computacional intratable.

Problema de la Supercadena (SSP)
Problema: Dado un conjunto de cadenas, encontrar la cadena más corta que las contenga. Entrada: Cadenas s1, s2,…., sn Salida: Cadena s de largo mínimo tal que contiene s1, s2,…., sn como subcadenas. Complejidad: Este problema es NP – completo Nota: Esta formulación no toma en cuenta errores de secuenciación.

Ejemplo:

Reducción del SSP al TSP
Sea (sm, sn ) el largo del mayor prefijo de sn que es sufijo de sm. Ejemplo: aaaggcatcaaatctaaaggcatcaaa Cuánto vale (sm, sn ) ?

Sea (sm, sn ) el largo del mayor prefijo de sn que es sufijo de sm. Ejemplo: aaaggcatcaaatctaaaggcatcaaa (sm, sn ) = 12

Sea (sm, sn ) el largo del mayor prefijo de sn que es sufijo de sm. aaaggcatcaaatctaaaggcatcaaa Construir un grafo con n vértices que representan las cadenas s1, s2,…., sn. Insertar aristas de largo (su, sv ) entre los vértices su y sv. Hallar el tour más corto que visite cada vértice exactamente una vez. Este es el Traveling Salesman Problem (TSP), que es NP – completo.

Del SSP al TSP: Ejemplo S = { ATC, CCA, CAG, TCC, AGT } SSP AGT CCA
ATCCAGT TCC CAG TSP ATC 2 1 1 AGT 1 CCA 1 2 2 2 1 CAG TCC ATCCAGT

Secuenciación por Hibridación (SBH)
1988: SBH sugiere un método nuevo de secuenciación. Nadie creía que fuese a funcionar 1991: Steve Fodor desarrolla la síntesis polimeral con luz dirigida. 1994: Affymetrix desarrolla el primer microarreglo de 64-kb de ADN Primer prototipo microarreglo (1989) Primer microarreglo comercial (1994) características por chip (2002)

¿Cómo funciona SBH? Adjuntar todas las posibles cadenas de ADN de largo l a una superficie plana en puntos conocidos. A este conjunto se le denomina arreglo de ADN. Aplicar una solución fluorescente al arreglo que contiene fragmentos de ADN. Los fragmentos de ADN hibridizan con pruebas complementarias a las subcadenas de largo l del fragmento.

¿Cómo funciona SBH? Mediante detector espectroscópico se determina qué pruebas hibridizan al fragmento de ADN para obtener todas las subcadenas de largo l del fragmento objetivo del ADN. Aplicar un algoritmo combinatorio que reconstruya la secuencia de ADN objetivo a partir de sus subcomposiciones.

Hibridazión del Arreglo de ADN

Composición por Subcadenas
Espectro( s, l ) – es un multiset desordenado con todas las posibles (n – l + 1) subcadenas de largo l de una cadena s con largo n. El orden de los elementos del espectro no importa. Ejemplo: si s = TATGGTGC todas las siguientes representaciones del Espectro ( s, 3 ) son correctas {TAT, ATG, TGG, GGT, GTG, TGC} {ATG, GGT, GTG, TAT, TGC, TGG} {TGG, TGC, TAT, GTG, GGT, ATG}

Secuencias Co-Espectrales
Diferentes secuencias pueden tener el mismo espectro: Espectro(GTATCT,2)= Espectro(GTCTAT,2)= {AT, CT, GT, TA, TC}

Problema de Hibridazión (SBH)
Objetivo: Reconstruir una cadena de sus subcadenas de tamaño l. Entrada: Un conjunto S, que representa todas las subcadenas de largo l de una cadena s. Salida: Cadena s tal que Espectro(s,l ) = S

SBH: Enfoque Hamiltoniano
S = { ATG AGG TGC TCC GTC GGT GCA CAG } H ATG AGG TGC TCC GTC GGT GCA CAG ATG C A G G T C C Camino que visita una vez cada vértice

Un grafo más complicado: S = {ATG TGG TGC GTG GGC GCA GCG CGT }

S={ ATG TGG TGC GTG GGC GCA GCG CGT} Camino 1: ATGCGTGGCA Camino 2: ATGGCGTGCA

SBH: Enfoque Euleriano
S = { ATG, TGC, GTG, GGC, GCA, GCG, CGT } Los vértices son las l – subcadenas : { AT, TG, GC, GG, GT, CA, CG } Las aristas son las subcadenas de mayor solapamiento de S AT GT CG CA GC TG GG Se visita una vez cada arista

SBH: Enfoque Euleriano
S = { AT, TG, GC, GG, GT, CA, CG } se corresponde con dos caminos diferentes: GT CG GT CG AT TG GC AT TG GC CA CA GG GG ATGGCGTGCA ATGCGTGGCA

Teorema de Euler Diremos que un grafo es balanceado si la cantidad de aristas entrantes y salientes coinciden en cada vértice: in(v)=out(v) Teorema: Un grafo conexo es Euleriano si y sólo si es balanceado.

Teorema de Euler: Demostración
Euleriano → Balanceado El circuito euleriano entra y sale la misma cantidad de veces en cada vértice. Entonces: in(v)=out(v) Balanceado → Euleriano ???

Algoritmo para Construir Circuito Euleriano
Empezar en un vértice arbitrario v y formar un circuito. Por ser el grafo Eluleriano, este terminal es necesariamente el vértice v.

b. Si el circuito no es Euleriano, debe contener un vértice con aristas no atravesadas. Repetir el paso (a) desde tal vértice inicial w. Terminaremos nuevamente en w.

c. Combinar los circuitos obtenidos de (a) y (b) e iterar.

Teorema de Euler: Extensión
Teorema: Un grafo conexo posee camino Euleriano si y sólo si contiene exactamente dos vértices no balanceados.

Algunas dificultades con SBH
Fidelidad de Hibridización: dificultad para detectar diferencias entre hibridizadas con emparejamientos perfectos y 1 o 2 desajustes. Tamaño del Arreglo: se puede lidiar con la Fidelidad con el tamaño del arreglo. No obstante, este último está limitado por cuestiones tecnológicas. Practicidad: SBH es aún impráctico. Con mejoras tecnológicas en la tecnología de microarreglos, puede practicarse en el futuro.

Secuenciación de ADN + = ADN Mezcla Fragmentos Ubicación conocida
Genoma Circular (bacteria) + =

Diagramas de Electroforesis

Desafíos para leer la respuesta

Secuenciación por Disparo
Segmento genómico Cortes al azar (Disparos) Conseguimos una o dos lecturas por segmento ~500 bp ~700 bp

Problema de Ensamblado
lecturas Cubrimos la región con redundancia 7 Lecturas de solapamiento permiten reconstruir más fácilmente la región genómica original.

Redundancia C Largo del Segmento genómico: L
Número de lecturas: n Cobertura C = n l / L Largo de cada lectura: l ¿Qué cobertura es suficiente? Modelo de Lander-Waterman: Bajo hipótesis de distribución uniforme en las lecturas, C=10 resulta en una falla de lectura cada de nucleótidos

Desafíos al Ensamblar Fragmentos
Repetidas: un GRAN problema de ensamblado de fragmentos. > 50% del genoma humano son repetidos: - cerca de 1 millón de Alu repetidos - unas líneas repetidas Repetida Los fragmentos verdes y azules son intercambiables cuando se ensambla ADN repetido

Triazzle: Un ejemplo en miniatura
Suena simple, PERO ¡¡¡Hay repetidas!!! Las repetidas lo hace un juego MUY difícil...

Conclusiones La Teoría de Grafos es una herramienta vital para la resolución de problemas biológicos. Posee una gran gama de aplicaciones biológicas, que incluye la secuenciación, reconocimiento de patrones de consenso local, redes de proteínas y muchas otras. Gran cantidad de información genómica espera ser descifrada.

Referencias An Introduction to Bioinformatics Algorithms. Neil C. Jones and Pavel A. Pevzner (2004) Simons, Robert W. Advanced Molecular Genetics Course, UCLA (2002). Batzoglou, S. Computational Genomics Course, Stanford University (2004).

TEORIA DE GRAFOS EN BIOINFORMATICA

Presentaciones similares

Presentación del tema: "TEORIA DE GRAFOS EN BIOINFORMATICA"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

TEORIA DE GRAFOS EN BIOINFORMATICA

Presentaciones similares

Presentación del tema: "TEORIA DE GRAFOS EN BIOINFORMATICA"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback