La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

TEORIA DE GRAFOS EN BIOINFORMATICA. Contenidos Introducción a la Teoría de Grafos Introducción a la Teoría de Grafos Circuito Euleriano y Ciclo Hamiltoniano.

Presentaciones similares


Presentación del tema: "TEORIA DE GRAFOS EN BIOINFORMATICA. Contenidos Introducción a la Teoría de Grafos Introducción a la Teoría de Grafos Circuito Euleriano y Ciclo Hamiltoniano."— Transcripción de la presentación:

1 TEORIA DE GRAFOS EN BIOINFORMATICA

2 Contenidos Introducción a la Teoría de Grafos Introducción a la Teoría de Grafos Circuito Euleriano y Ciclo Hamiltoniano Circuito Euleriano y Ciclo Hamiltoniano Grafo de Intervalos y Experimento de Benzer Grafo de Intervalos y Experimento de Benzer Secuenciación del ADN Secuenciación del ADN Problemas SSP y TSP Problemas SSP y TSP Secuenciación mediante Hibridación Secuenciación mediante Hibridación Ensamblado de Fragmentos Ensamblado de Fragmentos Réplicas de ADN Réplicas de ADN

3 El Problema de Königsberg Puentes de Königsberg Hallar un tour que pase por cada puente exactamente una vez (sin repetir visita). Leonhard Euler, 1735

4 Problema del Circuito Euleriano Hallar un circuito que visite cada arista. exactamente una vez Hallar un circuito que visite cada arista. exactamente una vez Se resuelve en orden lineal en la cantidad de aristas. Se resuelve en orden lineal en la cantidad de aristas. En ejemplo más complejo

5 Problema del Ciclo Hamiltoniano Hallar un ciclo que visite cada vértice una vez. Hallar un ciclo que visite cada vértice una vez. Pertenece a la clase de Probemas NP completos Pertenece a la clase de Probemas NP completos Juego inventado por William Hamilton en 1857

6 Grafos en Química Arthur Cayley estudió estructuras químicas de hidrocarburos a mediados de Arthur Cayley estudió estructuras químicas de hidrocarburos a mediados de Usó árboles para enumerar isómeros Usó árboles para enumerar isómeros

7 Teoría de Grafos en Biología: Inicios Experimento de Benzer Desarrolló deletion maping. Desarrolló deletion maping. Probó la linealidad del gen. Probó la linealidad del gen. Halló la estructura interna del gen. Halló la estructura interna del gen. Seymour Benzer, 1950

8 ¡Virus atacando Bacterias! Normalmente el bacteriófago T4 mata bacterias. Normalmente el bacteriófago T4 mata bacterias. Si le removemos un gen pierde su habilidad de matar a la bacteria. Si le removemos un gen pierde su habilidad de matar a la bacteria. Si la bacteria es atacada con dos mutados diferentes, ¿la bacteria sobrevivirá? Si la bacteria es atacada con dos mutados diferentes, ¿la bacteria sobrevivirá? Sorprendentemente, dos virus mutados matarán a la bacteria en ocasiones especiales. Sorprendentemente, dos virus mutados matarán a la bacteria en ocasiones especiales. Cómo es posible? Cómo es posible?

9 Experimento de Benzer Idea: infectar bacterias con bacteriófagos mutantes T4 (virus). Idea: infectar bacterias con bacteriófagos mutantes T4 (virus). Cada mutante T4 carece de un intervalo de su genoma. Cada mutante T4 carece de un intervalo de su genoma. Si los intervalos se solapan, el par T4 carece de parte esencial de su genoma y la bacteria sobrevive. Si los intervalos se solapan, el par T4 carece de parte esencial de su genoma y la bacteria sobrevive. Si no se solapan: el par T4 tiene su genoma completo y la bacteria muere. Si no se solapan: el par T4 tiene su genoma completo y la bacteria muere.

10 Experimento de Benzer y Grafos Construir un grafo intervalo: cada mutante es un vértice T4. Dos T4 se conectan con arista cuando cuando la bacteria sobrevive (los intervalos borrados se solapan). Construir un grafo intervalo: cada mutante es un vértice T4. Dos T4 se conectan con arista cuando cuando la bacteria sobrevive (los intervalos borrados se solapan). La estructura del grafo intervalo revela si el ADN es lineal o ramificada. La estructura del grafo intervalo revela si el ADN es lineal o ramificada.

11 Grafos intervalo: Genes Lineales

12 Grafos Intervalo: Genes Ramificados

13 Comparación Genoma LinealGenoma Ramificado

14 Secuenciación del ADN: Historia Método de Sanger (1977): Terminales ddNTPs Copia de ADN en puntos aleatorios. Terminales ddNTPs Copia de ADN en puntos aleatorios. Ambos generan fragmentos de largos variables luego sometidos a electroforesis. Gilbert method (1977): Gilbert method (1977): Método químico (tóxico) Rompe la cadena de ADN en puntos (G, G+A, T+C, C).

15 Lecturas de Sanger 1. Iniciar el cebo. 2. Crecer el largo de la cadena de ADN 3. Incluir ddNTPs. 4. Frenar la reacción en varios puntos. 5. Separar productos según largos, en base a electroforesis.

16 Secuenciación del ADN Romper el ADN en millones de fragmentos.Romper el ADN en millones de fragmentos. Tomar lecturas de 500 a 700 nucleótidos de los fragmentos prqueños (método de Sanger)Tomar lecturas de 500 a 700 nucleótidos de los fragmentos prqueños (método de Sanger)

17 Ensamble de los Fragmentos Desafío Computational: ensamblar lecturas asociadas a fragmentos individuales en una única secuencia genómica (supercadena)Desafío Computational: ensamblar lecturas asociadas a fragmentos individuales en una única secuencia genómica (supercadena) Hasta la década del 90` el ensamble de fragmentos del genoma humano por disparo era visto como un problema computacional intratable.Hasta la década del 90` el ensamble de fragmentos del genoma humano por disparo era visto como un problema computacional intratable.

18 Problema de la Supercadena (SSP) Problema: Dado un conjunto de cadenas, encontrar la cadena más corta que las contenga. Problema: Dado un conjunto de cadenas, encontrar la cadena más corta que las contenga. Entrada: Cadenas s 1, s 2,…., s n Entrada: Cadenas s 1, s 2,…., s n Salida: Cadena s de largo mínimo tal que contiene s 1, s 2,…., s n como subcadenas. Salida: Cadena s de largo mínimo tal que contiene s 1, s 2,…., s n como subcadenas. Complejidad: Este problema es NP – completo Complejidad: Este problema es NP – completo Nota: Esta formulación no toma en cuenta errores de secuenciación. Nota: Esta formulación no toma en cuenta errores de secuenciación.

19 Ejemplo:

20 Reducción del SSP al TSP Sea (s m, s n ) el largo del mayor prefijo de s n que es sufijo de s m. Sea (s m, s n ) el largo del mayor prefijo de s n que es sufijo de s m. Ejemplo: Ejemplo: aaaggcatcaaatctaaaggcatcaaa aaaggcatcaaatctaaaggcatcaaa Cuánto vale (sm, sn ) ?

21 Reducción del SSP al TSP Sea (s m, s n ) el largo del mayor prefijo de s n que es sufijo de s m. Sea (s m, s n ) el largo del mayor prefijo de s n que es sufijo de s m. Ejemplo: Ejemplo: aaaggcatcaaatctaaaggcatcaaa aaaggcatcaaatctaaaggcatcaaa (s m, s n ) = 12 (s m, s n ) = 12

22 Reducción del SSP al TSP Sea (s m, s n ) el largo del mayor prefijo de s n que es sufijo de s m. Sea (s m, s n ) el largo del mayor prefijo de s n que es sufijo de s m. aaaggcatcaaatctaaaggcatcaaa aaaggcatcaaatctaaaggcatcaaa Construir un grafo con n vértices que representan las cadenas s 1, s 2,…., s n. Construir un grafo con n vértices que representan las cadenas s 1, s 2,…., s n. Insertar aristas de largo (s u, s v ) entre los vértices s u y s v. Insertar aristas de largo (s u, s v ) entre los vértices s u y s v. Hallar el tour más corto que visite cada vértice exactamente una vez. Este es el Traveling Salesman Problem (TSP), que es NP – completo. Hallar el tour más corto que visite cada vértice exactamente una vez. Este es el Traveling Salesman Problem (TSP), que es NP – completo.

23 Reducción del SSP al TSP

24 Del SSP al TSP: Ejemplo S = { ATC, CCA, CAG, TCC, AGT } SSP SSP AGT AGT CCA CCA ATC ATC ATCCAGT ATCCAGT TCC TCC CAG CAG ATCCAGT TSP ATC CCA TCC AGT CAG

25 Secuenciación por Hibridación (SBH) 1988: SBH sugiere un método nuevo de secuenciación. Nadie creía que fuese a funcionar 1988: SBH sugiere un método nuevo de secuenciación. Nadie creía que fuese a funcionar 1991: Steve Fodor desarrolla la síntesis polimeral con luz dirigida. 1991: Steve Fodor desarrolla la síntesis polimeral con luz dirigida. 1994: Affymetrix desarrolla el primer microarreglo de 64-kb de ADN 1994: Affymetrix desarrolla el primer microarreglo de 64-kb de ADN Primer prototipo microarreglo (1989) Primer microarreglo comercial (1994) características por chip (2002)

26 ¿Cómo funciona SBH? Adjuntar todas las posibles cadenas de ADN de largo l a una superficie plana en puntos conocidos. A este conjunto se le denomina arreglo de ADN. Adjuntar todas las posibles cadenas de ADN de largo l a una superficie plana en puntos conocidos. A este conjunto se le denomina arreglo de ADN. Aplicar una solución fluorescente al arreglo que contiene fragmentos de ADN. Aplicar una solución fluorescente al arreglo que contiene fragmentos de ADN. Los fragmentos de ADN hibridizan con pruebas complementarias a las subcadenas de largo l del fragmento. Los fragmentos de ADN hibridizan con pruebas complementarias a las subcadenas de largo l del fragmento.

27 ¿Cómo funciona SBH? Mediante detector espectroscópico se determina qué pruebas hibridizan al fragmento de ADN para obtener todas las subcadenas de largo l del fragmento objetivo del ADN. Mediante detector espectroscópico se determina qué pruebas hibridizan al fragmento de ADN para obtener todas las subcadenas de largo l del fragmento objetivo del ADN. Aplicar un algoritmo combinatorio que reconstruya la secuencia de ADN objetivo a partir de sus subcomposiciones. Aplicar un algoritmo combinatorio que reconstruya la secuencia de ADN objetivo a partir de sus subcomposiciones.

28 Hibridazión del Arreglo de ADN

29 Composición por Subcadenas Espectro( s, l ) – es un multiset desordenado con todas las posibles (n – l + 1) subcadenas de largo l de una cadena s con largo n. Espectro( s, l ) – es un multiset desordenado con todas las posibles (n – l + 1) subcadenas de largo l de una cadena s con largo n. El orden de los elementos del espectro no importa. El orden de los elementos del espectro no importa. Ejemplo: si s = TATGGTGC todas las siguientes representaciones del Espectro ( s, 3 ) son correctas Ejemplo: si s = TATGGTGC todas las siguientes representaciones del Espectro ( s, 3 ) son correctas {TAT, ATG, TGG, GGT, GTG, TGC} {TAT, ATG, TGG, GGT, GTG, TGC} {ATG, GGT, GTG, TAT, TGC, TGG} {ATG, GGT, GTG, TAT, TGC, TGG} {TGG, TGC, TAT, GTG, GGT, ATG} {TGG, TGC, TAT, GTG, GGT, ATG}

30 Secuencias Co-Espectrales Diferentes secuencias pueden tener el mismo espectro: Diferentes secuencias pueden tener el mismo espectro: Espectro(GTATCT,2)= Espectro(GTATCT,2)= Espectro(GTCTAT,2)= Espectro(GTCTAT,2)= {AT, CT, GT, TA, TC} {AT, CT, GT, TA, TC}

31 Problema de Hibridazión (SBH) Objetivo: Reconstruir una cadena de sus subcadenas de tamaño l. Objetivo: Reconstruir una cadena de sus subcadenas de tamaño l. Entrada: Un conjunto S, que representa todas las subcadenas de largo l de una cadena s. Entrada: Un conjunto S, que representa todas las subcadenas de largo l de una cadena s. Salida: Cadena s tal que Espectro(s,l ) = S Salida: Cadena s tal que Espectro(s,l ) = S

32 SBH: Enfoque Hamiltoniano S = { ATG AGG TGC TCC GTC GGT GCA CAG } Camino que visita una vez cada vértice ATGAGGTGCTCC H GTC GGT GCACAG ATGCAGGTCC

33 SBH: Enfoque Hamiltoniano Un grafo m á s complicado: S = {ATG TGG TGC GTG GGC GCA GCG CGT } S = {ATG TGG TGC GTG GGC GCA GCG CGT }

34 SBH: Enfoque Hamiltoniano S={ ATG TGG TGC GTG GGC GCA GCG CGT} S={ ATG TGG TGC GTG GGC GCA GCG CGT} Camino 1: ATGCGTGGCA ATGGCGTGCA Camino 2:

35 SBH: Enfoque Euleriano S = { ATG, TGC, GTG, GGC, GCA, GCG, CGT } S = { ATG, TGC, GTG, GGC, GCA, GCG, CGT } Los vértices son las l – subcadenas : { AT, TG, GC, GG, GT, CA, CG } Los vértices son las l – subcadenas : { AT, TG, GC, GG, GT, CA, CG } Las aristas son las subcadenas de mayor solapamiento de S Las aristas son las subcadenas de mayor solapamiento de S AT GT CG CA GC TG GG Se visita una vez cada arista

36 SBH: Enfoque Euleriano S = { AT, TG, GC, GG, GT, CA, CG } se corresponde con dos caminos diferentes: ATGGCGTGCA ATGCGTGGCA AT TG GC CA GG GT CG AT GT CG CA GCTG GG

37 Teorema de Euler Diremos que un grafo es balanceado si la cantidad de aristas entrantes y salientes coinciden en cada vértice: Diremos que un grafo es balanceado si la cantidad de aristas entrantes y salientes coinciden en cada vértice: in(v)=out(v) in(v)=out(v) Teorema: Un grafo conexo es Euleriano si y sólo si es balanceado. Teorema: Un grafo conexo es Euleriano si y sólo si es balanceado.

38 Teorema de Euler: Demostración Euleriano Balanceado Euleriano Balanceado El circuito euleriano entra y sale la misma cantidad de veces en cada vértice. Entonces: El circuito euleriano entra y sale la misma cantidad de veces en cada vértice. Entonces: in(v)=out(v) in(v)=out(v) Balanceado Euleriano Balanceado Euleriano ??? ???

39 Algoritmo para Construir Circuito Euleriano a. Empezar en un vértice arbitrario v y formar un circuito. Por ser el grafo Eluleriano, este terminal es necesariamente el vértice v.

40 Algoritmo para Construir Circuito Euleriano b. Si el circuito no es Euleriano, debe contener un vértice con aristas no atravesadas. Repetir el paso (a) desde tal vértice inicial w. Terminaremos nuevamente en w.

41 Algoritmo para Construir Circuito Euleriano c.Combinar los circuitos obtenidos de (a) y (b) e iterar.

42 Teorema de Euler: Extensión Teorema: Un grafo conexo posee camino Euleriano si y sólo si contiene exactamente dos vértices no balanceados. Teorema: Un grafo conexo posee camino Euleriano si y sólo si contiene exactamente dos vértices no balanceados.

43 Algunas dificultades con SBH Fidelidad de Hibridización: dificultad para detectar diferencias entre hibridizadas con emparejamientos perfectos y 1 o 2 desajustes. Fidelidad de Hibridización: dificultad para detectar diferencias entre hibridizadas con emparejamientos perfectos y 1 o 2 desajustes. Tamaño del Arreglo: se puede lidiar con la Fidelidad con el tamaño del arreglo. No obstante, este último está limitado por cuestiones tecnológicas. Tamaño del Arreglo: se puede lidiar con la Fidelidad con el tamaño del arreglo. No obstante, este último está limitado por cuestiones tecnológicas. Practicidad: SBH es aún impráctico. Con mejoras tecnológicas en la tecnología de microarreglos, puede practicarse en el futuro. Practicidad: SBH es aún impráctico. Con mejoras tecnológicas en la tecnología de microarreglos, puede practicarse en el futuro.

44 Secuenciación de ADN += ADN Mezcla Fragmentos Genoma Circular (bacteria ) Ubicación conocida

45 Diagramas de Electroforesis

46 Desafíos para leer la respuesta

47 Secuenciación por Disparo Cortes al azar (Disparos) Segmento genómico Conseguimos una o dos lecturas por segmento ~500 bp~700 bp

48 Problema de Ensamblado Cubrimos la región con redundancia 7 Lecturas de solapamiento permiten reconstruir más fácilmente la región genómica original. lecturas

49 Redundancia Largo del Segmento genómico: L Número de lecturas: n Cobertura C = n l / L Largo de cada lectura: l ¿Qué cobertura es suficiente? Modelo de Lander-Waterman: Bajo hipótesis de distribución uniforme en las lecturas, C=10 resulta en una falla de lectura cada de nucleótidos C

50 Desafíos al Ensamblar Fragmentos Repetidas: un GRAN problema de ensamblado de fragmentos. Repetidas: un GRAN problema de ensamblado de fragmentos. > 50% del genoma humano son repetidos: > 50% del genoma humano son repetidos: - cerca de 1 millón de Alu repetidos - unas líneas repetidas Repetida Los fragmentos verdes y azules son intercambiables cuando se ensambla ADN repetido

51 Triazzle: Un ejemplo en miniatura Suena simple, PERO ¡¡¡Hay repetidas!!! Las repetidas lo hace un juego MUY difícil...

52 Conclusiones La Teoría de Grafos es una herramienta vital para la resolución de problemas biológicos. La Teoría de Grafos es una herramienta vital para la resolución de problemas biológicos. Posee una gran gama de aplicaciones biológicas, que incluye la secuenciación, reconocimiento de patrones de consenso local, redes de proteínas y muchas otras. Posee una gran gama de aplicaciones biológicas, que incluye la secuenciación, reconocimiento de patrones de consenso local, redes de proteínas y muchas otras. Gran cantidad de información genómica espera ser descifrada. Gran cantidad de información genómica espera ser descifrada.

53 Referencias An Introduction to Bioinformatics Algorithms. Neil C. Jones and Pavel A. Pevzner (2004) An Introduction to Bioinformatics Algorithms. Neil C. Jones and Pavel A. Pevzner (2004) Simons, Robert W. Advanced Molecular Genetics Course, UCLA (2002). ons/Benzer.pdf Simons, Robert W. Advanced Molecular Genetics Course, UCLA (2002). ons/Benzer.pdf ons/Benzer.pdf ons/Benzer.pdf Batzoglou, S. Computational Genomics Course, Stanford University (2004). ml Batzoglou, S. Computational Genomics Course, Stanford University (2004). ml ml ml


Descargar ppt "TEORIA DE GRAFOS EN BIOINFORMATICA. Contenidos Introducción a la Teoría de Grafos Introducción a la Teoría de Grafos Circuito Euleriano y Ciclo Hamiltoniano."

Presentaciones similares


Anuncios Google