La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.

Presentaciones similares


Presentación del tema: "Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006."— Transcripción de la presentación:

1 Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006

2 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Desafío tecnológico: biolixiviación de metales contenidos en minerales mediante el uso de microorganismos que lo hacen en forma natural

3 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Problema Biotecnológico Metagenómica Redes de Interacción de genes Secuencia ADN Expresión de genes Información

4 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Un poco de biología: hacia un modelo matemático

5 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo de una Bacteria Membrana ADN Citoplasma - Proteínas - ARN

6 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 1953 – 2003 50 años de la doble hélice James D. Watson y Francis H.C. Crick Premio Nobel 1962

7 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 1953 – 2003 50 años de la doble hélice James D. Watson y Francis H.C. Crick Premio Nobel 1962

8 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Estructura del ADN: bases nitrogenadas A T CG

9 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes y Genoma El ADN tiene la información necesaria para construir las proteínas que la bacteria necesita La región del ADN que codifica una proteína se denomina “gen” El “genoma” es la secuencia completa de todo el ADN

10 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Fábrica de proteínas Parte del ADN se copia en ARN (RNA polimerasa) El ARN indica cómo construir la proteína (en el ribosoma) ADN Se transcribe ARN Se traduce PROTEINA

11 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Modelo Unidimensional del ADN: secuencia de letras de una hebra AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG

12 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebra 1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG

13 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebra -1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG

14 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebras 1 y -1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT...... GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG

15 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006

16 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes  Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT GEN

17 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes  Proteínas en bacterias ATGGGCGTAGATCC…..AATCGCGTAT GEN CODON INICIO CODON FIN Conjunto pequeño Conocido (3-4) Conjunto pequeño Conocido (3-4)

18 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes  Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT CODON (4 3 )

19 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes  Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT PROTEINA AMINO ACIDO (20) Código Genético M G VT P I A

20 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Proteínas Macromoléculas que se forman uniendo varios aminoácidos (20 en total) Se pliega en 3D Funciones: catalizadoras (enzimas), transportadoras, etc.

21 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Obtención de Información Genómica: “leyes probabilistas de las repeticiones”

22 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento: obtención de secuencias de letras de un Genoma Tamaño DNA Bacterias: entre 1,5 y 5 millones de pares de bases Tamaño DNA ser humano: 3 x 10 9 pares de bases TAMAÑO PROBLEMA TECNOLOGICO

23 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006

24 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 LEYES DE ORGANIZACIÓN DEL ADN IDEA DE SOLUCION Trozar el ADN en segmentos posibles de secuenciar: tamaños accesibles con tecnología en uso (600-800 pares de bases). Reconstruir el ADN total a partir de los trozos: a partir de un cierto largo, el número de repeticiones de palabras es bajo (FALSO en una secuencia al azar).

25 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Proceso de Secuenciamiento

26 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento

27 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento

28 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento

29 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 de Cromatogramas a Secuencias Base Calling G A T C A G G C T A C G A T C G A T C T A G C 7 15 22 25 38 46 56 66 64 75 71 68 52 46 68 53 66 65 65 45 32 Secuencias Calidades Cromatogramas

30 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 ATTCGATGGCGATT ATCGCGATTGCTAGC Largo 2000 F R Información: Secuencias de largo ~ 600 correspondientes a extremos Distancia de dichas secuencias en el genoma: 2.000

31 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ensamble de ADN ACTTAGCGC...CTAGCTATCTATCTACTA...GTCA Si se recolectaron trozos de un tamaño razonable (2,5 K) del ADN del organismo en estudio Y se hacen suficientes repeticiones (por ejemplo 4x): LA PROBABILIDAD DE RECONSTITUIR EL GENOMA ES SUPERIOR AL 90% EN BACTERIAS

32 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Información Genómica Datos públicos

33 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Búsqueda de genes: una segunda ley de probabilidad en el Genoma

34 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 De la secuencia a la anotación de genes y señales AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCT GATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTC ACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACA ACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACG GTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTT TTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCA GTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGG GGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGAT TGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTT GCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAA CTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGG GCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCC ATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAA AACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCG TATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACCGCCGGT AATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGAC Genes Hebra 1 Hebra -1 ADN Ejemplo Bacteria WENELEN: Largo: ~ 3 millones de pares de bases Numero de Genes: ~ 3.200 Candidatos a Genes: ~ 97 % Genes Anotados: ~ 70 %

35 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Búsqueda de Candidatos a Genes: DOS ESTRATEGIAS CLASICAS: Comparar con secuencias de genes conocidos: alinear secuencias. Aprovechar leyes probabilistas de la organización genómica: determinar la frecuencia de aparición de cada par de base en un contexto dado zonas de genes y zonas intergénicas.

36 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Zonas codificantes y no codificantes en bacterias: ZONA INTERGENICA (< 10%)

37 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006

38 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Principio: zonas codificantes y no codificantes tienen distintas estadísticas Prob(X n =A | X n+1 =C, X n+2 =T, X n+3 =G) …TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC

39 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Principio: zonas codificantes y no codificantes tienen distintas estadísticas …TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC Prob(X n =A | X n+1 =C, X n+2 =T, X n+3 =G)

40 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Se observa: Prob(X n =A | X n-1 =C, X n-2 =T, X n-3 =G) Prob(X n =A | X n+1 =C, X n+2 =T, X n+3 =G) = ALGORITMOS Y METODOS PARA MARCAR GENES

41 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006

42 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 secuencia similar => regiones similares? proteína similar? función similar? ancestros similares? genes ortólogos? BUSCAR SIMILITUDES: ALINEAR CON SECUENCIAS CONOCIDAS

43 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Comparar Secuencias ATGCCTGA CTGCTGCC ¿qué tan similares son?

44 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Alineamiento 1 ATGCCTGA- CTGC-TGCC

45 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Alineamiento 2 ATGCCTGA---- ----CTGCTGCC

46 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Función de Similitud Premio por Similitud: +1 Penalización por no Similitud: -1 Penalización por Gap: -2 ATGCCTGA- CTGC-TGCC ATGCCTGA- CTGC-TGCC ATGCCTGA- CTGC-TGCC

47 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Función de Similitud (score) Similitud =  puntajes ATGCCTGA- CTGC-TGCC -1 +1 +1 +1 -2 +1 +1 -1 -2 Score = -1

48 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Función de Similitud (score) Score = -14 ATGCCTGA---- ----CTGCTGCC -2 -2 -2 -2 +1 +1 +1 -1 -2 -2 -2 -2

49 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Listar todos los casos: ¡¡muy lento !! Score 1 Score i Score N

50 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Estrategia: Programación Dinámica Calcular en base a resultados obtenidos anteriormente. Usar etapa N-1 para resolver etapa N N-1 N

51 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Programación Dinámica <- Extender Seq1 en una letra <- Extender Seq1 y Seq2 en una letra <- Extender Seq2 en una letra A - A - G - AA G Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 N-1 <- Extender Seq2 en un gap <- Extender Seq1 en un gap

52 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Score para Alineamiento i: índice en Seq1 j: índice en Seq2 Score(i,j) = max [ Score(i-1, j) – penalizacion_gap, Score(i, j-1) – penalizacion_gap, Score(i-1,j-1) + similitud(i,j) ]

53 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Pequeño Ejemplo Alinear: GATCC AGCA

54 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA -2 -4 -6 -8 -2-4-6-80-10 A A A G G C C C T

55 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA -2 -4 -6 -8 -2-4-6-80-10 A A A G G C C C T -2 -2 AGAG

56 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA -2 -2-4 -6 -8 -2-4-6-80-10 A A A G G C C C T GA- -AG -GA AG-

57 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA -3-5-2-7 -2 -4 -6 -3-2-3-6-3 -5-2-3 -8 -2 -4-6-80-10 A A A G G C C C T GATCC -AGCA

58 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Anotación funcional: candidatos a genes se comparan con genes conocidos Función Asociada Operón

59 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Origen de replicación: una última observación probabilista

60 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 G-C/G+C CATGATCGTATG 1/5 SESGO: ejercicio sobre las letras

61 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 G-C/G+C CATAACCGTATA -1/2 SESGO: ejercicio sobre las letras

62 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 G-C/G+C AACTAGCGTATA 0 SESGO: ejercicio sobre las letras

63 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Paseo siguiendo los genes: Regla: si estoy en un gen hacia la derecha subo un peldaño si estoy en un gen hacia la izquierda bajo un peldaño

64 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Otras leyes: (G-C/G+C) vs cambio hebra Bacteria BiomineraEscherichia coli Sesgo: letrasPaseo: genes Origen de Replicación

65 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 FIN

66 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Otro tipo de información: expresión de genes y experimentos de “microarrays” Identificación y Clasificación

67 Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Análisis de Clasificación Jerárquica Extremos del dendograma


Descargar ppt "Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006."

Presentaciones similares


Anuncios Google