Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Desafío tecnológico: biolixiviación de metales contenidos en minerales mediante el uso de microorganismos que lo hacen en forma natural
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Problema Biotecnológico Metagenómica Redes de Interacción de genes Secuencia ADN Expresión de genes Información
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Un poco de biología: hacia un modelo matemático
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo de una Bacteria Membrana ADN Citoplasma - Proteínas - ARN
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de – años de la doble hélice James D. Watson y Francis H.C. Crick Premio Nobel 1962
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de – años de la doble hélice James D. Watson y Francis H.C. Crick Premio Nobel 1962
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Estructura del ADN: bases nitrogenadas A T CG
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes y Genoma El ADN tiene la información necesaria para construir las proteínas que la bacteria necesita La región del ADN que codifica una proteína se denomina “gen” El “genoma” es la secuencia completa de todo el ADN
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Fábrica de proteínas Parte del ADN se copia en ARN (RNA polimerasa) El ARN indica cómo construir la proteína (en el ribosoma) ADN Se transcribe ARN Se traduce PROTEINA
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Modelo Unidimensional del ADN: secuencia de letras de una hebra AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebra 1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebra -1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes: subpalabras del ADN Hebras 1 y -1 AGCTTTTCATTCTGACTGCAACGGGAGTGTCTGATAGCAGCTTCTGAACTGGT TACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCA TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAAC GGT GCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGC GGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCC CG
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT GEN
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTAGATCC…..AATCGCGTAT GEN CODON INICIO CODON FIN Conjunto pequeño Conocido (3-4) Conjunto pequeño Conocido (3-4)
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT CODON (4 3 )
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Genes Proteínas en bacterias ATGGGCGTATATCC…..AATCGCGTAT PROTEINA AMINO ACIDO (20) Código Genético M G VT P I A
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Proteínas Macromoléculas que se forman uniendo varios aminoácidos (20 en total) Se pliega en 3D Funciones: catalizadoras (enzimas), transportadoras, etc.
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Obtención de Información Genómica: “leyes probabilistas de las repeticiones”
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento: obtención de secuencias de letras de un Genoma Tamaño DNA Bacterias: entre 1,5 y 5 millones de pares de bases Tamaño DNA ser humano: 3 x 10 9 pares de bases TAMAÑO PROBLEMA TECNOLOGICO
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 LEYES DE ORGANIZACIÓN DEL ADN IDEA DE SOLUCION Trozar el ADN en segmentos posibles de secuenciar: tamaños accesibles con tecnología en uso ( pares de bases). Reconstruir el ADN total a partir de los trozos: a partir de un cierto largo, el número de repeticiones de palabras es bajo (FALSO en una secuencia al azar).
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Proceso de Secuenciamiento
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Secuenciamiento
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 de Cromatogramas a Secuencias Base Calling G A T C A G G C T A C G A T C G A T C T A G C Secuencias Calidades Cromatogramas
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 ATTCGATGGCGATT ATCGCGATTGCTAGC Largo 2000 F R Información: Secuencias de largo ~ 600 correspondientes a extremos Distancia de dichas secuencias en el genoma: 2.000
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ensamble de ADN ACTTAGCGC...CTAGCTATCTATCTACTA...GTCA Si se recolectaron trozos de un tamaño razonable (2,5 K) del ADN del organismo en estudio Y se hacen suficientes repeticiones (por ejemplo 4x): LA PROBABILIDAD DE RECONSTITUIR EL GENOMA ES SUPERIOR AL 90% EN BACTERIAS
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Información Genómica Datos públicos
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Búsqueda de genes: una segunda ley de probabilidad en el Genoma
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 De la secuencia a la anotación de genes y señales AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCT GATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTC ACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACA ACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACG GTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTT TTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCA GTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGG GGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGAT TGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTT GCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAA CTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGG GCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCC ATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAA AACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCG TATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACCGCCGGT AATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGAC Genes Hebra 1 Hebra -1 ADN Ejemplo Bacteria WENELEN: Largo: ~ 3 millones de pares de bases Numero de Genes: ~ Candidatos a Genes: ~ 97 % Genes Anotados: ~ 70 %
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Búsqueda de Candidatos a Genes: DOS ESTRATEGIAS CLASICAS: Comparar con secuencias de genes conocidos: alinear secuencias. Aprovechar leyes probabilistas de la organización genómica: determinar la frecuencia de aparición de cada par de base en un contexto dado zonas de genes y zonas intergénicas.
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Zonas codificantes y no codificantes en bacterias: ZONA INTERGENICA (< 10%)
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Principio: zonas codificantes y no codificantes tienen distintas estadísticas Prob(X n =A | X n+1 =C, X n+2 =T, X n+3 =G) …TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Principio: zonas codificantes y no codificantes tienen distintas estadísticas …TTGTACTGTCGCGATGCTACTGACGTCCGTACTGTCGCGCTACTGATGACTGTC Prob(X n =A | X n+1 =C, X n+2 =T, X n+3 =G)
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Se observa: Prob(X n =A | X n-1 =C, X n-2 =T, X n-3 =G) Prob(X n =A | X n+1 =C, X n+2 =T, X n+3 =G) = ALGORITMOS Y METODOS PARA MARCAR GENES
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 secuencia similar => regiones similares? proteína similar? función similar? ancestros similares? genes ortólogos? BUSCAR SIMILITUDES: ALINEAR CON SECUENCIAS CONOCIDAS
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Comparar Secuencias ATGCCTGA CTGCTGCC ¿qué tan similares son?
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Alineamiento 1 ATGCCTGA- CTGC-TGCC
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Alineamiento 2 ATGCCTGA CTGCTGCC
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Función de Similitud Premio por Similitud: +1 Penalización por no Similitud: -1 Penalización por Gap: -2 ATGCCTGA- CTGC-TGCC ATGCCTGA- CTGC-TGCC ATGCCTGA- CTGC-TGCC
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Función de Similitud (score) Similitud = puntajes ATGCCTGA- CTGC-TGCC Score = -1
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Función de Similitud (score) Score = -14 ATGCCTGA CTGCTGCC
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Listar todos los casos: ¡¡muy lento !! Score 1 Score i Score N
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Estrategia: Programación Dinámica Calcular en base a resultados obtenidos anteriormente. Usar etapa N-1 para resolver etapa N N-1 N
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Programación Dinámica <- Extender Seq1 en una letra <- Extender Seq1 y Seq2 en una letra <- Extender Seq2 en una letra A - A - G - AA G Seq1 Seq2 Seq1 Seq2 Seq1 Seq2 N-1 <- Extender Seq2 en un gap <- Extender Seq1 en un gap
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Score para Alineamiento i: índice en Seq1 j: índice en Seq2 Score(i,j) = max [ Score(i-1, j) – penalizacion_gap, Score(i, j-1) – penalizacion_gap, Score(i-1,j-1) + similitud(i,j) ]
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Pequeño Ejemplo Alinear: GATCC AGCA
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA A A A G G C C C T
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA A A A G G C C C T AGAG
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA A A A G G C C C T GA- -AG -GA AG-
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Ejemplo GATCC vs AGCA A A A G G C C C T GATCC -AGCA
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Anotación funcional: candidatos a genes se comparan con genes conocidos Función Asociada Operón
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Origen de replicación: una última observación probabilista
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 G-C/G+C CATGATCGTATG 1/5 SESGO: ejercicio sobre las letras
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 G-C/G+C CATAACCGTATA -1/2 SESGO: ejercicio sobre las letras
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 G-C/G+C AACTAGCGTATA 0 SESGO: ejercicio sobre las letras
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Paseo siguiendo los genes: Regla: si estoy en un gen hacia la derecha subo un peldaño si estoy en un gen hacia la izquierda bajo un peldaño
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Otras leyes: (G-C/G+C) vs cambio hebra Bacteria BiomineraEscherichia coli Sesgo: letrasPaseo: genes Origen de Replicación
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 FIN
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Otro tipo de información: expresión de genes y experimentos de “microarrays” Identificación y Clasificación
Información y Aleatoriedad de los GenesSANTIAGO, 15 de Noviembre de 2006 Análisis de Clasificación Jerárquica Extremos del dendograma