Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático
Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos y aproximaciones estadísticas para su análisis
Descripción de programas existentes BLAST (Comparación apareada de secuencias) MEME/MAST (Identificación de motivos sobre-representados)
Planteamiento de problemas para resolver Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis
Predicción de operones bacterianos En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon). El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes.
Predicción de operones bacterianos Los métodos más comúnmente utilizados para predecir operones se basan en: Dirección de la transcripción de los genes Distancias intergénicas.
Otros parámetros importantes en la predicción de operones bacterianos son: Relación funcional de los genes Co-ocurrencia de genes en genomas Vecindad genómica Co-expresividad
The STRING database http://string.embl.de/ 8
9
10
11
12
13
14
Fusión de genes y predicción de operones 15
Vecindad genómica y predicción de operones
Co-ocurrencia de genes proteicos y predicción de operones
Conocimiento publicado y predicción de operones 18
Datos de complejos proteicos y predicción de operones
Coeficientes de interacción von Mering et al., Nucleic Acids Research, 2005
COG0147Anthranilate/para-aminobenzoate synthases component I
Saccharomyces cerevisiae exosome complex
Coeficientes de interacción COG.links.v7.1.txt COG0001 COG0002 296 COG0001 COG0006 217 COG0001 COG0007 770 COG0001 COG0008 168 COG0001 COG0009 168 COG0001 COG0012 168 COG0001 COG0013 168 COG0001 COG0014 209 COG0001 COG0016 168 COG0001 COG0017 173 COG0001 COG0020 317 COG0001 COG0026 175 COG0001 COG0028 278 COG0001 COG0029 165 COG0001 COG0035 173 COG0001 COG0037 217 COG0001 COG0038 524
Identificación de ortólogos mediante el mejor hit bidireccional BDBH OrganismoA OrganismoB OrganismoA OrganismoB OrganismoA OrganismoB dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.
COGs. Cluster of Orthologous Groups of Proteins SCIENCE. VOL. 278: 631-637
COGs. Cluster of Orthologous Groups of Proteins No hay línea porque son parálogos Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae Cianobacteria: Synechocystis sp. Aequeobacteria (Euryarchaeota): Methanocous jannaschii Eucariota (hongos):Saccharomyces cerevisiae
Archivo de datos SUPERLIST 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I
Predicción de operones bacterianos Diagrama general de subrutinas Lectura de datos COG.links Lectura del primer registro del archivo SUPERLIST Proceso cíclico de lectura y análisis de los demás registros del archivo SUPERLIST 29
Subrutina de lectura de datos COG.links campos <- split(registro de archivo) COG1 <- campo 0 COG2 <- campo 1 Para cada renglon del archivo COG.links indice <- campo 2 ¿Es indice > 500? SI indice_COGs {COG1} {COG2} <- indice 30
Archivo de datos SUPERLIST 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I
Subrutina Distancias intergenicas Distancia intergenica # gene position strand GI common CDS 190..255 F 16127995 thrL CDS 337..2799 F 16127996 thrA CDS 2801..3733 F 16127997 thrB CDS 3734..5020 F 16127998 thrC CDS 5234..5530 F 16127999 yaaX CDS 5683..6459 R 16128000 yaaA CDS 6529..7959 R 16128001 yaaJ CDS 8238..9191 F 16128002 talB CDS 9306..9893 F 16128003 mog CDS 9928..10494 R 16128004 yaaH CDS 10643..11356 R 16128005 yaaW 190 2801 3733 thrL thrA thrB thrC yaaX yaaA yaaJ talB mog yaaH yaaW 337 2799 3734 5020 255 337 Distancia intergenica 337-255=82 pb 32
Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) gi <- campo 3 Lectura del primer registro (condición borde inicial) (inicio{gi},final{gi}) <- split(campo 2) cog{gi} <- campo 9 strand{gi} <- campo 2 gene{gi} <- campo 4 gi_anterior <- gi Proceso cíclico de lectura y análisis de los demás registros 33
Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) gi <- campo 3 (inicio{gi},final{gi}) <- split(campo 2) dist_inter{gi} <-inicio{gi} - final{gi_anterior} cog{gi} <- campo 9 indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}} Para cada renglon del archivo SUPERLIST strand{gi} <- campo 2 gene{gi} <- campo 4 strand{gi} eq strand{gi_anterior} indice_string{gi} > 500 or dist_inter{gi} < 100 SI gi_anterior <- gi gi and gi_anterior pertenecen al mismo operon 34
Predicción de operones bacterianos http://www. microbesonline Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip ¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ? G_1 G_2 Bnum1 Bnum2 Ge1 Ge2 Bop pOp 14146 14147 b0001 b0002 thrL thrA FALSE 0.115 14147 14148 b0002 b0003 thrA thrB TRUE 0.998 14148 14149 b0003 b0004 thrB thrC TRUE 0.999 14149 14150 b0004 b0005 thrC yaaX FALSE 0.088 14151 14152 b0006 b0007 yaaA yaaJ TRUE 0.675 14153 14154 b0008 b0009 talB mog FALSE 0.31 14155 14156 b0010 b0011 yaaH yaaW FALSE 0.309 14159 14160 b0014 b0015 dnaK dnaJ TRUE 0.989 14160 14161 b0015 b0016 dnaJ insL-1 FALSE 0.139
CAI and the most biased genes Zinovyev Andrei Institut des Hautes Études Scientifiques
El código genético estándar exhibe redundancia Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas. Los patrones del uso de codones varían extensamente en y entre la especie El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción
Uso Preferencial de Codones en E. coli Overall codon usage Highly expressed genes
Diferent tipos de codon bias Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos
Relación de CAI y traducibilidad
Diferent tipos de codon bias Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos
Relación de CAI y el contenido de GC en la tercera posición del codon
Estudio cuantitativo del Uso Preferencial de Codones Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes) PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados
Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) I II III IV
Ejemplo del UPC en un bacteriano de rápido crecimiento: Bacillus subtilis Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)
Ejemplo del UPC en un bacteriano de rápido crecimiento: Escherichia coli Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)
Ejemplo del UPC en un Organismo eucariote unicelular: Saccharomyces cerevisiae Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)
Ejemplo del UPC en un Organismo eucariote complejo: Caenorhabditis elegans Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)
UPC en Organismo bacteriano de lento crecimiento: Helicobacter pylori Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)
UPC en Organismo bacteriano de lento crecimiento: Borrelia burgdorferi Leading strand Lagging strand
Bias dominante dependiente de la cadena de replicación
Fuentes de heterogenicidad de secuenicia Hidrofobicidad Presión evolutiva (bias traduccional) Transferencia horizontal de genes Diferentes contenidos GC(AT) Dirección de cadena
Métricas del uso preferencial de codones Relative Synonymous Codon Usage Relative Codon Adaptiveness [0..1]
Grupo de referencia de proteínas altamente expresadas Proteínas Ribosomales Factores de elongación Proteínas glicolíticas Proteínas de membrana …
Codon Adaptaion Index (CAI) Uso preferencial de codones con respecto a un pequeño grupo de genes de referencia fi – frequency of codon i, calculated over reference set S L – number of all codons in a gene gi – frequency of codon i in a gene
CAI = exp ( 6*ln(1) + 3*ln(0.72) + 3*ln(0.25) +2*ln(0.21)+8*ln(1)) =0.687 6+3+3+2+8 Codon Codon_Nu RSCU W Gene X UUU(Phe) 78743 1.1636839 1.0000000 6 UUC(Phe) 56591 0.8363161 0.7186798 3 UUA(Leu) 51320 0.8561943 0.2698037 UUG(Leu) 45581 0.760448 0.2696937 CUU(Leu) 42704 0.7124497 0.2528585 CUC(Leu) 35873 0.5984851 0.2124108 2 CUA(Leu) 15275 0.2548396 0.0904462 CUG(Leu) 16885 2.8175832 8
Valores de CAI para E. coli y levadura
Distribución de valores de CAI en genes de E. coli y levadura
Algoritmo para detectar genes con Bias en su CAI Calcular wi considerando el 100% genes, y el CAI para todos los genes Seleccionar 50% de los genes con los más altos CAIs y a partir de ellos calcular wi y recalcular el CAI para todos los genes Seleccionar el 25% de los genes del paso anterior con los más CAIs, calculate wi, y recalcular nuevamente los CAIs Repetir hasta seleccionar el 1% de los genes
Ejemplo: Bacillus subtilis
Desempeño del algoritmo en organismos de rápido crecimiento Reference set
Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio
Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio
Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio
Identificación de genes transferidos horizontalmente 2.- Genes cuyo valor CAI sea menor al promedio menos 2Ds
Identificación de genes transferidos horizontalmente 3.- Buscar la intersección de genes seleccionados por CAI y GC Genes transferidos horizontalmente Genes identificados por CAI Genes identificados por GC%
Planteamiento de problemas para resolver Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis