Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos.

Slides:



Advertisements
Presentaciones similares
Regulación de la Expresión Genética en Bacteria
Advertisements

Universidad Nacional Autónoma de México
Inducción de proteína recombinante
CURSO de Actualizaciones en Genética Molecular y sus aplicaciones
PREGUNTAS DE TEST SOBRANTES
MODELO DE REGRESIÓN LINEAL SIMPLE
ELASTICIDAD. Teoremas Energéticos
La genética en el siglo XXI
Detección de elementos funcionales en el genoma
Cuestiones y problemas
¿Cómo se relacionan los genes entre sí?
ESTRUCTURA Y REGULACIÓN GÉNICA
Metodología de la Investigación Social
ESTRUCTURA Y REGULACIÓN GÉNICA Muchos factores, un objetivo.
OPERON LAC.
PROTEINAS RECOMBINANTES
OPERON LAC.
OPERON LAC.
Inducción de proteína recombinante
Inducción de proteína recombinante -Lactamasa. Tecnología de DNA recombinante: Herramientas 1 Aislamiento del gen2. Clonación y expresión Producción de.
Inducción de proteína recombinante
ARNs Sintesis y Maduración
LAS CÉLULAS Y LA ORGANIZACIÓN DE LOS SERES VIVOS
PARA PARTICIPAR EN ESTE CERTAMEN, SE DEBEN DE CUMPLIR CON LOS SIGUIENTES REQUISITOS : 1.Costo Mínimo Del Vehículo £ 800, Modelo Anterior A.
Artur Ezquerra González Genómica y Proteómica 12/06/2013
Desigualdades Lineales y Compuestas
Números enteros.
Tema 13. Regulación de la expresión génica. I
Encuentra las 12 diferencias
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
GENÉTICA DEL COMPORTAMIENTO
Estructura del operón lac y el control positivo
Bioinformática para el análisis de metagenomas
PREDICCION DE PEPTIDOS LIDER PUTATIVOS EN PROCESOS TRANSCRIPCIONALES EN ESCHERICHIA COLI José C. RAMON. Hernández, Pedro Olivares, Pablo Rodríguez, Federico.
La hibridación permite la detección de secuencias específicas La hibridación de DNA, es la más común entre las técnicas basadas en la secuencia para detectar.
Física y Química Biológica Licenciatura en Enfermería
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
ESTRUCTURA Y REGULACIÓN GÉNICA
Figure 1.6 Genomes 3 (© Garland Science 2007)
Anotación Automática Dante Travisany. Temas Pipeline Tools Bases de Datos Conceptos Ejemplos Ensembl.
COGs Cluster of Orthologous Groups. Genes Ortólogos Comparten una gran similitud en secuencias. Pueden provenir de un ancestro común.
4/24/2015Mg. Q.F. Jéssica N. Bardales Valdivia1 Herramientas para las ciencias de la vida Biotecnology.
Genética teoría Tema 6 Regulación Genética
es el campo de la biología que estudia la estructura y la función de los genes a nivel molecular. La genética molecular emplea los métodos de la genética.
OPERON LAC.
Alfonso Varela Toro José Ramón Polo López MODELADO DE LA MAQUINARIA CELULAR A TRAVÉS DE LA COMPARACIÓN DE REDES BIOLÓGICAS.
Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional.
Evolución Microbiana y Sistemática
La necesidad de los modelos
Bioinformática: DR_2283 Aida Moreno Moral Pablo Mier Muñoz Claudia Lucía Millán Nebot.
BioInformática Una nueva ciencia Interdisciplinar Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos.
TRANSCRIPTOMICA & PROTEOMICA
Bioinformática Introducción. Bioinformática Definición intuitiva Conjunto de herramientas informáticas que sugieren soluciones a problemas biológicos.
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
7/22/2015copyright (your organization) Herramientas para las ciencias de la vida Biotecnology.
Página Web
BIOLOGÍA MOLECULAR Alejandrina Vega
Programa: Ciencia Informática Biología de Sistemas Lo mejor de dos mundos.
Biología Molecular Vanessa Z. Cardona Cardona Biol 3051.
Estructura del operón lac y el control positivo
Genomas.
Regulación de la expresión de genes Procariotes y eucariotes
REGULACIÓN DE LA EXPRESIÓN GENÉTICA BACTERIAS
ACTIVACION TRANSCRIPCIONAL POR RECLUTAMIENTO
BIOLOGÍA MOLECULAR TECNOLOGÍAS EN BIOLOGÍA MOLECULAR Y DNA RECOMBINANTE. TEMAS Alondra Olivia Chavez Amaya UNIVERSIDAD AUTONOMA DE CHIHUAHUA.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Control de la expresión génica en procariotas.  Lo que hoy se sabe al respecto, proviene de investigaciones, especialmente en la bacteria Escherichia.
GENÉTICA BACTERIANA Docente: Dra. Estela Tango.
OPERON LAC.
Transcripción de la presentación:

Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático

Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos y aproximaciones estadísticas para su análisis

Descripción de programas existentes BLAST (Comparación apareada de secuencias) MEME/MAST (Identificación de motivos sobre-representados)

Planteamiento de problemas para resolver Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis

Predicción de operones bacterianos En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon). El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes.

Predicción de operones bacterianos Los métodos más comúnmente utilizados para predecir operones se basan en: Dirección de la transcripción de los genes Distancias intergénicas.

Otros parámetros importantes en la predicción de operones bacterianos son: Relación funcional de los genes Co-ocurrencia de genes en genomas Vecindad genómica Co-expresividad

The STRING database http://string.embl.de/ 8

9

10

11

12

13

14

Fusión de genes y predicción de operones 15

Vecindad genómica y predicción de operones

Co-ocurrencia de genes proteicos y predicción de operones

Conocimiento publicado y predicción de operones 18

Datos de complejos proteicos y predicción de operones

Coeficientes de interacción von Mering et al., Nucleic Acids Research, 2005

COG0147Anthranilate/para-aminobenzoate synthases component I

Saccharomyces cerevisiae exosome complex

Coeficientes de interacción COG.links.v7.1.txt COG0001 COG0002 296 COG0001 COG0006 217 COG0001 COG0007 770 COG0001 COG0008 168 COG0001 COG0009 168 COG0001 COG0012 168 COG0001 COG0013 168 COG0001 COG0014 209 COG0001 COG0016 168 COG0001 COG0017 173 COG0001 COG0020 317 COG0001 COG0026 175 COG0001 COG0028 278 COG0001 COG0029 165 COG0001 COG0035 173 COG0001 COG0037 217 COG0001 COG0038 524

Identificación de ortólogos mediante el mejor hit bidireccional BDBH OrganismoA OrganismoB OrganismoA OrganismoB OrganismoA OrganismoB dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.

COGs. Cluster of Orthologous Groups of Proteins SCIENCE. VOL. 278: 631-637

COGs. Cluster of Orthologous Groups of Proteins No hay línea porque son parálogos Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae Cianobacteria: Synechocystis sp. Aequeobacteria (Euryarchaeota): Methanocous jannaschii Eucariota (hongos):Saccharomyces cerevisiae

Archivo de datos SUPERLIST 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I

Predicción de operones bacterianos Diagrama general de subrutinas Lectura de datos COG.links Lectura del primer registro del archivo SUPERLIST Proceso cíclico de lectura y análisis de los demás registros del archivo SUPERLIST 29

Subrutina de lectura de datos COG.links campos <- split(registro de archivo) COG1 <- campo 0 COG2 <- campo 1 Para cada renglon del archivo COG.links indice <- campo 2 ¿Es indice > 500? SI indice_COGs {COG1} {COG2} <- indice 30

Archivo de datos SUPERLIST 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS 337..2799 F 16127996 thrA B0002 protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK E COG0460,COG0527 - KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088 enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I

Subrutina Distancias intergenicas Distancia intergenica # gene position strand GI common CDS 190..255 F 16127995 thrL CDS 337..2799 F 16127996 thrA CDS 2801..3733 F 16127997 thrB CDS 3734..5020 F 16127998 thrC CDS 5234..5530 F 16127999 yaaX CDS 5683..6459 R 16128000 yaaA CDS 6529..7959 R 16128001 yaaJ CDS 8238..9191 F 16128002 talB CDS 9306..9893 F 16128003 mog CDS 9928..10494 R 16128004 yaaH CDS 10643..11356 R 16128005 yaaW 190 2801 3733 thrL thrA thrB thrC yaaX yaaA yaaJ talB mog yaaH yaaW 337 2799 3734 5020 255 337 Distancia intergenica 337-255=82 pb 32

Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) gi <- campo 3 Lectura del primer registro (condición borde inicial) (inicio{gi},final{gi}) <- split(campo 2) cog{gi} <- campo 9 strand{gi} <- campo 2 gene{gi} <- campo 4 gi_anterior <- gi Proceso cíclico de lectura y análisis de los demás registros 33

Subrutina de lectura de datos SUPERLIST campos <- split(registro de archivo) gi <- campo 3 (inicio{gi},final{gi}) <- split(campo 2) dist_inter{gi} <-inicio{gi} - final{gi_anterior} cog{gi} <- campo 9 indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}} Para cada renglon del archivo SUPERLIST strand{gi} <- campo 2 gene{gi} <- campo 4 strand{gi} eq strand{gi_anterior} indice_string{gi} > 500 or dist_inter{gi} < 100 SI gi_anterior <- gi gi and gi_anterior pertenecen al mismo operon 34

Predicción de operones bacterianos http://www. microbesonline Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip ¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ? G_1 G_2 Bnum1 Bnum2 Ge1 Ge2 Bop pOp 14146 14147 b0001 b0002 thrL thrA FALSE 0.115 14147 14148 b0002 b0003 thrA thrB TRUE 0.998 14148 14149 b0003 b0004 thrB thrC TRUE 0.999 14149 14150 b0004 b0005 thrC yaaX FALSE 0.088 14151 14152 b0006 b0007 yaaA yaaJ TRUE 0.675 14153 14154 b0008 b0009 talB mog FALSE 0.31 14155 14156 b0010 b0011 yaaH yaaW FALSE 0.309 14159 14160 b0014 b0015 dnaK dnaJ TRUE 0.989 14160 14161 b0015 b0016 dnaJ insL-1 FALSE 0.139

CAI and the most biased genes Zinovyev Andrei Institut des Hautes Études Scientifiques

El código genético estándar exhibe redundancia Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas. Los patrones del uso de codones varían extensamente en y entre la especie El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción

Uso Preferencial de Codones en E. coli Overall codon usage Highly expressed genes

Diferent tipos de codon bias Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

Relación de CAI y traducibilidad

Diferent tipos de codon bias Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

Relación de CAI y el contenido de GC en la tercera posición del codon

Estudio cuantitativo del Uso Preferencial de Codones Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes) PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados

Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) I II III IV

Ejemplo del UPC en un bacteriano de rápido crecimiento: Bacillus subtilis Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

Ejemplo del UPC en un bacteriano de rápido crecimiento: Escherichia coli Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

Ejemplo del UPC en un Organismo eucariote unicelular: Saccharomyces cerevisiae Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

Ejemplo del UPC en un Organismo eucariote complejo: Caenorhabditis elegans Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

UPC en Organismo bacteriano de lento crecimiento: Helicobacter pylori Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

UPC en Organismo bacteriano de lento crecimiento: Borrelia burgdorferi Leading strand Lagging strand

Bias dominante dependiente de la cadena de replicación

Fuentes de heterogenicidad de secuenicia Hidrofobicidad Presión evolutiva (bias traduccional) Transferencia horizontal de genes Diferentes contenidos GC(AT) Dirección de cadena

Métricas del uso preferencial de codones Relative Synonymous Codon Usage Relative Codon Adaptiveness [0..1]

Grupo de referencia de proteínas altamente expresadas Proteínas Ribosomales Factores de elongación Proteínas glicolíticas Proteínas de membrana …

Codon Adaptaion Index (CAI) Uso preferencial de codones con respecto a un pequeño grupo de genes de referencia fi – frequency of codon i, calculated over reference set S L – number of all codons in a gene gi – frequency of codon i in a gene

CAI = exp ( 6*ln(1) + 3*ln(0.72) + 3*ln(0.25) +2*ln(0.21)+8*ln(1)) =0.687 6+3+3+2+8 Codon Codon_Nu RSCU W Gene X UUU(Phe) 78743 1.1636839 1.0000000 6 UUC(Phe) 56591 0.8363161 0.7186798 3 UUA(Leu) 51320 0.8561943 0.2698037 UUG(Leu) 45581 0.760448 0.2696937 CUU(Leu) 42704 0.7124497 0.2528585 CUC(Leu) 35873 0.5984851 0.2124108 2 CUA(Leu) 15275 0.2548396 0.0904462 CUG(Leu) 16885 2.8175832 8

Valores de CAI para E. coli y levadura

Distribución de valores de CAI en genes de E. coli y levadura

Algoritmo para detectar genes con Bias en su CAI Calcular wi considerando el 100% genes, y el CAI para todos los genes Seleccionar 50% de los genes con los más altos CAIs y a partir de ellos calcular wi y recalcular el CAI para todos los genes Seleccionar el 25% de los genes del paso anterior con los más CAIs, calculate wi, y recalcular nuevamente los CAIs Repetir hasta seleccionar el 1% de los genes

Ejemplo: Bacillus subtilis

Desempeño del algoritmo en organismos de rápido crecimiento Reference set

Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio

Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio

Identificación de genes transferidos horizontalmente 1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio

Identificación de genes transferidos horizontalmente 2.- Genes cuyo valor CAI sea menor al promedio menos 2Ds

Identificación de genes transferidos horizontalmente 3.- Buscar la intersección de genes seleccionados por CAI y GC Genes transferidos horizontalmente Genes identificados por CAI Genes identificados por GC%

Planteamiento de problemas para resolver Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis