La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos.

Presentaciones similares


Presentación del tema: "Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos."— Transcripción de la presentación:

1 Ejemplos de problemas Biológicos que pueden ser resueltos mediante un enfoque Bioinformático

2 Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos y aproximaciones estadísticas para su análisis

3 Descripción de programas existentes
BLAST (Comparación apareada de secuencias) MEME/MAST (Identificación de motivos sobre-representados)

4 Planteamiento de problemas para resolver
Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis

5 Predicción de operones bacterianos
En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon). El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes.

6 Predicción de operones bacterianos
Los métodos más comúnmente utilizados para predecir operones se basan en: Dirección de la transcripción de los genes Distancias intergénicas.

7 Otros parámetros importantes en la predicción de operones bacterianos son:
Relación funcional de los genes Co-ocurrencia de genes en genomas Vecindad genómica Co-expresividad

8 The STRING database http://string.embl.de/
8

9 9

10 10

11 11

12 12

13 13

14 14

15 Fusión de genes y predicción de operones
15

16 Vecindad genómica y predicción de operones

17 Co-ocurrencia de genes proteicos y predicción de operones

18 Conocimiento publicado y predicción de operones
18

19 Datos de complejos proteicos y predicción de operones

20 Coeficientes de interacción
von Mering et al., Nucleic Acids Research, 2005

21 COG0147Anthranilate/para-aminobenzoate synthases component I

22 Saccharomyces cerevisiae exosome complex

23

24 Coeficientes de interacción COG.links.v7.1.txt
COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG COG0001 COG

25 Identificación de ortólogos mediante el mejor hit bidireccional BDBH
OrganismoA OrganismoB OrganismoA OrganismoB OrganismoA OrganismoB dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN dnaA dnaN yaaA yaaB gyrB yaaC guaB dacA yaaD yaaE . yaaK Bsu0001 Bsu0002 Bsu0003 Bsu0004 Bsu0005 Bsu0006 Bsu0007 Bsu0008 Bsu0009 Bsu0010 . BsuNNNN Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.

26 COGs. Cluster of Orthologous Groups of Proteins
SCIENCE. VOL. 278:

27 COGs. Cluster of Orthologous Groups of Proteins
No hay línea porque son parálogos Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae Cianobacteria: Synechocystis sp. Aequeobacteria (Euryarchaeota): Methanocous jannaschii Eucariota (hongos):Saccharomyces cerevisiae

28 Archivo de datos SUPERLIST
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS F thrA B0002 protein_id:NP_ ;ASAP:ABE ;UniProtK E COG0460,COG0527 - KEGG:00260,KEGG:00300 GO: ,GO: ,GO: ,GO: GO: ,GO: ,GO: ,GO: enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I

29 Predicción de operones bacterianos
Diagrama general de subrutinas Lectura de datos COG.links Lectura del primer registro del archivo SUPERLIST Proceso cíclico de lectura y análisis de los demás registros del archivo SUPERLIST 29

30 Subrutina de lectura de datos COG.links
campos <- split(registro de archivo) COG1 <- campo 0 COG2 <- campo 1 Para cada renglon del archivo COG.links indice <- campo 2 ¿Es indice > 500? SI indice_COGs {COG1} {COG2} <- indice 30

31 Archivo de datos SUPERLIST
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gene Position Strand GI Common b_number db_refs Category COG Kategory KOG KEGG GO1 GO2 GO3 Function Product sp_id sp_ac CDS F thrA B0002 protein_id:NP_ ;ASAP:ABE ;UniProtK E COG0460,COG0527 - KEGG:00260,KEGG:00300 GO: ,GO: ,GO: ,GO: GO: ,GO: ,GO: ,GO: enzyme; Amino acid biosynthesis: Threonine fused aspartokinase I and homoserine dehydrogenase I

32 Subrutina Distancias intergenicas Distancia intergenica
# gene position strand GI common CDS F thrL CDS F thrA CDS F thrB CDS F thrC CDS F yaaX CDS R yaaA CDS R yaaJ CDS F talB CDS F mog CDS R yaaH CDS R yaaW 190 2801 3733 thrL thrA thrB thrC yaaX yaaA yaaJ talB mog yaaH yaaW 337 2799 3734 5020 255 337 Distancia intergenica =82 pb 32

33 Subrutina de lectura de datos SUPERLIST
campos <- split(registro de archivo) gi <- campo 3 Lectura del primer registro (condición borde inicial) (inicio{gi},final{gi}) <- split(campo 2) cog{gi} <- campo 9 strand{gi} <- campo 2 gene{gi} <- campo 4 gi_anterior <- gi Proceso cíclico de lectura y análisis de los demás registros 33

34 Subrutina de lectura de datos SUPERLIST
campos <- split(registro de archivo) gi <- campo 3 (inicio{gi},final{gi}) <- split(campo 2) dist_inter{gi} <-inicio{gi} - final{gi_anterior} cog{gi} <- campo 9 indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}} Para cada renglon del archivo SUPERLIST strand{gi} <- campo 2 gene{gi} <- campo 4 strand{gi} eq strand{gi_anterior} indice_string{gi} > 500 or dist_inter{gi} < 100 SI gi_anterior <- gi gi and gi_anterior pertenecen al mismo operon 34

35 Predicción de operones bacterianos http://www. microbesonline
Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip ¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ? G_ G_ Bnum1 Bnum2 Ge1 Ge Bop pOp b b thrL thrA FALSE b b thrA thrB TRUE b b thrB thrC TRUE b b thrC yaaX FALSE b b yaaA yaaJ TRUE b b talB mog FALSE b b yaaH yaaW FALSE b b dnaK dnaJ TRUE b b dnaJ insL-1 FALSE

36 CAI and the most biased genes
Zinovyev Andrei Institut des Hautes Études Scientifiques

37 El código genético estándar exhibe redundancia
Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas. Los patrones del uso de codones varían extensamente en y entre la especie El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción

38 Uso Preferencial de Codones en E. coli
Overall codon usage Highly expressed genes

39 Diferent tipos de codon bias
Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

40 Relación de CAI y traducibilidad

41 Diferent tipos de codon bias
Traduccional (principalmente en fast-growing bacteria) Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos Influencia de la cadena codificante (leading o lagging) Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

42 Relación de CAI y el contenido de GC en la tercera posición del codon

43 Estudio cuantitativo del Uso Preferencial de Codones
Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes) PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados

44 Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic) I II III IV

45 Ejemplo del UPC en un bacteriano de rápido crecimiento: Bacillus subtilis
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

46 Ejemplo del UPC en un bacteriano de rápido crecimiento: Escherichia coli
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

47 Ejemplo del UPC en un Organismo eucariote unicelular: Saccharomyces cerevisiae
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

48 Ejemplo del UPC en un Organismo eucariote complejo: Caenorhabditis elegans
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

49 UPC en Organismo bacteriano de lento crecimiento: Helicobacter pylori
Genes of class I (most of) Genes of class II (higly expressed) Genes of class III (unusual) Genes of class IV (hydrophobic)

50 UPC en Organismo bacteriano de lento crecimiento: Borrelia burgdorferi
Leading strand Lagging strand

51 Bias dominante dependiente de la cadena de replicación

52 Fuentes de heterogenicidad de secuenicia
Hidrofobicidad Presión evolutiva (bias traduccional) Transferencia horizontal de genes Diferentes contenidos GC(AT) Dirección de cadena

53 Métricas del uso preferencial de codones
Relative Synonymous Codon Usage Relative Codon Adaptiveness [0..1]

54

55 Grupo de referencia de proteínas altamente expresadas
Proteínas Ribosomales Factores de elongación Proteínas glicolíticas Proteínas de membrana

56 Codon Adaptaion Index (CAI)
Uso preferencial de codones con respecto a un pequeño grupo de genes de referencia fi – frequency of codon i, calculated over reference set S L – number of all codons in a gene gi – frequency of codon i in a gene

57 CAI = exp ( 6*ln(1) + 3*ln(0.72) + 3*ln(0.25) +2*ln(0.21)+8*ln(1)) =0.687 Codon Codon_Nu RSCU W Gene X UUU(Phe) 78743 6 UUC(Phe) 56591 3 UUA(Leu) 51320 UUG(Leu) 45581 CUU(Leu) 42704 CUC(Leu) 35873 2 CUA(Leu) 15275 CUG(Leu) 16885 8

58 Valores de CAI para E. coli y levadura

59 Distribución de valores de CAI en genes de E. coli y levadura

60 Algoritmo para detectar genes con Bias en su CAI
Calcular wi considerando el 100% genes, y el CAI para todos los genes Seleccionar 50% de los genes con los más altos CAIs y a partir de ellos calcular wi y recalcular el CAI para todos los genes Seleccionar el 25% de los genes del paso anterior con los más CAIs, calculate wi, y recalcular nuevamente los CAIs Repetir hasta seleccionar el 1% de los genes

61 Ejemplo: Bacillus subtilis

62 Desempeño del algoritmo en organismos de rápido crecimiento
Reference set

63 Identificación de genes transferidos horizontalmente
1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio

64 Identificación de genes transferidos horizontalmente
1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio

65 Identificación de genes transferidos horizontalmente
1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio

66 Identificación de genes transferidos horizontalmente
2.- Genes cuyo valor CAI sea menor al promedio menos 2Ds

67 Identificación de genes transferidos horizontalmente
3.- Buscar la intersección de genes seleccionados por CAI y GC Genes transferidos horizontalmente Genes identificados por CAI Genes identificados por GC%

68 Planteamiento de problemas para resolver
Grupo mínimo de genes para la vida Predicción de operones bacterianos Expresividad en unidades transcripcionales Conservación de expresividad entre organismos Identificación de genes transferidos horizontalmente H. pylori Regulación por glucosa en E. coli y B. subtilis


Descargar ppt "Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos."

Presentaciones similares


Anuncios Google