La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Presentaciones similares


Presentación del tema: "Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1"— Transcripción de la presentación:

1 Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

2 INTRODUCCION Secuenciamiento de genomas Clasificación de genes
Ortología Paralogía misma función en especies diferentes diversificación funcional dentro de una misma especie Predicciones confiables sobre función, actividad, estructura 3D y origen.*

3 Clusters of Orthologous Groups of proteins
Clasificación de proteínas a partir de genomas completos sobre la base del concepto de ortología Las relaciones pueden ser: one to one one to many many to many COGs empezó con 6 genomas procariotas y 1 genoma de un eucariota unicelular – 860 COGs En Enero del 2000 : 21 genomas y 2091 COGs En la actualidad : 43 genomas y más de 3307 COGs

4 Tipo de información 1.  Anotación de proteínas.  Funciones conocidas (estructuras 2D, 3D) de algún miembro de un COG pueden ser directamente atribuidas a los otros miembros del mismo.  Cuidado con los parálogos. 2.  Patrones filogenéticos.  Muestran la presencia o ausencia de proteínas de un organismo dado en un COG específico.  (identificación de vías metabólicas en un organismo)*. 3.  Alineamientos múltiples.  Cada página de un determinado COG incluye un link para los alineamientos entre los miembros, esto puede ser usado para identificar residuos conservados y relación evolutiva.

5 Construcción de los COGs
5 principales clados se usaron como contribuyentes al COG: Gram-negative bacteria: Escherichia coli and H. influenzae Gram-positive bacteria: Mycoplasma genitalium and M. pneumoniae Cyanobacteria: Synechocystis sp. Archaea: Methanococcus jannaschii Eukarya: (Fungi) Saccharomyces cerevisiae PASOS: 1. Realizar una comparación de sec. aa todas contra todas. 2. Detectar y colapsar las sec. parálogas. 3. Detectar triángulos best hits (BeTs).

6 KatG: E. coli sll1987: Synechocystis sp YKR066c: S. cerevisiae.

7 RpoH, RpoS, RpoD, and FliA: E. coli
4. Unir los triángulos con un lado común RpoH, RpoS, RpoD, and FliA: E. coli HIN1403 y HIN1655: H. influenzae MG249: M. genitalium MP485: M. pneumoniae sll0184, sll0306, slr0653, sll1689, sll2012, y slr1564: Synechocystis sp.

8 5. Realizar análisis caso por caso de cada COG.
6. Examinar COGs grandes que incluyen múltiples miembros. Nuevos miembros programa COGNITOR. Consistencia de los BeTs específicos de los genomas

9 Para crear los COGs actuales
Se usaron proteínas de 12 genomas bacterianos a los 860 COGs delineados previamente. Miembros de COGs candidatos: * Aproximación two best-hit * Examinación caso por caso de los alin de sec.

10 ESTADISTICAS DE LA BASE DE DATOS
1252 COGs 60% Familias simples -no parálogos o parálogos de una especie Resto de COGs -parálogos de más de una especie -subgrupos distintos Grandes grupos -predicción funcional muy general*

11 ESTADISTICAS DE LA BASE DE DATOS
17 categorías funcionales* 1 clase función general 1 clase sin caracterizar

12 ESTADISTICAS DE LA BASE DE DATOS
aompkzyqvdrlbcefghsnujxitw aompkzyqvdrlbcefghsnuj---- -o e-gh a-m c Distribución desigual de los patrones filogenéticos.

13 Aplicaciones Predicción de función: Para proteínas individuales
Sets de proteínas Nuevos genomas completados Usando COGnitor el número de BeTs para el valor del Cut-Off - Cut-Off de 3 BeTs El rigor (stringency) del análisis puede ser incrementando

14 Aplicaciones Identificar de manera sistemática aquellas familias conservadas (COGs) que están ausentes en un genoma dado Detectar el gen respectivo Buscar alternativa similar a función dada entre productos de genes Aislar COGs con patrón filogenético particular Funcionalidad de “Representación Diferencial de Genomas” Útil para delinear sets de proteínas candidatas para un rango particular de características funcionales Identificar de manera sistemática aquellas familias conservadas (COGs) que están ausentes en un genoma Permite detectar aquellos genes (respectivos) que pueden haber sido no vistos durante la notación del genoma Buscar por una alternativa similar a la función dada entre los productos de los genes La pag web permite aislar todos los COGs con una patrón filogenético particular  características únicas de especies como bacterias patogénicas Da una funcionalidad a la representación diferencial de genomas Permite delinear sets de proteínas candidatas para un rango particular de características funcionales  virulencia o hipertermofilidad

15 Aplicaciones Análisis de familias de proteínas orientado de manera evolutiva Proteínas ortólogas, proteínas parálogas

16 Página Web http://www.ncbi.nlm,nih.gov/COG

17 Página Web http://www.ncbi.nlm,nih.gov/COG
Tipos de información Lista de todos los COGs organizados por categorías funcionales Páginas individuales de COG Página de COGnitor Herramienta de búsqueda del patrón filogenético Matriz de ocurrencia de genomas en COGs Tipos de información que se puede obtener de la base de Datos del COG: Proteínas  función/estructura de un miembro de un COG atribuidas a los otros miembros del mismo COG * las prot parálogas pueden tener función diferente y estar en el mismo COG Patrón filogenético  presencia o ausencia de un organismo en un COG específico * usado para identificar si una ruta metabólica particular existe en un organismo, se observan las funciones de los COGs relacionados con una ruta específica y se puede saber que al presentar las proteínas, lo más probable es que se de esa vía en ese organismo Alineamientos múltiples  cada pag contine link a alineamientos múltiples de los diferentes miembros del COG, pueden ser usados para identificar secuencias de residuos conservados y analizar la relación evolutiva entre miembros del COG

18

19

20 Lista de todos los COGs organizados por categorías funcionales
La lista de COGs muestra todos los COGs que están actualmente en la base de datos número de proteínas en cada COG Patrón filogenético Identificador de proteína Patrón filogenético indicando la contribución de los organismos a cada COG Identificador de proteína Código de función Número único de identificación Nombre de cada COG Código de función Número único de identificación Nombre descriptivo de cada COG

21

22

23 Páginas individuales de COG
Alineamiento múltiple de los miembros del COG producidos automáticamente usando el programa ClustalW Secuencias de residuos conservados Relaciones evolutivas Dendograma del cluster generado usando los valores de BLAST como mediad de similitud entre las proteínas Numero de prot en el COG Código de función Patrón filogenético Número unico del COG Nombre descriptivo del COG Vía o sistema funcional Representación gráfica de los outputs de BLAST para cada miembro del COG (con links a GenBank y Entrez-Genomes)

24

25

26

27 Página de COGnitor Programa que asigna nuevas proteínas a los COGs
Input: secuencia de proteína La compara con toda la base de datos de los COGs para identificar el COG al que la proteína pertenece Secuencia en formato FASTA o Flat file Símbolos: (-) significa aminoácido desconocido, (;) no utilizar el resto de la secuencia (para introducir gaps, o solo una parte de la sec.) Se puede cambiar el nivel de rigor Filtro de baja complejidad  incrementa probabilidad de que los resultados sean biológicamente significantes Inclusión en el COG es sugerida cuando hay BeTs con proteínas de al menos tres clados

28

29 Página de COGnitor OUTPUT
Información sobre el COG al que se predice que pertenece la proteína Un gráfico BLAST mostrando regiones similares entre las prot. y los alineamientos correspondientes Información del COG: Letra asociada a función Nombre del COG Número único del COG (con hyperlink) Un gráfico BLAST mostrando regiones similares entre las prot. y los alineamientos correspondientes: basado en colores Los diferentes colores corresponden a los diferentes grupod de organismos.

30

31

32

33

34 Herramienta de búsqueda: Patrón filogenético
Indica la presencia o ausencia de proteínas de un organismo dado en un COG específico Letras minúsculas o guiones (-) que representan de manera resumida presencia/ausencia en el COG Usado de manera sistemática: permite identificar si un vía metabólica particular existe en un organismo (por las proteínas que presenta)

35 Archeaoglobus fulgidus a 2 Methanococcus jannaschii m … 20
Cada letra representa a un organismo en particular, y tiene una posición asignada en el patrón 1 Archeaoglobus fulgidus a 2 Methanococcus jannaschii m 20 Chlamydia pneumoniae n 21 Rickettsia prowazekii x

36

37

38 Genoma de un organismo, cada proteína asignada a su correspondiente COG, y distribuida en los diferentes grupos funcionales


Descargar ppt "Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1"

Presentaciones similares


Anuncios Google