Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Slides:



Advertisements
Presentaciones similares
PSI-BLAST.
Advertisements

The Universal Protein Resource: UniProtKB.
BLAST.
Master en Recursos Humanos
Exploración del genoma de cáncer en plasma: Detección de aberraciones del número de copias relacionadas con el tumor, variantes de nucleótido único y heterogeneidad.
Encuentra las 12 diferencias
Conceptos básicos Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos) Uso preferencial de codones, CAI y expresividad Microarreglos.
International Nucleotide Sequence Database Collaboration
Ciclo de formulación del proyecto.
TUTORIAL PDBSUM Proteína 3NVY
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
CAPÍTULO 4. FUENTES DE DATOS EN
Habilidades de Pensamiento Científico
Lab 2. Evolución y clasificación
MÉTODOS DE BÚSQUEDA DE ARBOLES Y OPTIMIZACIÓN
DNA Mitocondrial (mtDNA) y Nature - volumen de enero de 1987
Genome-Wide Analysis of the Core DNA Replication
PROSPECCIÓN DE GENES CANDIDATOS PARA CARACTERES ASOCIADOS AL RENDIMIENTO EN TRIGO PAN Ramírez IA 1, AC Pontaroli 2 Introducción 1 FCA-UNMdP; 2 EEA Balcarce.
Técnicas multivariantes:
Estadística aplicada al análisis financiero
Técnicas moleculares I
Especificación de Consultas M
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Diagrama de Flujo La presentación gráfica de sistemas es una forma ampliamente utilizada como herramienta de análisis,  ya que permite identificar aspectos.
COGs Cluster of Orthologous Groups. Genes Ortólogos Comparten una gran similitud en secuencias. Pueden provenir de un ancestro común.
Búsqueda de Ancestros Comunes Para Genomas de Diferentes Especies
Alexandre D. Salcianu and Martin C. Rinard. Definiciones  Un método es puro si no “muta” ninguna locación existente en el estado correcto anterior a.
ESTRUCTURACIÓN JERÁRQUICA EN TAXONOMÍA
4/24/2015Mg. Q.F. Jéssica N. Bardales Valdivia1 Herramientas para las ciencias de la vida Biotecnology.
Introducción a la Estadística Informática
El lenguaje puede construir una vida o destruirla, según sea la intención del que habla
Representaciones gráficas
Matrices de Substitución PAM Y BLOSUM
¿ QUE ES ? ¿ PARA QUE SIRVE ? Herramienta on line de Análisis que permite elegir las sociedades concretas con las que se desea comparar. Permite configurar.
Comparar secuencias = Obtener información
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Ejercicio en Mapas de Restricción
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
Alfonso Varela Toro José Ramón Polo López MODELADO DE LA MAQUINARIA CELULAR A TRAVÉS DE LA COMPARACIÓN DE REDES BIOLÓGICAS.
Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional.
Evolución Microbiana y Sistemática
Matrices de sustitución
Bioinformática: DR_2283 Aida Moreno Moral Pablo Mier Muñoz Claudia Lucía Millán Nebot.
GUTIÉRREZ GRANADOS HÉCTOR DANIEL
El flujo de información genética Microbiología 2011-ICB,U.N.Cuyo M. Virginia Sánchez Puerta y Carlos Marfil 5 de septiembre de 2011.
Aprendizaje No Supervisado y Redes de Kohonen
Bioinformática Introducción. Bioinformática Definición intuitiva Conjunto de herramientas informáticas que sugieren soluciones a problemas biológicos.
Profesores: Coral del Val Muñoz Igor Zwir Horarios: Teoría: Viernes de 16:00-18:00. Aula Prácticas: Viernes.
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Representación de Algoritmos
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Biología: la vida en la Tierra
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Laboratorio 2 Clasificación y Evolución.
7/22/2015copyright (your organization) Herramientas para las ciencias de la vida Biotecnology.
Bacterioplancton y Bacterias Degradadoras de Hidrocarburos
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Página Web
Biología Molecular Vanessa Z. Cardona Cardona Biol 3051.
MIDIENDO EL CRECIMIENTO MICROBIANO
 1. Estudio de casos:  Origen: Max Weber  Se trabaja con un pequeño numero de casos y se comparan de forma global entre ellos para llegar a generalizaciones.
TAXONOMÍA BACTERIANA La taxonomía es la ciencia de la clasificación biológica Comprende tres partes independientes pero relacionadas: La clasificación,
Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta.
REGRESIÓN LINEAL MÚLTIPLE
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
PROSITE: Guía rápida Dirección URL de PROSITE.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Transcripción de la presentación:

Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1 THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

INTRODUCCION Secuenciamiento de genomas Clasificación de genes Ortología Paralogía misma función en especies diferentes diversificación funcional dentro de una misma especie Predicciones confiables sobre función, actividad, estructura 3D y origen.*

Clusters of Orthologous Groups of proteins Clasificación de proteínas a partir de genomas completos sobre la base del concepto de ortología Las relaciones pueden ser: one to one one to many many to many COGs empezó con 6 genomas procariotas y 1 genoma de un eucariota unicelular – 860 COGs En Enero del 2000 : 21 genomas y 2091 COGs En la actualidad : 43 genomas y más de 3307 COGs

Tipo de información 1.  Anotación de proteínas.  Funciones conocidas (estructuras 2D, 3D) de algún miembro de un COG pueden ser directamente atribuidas a los otros miembros del mismo.  Cuidado con los parálogos. 2.  Patrones filogenéticos.  Muestran la presencia o ausencia de proteínas de un organismo dado en un COG específico.  (identificación de vías metabólicas en un organismo)*. 3.  Alineamientos múltiples.  Cada página de un determinado COG incluye un link para los alineamientos entre los miembros, esto puede ser usado para identificar residuos conservados y relación evolutiva.

Construcción de los COGs 5 principales clados se usaron como contribuyentes al COG: Gram-negative bacteria: Escherichia coli and H. influenzae Gram-positive bacteria: Mycoplasma genitalium and M. pneumoniae Cyanobacteria: Synechocystis sp. Archaea: Methanococcus jannaschii Eukarya: (Fungi) Saccharomyces cerevisiae PASOS: 1. Realizar una comparación de sec. aa todas contra todas. 2. Detectar y colapsar las sec. parálogas. 3. Detectar triángulos best hits (BeTs).

KatG: E. coli sll1987: Synechocystis sp YKR066c: S. cerevisiae.

RpoH, RpoS, RpoD, and FliA: E. coli 4. Unir los triángulos con un lado común RpoH, RpoS, RpoD, and FliA: E. coli HIN1403 y HIN1655: H. influenzae MG249: M. genitalium MP485: M. pneumoniae sll0184, sll0306, slr0653, sll1689, sll2012, y slr1564: Synechocystis sp.

5. Realizar análisis caso por caso de cada COG. 6. Examinar COGs grandes que incluyen múltiples miembros. Nuevos miembros programa COGNITOR. Consistencia de los BeTs específicos de los genomas

Para crear los COGs actuales Se usaron proteínas de 12 genomas bacterianos a los 860 COGs delineados previamente. Miembros de COGs candidatos: * Aproximación two best-hit * Examinación caso por caso de los alin de sec.

ESTADISTICAS DE LA BASE DE DATOS 1252 COGs 60% Familias simples -no parálogos o parálogos de una especie Resto de COGs -parálogos de más de una especie -subgrupos distintos Grandes grupos -predicción funcional muy general*

ESTADISTICAS DE LA BASE DE DATOS 17 categorías funcionales* 1 clase función general 1 clase sin caracterizar

ESTADISTICAS DE LA BASE DE DATOS aompkzyqvdrlbcefghsnujxitw aompkzyqvdrlbcefghsnuj---- -o------------e-gh-------- a-m----------c------------ Distribución desigual de los patrones filogenéticos.

Aplicaciones Predicción de función: Para proteínas individuales Sets de proteínas Nuevos genomas completados Usando COGnitor el número de BeTs para el valor del Cut-Off - Cut-Off de 3 BeTs El rigor (stringency) del análisis puede ser incrementando

Aplicaciones Identificar de manera sistemática aquellas familias conservadas (COGs) que están ausentes en un genoma dado Detectar el gen respectivo Buscar alternativa similar a función dada entre productos de genes Aislar COGs con patrón filogenético particular Funcionalidad de “Representación Diferencial de Genomas” Útil para delinear sets de proteínas candidatas para un rango particular de características funcionales Identificar de manera sistemática aquellas familias conservadas (COGs) que están ausentes en un genoma Permite detectar aquellos genes (respectivos) que pueden haber sido no vistos durante la notación del genoma Buscar por una alternativa similar a la función dada entre los productos de los genes La pag web permite aislar todos los COGs con una patrón filogenético particular  características únicas de especies como bacterias patogénicas Da una funcionalidad a la representación diferencial de genomas Permite delinear sets de proteínas candidatas para un rango particular de características funcionales  virulencia o hipertermofilidad

Aplicaciones Análisis de familias de proteínas orientado de manera evolutiva Proteínas ortólogas, proteínas parálogas

Página Web http://www.ncbi.nlm,nih.gov/COG

Página Web http://www.ncbi.nlm,nih.gov/COG Tipos de información Lista de todos los COGs organizados por categorías funcionales Páginas individuales de COG Página de COGnitor Herramienta de búsqueda del patrón filogenético Matriz de ocurrencia de genomas en COGs Tipos de información que se puede obtener de la base de Datos del COG: Proteínas  función/estructura de un miembro de un COG atribuidas a los otros miembros del mismo COG * las prot parálogas pueden tener función diferente y estar en el mismo COG Patrón filogenético  presencia o ausencia de un organismo en un COG específico * usado para identificar si una ruta metabólica particular existe en un organismo, se observan las funciones de los COGs relacionados con una ruta específica y se puede saber que al presentar las proteínas, lo más probable es que se de esa vía en ese organismo Alineamientos múltiples  cada pag contine link a alineamientos múltiples de los diferentes miembros del COG, pueden ser usados para identificar secuencias de residuos conservados y analizar la relación evolutiva entre miembros del COG

Lista de todos los COGs organizados por categorías funcionales La lista de COGs muestra todos los COGs que están actualmente en la base de datos número de proteínas en cada COG Patrón filogenético Identificador de proteína Patrón filogenético indicando la contribución de los organismos a cada COG Identificador de proteína Código de función Número único de identificación Nombre de cada COG Código de función Número único de identificación Nombre descriptivo de cada COG

Páginas individuales de COG Alineamiento múltiple de los miembros del COG producidos automáticamente usando el programa ClustalW Secuencias de residuos conservados Relaciones evolutivas Dendograma del cluster generado usando los valores de BLAST como mediad de similitud entre las proteínas Numero de prot en el COG Código de función Patrón filogenético Número unico del COG Nombre descriptivo del COG Vía o sistema funcional Representación gráfica de los outputs de BLAST para cada miembro del COG (con links a GenBank y Entrez-Genomes)

Página de COGnitor Programa que asigna nuevas proteínas a los COGs Input: secuencia de proteína La compara con toda la base de datos de los COGs para identificar el COG al que la proteína pertenece Secuencia en formato FASTA o Flat file Símbolos: (-) significa aminoácido desconocido, (;) no utilizar el resto de la secuencia (para introducir gaps, o solo una parte de la sec.) Se puede cambiar el nivel de rigor Filtro de baja complejidad  incrementa probabilidad de que los resultados sean biológicamente significantes Inclusión en el COG es sugerida cuando hay BeTs con proteínas de al menos tres clados

Página de COGnitor OUTPUT Información sobre el COG al que se predice que pertenece la proteína Un gráfico BLAST mostrando regiones similares entre las prot. y los alineamientos correspondientes Información del COG: Letra asociada a función Nombre del COG Número único del COG (con hyperlink) Un gráfico BLAST mostrando regiones similares entre las prot. y los alineamientos correspondientes: basado en colores Los diferentes colores corresponden a los diferentes grupod de organismos.

Herramienta de búsqueda: Patrón filogenético Indica la presencia o ausencia de proteínas de un organismo dado en un COG específico Letras minúsculas o guiones (-) que representan de manera resumida presencia/ausencia en el COG Usado de manera sistemática: permite identificar si un vía metabólica particular existe en un organismo (por las proteínas que presenta)

Archeaoglobus fulgidus a 2 Methanococcus jannaschii m … 20 Cada letra representa a un organismo en particular, y tiene una posición asignada en el patrón 1 Archeaoglobus fulgidus a 2 Methanococcus jannaschii m … 20 Chlamydia pneumoniae n 21 Rickettsia prowazekii x

Genoma de un organismo, cada proteína asignada a su correspondiente COG, y distribuida en los diferentes grupos funcionales