Análisis y anotación de genomas

Slides:



Advertisements
Presentaciones similares
Ciclo de vida de desarrollo de software
Advertisements

La síntesis de proteínas
Diccionario de Datos (DD)
Detección de elementos funcionales en el genoma
INTRODUCCIÓN A LA BIOINFORMÁTICA
Inducción de proteína recombinante
Aplicaciones de Data Mining en ciencia y tecnología Bioinformática
The Universal Protein Resource: UniProtKB.
BLAST.
HOMOLOGY MODELLING Modelado por homologia o comparativo
Dr. Justo Zanier Mayo 2010 MEDICINA GENOMICA Dr. Justo Zanier Mayo 2010.
CODIGO GENETICO SINTESIS PROTEICA.
FUNCION DE LOS ACIDOS NUCLEICOS
Análisis y anotación de genomas
Administración de Procesos de Pruebas
PROBLEMAS MÁS FRECUENTES DE LOS BUSCADORES AUTOMÁTICOS 1. Demasiados Resultados 2. Sin resultados o demasiado pocos 3. Resultados demasiado lentos.
Bases de datos en Bioinformática
Predicción de genes.
Encuentra las 12 diferencias
International Nucleotide Sequence Database Collaboration
Posibles puntos de regulación de la expresión génica
Código genético y el mecanismo de expresión
Expresión de la información genética
Física y Química Biológica Licenciatura en Enfermería
Detección de Secuencias Reguladoras en el Genoma
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
DNA Mitocondrial (mtDNA) y Nature - volumen de enero de 1987
Genómica Tema 14: Genómica.
Anotación de Genomas con ESTs
Licda. Albertina Montenegro
FRAMSTICKS. CONTENIDOS  CONCEPTO  EJEMPLOS VISUALES  TIPOS DE CRIATURAS  PROGRAMAS ASOCIADOS  OTRAS APLICACIONES  MANEJANDO EL PROGRAMA  ESTUDIO.
COGs Cluster of Orthologous Groups. Genes Ortólogos Comparten una gran similitud en secuencias. Pueden provenir de un ancestro común.
Asignación de Espacio No Contiguo
5.3 APROXIMACIONES AL DISEÑO
Antes de la mitosis (el proceso por el cual no reproductoras o dividir las células somáticas) y la meiosis (proceso mediante el cual los precursores de.
PCR PV92 Secuencias Alu.
Gene Ontology: GO Prof. Dr. José L. Oliverhttp://bioinfo2.ugr.es/oliver.
Bases De Datos En Biología Computacional Cristian S. Rocha 28 de Mayo del 2002.
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alineamiento.
Convirtiendo lecturas de secuencia en un mapa de secuencia
Traducción de proteínas
Sistema de Comunicaciones Documentales
Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional.
Bioinformática: DR_2283 Aida Moreno Moral Pablo Mier Muñoz Claudia Lucía Millán Nebot.
Conceptos básicos sobre Internet
Alex Sánchez Introducción a la Bioinformática Herramientas de búsqueda en bases de datos SRS y Entrez.
TRANSCRIPTOMICA & PROTEOMICA
Bioinformática Introducción. Bioinformática Definición intuitiva Conjunto de herramientas informáticas que sugieren soluciones a problemas biológicos.
INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE
Pruebas y La Vida del Ciclo de Desarrollo del Software
Muchas de las investigaciones sobre el comportamiento de los usuarios de la Web que se están realizando en poblaciones de personas nacidas posteriormente.
Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Ingeniería de Requisitos
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Página Web
CÓDIGO GENÉTICO Transcripción, Traducción y Síntesis Proteica
G R U P O I B E R M Á T I C A Analítica Avanzada & Linked Data.
TEMA 4.7 mRNAs EUCARIÓTICOS.
Estimación de proyectos de software
“ ” Universidad Abierta y a Distancia GAP-GFIN-1501S-B1-021, Fundamentos de Investigación GAP-GFIN-1501S-B1-021, Fundamentos de Investigación Gabriela.
© Copyright Ebiointel,SL 2006
Del ADN a la proteína: expresión génica
© Copyright Ebiointel,SL 2006 Motores Sequence Retrieval System Motores de búsqueda.
SOLUCIONES EMPRESARIALES
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Servicios Web Conjunto de aplicaciones o de tecnologías con capacidad para interoperar en la Web. Estas aplicaciones o tecnologías intercambian datos entre.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
PROSITE: Guía rápida Dirección URL de PROSITE.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Transcripción de la presentación:

Análisis y anotación de genomas Fernán Agüero April 1, 2017 © 2001 - Fernán Agüero

Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB Historia Primer proyecto de secuenciación de un genoma: Escherichia coli (US + Japón). Comenzó en 1992 y terminó en 1997. 4.6 MB Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB Primer genoma (eukarya): Caenorhabditis elegans (). XXX MB April 1, 2017 © 2001 - Fernán Agüero

Qué es un genoma? Una colección de genes que codifican productos proteicos que codifican RNAs pseudogenes regiones no codificantes regulatorias (expresión) estructurales attachment a matriz nuclear mitosis / meiosis elementos repetitivos April 1, 2017 © 2001 - Fernán Agüero

Interpretar la información cruda de secuencia en un marco biológico Qué es anotar? Agregar información, de la manera más confiable y actualizada que se pueda para describir una secuencia Información asociada a coordenadas genómicas (comienzo..fin), a distintos niveles Interpretar la información cruda de secuencia en un marco biológico April 1, 2017 © 2001 - Fernán Agüero

Dos niveles de anotación Anotación genómica Dos niveles de anotación Estructural: encontrar genes y otros sitios con relevancia biológica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posición en el genoma Funcional: los objetos son utilizados en búsquedas (y experimentos). El objetivo es atribuir información biológica relevante a los objetos. April 1, 2017 © 2001 - Fernán Agüero

Más niveles de anotación Organismo: fenotipo: morfología, fisiología, comportamiento, respuestas ambientales Celula: vías metabólicas, cascadas de señalización, localización subcelular. Molecula: sitios de binding, actividad catalítica, estructura tridimensional Dominio Motif Residuo April 1, 2017 © 2001 - Fernán Agüero

De donde proviene la anotación? Fuentes utilizadas en la anotación: publicaciones que reportan nuevas secuencias reviews que actualizan periódicamente la anotación de familias o grupos de proteínas expertos externos análisis de secuencia April 1, 2017 © 2001 - Fernán Agüero

Anotación genómica Reactant A Product B transcription RNA processing ab initio gene prediction Genomic DNA transcription Unprocessed RNA RNA processing Mature mRNA Gm3 AAAAAAA Comparative gene prediction translation Nascent polypeptide folding Active enzyme Functional identification Function Reactant A Product B April 1, 2017 © 2001 - Fernán Agüero

Annotation & functional genomics La anotación del genoma es esencial en el desarrollo de estrategias funcionales (functional genomics) proteome based functional genomics RNAi phenotypes Gene Knockout Expression Microarray April 1, 2017 © 2001 - Fernán Agüero

Anotación: busqueda de genes Buscar genes en el genoma RNA ribosomal RNAs  BLASTN tRNAs  tRNAscan protein coding ab initio gene prediction  ORFs, codon usage, frecuencia de hexámeros, modelos, etc.) similarity  BLASTX, otros Buscar regiones no codificantes regulatorias ab initio  Gibbs sampling similarity  patterns, profiles repetitivas similarity ab initio En todos los casos  literatura! April 1, 2017 © 2001 - Fernán Agüero

Integrar resultados BLASTX BLASTN RepeatMasker Secuencia genoma DB BLASTN Secuencia genoma RepeatMasker tRNASCan flatfiles gene prediction Visualización April 1, 2017 © 2001 - Fernán Agüero

Genome annotation: C. elegans April 1, 2017 © 2001 - Fernán Agüero

Resumir resultados de análisis Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado Prácticamente cualquiera de los análisis que se realizan sobre DNA o proteínas para anotar un genoma pueden resumirse en: secuencia start end cromosoma1 1723 3456 Este formato básico es la base del formato GFF (Sanger) secuencia metodo programa start end frame score extra Contig1 similarity blastx 100 1000 +1 132 gi|12345|AF34093 casein kinase ... Contig1 cds glimmer 85 1201 +1 1321 ORF0001; overlap with ORF0002 Contig1 similarity blastn 80 1300 . 136 gi|54321|AF09990 complete genome April 1, 2017 © 2001 - Fernán Agüero

Anotación: herramientas Artemis http://www.sanger.ac.uk/Software/Artemis Permite visualizar secuencia, con sus traducciones virtuales (6) tracks de anotación (entries) plots (built-ins y creados por el usuario) Lee secuencias en formato FASTA, EMBL, GenBank Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST April 1, 2017 © 2001 - Fernán Agüero

Artemis: main window Sequence view Sequence view Feature list April 1, 2017 © 2001 - Fernán Agüero

AA properties plot para un CDS Artemis: plots %GC plot AA properties plot para un CDS April 1, 2017 © 2001 - Fernán Agüero

Artemis: display de análisis Frameplot BLASTX BLASTN April 1, 2017 © 2001 - Fernán Agüero

Artemis: April 1, 2017 © 2001 - Fernán Agüero

Artemis: zoom April 1, 2017 © 2001 - Fernán Agüero

Artemis: spliced genes April 1, 2017 © 2001 - Fernán Agüero

Artemis: comparar análisis April 1, 2017 © 2001 - Fernán Agüero

En genomas más grandes, la tendencia es a distribuir la anotación Otras estrategias Artemis se usa para anotar genomas bacterianos o para pequeños proyectos (cósmidos, BACs, etc.) En genomas más grandes, la tendencia es a distribuir la anotación Los tracks de anotación son generados en distintos centros Ejemplo: UCSC Genome Browser (genoma humano, ratón). April 1, 2017 © 2001 - Fernán Agüero

Anotación automática: TrEMBL La anotación de TrEMBL (translated EMBL) se hace por métodos automáticos. Requerimientos para anotar automáticamente Una base de datos de referencia bien anotada (ej. Swissprot) Una base de datos que sea altamente confiable (en el sentido diagnóstico) en la asignación de proteínas a grupos o familias (ej CDD, InterPro) Una serie de reglas de anotación April 1, 2017 © 2001 - Fernán Agüero

Transferencia directa de anotación Realizar una búsqueda en la base de datos de referencia y transferir la anotación Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la línea DE del mejor hit XDB Target April 1, 2017 © 2001 - Fernán Agüero

Anotación a partir de múltiples fuentes Generalmente se usa más de una base de datos externa Hay que combinar los resultados XDB Target April 1, 2017 © 2001 - Fernán Agüero

Conflictos Contradicción Inconsistencia Sinónimos Redundancia April 1, 2017 © 2001 - Fernán Agüero

Traducción de anotaciones Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar XDB Target April 1, 2017 © 2001 - Fernán Agüero

Traducciones: algunos ejemplos ENZYME TrEMBL CA L-ALANINE=D-ALANINE CC -!- CATALYTIC ACTIVITY: L-ALANINE= CC D-ALANINE. PROSITE TrEMBL /SITE=3,heme_iron FT METAL IRON Pfam TrEMBL FT DOMAIN zf_C3HC4 FT ZN_FING C3HC4-TYPE April 1, 2017 © 2001 - Fernán Agüero

Requerimientos de un sistema de anotación automática Corrección Escalable Actualizable Poco redundante Completo Vocabulario controlado April 1, 2017 © 2001 - Fernán Agüero

Cómo funciona? Una proteína en TrEMBL es reconocida como un miembro de cierto grupo o familia de proteínas Este grupo de proteínas en Swissprot comparten entre sí partes de la anotación La anotación común es transferida automáticamente a la proteína en TrEMBL y marcada como ‘annotated by similarity’ April 1, 2017 © 2001 - Fernán Agüero

Anotación: evidencias Las anotaciones suelen estar acompañadas de TAGS que indican la evidencia en la que se basa la anotación Ejemplos de algunos TAGS utilizados en TrEMBL: EMBL: la información fue copiada del original (EMBL/GenBank/DDBJ) TrEMBL: anotación modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot Curator: juicio del curador Similarity: por similitud con otra secuencia, a juicio del curador Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper. Opinion: opinión emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental Rulebase: información derivada del uso de una regla de anotación automática SignalP: programa de predicción April 1, 2017 © 2001 - Fernán Agüero

Anotación: manual vs automática La anotación de un genoma ocurre en etapas anotación automática correr todos los análisis sobre el genoma generar un primer borrador con todos los datos organizados. Por ejemplo en páginas web o integrando todos los datos en un display unificado (Artemis) anotación manual: cura de los datos una persona (curador) revisa la anotación, gen por gen, verificando la anotación automática, agregando anotaciones manuales, corriendo eventualmente algún programa particular April 1, 2017 © 2001 - Fernán Agüero

Qué herramientas se usan? Oakridge Genome Annotation Channel http://compbio.ornl.gov/channel ENSEMBL http://ensembl.ebi.ac.uk Artemis http://www.sanger.ac.uk/Software/Artemis GeneQuiz http://www.sander.ebi.ac.uk/genequiz Genome browsers: varios cada consorcio/proyecto desarrolló el suyo: Apollo (FlyBase, Drosophila), AceDB (C. elegans), April 1, 2017 © 2001 - Fernán Agüero

Anotación: fuentes de error Transferencia transitiva de anotaciones gen1 mal anotado como ‘casein kinase’ presente en los bancos de datos gen2 con alta similitud con gen1, resulta anotado como casein kinase Solución: usar bases de datos curadas: por ejemplo Swissprot revisar la anotación de más de un hit verificar que las anotaciones de todos los hits concuerden April 1, 2017 © 2001 - Fernán Agüero

Anotación confiable: proyecto HAMAP High-quality Automated Microbial Annotation of Proteomes Swissprot (Swiss Bioinformatics Institute-European Bioinformatics Institute) CNRS Lyon INRIA Grenoble INRA Toulouse CNRS Marseille Pasteur Institute April 1, 2017 © 2001 - Fernán Agüero

HAMAP Hay muchos genomas bacterianos terminados, pero va a haber muchos más en los próximos años El número de proteínas bacterianas proveniente de estos genomas llegará al millón muy rápidamente Pero el análisis funcional y una caracterización detallada van a exsitir sólo en unos pocos casos: todas las proteínas de organismos modelo (E. coli, B. subtilis) proteínas involucradas en patogénesis (interés médico e industrial) proteínas involucradas en vías metabólicas específicas (interés biotecnológico) April 1, 2017 © 2001 - Fernán Agüero

Prioridades del proyecto HAMAP Anotación de proteínas huérfanas Pre-anotación de proteínas pertenecientes a familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH) Anotación de alta calidad de proteínas pertenecientes a familias bien caracterizadas Anotación manual de proteínas caracterizadas experimentalmente en ese organismo Anotación manual de proteínas no caracterizadas que muestren similitud con otras proteínas April 1, 2017 © 2001 - Fernán Agüero

Estrategia HAMAP ORFans April 1, 2017 © 2001 - Fernán Agüero

No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) HAMAP: ORFans No tienen similitud con otras proteínas (excepto tal vez otras proteínas de organismos muy cercanos) No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) Qué se hace: Predicción de señales Predicción de regiones trans-membrana Predicción de coiled-coils Anotación de repeticiones April 1, 2017 © 2001 - Fernán Agüero

HAMAP: ORFan antes April 1, 2017 © 2001 - Fernán Agüero

HAMAP: ORFan después April 1, 2017 © 2001 - Fernán Agüero

HAMAP: large/complex families April 1, 2017 © 2001 - Fernán Agüero

HAMAP: anotación automática Transferencia automática de anotación Usando reglas específicas para cada famila de proteínas Usando reglas específicas para un organismo particular La transferencia de anotación puede ir acompañada de advertencias para el curador Por ejemplo: WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB) April 1, 2017 © 2001 - Fernán Agüero

HAMAP: ejemplo reglas April 1, 2017 © 2001 - Fernán Agüero

HAMAP: Escherichia coli De acuerdo al análisis original: 4286 proteínas 60 proteínas no detectadas (casi todas < 100 aa) 120 muy probablemente no existan 50 pares o tripletes de ORFs tuvieron que ser fusionados 719 con errores en la asignación del codón de inicio ~1800 todavía sin caracterización bioquímica (aproximadamente una asignación funcional por semana) April 1, 2017 © 2001 - Fernán Agüero

Chromosome browsers UCSC Genome Browser Annotation tracks provee un display rápido de cualquier región genómica con varios “tracks” de anotación alineados al genoma Por el momento sólo: Human & Mouse Annotation tracks genes conocidos (RefSeq, GenBank) predicted genes (Genscan, FGENESH, GeneID, Acembly) spliced ESTs CpG islands assembly gaps cobertura bandas cromosómicas elementos repetitivos etc April 1, 2017 © 2001 - Fernán Agüero

UCSC sólo genera la mitad de los tracks UCSC Genome browser UCSC sólo genera la mitad de los tracks El resto proviene de la comunidad biomédica El Genome Browser es una herramienta de visualización No saca conclusiones! Simplemente integra en forma gráfica toda la información que posee sobre una región, dejando la exploración y la interpretación al usuario. April 1, 2017 © 2001 - Fernán Agüero

UCSC Genome Browser: gene expression April 1, 2017 © 2001 - Fernán Agüero

UCSC Genome browser: alternative splicing April 1, 2017 © 2001 - Fernán Agüero

UCSC Genome browser: complex transcription April 1, 2017 © 2001 - Fernán Agüero

UCSC Genoma browser: user tracks Ustedes pueden agregar sus propios tracks Pueden ser públicos o privados No necesitan saber programar Tienen que proveer información en formato GFF (u otros similares: GTF, BED) chrom start end [name strand score] chr1 1302347 1302357 SP1 + 800 chr1 1504778 1504787 SP2 – 980 April 1, 2017 © 2001 - Fernán Agüero

Secuenciación de ESTs de Tupaia belangeri Ejemplo Secuenciación de ESTs de Tupaia belangeri Mamífero pequeño Bibliotecas de cDNA sustractivas de hipocampo Alfonso et al J Neurosci Res (2004) 78: 702 April 1, 2017 © 2001 - Fernán Agüero

Anotación y clasificación funcional de los ESTs Anotación ESTs Anotación y clasificación funcional de los ESTs Alfonso et al J Neurosci Res (2004) 78: 702 April 1, 2017 © 2001 - Fernán Agüero

ESTs que mapean en intrones de genes conocidos ESTs Tupaia ESTs que mapean en intrones de genes conocidos April 1, 2017 © 2001 - Fernán Agüero

ESTs que mapean dentro de intrones de genes conocidos ESTs Tupaia ESTs que mapean dentro de intrones de genes conocidos April 1, 2017 © 2001 - Fernán Agüero

Tupaia ESTs April 1, 2017 © 2001 - Fernán Agüero

Daniel Lawson, Sanger Centre Acknowledgements Nicola Mulder, EBI Daniel Lawson, Sanger Centre April 1, 2017 © 2001 - Fernán Agüero