La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

May 31, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

Presentaciones similares


Presentación del tema: "May 31, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero."— Transcripción de la presentación:

1 May 31, 2014© Fernán Agüero Análisis y anotación de genomas Fernán Agüero

2 May 31, 2014© Fernán Agüero Historia Primer proyecto de secuenciación de un genoma: Escherichia coli (US + Japón). Comenzó en 1992 y terminó en MB Primer genoma (eubacteria): Haemophilus influenzae (1995) MB Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB Primer genoma (eukarya): Caenorhabditis elegans (). XXX MB

3 May 31, 2014© Fernán Agüero Qué es un genoma? Una colección de –genes que codifican productos proteicos que codifican RNAs –pseudogenes –regiones no codificantes regulatorias (expresión) estructurales –attachment a matriz nuclear –mitosis / meiosis –elementos repetitivos

4 May 31, 2014© Fernán Agüero Qué es anotar? Agregar información, de la manera más confiable y actualizada que se pueda para describir una secuencia Información asociada a coordenadas genómicas (comienzo..fin), a distintos niveles Interpretar la información cruda de secuencia en un marco biológico

5 May 31, 2014© Fernán Agüero Anotación genómica Dos niveles de anotación –Estructural: encontrar genes y otros sitios con relevancia biológica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posición en el genoma –Funcional: los objetos son utilizados en búsquedas (y experimentos). El objetivo es atribuir información biológica relevante a los objetos.

6 May 31, 2014© Fernán Agüero Más niveles de anotación Organismo: fenotipo: morfología, fisiología, comportamiento, respuestas ambientales Celula: vías metabólicas, cascadas de señalización, localización subcelular. Molecula: sitios de binding, actividad catalítica, estructura tridimensional Dominio Motif Residuo

7 May 31, 2014© Fernán Agüero De donde proviene la anotación? Fuentes utilizadas en la anotación: –publicaciones que reportan nuevas secuencias –reviews que actualizan periódicamente la anotación de familias o grupos de proteínas –expertos externos –análisis de secuencia

8 May 31, 2014© Fernán Agüero Anotación genómica transcription RNA processing translation AAAAAAA Genomic DNA Unprocessed RNA Mature mRNA Nascent polypeptide folding Reactant AProduct B Function Active enzyme ab initio gene prediction Functional identification Gm 3 Comparative gene prediction

9 May 31, 2014© Fernán Agüero Annotation & functional genomics Gene Knockout Expression Microarray RNAi phenotypes proteome based functional genomics La anotación del genoma es esencial en el desarrollo de estrategias funcionales (functional genomics)

10 May 31, 2014© Fernán Agüero Anotación: busqueda de genes Buscar genes en el genoma –RNA ribosomal RNAs BLASTN tRNAs tRNAscan –protein coding ab initio gene prediction ORFs, codon usage, frecuencia de hexámeros, modelos, etc.) similarity BLASTX, otros Buscar regiones no codificantes –regulatorias ab initio Gibbs sampling similarity patterns, profiles –repetitivas similarity ab initio En todos los casos literatura!

11 May 31, 2014© Fernán Agüero Integrar resultados Secuencia genoma BLASTX BLASTN RepeatMasker tRNASCan gene prediction DB flatfiles Visualización

12 May 31, 2014© Fernán Agüero Genome annotation: C. elegans

13 May 31, 2014© Fernán Agüero Resumir resultados de análisis Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado Prácticamente cualquiera de los análisis que se realizan sobre DNA o proteínas para anotar un genoma pueden resumirse en: –secuenciastartend –cromosoma Este formato básico es la base del formato GFF (Sanger) secuenciametodo programastart end frame score extra Contig1 similarity blastx gi|12345|AF34093 casein kinase... Contig1cds glimmer ORF0001; overlap with ORF0002 Contig1similarity blastn gi|54321|AF09990 complete genome

14 May 31, 2014© Fernán Agüero Anotación: herramientas Artemis –http://www.sanger.ac.uk/Software/Artemis –Permite visualizar secuencia, con sus traducciones virtuales (6) tracks de anotación (entries) plots (built-ins y creados por el usuario) –Lee secuencias en formato FASTA, EMBL, GenBank –Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST

15 May 31, 2014© Fernán Agüero Artemis: main window Feature list Sequence view

16 May 31, 2014© Fernán Agüero Artemis: plots %GC plot AA properties plot para un CDS

17 May 31, 2014© Fernán Agüero Artemis: display de análisis Frameplot BLASTX BLASTN

18 May 31, 2014© Fernán Agüero Artemis:

19 May 31, 2014© Fernán Agüero Artemis: zoom

20 May 31, 2014© Fernán Agüero Artemis: spliced genes

21 May 31, 2014© Fernán Agüero Artemis: comparar análisis

22 May 31, 2014© Fernán Agüero Otras estrategias Artemis se usa para anotar genomas bacterianos o para pequeños proyectos (cósmidos, BACs, etc.) En genomas más grandes, la tendencia es a distribuir la anotación Los tracks de anotación son generados en distintos centros Ejemplo: UCSC Genome Browser (genoma humano, ratón).

23 May 31, 2014© Fernán Agüero Anotación automática: TrEMBL La anotación de TrEMBL (translated EMBL) se hace por métodos automáticos. –Requerimientos para anotar automáticamente Una base de datos de referencia bien anotada (ej. Swissprot) Una base de datos que sea altamente confiable (en el sentido diagnóstico) en la asignación de proteínas a grupos o familias (ej CDD, InterPro) Una serie de reglas de anotación

24 May 31, 2014© Fernán Agüero Transferencia directa de anotación Realizar una búsqueda en la base de datos de referencia y transferir la anotación Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la línea DE del mejor hit Target XDB

25 May 31, 2014© Fernán Agüero Anotación a partir de múltiples fuentes Generalmente se usa más de una base de datos externa Hay que combinar los resultados Target XDB

26 May 31, 2014© Fernán Agüero Conflictos Contradicción Inconsistencia Sinónimos Redundancia

27 May 31, 2014© Fernán Agüero Traducción de anotaciones Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar Target XDB

28 May 31, 2014© Fernán Agüero Traducciones: algunos ejemplos ENZYME TrEMBL CA L-ALANINE=D-ALANINE CC -!- CATALYTIC ACTIVITY: L-ALANINE= CC D-ALANINE. PROSITE TrEMBL /SITE=3,heme_iron FT METAL IRON Pfam TrEMBL FT DOMAIN zf_C3HC4 FT ZN_FING C3HC4-TYPE

29 May 31, 2014© Fernán Agüero Requerimientos de un sistema de anotación automática Corrección Escalable Actualizable Poco redundante Completo Vocabulario controlado

30 May 31, 2014© Fernán Agüero Cómo funciona? Una proteína en TrEMBL es reconocida como un miembro de cierto grupo o familia de proteínas Este grupo de proteínas en Swissprot comparten entre sí partes de la anotación La anotación común es transferida automáticamente a la proteína en TrEMBL y marcada como annotated by similarity

31 May 31, 2014© Fernán Agüero Anotación: evidencias Las anotaciones suelen estar acompañadas de TAGS que indican la evidencia en la que se basa la anotación Ejemplos de algunos TAGS utilizados en TrEMBL: –EMBL: la información fue copiada del original (EMBL/GenBank/DDBJ) –TrEMBL: anotación modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot –Curator: juicio del curador –Similarity: por similitud con otra secuencia, a juicio del curador –Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper. –Opinion: opinión emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental –Rulebase: información derivada del uso de una regla de anotación automática –SignalP: programa de predicción

32 May 31, 2014© Fernán Agüero Anotación: manual vs automática La anotación de un genoma ocurre en etapas –anotación automática correr todos los análisis sobre el genoma generar un primer borrador con todos los datos organizados. Por ejemplo en páginas web o integrando todos los datos en un display unificado (Artemis) –anotación manual: cura de los datos una persona (curador) revisa la anotación, gen por gen, verificando la anotación automática, agregando anotaciones manuales, corriendo eventualmente algún programa particular

33 May 31, 2014© Fernán Agüero Qué herramientas se usan? Oakridge Genome Annotation Channel –http://compbio.ornl.gov/channel ENSEMBL –http://ensembl.ebi.ac.uk Artemis –http://www.sanger.ac.uk/Software/Artemis GeneQuiz –http://www.sander.ebi.ac.uk/genequiz Genome browsers: varios – cada consorcio/proyecto desarrolló el suyo: Apollo (FlyBase, Drosophila), AceDB (C. elegans),

34 May 31, 2014© Fernán Agüero Anotación: fuentes de error Transferencia transitiva de anotaciones –gen1 mal anotado como casein kinase presente en los bancos de datos –gen2 con alta similitud con gen1, resulta anotado como casein kinase Solución: –usar bases de datos curadas: por ejemplo Swissprot –revisar la anotación de más de un hit –verificar que las anotaciones de todos los hits concuerden

35 May 31, 2014© Fernán Agüero Anotación confiable: proyecto HAMAP High-quality Automated Microbial Annotation of Proteomes –Swissprot (Swiss Bioinformatics Institute-European Bioinformatics Institute) –CNRS Lyon –INRIA Grenoble –INRA Toulouse –CNRS Marseille –Pasteur Institute

36 May 31, 2014© Fernán Agüero HAMAP Hay muchos genomas bacterianos terminados, pero va a haber muchos más en los próximos años El número de proteínas bacterianas proveniente de estos genomas llegará al millón muy rápidamente Pero el análisis funcional y una caracterización detallada van a exsitir sólo en unos pocos casos: –todas las proteínas de organismos modelo (E. coli, B. subtilis) –proteínas involucradas en patogénesis (interés médico e industrial) –proteínas involucradas en vías metabólicas específicas (interés biotecnológico)

37 May 31, 2014© Fernán Agüero Prioridades del proyecto HAMAP Anotación de proteínas huérfanas Pre-anotación de proteínas pertenecientes a familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH) Anotación de alta calidad de proteínas pertenecientes a familias bien caracterizadas Anotación manual de proteínas caracterizadas experimentalmente en ese organismo Anotación manual de proteínas no caracterizadas que muestren similitud con otras proteínas

38 May 31, 2014© Fernán Agüero Estrategia HAMAP ORFans

39 May 31, 2014© Fernán Agüero HAMAP: ORFans No tienen similitud con otras proteínas (excepto tal vez otras proteínas de organismos muy cercanos) No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) Qué se hace: –Predicción de señales –Predicción de regiones trans-membrana –Predicción de coiled-coils –Anotación de repeticiones

40 May 31, 2014© Fernán Agüero HAMAP: ORFan antes

41 May 31, 2014© Fernán Agüero HAMAP: ORFan después

42 May 31, 2014© Fernán Agüero HAMAP: large/complex families

43 May 31, 2014© Fernán Agüero HAMAP: anotación automática Transferencia automática de anotación –Usando reglas específicas para cada famila de proteínas –Usando reglas específicas para un organismo particular La transferencia de anotación puede ir acompañada de advertencias para el curador –Por ejemplo: WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB)

44 May 31, 2014© Fernán Agüero HAMAP: ejemplo reglas

45 May 31, 2014© Fernán Agüero HAMAP: Escherichia coli De acuerdo al análisis original: 4286 proteínas –60 proteínas no detectadas (casi todas < 100 aa) –120 muy probablemente no existan –50 pares o tripletes de ORFs tuvieron que ser fusionados –719 con errores en la asignación del codón de inicio –~1800 todavía sin caracterización bioquímica (aproximadamente una asignación funcional por semana)

46 May 31, 2014© Fernán Agüero Chromosome browsers UCSC Genome Browser –provee un display rápido de cualquier región genómica –con varios tracks de anotación alineados al genoma –Por el momento sólo: Human & Mouse Annotation tracks –genes conocidos (RefSeq, GenBank) –predicted genes (Genscan, FGENESH, GeneID, Acembly) –spliced ESTs –CpG islands –assembly gaps –cobertura –bandas cromosómicas –elementos repetitivos –etc

47

48 May 31, 2014© Fernán Agüero UCSC Genome browser UCSC sólo genera la mitad de los tracks El resto proviene de la comunidad biomédica El Genome Browser es una herramienta de visualización No saca conclusiones! Simplemente integra en forma gráfica toda la información que posee sobre una región, dejando la exploración y la interpretación al usuario.

49 May 31, 2014© Fernán Agüero UCSC Genome Browser: gene expression

50 May 31, 2014© Fernán Agüero UCSC Genome browser: alternative splicing

51 May 31, 2014© Fernán Agüero UCSC Genome browser: complex transcription

52 May 31, 2014© Fernán Agüero UCSC Genoma browser: user tracks Ustedes pueden agregar sus propios tracks Pueden ser públicos o privados No necesitan saber programar Tienen que proveer información en formato GFF (u otros similares: GTF, BED) chrom start end [name strand score] chr SP chr SP2 – 980

53 May 31, 2014© Fernán Agüero Ejemplo Secuenciación de ESTs de Tupaia belangeri –Mamífero pequeño –Bibliotecas de cDNA sustractivas de hipocampo Alfonso et al J Neurosci Res (2004) 78: 702

54 May 31, 2014© Fernán Agüero Anotación ESTs Anotación y clasificación funcional de los ESTs Alfonso et al J Neurosci Res (2004) 78: 702

55 May 31, 2014© Fernán Agüero ESTs Tupaia ESTs que mapean en intrones de genes conocidos

56 May 31, 2014© Fernán Agüero ESTs Tupaia ESTs que mapean dentro de intrones de genes conocidos

57 May 31, 2014© Fernán Agüero Tupaia ESTs

58 May 31, 2014© Fernán Agüero Acknowledgements Nicola Mulder, EBI Daniel Lawson, Sanger Centre


Descargar ppt "May 31, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero."

Presentaciones similares


Anuncios Google