La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

© Copyright Ebiointel,SL 2006

Presentaciones similares


Presentación del tema: "© Copyright Ebiointel,SL 2006"— Transcripción de la presentación:

1 © Copyright Ebiointel,SL 2006
Análisis de genomas © Copyright Ebiointel,SL 2006

2 © Copyright Ebiointel,SL 2006
Análisis de Genomas Puntos a tratar: Interés de los proyectos genomas La secuenciación de genomas Bases de datos de genomas Anotación de genomas Genómica comparativa Visualizadores del genoma humano What's Next? © Copyright Ebiointel,SL 2006

3 Miramos el bosque, no el árbol
Análisis de Genomas Cada genoma completo suministra una fuente inagotable de información biológica: Conocimiento del número total de genes Conocimiento de la estructura de genes, regiones reguladoras y otros elementos funcionales Principios sobre la organización básica del organismo (clases funcionales,...) Conocer funciones básicas de los genes conservados en distintas especies (léxico biología molecular) Organización secuencia en los cromosomas (saco de genes o sistema integrado información) Evolución genoma (conservación orden de genes, evolución secuencia) Gen del habla (SNP) Miramos el bosque, no el árbol © Copyright Ebiointel,SL 2006

4 Criterios para la secuenciación de genomas
Análisis de Genomas Criterios para la secuenciación de genomas Amplio conocimiento biológico previo Patógeno humano Interés filogenético Bases de datos genómicas Microorganismos Boom Anotación a gran escala Clasificación funcional de proteínas Conjunto mínimo esencial de genes Cluster de grupos ortólogos (COG) 2000 -> en 21 especies Descubrimiento de antibióticos Mediante análisis filogenéticos se seleccionan proteínas dianas a lo largo clados bacterianos (broad spectrum antibiotics) pero alejados del hombre © Copyright Ebiointel,SL 2006

5 Hierarchical Shotgun Sequencing
Secuenciación de Genomas Hierarchical Shotgun Sequencing vs Shotgun Sequencing Borrador (draft): 1 error en 1kb (4x-5x) Acabado (finished): 1 error en 10 kb (8x-9x) Gene number, exact locations, and functions Gene regulation DNA sequence organization Chromosomal structure and organization Noncoding DNA types, amount, distribution, information content, and functions Coordination of gene expression, protein synthesis, and post-translational events Interaction of proteins in complex molecular machines Predicted vs experimentally determined gene function Evolutionary conservation among organisms Protein conservation (structure and function) Proteomes (total protein content and function) in organisms Correlation of SNPs (single-base DNA variations among individuals) with health and disease Disease-susceptibility prediction based on gene sequence variation Genes involved in complex traits and multigene diseases Complex systems biology including microbial consortia useful for environmental restoration Developmental genetics, genomics Ensamblado de la secuencia © Copyright Ebiointel,SL 2006

6 Bases de datos genómicas
Análisis de Genomas Bases de datos genómicas GOLD[TM] Genomes OnLine Database v 2.0 Information regarding complete and ongoing genome projects Genome Sequencing Proposals Entrez Genomes Buscar el número de genomas de mamíferos que se están secuenciando por el método WSG (Whole Genome Shotgun) © Copyright Ebiointel,SL 2006 Links genómica

7 Bases de datos genómicas
Análisis de Genomas Bases de datos genómicas TIGR Microbial Database Microbial genomes and chromosomes ACeDB C. elegans, S. pombe, and human sequences and genomic information FlyBase Drosophila sequences and genomic information MITOMAP Human mitochondrial genome © Copyright Ebiointel,SL 2006 Links genómica

8 Genomas de microorganismos secuenciados
Análisis de Genomas Genomas de microorganismos secuenciados Nuestra visión del árbol de la vida debe ser modificada © Copyright Ebiointel,SL 2006

9 Tipos celulares básicos
Análisis de Genomas Tipos celulares básicos U na gran promiscuidad original que romple la regla exclusiva de la transmisión vertical. Reticulación de la evolución © Copyright Ebiointel,SL 2006

10 Genomas de microorganismos secuenciados
Análisis de Genomas Genomas de microorganismos secuenciados Nuestra visión del árbol de la vida debe ser modificada 40% genes son URFs (unidentified reading frames) Mínimo número de genes para sostener el tipo moderno de célula es Importancia de transferencia horizontal (en E. coli 12,5% genoma) Gene shuffling ORFs faltantes de genes existentes Descubrimiento de antibióticos (broad spectrum antibiotics) Causas de patogenidad (ej. Yersinia pseudotuberculosis y Yersinia pestis) © Copyright Ebiointel,SL 2006

11 Genomas de microorganismos secuenciados
Análisis de Genomas Genomas de microorganismos secuenciados Causas de patogenidad (ej. Yersinia pseudotuberculosis y Yersinia pestis Science 2002) © Copyright Ebiointel,SL 2006

12 Bases de datos genómicas
Análisis de Genomas Bases de datos genómicas Arabidopsis thaliana Genoma arroz International Rice Genome Sequencing Project, coordinado por el RGP de Japón Fugu genome project Fugu genomics project Fugu Genoma ratón Genoma rata – genes Numerosos episodios de poliploidía y/o duplicación segmental Tanto Arabidopsis como arroz más familias génicas que animales u hongos. Algunas son específicas de planta: biosíntesis pared celular, proteínas de transporte de nutrientes orgánicos, enzimas y moléculas para la fotosíntesis (Rubisco), respuestas fototrófica y gravitrópica, enzimas y citocromos de metabolitos secundarios, resistencia patógenos Muchas enzimas de replicación y reparación del DNA son más próximas a las de humanos que la de humanos a Drosophila © Copyright Ebiointel,SL 2006

13 Vertebrados secuenciados
Análisis de Genomas Vertebrados secuenciados – genes Numerosos episodios de poliploidía y/o duplicación segmental Tanto Arabidopsis como arroz más familias génicas que animales u hongos. Algunas son específicas de planta: biosíntesis pared celular, proteínas de transporte de nutrientes orgánicos, enzimas y moléculas para la fotosíntesis (Rubisco), respuestas fototrófica y gravitrópica, enzimas y citocromos de metabolitos secundarios, resistencia patógenos Muchas enzimas de replicación y reparación del DNA son más próximas a las de humanos que la de humanos a Drosophila © Copyright Ebiointel,SL 2006

14 © Copyright Ebiointel,SL 2006
The human genome El genoma humano Servicios bioinformaticos Entra en la revolución bioinformática La revolución bioinformática esta aquí Predica con el ejemplo Aprenda a usar innovadora y eficientemente las herramientas bioinformáticas Existen herramientas bioinformáticas que han transformado la investigación y la docencia La revolución bionformática es una revolución tanto en contenidos como en la forma de la docencia, y ambos deben estar íntimamente integrados en la estructura de un curso moderno. Liderar esta innovación en España Ampliación negocio grupos de empresas biomédicas, hospitales y universidades La disponibilidad de ordenadores e internet en las aulas permite la introducción de numerosas innovaciones para la mejora de la docencia y gestión del curso La revolución bionformática es una revolución tanto en contenidos como en la forma de la docencia, y ambos deben estar íntimamente integrados en la estructura de un curso moderno © Copyright Ebiointel,SL 2006

15 Bases de datos genoma humano
Análisis de Genomas Bases de datos genoma humano Genoma Humano en GenBank Visualizador Genoma Humano Guía al genoma humano Ensembl Annotated human Genome sequence data UCSC UCSC Genome Browser © Copyright Ebiointel,SL 2006

16 Anotación del genoma Análisis de Genomas
Se dispone de la secuencia de un genoma ensamblada Anotación del genoma Identificación de repeticiones (Repeat masker, Reputer, …) Predicción de los genes que codifican para proteínas Métodos ab initio (GenScan, Genmark, Glimmer,…) Comparación genoma con mRNA (EST) (blastn, sim4,…) Comparación genoma con proteínas (blastx, genewise) Predicción de RNA genes Métodos ab initio (tRNAScanSE, snoRNA,…) Comparación genoma con RNA (EST) (blatn, sim4,…) Otros elementos Pseudogenes (por similitud, blastn, blastx) Elementos reguladores (islas CpG, promotores??) Gene number, exact locations, and functions Gene regulation DNA sequence organization Chromosomal structure and organization Noncoding DNA types, amount, distribution, information content, and functions Coordination of gene expression, protein synthesis, and post-translational events Interaction of proteins in complex molecular machines Predicted vs experimentally determined gene function Evolutionary conservation among organisms Protein conservation (structure and function) Proteomes (total protein content and function) in organisms Correlation of SNPs (single-base DNA variations among individuals) with health and disease Disease-susceptibility prediction based on gene sequence variation Genes involved in complex traits and multigene diseases Complex systems biology including microbial consortia useful for environmental restoration Developmental genetics, genomics © Copyright Ebiointel,SL 2006

17 Sistemas de anotación automáticos
Recursos para el análisis del genoma GeneQuiz: un sistema integrado para el análisis de secuencias biológicas y manejo de datos a gran escala Magpie: Automated Genome Project Investigation Environment Pedant: analysis of protein sequence sets from individual sequences to complete genomes Ensembl: software system which produces and maintains automatic annotation on metazoan genomes © Copyright Ebiointel,SL 2006

18 © Copyright Ebiointel,SL 2006
Análisis de Genomas GeneQuiz: 4 módulos (perl): The database update The search system The interpretation module The visualization and browsing system GeneQuiz permita saber el nivel de homología de las proteínas de cada genoma © Copyright Ebiointel,SL 2006

19 © Copyright Ebiointel,SL 2006
Análisis de Genomas Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia Traducción conceptual de la secuencia Detección pautas abierta de lectura (ORFs): sucesión de codones sin STOP (ORF promedio = ~150 nc Distinción región codificante: composición bases Sesgo de codones Frec. Aminoácidos Correlación entre aa vecinos Mejora algoritmo probándola con genes conocidos Frec. de oligómeros (Hidden Markow models) Búsqueda señales: sitios conservados Señales splicing: límites exón-intrón sitio aceptor y receptor, branch point Codón inicio traducción y terminación (STOP) Ponderación por matrices (perfiles) © Copyright Ebiointel,SL 2006

20 © Copyright Ebiointel,SL 2006
Análisis de Genomas Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia (2) Construcción un modelo del gen Combinación del exón con las fases compatibles Búsqueda de las secuencias limítrofes Exones terminales (5’, 3’) Promotores Señal de poliadenilación © Copyright Ebiointel,SL 2006

21 Predicción de genes que codifican para proteína: Resumen
Análisis de Genomas Predicción de genes que codifican para proteína: Resumen © Copyright Ebiointel,SL 2006

22 ORF Finder (Open Reading Frame Finder) al NCBI
Análisis de Genomas Links buscadores de genes Ejemplo: ORF Finder (Open Reading Frame Finder) al NCBI Ejercicios Buscar ORF con Genscan, o Metagene en una secuencia problema de Arabidopsis y de la secuencia del gen BRCA1 de humanos Identificación de genes en secuencia genómica Secuencia problema Arabidopsis © Copyright Ebiointel,SL 2006

23 Análisis del proteoma codificado por un genoma secuenciado
Análisis de Genomas Búsqueda de homologías Análisis del proteoma codificado por un genoma secuenciado © Copyright Ebiointel,SL 2006

24 Autocomparación del proteoma todo contra todo
Análisis de Genomas Autocomparación del proteoma todo contra todo Se buscan alineamientos todos contra todos E < 10-6 (conservativo) (Rubin et al. 2000) Alineamientos > 80% identidad (conservativo) Son secuencias parálogas Análisis de clusters Consulta a una base de datos bien anotada de secuencias y dominios (Swis-Prot, Intepro) Obtenemos el Core Proteome © Copyright Ebiointel,SL 2006

25 © Copyright Ebiointel,SL 2006
Análisis de Genomas Core Proteoma Se requieren un kit de familias -> Complejidad mínima para la complejidad multicelular Rubin et al. Science 287: © Copyright Ebiointel,SL 2006

26 Métodos ab initio (in silico)
Análisis de Genomas Anotación Predicción de genes “in silico“ Asignación funcional (homología otras proteínas, información patrones, estructura,..) 1. Predicción de genes Métodos ab initio (in silico) 2. Análisis proteoma © Copyright Ebiointel,SL 2006

27 Comparación entre genomas
Análisis de Genomas Comparación entre genomas Localización de secuencias ortólogas © Copyright Ebiointel,SL 2006

28 Sistemas de anotación automáticos
Análisis de Genomas Ensembl Sistemas de anotación automáticos © Copyright Ebiointel,SL 2006

29 © Copyright Ebiointel,SL 2006
Análisis de Genomas Ortólogo vs Parálogo Duplicación Especiación Presente Especie 1 Especie 2 Los pares 1 y 2, y 1 y  2 son ortólogos Los pares 1 y 1, 1 y 2, 2 y 1 y 2 y 1 son parálogos © Copyright Ebiointel,SL 2006

30 © Copyright Ebiointel,SL 2006
Análisis de Genomas Ortólogo vs Parálogo © Copyright Ebiointel,SL 2006

31 Localización de ortólogos
Análisis de Genomas Localización de ortólogos Criterios al comparar de proteomas El par putativo de ortólogos deben dar el mejor hit al consultar la secuencias de cada uno con la del genoma del otro E muy bajo < (Conservativo) o 0,01 (no conservativo) y alineamientos > 80% identidad (conservativo) o 60% (no conservativos) Análisis de clusters las secuencias agrupadas Obtenemos los clusters de grupos homólogos © Copyright Ebiointel,SL 2006

32 Clusters de grupos homólogos (ortólogos)
Análisis de Genomas Clusters de grupos homólogos (ortólogos) BeT method, Basado en comparaciones a pares de genomas completos (Tatusov, R. L. et al., (1997) A genomic perspective on protein families. Science 278(5338), 631-7) © Copyright Ebiointel,SL 2006

33 © Copyright Ebiointel,SL 2006
Análisis de Genomas Ejemplos de hits en bases de datos dependiendo del dominio estructural de la proteína © Copyright Ebiointel,SL 2006

34 © Copyright Ebiointel,SL 2006
Análisis de Genomas Cluster de ortólogos The number of groups containing single copy orthologs from C.elegans, D.melanogaster and S.cerevisiae is reported in Panopoulou et al. (2003) New evidence for genome-wide duplications at the origin of vertebrates using an amphioxus gene set and completed animal genomes. Genome Research, 13 (6a), ) Clusters of Orthologous Grous (COG) Phylogenetic classification of proteins Ejercicio Buscar ortólogos en genomas eucariotas del gen Isocitrate Dehydrogenase y del Phospholipase C © Copyright Ebiointel,SL 2006

35 © Copyright Ebiointel,SL 2006
Análisis de Genomas © Copyright Ebiointel,SL 2006

36 © Copyright Ebiointel,SL 2006
Análisis de Genomas © Copyright Ebiointel,SL 2006

37 © Copyright Ebiointel,SL 2006
Análisis de Genomas © Copyright Ebiointel,SL 2006

38 © Copyright Ebiointel,SL 2006
Análisis de Genomas Genómica comparativa Principio básico Todo elementos funcional está constreñido por la selección natural Detección de la huella de la selección en las secuencias genómicas © Copyright Ebiointel,SL 2006

39 La genómica comparativa es fundamental para:
Análisis de Genomas Genómica comparativa La genómica comparativa es fundamental para: Detección Genes Detección regiones reguladoras Detectar funciones nuevas y conservadas Evolución genoma Evolución Proteínas Modelos animales estudios fisiología y enfermedades © Copyright Ebiointel,SL 2006

40 © Copyright Ebiointel,SL 2006
Análisis de Genomas Rubin et al. Science 287: © Copyright Ebiointel,SL 2006

41 Análisis de Genomas Distribución de homologías en proteínas humanas
Sólo procariotas <1% Eucariota y procariota 21% Sólo vertebrados 22% Animales y otros eucariotas 32% Vertebrados y otros animales 24% No homología animal 1% Que es ser vertebrado desde el punto de vista del número de genes (instrucciones genéticas). Y ser animal? ... © Copyright Ebiointel,SL 2006

42 © Copyright Ebiointel,SL 2006
Genómica comparativa Genoma ratón 14% menor genoma humano (2,5 Gb vs 2,9 Gb) 90% ambos genomas presentan sintenia A nivel nucleotídico 40% GH se alinea con GR Tasa substitución neutra 0,5 por sitio. Doble ratón que humanos % genoma sometido a selec purificadora >5% Evolución no uniforme del genoma Ambos ~ mismo número genes, % único ortólogo, sin homología <1% © Copyright Ebiointel,SL 2006

43 Genómica comparativa Distribución de homologías en proteínas humanas
Que es ser vertebrado desde el punto de vista del número de genes (instrucciones genéticas). Y ser animal? ... © Copyright Ebiointel,SL 2006

44 © Copyright Ebiointel,SL 2006
Genómica comparativa Nature 2003, 423: © Copyright Ebiointel,SL 2006

45 © Copyright Ebiointel,SL 2006
Genómica comparativa Metodología con una sensibilidad y precisión comparable o superior al análisis experimental © Copyright Ebiointel,SL 2006

46 Vertebrados secuenciados
Análisis de Genomas Vertebrados secuenciados – genes Numerosos episodios de poliploidía y/o duplicación segmental Tanto Arabidopsis como arroz más familias génicas que animales u hongos. Algunas son específicas de planta: biosíntesis pared celular, proteínas de transporte de nutrientes orgánicos, enzimas y moléculas para la fotosíntesis (Rubisco), respuestas fototrófica y gravitrópica, enzimas y citocromos de metabolitos secundarios, resistencia patógenos Muchas enzimas de replicación y reparación del DNA son más próximas a las de humanos que la de humanos a Drosophila © Copyright Ebiointel,SL 2006

47 Clasificación funcional
Análisis de Genomas Clasificación funcional Desde: Simples categorías (energía, información, comunicación) Esquema de clasificación Gene Ontology (GO) que engloba: Papel biológico (Why?) Función molecular (What?) Localización celular (Where?) Molecular Function Ontology the tasks performed by individual gene products; examples are carbohydrate binding and ATPase activity Biological Process Ontology broad biological goals, such as mitosis or purine metabolism, that are accomplished by ordered assemblies of molecular functions Cellular Component Ontology subcellular structures, locations, and macromolecular complexes; examples include nucleus, telomere, and origin recognition complex © Copyright Ebiointel,SL 2006

48 © Copyright Ebiointel,SL 2006
Análisis de Genomas Gene Ontology © Copyright Ebiointel,SL 2006

49 Clasificación funcional
Análisis de Genomas Clasificación funcional   GO: : Gene_Ontology ( )       GO: : biological_process ( )       GO: : behavior ( 2298 )     GO: : biological_process unknown ( )     GO: : cellular process ( )     GO: : development ( )     GO: : obsolete biological process ( 97 )     GO: : physiological process ( )     GO: : regulation of biological process ( )     GO: : viral life cycle ( 255 )     GO: : cellular_component ( )       GO: : cell ( )     GO: : cellular_component unknown ( )     GO: : extracellular ( 5011 )     GO: : immunoglobulin complex ( 19 )     GO: : obsolete cellular component ( 25 )     GO: : unlocalized ( 550 )     GO: : virion ( 127 )     GO: : molecular_function ( )       GO: : antioxidant activity ( 322 )     GO: : binding ( )     GO: : catalytic activity ( )     GO: : chaperone activity ( 894 )     GO: : chaperone regulator activity ( 13 )     GO: : enzyme regulator activity ( 1851 )     GO: : molecular_function unknown ( )     GO: : motor activity ( 423 )     GO: : nutrient reservoir activity ( 36 )     GO: : obsolete molecular function ( 675 )     GO: : signal transducer activity ( 6503 )     GO: : structural molecule activity ( 3002 )     GO: : transcription regulator activity ( 7944 )     GO: : translation regulator activity ( 602 )     GO: : transporter activity ( 9113 )     GO: : triplet codon-amino acid adaptor activity ( 553 ) © Copyright Ebiointel,SL 2006

50 Genes bien caracterizados
Análisis de Genomas Genes bien caracterizados RefSeq database Reference Sequence Project LocusLink Locus Link GeneCards Genes humanos © Copyright Ebiointel,SL 2006

51 © Copyright Ebiointel,SL 2006
OMIM Online Mendelian Inheritance in Man Catalog of human genetic and genomic disorders MIM (Mendelian Inheritance in Man): Victor A. McKusick. Catálogo MIM (1966)- 12 ediciones impresas OMIM Statistics Gen distrofina (dystrophin) © Copyright Ebiointel,SL 2006

52 Bases de datos genoma humano
Análisis de Genomas Bases de datos genoma humano Genoma Humano en GenBank Visualizador Genoma Humano Guía al genoma humano Ensembl Annotated human Genome sequence data UCSC UCSC Genome Browser Ejercicios de búsqueda en el genoma humano © Copyright Ebiointel,SL 2006

53 Alineamiento de genomas
Análisis de Genomas Alineamiento de genomas MUMmer is a system for aligning whole genome sequences. Using an efficient data structure called a suffix tree, the system is able rapidly to align sequences containing millions of nucleotides. It is fully described in: A.L. Delcher, S. Kasif, R.D. Fleischmann, J. Peterson, O. White, and S.L. Salzberg. Alignment of whole genomes. Nucleic Acids Research, 27:11 (1999), © Copyright Ebiointel,SL 2006

54 © Copyright Ebiointel,SL 2006
Análisis de Genomas What's Next? Turning Genomics Vision Into Reality The International HapMap Project ENCyclopedia Of DNA Elements (ENCODE) Structural Genomics Consortium © Copyright Ebiointel,SL 2006

55 © Copyright Ebiointel,SL 2006
Análisis de Genomas Ejercicio integrador Estudiar la secuencia de un gen humano asociado a una enfermedad, su localización en el genoma, su función GO, la predicción de su estructura proteica, sus SNPS y sus homólogos en otros mamíferos. Un gen paradigmático sería el gen de la fibrosis quística (Cystic fibrosis) © Copyright Ebiointel,SL 2006

56 © Copyright Ebiointel,SL 2006
Análisis de Genomas Fibrosis quística © Copyright Ebiointel,SL 2006

57 © Copyright Ebiointel,SL 2006
Análisis de Genomas Ver respuesta © Copyright Ebiointel,SL 2006


Descargar ppt "© Copyright Ebiointel,SL 2006"

Presentaciones similares


Anuncios Google