Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias http://mendel.uab.es/doctorat/genomica/
Puntos a tratar en este Tema : Métodos de secuenciación del DNA Secuenciación ordenada (clon a clon) STS y ETS Secuenciación aleatoria (Shotgun) Mapas de expresión Bancos de datos Análisis bioinfomático Paquetes de programas http://mendel.uab.es/doctorat/genomica/
Mapas físicos y genéticos Xg Proteína grupo sanguíneo Ictiosis (un efermedad de la piel) Albinismo ocular Angioqueratoma (crecto celular) Centrómero Fosfoglicerato-quinasa Alfa-galactosidasa Xm Deutan (ceguera color rojo-verde) G6PD Protano (ceguera color rojo-verde) Hemofilía A Mapas genéticos (de ligamiento o recombinación): basados en distancias o frecuencias de recombinación Mapa de ligamiento parcial del cromosoma X de la especie humana
Mapa genético del Cromosoma 1 Homo sapiens.
Mapas físicos y genéticos Mapas físicos: la distancia entre marcadores es una distancia física real, basada en bp, Posición citológica en los cromosomas, o fragmentos de cromosomas.
Secuenciación automatizada del DNA Secuenciación basada en la terminación de cadena
Vector de clonación Vector plasmídico Vector bacteriófago M13 Fagémido
Interpretación de un cromatograma con Chroma
Alternativas de secuenciación Limitaciones de la aproximación clásica 1/5.000.000 cada experimento Secuenciación por capilaridad 96 canales, 96 secuencias en paralelo < 2 horas/run -> 1000 secuencias/día Pirosecuenciación Adición nucleótidos libera pirofosfato Con enzima sulfurilasa produce flash luminiscente DNA chips 8-meros 65539 combinaciones. 256 bases legibles 10-meros 1048576 combinaciones, 1kb 20-meros 1012 combinaciones, 1MB
Alternativas de secuenciación DNA chips (1 millón oligonucleótidos por cm2) 8-meros 65539 combinaciones. 256 bases legibles (raíz cuadrada de las posibles combinaciones) 10-meros 1048576 combinaciones, 1kb 20-meros 1012 combinaciones, 1MB
Proyecto Genoma humano Ensamblaje de secuencias de DNA contiguas Estrategia del perdigonazo (shotgun) Gran éxito en microorganismos (Haemophilus influenzae) Aproximación Clon a clon (Consorcio público) Aproximación del perdigonazo dirigida (Celera Genomics) Francis S. Collins Proyecto Genoma humano Consorcio público J. Craig Venter PE Celera Genomics
Arquitectura del genoma de Haemophilus influenzae
Microorganismos secuenciados
Aproximación consorcio público: clon a clon (jerárquica)
Aproximación consorcio público: clon a clon (jerárquica)
Mapeo y Anclaje de STSs STS (Sequence tagged sites): Secuencia conocida (permite ensayo con PCR) Único Fuentes de STS ESTs (Expressed sequence tags) SSLPs (single sequence length polymorphisms) Random genomic sequences
Mapa de STSs
Integración de mapas mediante el anclaje de STSs Contigs Mapa de clones Mapa de STSs Recombinación RH
Estrategias de secuenciación del genoma: Clon a clon vs. Perdigonazo (shotgun)
Microorganismos secuenciados Nuestra visión del árbol de la vida debe ser modificada Familias génicas forman un léxico de biología molecular 50% genes son URFs (unidentified reading frames) Mínimo número de genes para sostener el tipo moderno de célula es 256 El ancestro común de Gram-positivas y negativas tenía probablemente más de 1000 genes Gene shuffling ORFs faltantes de genes existentes
Cada genoma completo suministra una cornucopia de información biológica: Conocimiento del número total de genes Principios sobre la organización básica del organismo (clases funcionales,...) Conocer funciones básicas de los genes conservados en distintas especies (léxico biología molecular) Miramos el bosque, no el árbol
Organismos eucariotas secuenciados Caenorhabditis elegans (gusano nemátodo) Saccharamyces cerevisiae (levadura del pan) Drosophila melanogaster (mosca de la fruta) Arabidopsis thaliana (mala hierba de los prados)
# pb Organismo # genes 3000 Mb H. sapiens 120 Mb A. thaliana D. melanogaster 97 Mb C. elegans 12 Mb S. cerevisiae # pb Organismo ~100.000 ~25.000 ~13.600 ~19.000 ~6.000 # genes 3000 genes compartidos entre levadura, drosophila y nematodos (maquinaria básica eucariota) 200 familias en común en fly y nematodo: kit básico para el desarrollo de un animal. 289 genes nefermedades en humanos 177 (61%) en Drosophila. Drosophila 22% no conocidos.
Bioinformática Lista de bases de datos de biología molecular en NAR http://nar.oupjournals.org/content /vol28/issue1/
Bases de datos Primarias Compuestas Secundarias
Bases primarias y compuestas de DNA y Proteínas European Bioinformatics Institute (EBI-UK) Home Page SRSWWW at EMBnet/CNB The National Center for Biotechnology Information (GenBank) NCBI als EEUU: Entrez DNA Data Bank of Japan (DDBJ) Nucleic Acid Database Genome Sequence Database (GSDB) Genome Database (GDB) SwissProt Protein Data Bank (at EBI) Protein Data Bank (USA) Protein Information Resource (PIR at Europe) PRF HOME PAGE
SRS
Entrez
Bases secundarias REBASE Codon Usage Database Motius SCOP Clasificació estructural de proteïnes (Univ. de Cambridge) Prosite Diccionari de motius (Suissa) Motif Cerques de motius proteics al Japó Estructura NRL Protein Structure Database Swiss-Model
Bases genòmiques THE INSTITUTE FOR GENOMIC RESEARCH The Sanger Centre : Projects Microorganismes TIGR Microbial Database MAGPIE GENOME SEQUENCING PROJECT LIST MBCR home page Pseudomonas Genome Project: Obtaining Sequences Streptococcus pyogenes Genomes eucariotes Human Genome Mapping Project Saccharomyces Genome Database Drosophila Anopheles Caenorhabditis elegans
Eines i software de biologia molecular a la xarxa Software de biologia molecular: The Biocatalog Molecular Biology Shortcuts Biotools
Los ORFs mayores, el 2 y 5, son potenciales genes candidatos Los 6 marcos de lectura posibles obtenidos a partir de una secuencia de 9 kb de un hongo Los ORFs mayores, el 2 y 5, son potenciales genes candidatos
Protocolo para localización de genes a partir de la inspección de la secuencia Traducción conceptual de la secuencia Detección ORFs Sesgo de codones Límites exón-intrón Secuencias de control río arriba Búsqueda de homologías
Ejercicio Observa el patrón de bandas fingerprint de una pareja y sus 5 hijos. Contesta a las siguientes cuestiones: ¿Qué marcadores se heredan juntos? ¿Qué marcadores parece ser alelos de un mismo locus? ¿Qué marcadores segregan independientemente? ¿Qué marcadores parecen estar ligados en trans? ¿Qué marcadores pueden estar ligados a la enfermedad P?
Ejercicio Cinco clones YAC de DNA humano se probaron para STSs. a. Dibuja el mapa físico de los STSs ordenados b. Alinea los YACs en un contig
Ejercicio Este es el pedigrí de una familia con fibrosis quística (en negro). El hijo mayor se ha casado con un primo segundo. Para saber si es portador ha efectuado un test molecular con tres sondas de RFLPs que se sabe están ligadas al gen de la FQ. ¿Es este hombre homocigoto normal o portador? ¿Son sus tres hermanos normales portador o normales? ¿De qué padre heredaron el alelo cada portador?