Bases de datos en Bioinformática
Introducción a la Bioinformática Contenidos La bioinformática y las bases de datos Las bases de datos en biología molecular Formato de la información almacenada Introducción a la Bioinformática
Información en la era genómica El proyecto genoma humano y similares genera un inmenso flujo de información Para poder utilizar esta información, ha de estar almacenada correctamente El acceso a la información almacenada ... Ha de ser rápido Debe poder hacerse de manera flexible Esto es posible gracias a la creación de bases de datos y distribución vía Internet. Introducción a la Bioinformática
Para que se utilizan las bases de datos ? Búsqueda de información. Por palabra clave, números de acceso, autores... Búsqueda de homologías ¿Hay secuencias igual o parecidas a la mía ? Búsqueda de patrones ¿Mi secuencia contienen patrones conocidos? Predicciones ¿Puedo encontrar proteínas parecidas a la mía, pero con función conocida? Introducción a la Bioinformática
Aspectos a tener en cuenta Los proveedores de recursos Centros o organizaciones especializadas en tener y mantener las bases de datos. Bases de datos Hay mucha variedad y contiene información diversa Las herramientas Para encontrar información en las BD Para contrastar secuencias contra las BD Para exportar la información Introducción a la Bioinformática
Principales proveedores de recursos El National Center for Biotechnology Information (NCBI) centraliza los bancos de datos y aplicacions de EEUU El European Bioinformatics Institute (EBI) realiza una función similar en Europa GenomeNet reune bases de datos diversas en Japón Introducción a la Bioinformática
Principales bases de datos en Biología Molecular
Introducción a la Bioinformática Tipos de bases de datos Existen cientos de BD en número tan elevado que no es práctico enumerarlas (aunque aquí lo intentan) Por el tipo de información que contienen distinguimos Bases de datos bibliográficas Bases de datos taxonómicas Bases de datos de nucleótidos Bases de datos genómicas Bases de datos de proteinas Bases de datos de microarrays Introducción a la Bioinformática
Bases de datos bibliográficas Organización de los artículos publicados en la revistas de ámbito científico. Pubmed (NCBI) Medline (EBI) Biocatalog: organización de los artículos por temáticas concretas de biología molecular. Introducción a la Bioinformática
Bases de datos taxonómicas Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Introducción a la Bioinformática
Bases de datos de nucleótidos Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Introducción a la Bioinformática
Bases de datos de genomas Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Introducción a la Bioinformática
Bases de datos de proteínas Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Introducción a la Bioinformática
Introducción a la Bioinformática Proteínas (II) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Introducción a la Bioinformática
Introducción a la Bioinformática Proteínas (III) Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Introducción a la Bioinformática
Bases de datos de microarrays Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab) Introducción a la Bioinformática
4. El formato de la información Introducción a la Bioinformática
Introducción a la Bioinformática Estructura de las BD La calidad de la información en una base de datos, está muy relacionas con su estructura Este aspecto también es crucial para su eficiencia y accesibilidad . En la actualidad no existe ningún formato único y estándar, usualmente cada base de datos impone su propio formato. Introducción a la Bioinformática
Ejemplo entrada Genbank Introducción a la Bioinformática
Introducción a la Bioinformática Ejemplo entrada EMBL Introducción a la Bioinformática
Información sobre los formatos de las bases de datos Introducción a la Bioinformática