© Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información biomédica
© Copyright Ebiointel,SL 2006 Puntos a tratar: Tipos de datos biomédicos Formatos de presentación de datos Envío de datos Formatos de secuencias Sistemas gestores de bases de datos Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 MilenioLibro 1er Religiosos: Biblia, Corán,... 2º El origen de la especies 3er El genoma humano Human Genome DB
© Copyright Ebiointel,SL 2006 Bases de datos biomédicas Tipos de datos Literatura Secuencias Estructuras 3D 2D Geles 2D Asociación genética (Desequilibrio) Tecnología informática de almacenamiento y recuperación de datos Archivo de texto Base de datos relaciones Base de datos deductivas Base de datos orientada a objetos Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Evolución de las bases de datos moleculares Categoría de base de datos Contenido de los datos Ejemplos Bases de datos de literatura Citaciones bibliográficas Revistas on-line MEDLINE (1971) Bases de datos factuales o datos brutos Seq. ácidos nucleicos, Seq. Aminoácidos Estructuras moleculares 3D GenBankGenBank (1982), EMBL (1982), DDBJ (1984), PIR (1968), SWISS- PROT (1986), PDB (1971) EMBL DDBJSWISS- PROT PDB Base de datos de conocimientos Biblioteca de motivos Clasif. molecular Rutas metabólicas PROSITEPROSITE (1988) SCOPSCOP (1994) KEGGKEGG (1995) Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Primarias Secundarias Terciarias Secuencia Motivo Dominio Módulo A V I L D R Y F H [A S] - [IL ] 2-X [ DE ] – R- [FYW ] 2-H Base de datos primarias Base de datos secundarias Base de datos de estructuras Niveles de secuencia proteica y organización estructural Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Formato de archivo de texto (flat file) o html (GenBank, EMBL) Formato gráfico o applets (PDB, Drosophila GeneView, Human Genoma MapViewer) Formato código binario o texto interpretable por aplicaciones de visualización (archivo dnd de ClustaW) Formato presentación datos Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Envío de secuencias a las bases de datos por el investigador Vía Web en BankIt Usar programa Sequin en Mac, Windows, UNIX En disquete por correo Revisión de las nuevas entradas o actualización Asignación de número de acceso de la base de datos a las nuevas entradas Intercambio de las nuevas secuencias entre las tres principales bases de datos Recopilación de las Secuencias de las grandes bases de datos Almacenamiento y representación de la información Obsoleto
© Copyright Ebiointel,SL 2006 Se suelen enviar las secuencias previo a la publicación Proyectos genomas (High Throughtput Sequence, HTG): Borrador (draft): 1 error en 1kb (4x-5x) Acabado (finished): 1 error en 10 kb (8x-9x) Genome Survey Sequence (GSS) Una única lectura de secuencias de clones genómicos al azar 1 error en 100 bp ESTs (Expressed Tagged Sites) Una única lectura de secuencias de clones de cDNA al azar 1 error en 100 bp Fiabilidad de las secuencias Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Códigos de bases de ácidos nucleicos IUB/GCG Significado Complemento A A T C C G G G C T/U T A M A or C K R A or G Y W A or T W S C or G S Y C or T R K G or T M V A or C or G B H A or C or T D D A or G or T H B C or G or T V X/N G or A or T or C X. not G or A or T or C. Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Códigos de aminoácidos Símbolo de una y tres letras G Glycine Gly P Proline Pro A Alanine Ala V Valine Val L Leucine Leu I Isoleucine Ile M Methionine Met C Cysteine Cys F Phenylalanine Phe Y Tyrosine Tyr W Tryptophan Trp H Histidine His K Lysine Lys R Arginine Arg Q Glutamine Gln N Asparagine Asn E Glutamic Acid Glu D Aspartic Acid Asp S Serine Ser T Threonine Thr Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Formatos de secuencias Ficheros ASCII (editor de texto) Fasta GenBank GCG... Fasta Múltiples secuencias Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Formato GenBank Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Más formatos de secuencias ASN.1 EMBL Swiss Prot FASTA GCG GCG-MSF GCG-RSF GenBank/GenPept NEXUS PHYLIP NBRF y PIR Definición de formatos de secuencias: Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Conversor de formatos ReadSeq : Conversores de formato Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Tecnología informática de almacenamiento y recuperación de datos Base de datos Sistema gestor de la base de datos Archivo de texto Base de datos relaciones Base de datos orientada a objetos Base de datos deductivas Especifica la estructura lógica de la base de datos en función de la definición de los datos Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Base de datos relaciones (Codd 1970) Todos los datos se organizan en tablas Álgebra relacional Intuitivo y comprensible Consultas en lenguaje SQL (Structured Query Language, estándar 1986, 1992, 1999, 2003) Lenguaje declarativo de acceso a bases de datos SELECT lista de atributos FROM lista de relaciones WHERE condición SELECT * FROM TABLA_CITACION WHERE year = ‘2005’ Almacenamiento y representación de la información cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT.
© Copyright Ebiointel,SL 2006 Paper 1 Paper 2 Paper 3 Paper SELECT PROJECT Journal MUIDVolumePagesYear Almacenamiento y representación de la información 2005 SELECT * FROM TABLA_CITACION WHERE year = ‘2005’ Journal MUID VolumePages Year MUIDYear
© Copyright Ebiointel,SL 2006 JOIN Journal MUIDVolumePagesYear Author MUID Author Author 1-1 Author 1-2 Author 2-1 Author 2-2 Author 2-3 Author Almacenamiento y representación de la información MUID Journal VolumePagesYear
© Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información SELECT Ejemplo 1: SELECT * FROM TABLA_NOMBRE ORDER BY ID, FECHA, NOMBRE Ejemplo 2: SELECT NOMBRE, DESCRIPCION FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' ORDER BY ID, FECHA, NOMBRE Ejemplo 3: SELECT NOMBRE, COUNT(*) AS CANTIDAD FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' GROUP BY NOMBRE DELETE Este comando SQL elimina registros de una tabla especifica. Ejemplo 1: DELETE FROM TABLA_NOMBRE WHERE ID = 2
© Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información DPDB DATA MODEL
© Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Ejemplos SGBD relacionales Comerciales ORACLE SQLServer Access Código abierto MySQL PostgreSQL
© Copyright Ebiointel,SL 2006 Base de datos orientada a objetos (Kay 1972) Objetos son tipos abstractos de datos Una representación más flexible del mundo real de datos Falta de lógica robusta Incorpora los conceptos importantes del paradigma de objetos: Encapsulación - Propiedad que permite ocultar la información al resto de los objetos, impidiendo así accesos incorrectos o conflictos. Herencia - Propiedad a través de la cual los objetos heredan comportamiento dentro de una jerarquía de clases. Polimorfismo - Propiedad de una operación mediante la cual puede ser aplicada a distintos tipos de objetos. Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Base de datos orientada a objetos (Kay 1972) Similitud (X) Objeto X mensaje Clase de similitud de secuencia Clase de similitud de estructura Clase de similitud de expresión Clase de similitud de rutas metabólicas Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Integración de Bases de datos Integración basada en Links Base de datos: entrada Base de datos 1:entrada1 Base de datos 2:entrada2 Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 n Programación orientada a objetos (Kay,1972) Programación lógica (Kowalski,1972) Base de datos deductiva (1977) Base de datos orientada a objetos (1986) Base de datos deductiva y orientada a objetos (1989) Base de datos relacional (Codd,1970) Evolución de las Bases de datos Almacenamiento y representación de la información
© Copyright Ebiointel,SL 2006 Internet y la interoperabilidad de datos Desarrollos de estándares en XML Programación Java, C#, Visual Basic, JScript, AJAX,.. Servicios de aplicaciones Web (Visual Studio.Net, Java JBoss, SAD, BioMOBY) Evolución de Internet Almacenamiento y representación de la información