La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Recerca biològica a la Web

Presentaciones similares


Presentación del tema: "Recerca biològica a la Web"— Transcripción de la presentación:

1 Recerca biològica a la Web
2. Bases de dades moleculars

2 Informació a la era genòmica
El projecte genoma humà i similars generen un immens flux d’informació Per a poder utilitzar-la, aquesta ha d’estar emmagatzemada correctament L’accés ha de ser ràpid i flexible Això és possible gràcies a la creació de bases de dades i a la seva distribució via Internet

3 Per què s’utilitzen les bases de dades?
Cerca d’informació: Per paraula clau, números d’accés, autors, ... Cerca d’homologies: Hi ha seqüències iguals o similars a la meva? Cerca de patrons: Conté la meva seqüència patrons coneguts? Prediccions: Puc trobar proteïnes similars a la meva, però amb funció coneguda?

4 Tipus de bases de dades moleculars
Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

5 Tipus de bases de dades moleculars
Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Organització dels articles publicats a les revistes d’àmbit científic: PubMed (NCBI) Medline Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

6 Tipus de bases de dades moleculars
Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Classificació dels éssers vius Classificació jeràrquica i basada en informació molecular Controvèrsia comunitat taxonòmica Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

7 Tipus de bases de dades moleculars
Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Seqüències obtingudes pels laboratoris experimentals Actualització diària Bases de dades que interconnectades: Genbank (NCBI) EMBL (EBI) KEGG (Genome Network) Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

8 Tipus de bases de dades moleculars
Seqüències i anotacions de genomes complets: Ensembl, Genomes (EBI) Genome Viewer (NCBI) Goldenpath (UCSC) Recursos especialitzats: Transfact (llocs d’unió a factors de transcripció) EST (Expressed Seq Tags) UTRdb (Untranslated reg) SpliceSitesDB (Parells de senyals de splicing) Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

9 Tipus de bases de dades moleculars
Seqüències primàries d’aminoàcids: Sense revisió humana: Trembl (EBI) Protein (NCBI) Amb revisió de l’anotació: SwissProt (EBI) Proteomes: PIR (Georgetown) Integr8 (EBI) Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

10 Tipus de bases de dades moleculars
Estructures secundàries o dominis: BLOCKS (motius alineats de PROSITE / PRINTS) PROSITE (expressions regulars sobre SwissProt) PRINTS (conjunt de motius que defineixen una família sobre SwissProt / TrEMBL PFAM (Markov models sobre SwissProt) INTERPRO (integració de múltiples bases de dades de dominis) Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

11 Tipus de bases de dades moleculars
Estructures tridimensionals de macromolècules amb les coordenades a l’espai de cada àtom: PDB (estructura) CATH (classificació de PDB en diferents grups funcionals i estructurals) MMCB (subset de PDB mantingut pel NCBI) MSD (subset del PDB mantingut per l’EBI) Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

12 Tipus de bases de dades moleculars
Altres bases de dades especialitzades: DIP (interaccions entre proteïnes) Swiss 2D-page (mapes bidimensionals) BRENDA (enzims) PharmGKB (dianes terapèutiques) Therapeutic Target Database (dianes terapèutiques) Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

13 Tipus de bases de dades moleculars
Bibliogràfiques Taxonòmiques De nucleòtids Genòmiques De proteïnes De microarrays Imatges i resultats obtinguts per arrays d’expressió: ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab) Bases de datos taxonómicas: Son BD que contienen información sobre la clasificación de los seres vivos Esta clasificación es básicamente jerárquica y basada en información molecular Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Bases de datos de nucleótidos: Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica Existen varias BD que intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) Bases de datos de genomas: Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) Existen también recursos genómicos especializados Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Bases de datos de proteínas: Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Swisprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS: Motivos alineados de PROSITE/PRINTS PROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL PFAM: Modelos de Markov sobre Swiss-prot INTERPRO: Integra la información de muchas bases de datos de dominios. Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI Bases de datos de microarrays: Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. ArrayExpress (EBI) Riken Expression Array Database Eisen Laboratory (Lawrence Berkeley National Lab)

14 The Molecular Biology Database Collection
Nucleic Acids Research The Molecular Biology Database Collection: 2006 update There are hundreds of biological databases on the Web, and many alternate web interfaces that provide access to the same sets of data. Which ones you use depends on your needs, but it’s necessary for you to be aware of what the central data repositories are for various datatypes, and how often the more peripheral databases you might be using synchronize themselves with these central data sources.

15 The Molecular Biology Database Collection

16 The Molecular Biology Database Collection

17 Principals proveïdors d’informació

18 EMBL - EBI TOOLBOX: The European Bioinformatics Institute (EBI) toolbox area provides a comprehensive range of tools for the field of bioinformatics. These are subdivided into categories in the left menu for convenience. DATABASES: SRS: SRS is a powerful data integration platform, providing rapid, easy and user friendly access to the large volumes of diverse and heterogeneous Life Science data stored in more than 400 internal and public domain databases. 2CAN: '2can Support Portal' website contains simple tutorials on how to use the most common nucleotide/protein bioinformatics search and analysis tools

19 NCBI

20 Emmagatzematge i format de les seqüències
Preparació i edició Submissió: Via Web a BankIt Sequin (software) Assignació d’identificadors (o codis d’accés) Col·laboració internacional: intercanvi de dades entre EMBL, Genbank i DDBJ Revisions i actualitzacions Submission Software Programs BankIt - WWW submission tool for one or few submissions, designed to make the submission process quick and easy.  (BankIt also automatically uses VecScreen to identify segments of nucleic acid sequence which may be of vector, adapter, or linker origin to combat the problem of vector contamination in GenBank.) Sequin - submission software program for one or many submissions, long sequences, complete genomes, alignments, population/phylogenetic/mutation studies. Can be used as a stand-alone application or in a TCP/IP-based "network aware" mode, with links to other NCBI resources and software such as Entrez.  (Use VecScreen prior to submission).  To receive announcements about updates to the Sequin submission software, see the NCBI Announcements Lists page. Storage of macromolecular data in electronic databases has given rise to a way of working arond the problem of nomenclature. The solution has been to give each new entry into the database a serial number and then to store it in a relational database that knows the proper linkages between that serial number, any number of names for the gene or gene product it represents, and all manner of other information about the gene.

21 Identificadors Locus Name: lletres identificatives de l’organisme + codi del gen (ex. ECRECA = Escherichia coli recA). Ja no s’utilitza. Accession Number: identificador únic per a cada seqüència (no canvia mai) 1 lletra + 5 números (ex. X00123) 2 lletres + 6 números (ex. AF405321) Accession + Version: identificador únic (la versió canvia en cada actualització) (ex. AF ) GenInfo identifier (gi): registre únic primari que canvia en cada actualització (ex )

22 Formats de seqüències Senzill Múltiple Mixte FASTA RSF EMBL Clustal
Genbank Phylip GCG MSF Stadem

23 Formats de seqüències: FASTA
Símbol fasta Identificador Comentaris 1a línia: descripció >gi| |gb|AF | Human echovirus 29 strain JV-10 5' UTR, partial sequence CAAGCACTTCTGTTTCCCCGGACTGAGTATCAATAGACTGCTCACGCGGTTGAAGGAGAAAACGTTCGTT ATCCGGCCAACTACTTCGAGAAACCTAGTAACGCCATGGAAGTTGTGGAGTGTTTCGCTCAGCACTACCC CAGTGTAGATCAGGTTGATGAGTCACCGCATTCCCCACGGGTGACCGTGGCGGTGGCTGCGTTGGCGGCC TGCCCATGGGGAAACCCATGGGACGCTCTTATACAGACATGGTGCGAAGAGTCTATTGAGCTAGTTGGTA GTCCTCCGGCCCCTGAATGCGGCTAATCCCAACTGCGGAGCATACACTCTCAAGCCAGAGGGTAGTGTGT CGTAATGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT >gi| |gb|AF | Human echovirus 6 strain D' Amori 5' UTR, partial sequence CAAGCACTTCTGTTTCCCCGGACCGAGTATCAATAAGCTGCTCACGCGGCTGAAGGAGAAAGTGTTCGTT ACCCGGCTAGTTACTTCGAGAAACCTAGTACCACCATGAAGGTTGCGCAGCGTTTCGCTCCGCACAACCC CAGTGTAGATCAGGTCGATGAGTCACCGCGTTCCCCACGGGCGACCGTGGCGGTGGCTGCGTTGGCGGCC TGCCCATGGGGCAACCCATGGGACGCTTCAATACTGACATGGTGCGAAGAGTCTATTGAGCTAACTAGTA GTCCTCCGGCCCCTGAATGCGGATAATCTTAACTGCGGAGCAGGTGCTCACAATCCAGTGGGTGGCCTGT CGTAACGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT >gi| |gb|AF | Human echovirus 33 strain Toluca-3 5' UTR, partial sequence CAAGCACTTCTGTTTCCCNGGACCGAGTATCAACAGACTGCTCACGCGGTTGAAGGAGAAAGTGTTCGTT ATCCGGCCAACTACTTCGAAAAACCTAGTAACACCATGGAAGTTGCAGAGTGTTTCGCTCAGCACTACCC CAGTGTAGATCAGGTCGATGAGTCACCGCATCCCCCACGGGCGACCGTGGCGGTGGCTGCGTTGGCGGCC TGCCTATGGGGGAACCCATAGGACGCTCTAATACAGACATGGTGCGAAGAGTCCATTGAGCTAGTTGGTA GTCCTCCGGCCCCTGAATGCGGCTAATCCTAACTGCGGAGCACACACCTTCAAGCCAGAGGGCAGTGTGT CGTAACGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT Seqüència

24 Formats de seqüències: Genbank
LOCUS SCU bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U GI: KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), (1994) PUBMED REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), (1996) PUBMED REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA Entrez Tutorial

25 Formats de seqüències: Genbank
FEATURES Location/Qualifiers source /organism="Saccharomyces cerevisiae" /mol_type="genomic DNA" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA " /db_xref="GI: " /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene /gene="AXL2" CDS /note="plasma membrane glycoprotein" /codon_start=1 /product="Axl2p" /protein_id="AAA " /db_xref="GI: " /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE Location Feature key Qualifiers

26 Formats de seqüències: Genbank
gene complement( ) /gene="REV7" CDS complement( ) /codon_start=1 /product="Rev7p" /protein_id="AAA " /db_xref="GI: " /translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF" ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //

27 Jutjar la qualitat de la informació
Qui són els autors? Afiliació, credencials, experiència en el tema, contacte i resolució de dubtes, ... Organització acadèmica / Agència governamental / Empresa? Hi ha la versió completa disponible? Versió estable o encara en desenvolupament? Transparència: Saps què fan exactament els programes que utilitzes (source code)? Hi ha documentació disponible? Actualitzacions: a la Web, les pàgines antigues no desapareixen. Hi ha una data d’actualització visible? Està el servidor actualitzat? Si no veus activitat a un lloc Web i no hi ha data d’actualització, no te’n refiïs!


Descargar ppt "Recerca biològica a la Web"

Presentaciones similares


Anuncios Google