© Copyright Ebiointel,SL 2006 NAR Nucelic Acid Research The Molecular Biology Database Collection 2006 update
© Copyright Ebiointel,SL 2006 NAR
© Copyright Ebiointel,SL 2006
EMBL-GB-DDBJ / /
© Copyright Ebiointel,SL 2006 EBI-EMBL Tool Box
© Copyright Ebiointel,SL 2006
NCBI-GenBank
© Copyright Ebiointel,SL 2006
Preparación y edición Sumisión Vía Web en BankIt Sequin (software) Asignación de códigos de acceso Revisiones y actualizaciones Colaboración internacional intercambio de entre EMBL, GenBank i DDBJ Almacenamiento y formato de las secuencias
© Copyright Ebiointel,SL 2006 Identificadores Identificadores comunes en bioinformática –Locus Name –Accession Numbers –GenInfo ID (gi) –Pubmed ID –…
© Copyright Ebiointel,SL 2006 LOCUS IDs Letras identificativas del organismo + código del gen: –ECRECA: Escherichia coli recA gene Actualmente NO se utiliza esta identificación por el crecimiento de la base de datos. Accesion number –AC 1 letra + 5 números (X00123), 2 letras + 6 números (AJ000123) 3 letras + 8 números
© Copyright Ebiointel,SL 2006 Registros Una colección de registros (records). Cada registro tiene varios campos. Cada campo contiene información específica. Cada campo contiene datos de un tipo determinado. –Ej: texto, números enteros, fechas Cada registro tiene una clave primaria. Un identificador único que define al registro sin ambigüedad.
© Copyright Ebiointel,SL 2006 Registros gi = Genbank Identifier: Clave única : Clave primaria Cambia con cada actualización del registro correspondiente a la secuencia Cada entrada en la bd tiene un único ID No sujetos a versiones La entrada se mantiene a lo largo del tiempo Las diferentes versiones de una misma secuencia se administran mediante los códigos de acceso (AC) Accession Number: Clave secundaria Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia. Accession + Version es equivalente al gi (representa un identificador único) Ejemplo: AF Accession: AF405321Version: 2
© Copyright Ebiointel,SL 2006 Ficheros ASCII SenzilloMúltipleMixto FASTA Clustal RSF EMBLPhylip GenBankMSF GCG Stadem FASTA senzillo Formatos secuencias >sp|P03017|RECA_ECOLI RecA protein (Recombinase A) - Escherichia coli. AIDENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGR IVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPD TGEQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQAMRKLAG NLKQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFYASVRLDIRRIGAVKEGENVVGS >sp|P03017|RECA_ECOLI RecA protein (Recombinase A) - Escherichia coli. AIDENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGR IVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPD TGEQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQAMRKLAG NLKQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFYASVRLDIRRIGAVKEGENVVGS Seq1. Descripción/título de la secuencia AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA CGACGTAGATGCTAGCTGACTCGATGC Seq1. Descripción/título de la secuencia AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA CGACGTAGATGCTAGCTGACTCGATGC
© Copyright Ebiointel,SL 2006 Feature key examples Key Description conflict Separate determinations of the "same" sequence differ rep_origin Origin of replication protein_bind Protein binding site on DNA CDS Protein-coding sequence misc_RNA Generic label for an undefined RNA D-loop Mitochondrial or other D-loop structure Anotacición Qualifiers auxiliary information Location instructions for finding the feature Key Location/Qualifiers CDS /product="hypoxanthine phosphoribosyltransferase" /label=hprt /note="hprt catalyzes vital steps in the reutilization pathway for purine biosynthesis and its deficiency leads to forms of ""gouty"" arthritis" rep_origin /direction=left CDS /usedin=X10009:catalase Location Description 467 Points to a single base in the presented sequence Points to a continuous range of bases bounded by and including the starting and ending bases < Indicates that the exact lower boundary point of a feature is unknown. The location begins at some base previous to the first base specified (which need not be contained in the presented sequence) and con- tinues to and includes the ending base ( ) Indicates that the exact location is unknown but that it is one of the bases between bases 102 and 110, in- clusive Feature key a keyword indicating functional group Features & Qualifiers EMBL Features & Qualifiers EMBL Feature Table Definition Feature Table Definition Anotaciones
© Copyright Ebiointel,SL 2006 Ejemplo anotación Eukaryotic gene source /organism="Mus musculus" /strain="CD1" promoter <1..9 /gene="ubc42" mRNA join( , ) /gene="ubc42" CDS join( , ) /gene="ubc42" /product="ubiquitin conjugating enzyme" /function="cell division control" /translation="MVSSFLLAEYKNLIVNPSEHFKISVNEDNLTEGPPDTLY QKIDTVLLSVISLLNEPNPDSPANVDAAKSYRKYLYKEDLESYPMEKSLDECS AEDIEYFKNVPVNVLPVPSDDYEDEEMEDGTYILTYDDEDEEEDEEMDDE" exon /gene="ubc42" /number=1 intron /gene="ubc42" /number=1 exon /gene="ubc42" /number=2 polyA_signal /gene="ubc42"
© Copyright Ebiointel,SL 2006 Ejemplo anotación Bacterial Operon source /organism="Lactococcus sp." /strain="MG1234" -35_signal /gene="galA" /evidence=EXPERIMENTAL -10_signal /gene="galA" /evidence=EXPERIMENTAL CDS /gene="galA" /product="galactose permease" /function="galactose transporter" /evidence=EXPERIMENTAL CDS /gene="galM" /product="aldose 1-epimerase" /EC_number=" " /function="mutarotase" CDS /gene="galK" /product="galactokinase" /EC_number=" " /evidence=EXPERIMENTAL misc_RNA /gene="galAMK" /evidence=EXPERIMENTAL
© Copyright Ebiointel,SL 2006
GenBank Overview Bases de secuencia nucleotidicas
© Copyright Ebiointel,SL 2006
Prot Prim Swiss-Prot PIR Protein International Resource Bases de secuencia de proteínas
© Copyright Ebiointel,SL 2006 PIR Entrada PIR
© Copyright Ebiointel,SL 2006 Ejemplos secuencias Exemples Formats Ejemplo de una secuencia en los diferentes bancos de datos (reconbinasa A)
© Copyright Ebiointel,SL 2006 Prot Secun Prosite (Patrones) interpro, iproclass (dominios/clasificación) Protein Data Bank PDB: Protein Data Bank (estructura) DIP (base de datos de interacciones entre proteínas) Swiss 2D-page (mapas bidimensionales) BRENDA (enzimas) PharmGKB (dianas terapeuticas) Therapeutic Target Database (dianas terapeuticas) Bases de datos especializados de proteínas
© Copyright Ebiointel,SL / Bancos especializados de proteínas
© Copyright Ebiointel,SL Bancos especializados de proteínas
© Copyright Ebiointel,SL 2006 Bancos especializados de proteínas
© Copyright Ebiointel,SL Identificar interacciones entre proteínas
© Copyright Ebiointel,SL 2006 Bancos especializados de proteínas
© Copyright Ebiointel,SL 2006 Bancos especializados de proteínas
© Copyright Ebiointel,SL 2006 Bancos especializados de proteínas
© Copyright Ebiointel,SL 2006 Bancos especializados de proteínas
© Copyright Ebiointel,SL 2006 Bancos especializados de proteínas
© Copyright Ebiointel,SL 2006 Bancos especializados de proteínas
© Copyright Ebiointel,SL 2006 BD Genom Bases Genómicas Genomes OnLine Database
© Copyright Ebiointel,SL 2006 BD otras Otras Bases genómicas
© Copyright Ebiointel,SL La estructura del domino globular de la histona H5 (1Hst) se ha resuelto por cristalografía. Quieres estudiar la estabilidad de la primera hélice utilizando un péptido que incluya dicha hélice, ¿cual es la secuencia de dicho péptido? 2- Quieres realizar un estudio de los niveles de histona mediante geles bidimensionales. ¿Que tejidos podrás usar como referencia de su nivel? 3- ¿Cuales de estas proteinas se pueden usar como diana terapeutica de la diabetes ( Diabetes mellitus) ? a) Acyl-CoA desaturase 1 b) 3-phosphoinositide dependent protein kinase-1 c) Endothelin receptor d) Todas ellas 4- ¿Cuáles de las anteriores coresponden a un enzima y cual es su EC- number? Exemples
© Copyright Ebiointel,SL Estas realizando un estudio comparativo de extractos proteicos de riñón mediante geles bidimensionales entre ratas control y ratas con insuficiencia renal. Ves modificaciones en la intensidad del spot marcado con una flecha ¿de que proteína se trata? 6-busca los posibles lugares de fosforilación de la histona h10 humana por la ck2.