La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Eines bioinformàtiques i estadístiques per a la investigació biomèdica

Presentaciones similares


Presentación del tema: "Eines bioinformàtiques i estadístiques per a la investigació biomèdica"— Transcripción de la presentación:

1 Eines bioinformàtiques i estadístiques per a la investigació biomèdica
Bioinformàtica bàsica: Bases de dades en Biología Molecular Israel Ortega i Alex Sánchez Unitat d’Estadística i Bioinformàtica 23/09/2018 Israel Ortega i Alex Sánchez

2 Israel Ortega i Alex Sánchez
We are drowning in information and starved for knowledge John Naisbitt Who on efficient work is bent, Must choose the fittest instrument. Goehthe (Fausto) 23/09/2018 Israel Ortega i Alex Sánchez

3 Esquema de la presentación
¿Qué es la Bioinformática? Bases de datos en Biologia Molecular Tipos de bases de datos. Herramientas de consulta. Ejemplos. Búsqueda de homologías: BLAST Motivación. Alineamientos por parejas. BLAST 23/09/2018 Israel Ortega i Alex Sánchez 3

4 II. Bases de datos en Biología Molecular
23/09/2018 Israel Ortega i Alex Sánchez

5 Información en la era genómica
Era genómica: cantidades masivas de información. Para poder utilizar esta información, ha de estar almacenada correctamente El acceso a la información Ha de ser rápido Debe poder hacerse de manera flexible Esto es posible gracias a la Creación de bases de datos Su distribución vía Internet 23/09/2018 Israel Ortega i Alex Sánchez

6 Distintos usos de las BD
Búsqueda de información. Por palabra clave, números de acceso, autores... Búsqueda de homologías ¿Hay secuencias iguales o similares a la mía? Búsqueda de patrones ¿Mi secuencia contienen patrones conocidos? Predicciones ¿Puedo encontrar proteínas parecidas a la mía, pero con función conocida? Dit d’una altra forma: Les BD permeten fer molt mes que emmagatzemar i cercar informació. 23/09/2018 Israel Ortega i Alex Sánchez

7 Aspectos a tener en cuenta
23/09/2018 Israel Ortega i Alex Sánchez

8 Principales proveedores de recursos
El National Center for Biotechnology Information (NCBI) centraliza los bancos de datos y aplicacions de EEUU El European Bioinformatics Institute (EBI) realiza una función similar en Europa GenomeNet reune bases de datos diversas en Japón 23/09/2018 Israel Ortega i Alex Sánchez

9 Israel Ortega i Alex Sánchez
Tipos de bases de datos Existen cientos de BD en número tan elevado que no es práctico enumerarlas (aunque aquí lo intentan) Podemos clasificarlas según múltiples criterios Curiosamente la organización del EMBL y del NCBI es radicalmente distinta 23/09/2018 Israel Ortega i Alex Sánchez

10 Tipos de BD en EMBL / NCBI
Pubmed Entrez OMIM Books TaxBrowser Structure EMBL BD bibliográficas BD taxonómicas BD de nucleótidos BD genómicas BD de proteínas BD de microarrays Otras BD 23/09/2018 Israel Ortega i Alex Sánchez

11 Bases de datos bibliográficas
Organización de los artículos publicados en la revistas de ámbito científico. Pubmed (NCBI) Medline (EBI) Biocatalog: organización de los artículos por temáticas concretas de biología molecular. 23/09/2018 Israel Ortega i Alex Sánchez

12 Bases de datos taxonómicas
Información sobre la clasificación de los seres vivos básicamente jerárquica y basada en información molecular Para clasificar cualquier organismo del que se posea como mínimo una secuencia de Acidos Nucleicos Proyecto no libre de controversia entre la comunidad taxonómica 23/09/2018 Israel Ortega i Alex Sánchez

13 Bases de datos de nucleótidos
Secuencias de los laboratorios experimentales Actualización diaria Intercambian diariamente su contenido Genbank (NCBI) EMBL (EBI) KEGG (Genome net) 23/09/2018 Israel Ortega i Alex Sánchez

14 Bases de datos de genomas
Secuencias y anotaciones de genomas completos. Ensembl (EBI) Genome viewer (NCBI) Goldenpath (UCSC) También recursos genómicos especializados Transfact EST UTRDB SpliceSitesDB 23/09/2018 Israel Ortega i Alex Sánchez

15 Bases de datos de proteínas
Secuencias primarias de aminoácidos Sin revisión humana Trembl (EBI) nr (NCBI) Con revisión de la anotación Uniprot (EBI) Bases de datos de proteomas Proteome analysis (EBI) 23/09/2018 Israel Ortega i Alex Sánchez

16 BD secundarias de proteínas
Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. BLOCKS PROSITE PRINTS PFAM INTERPRO: Integra la información de muchas bases de datos de dominios. 23/09/2018 Israel Ortega i Alex Sánchez

17 BD de estructuras 3D de proteinas
Estructuras 3D con las coordenadas de cada átomo. PDB: Base de datos principal de estructuras tridimensionales CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales MMDB: subset de PDB mantenido por NCBI MSD: subset de PDB mantenido por EBI 23/09/2018 Israel Ortega i Alex Sánchez

18 Bases de datos de microarrays
Resultados obtenidos por arrays de expresión. ArrayExpress (EBI) caArray Gene Expression Omnibus 23/09/2018 Israel Ortega i Alex Sánchez

19 Israel Ortega i Alex Sánchez
Otras bases de datos Anotaciones Gene Ontology KEGG Gene Cards Dianas terapeuticas Therapeutic targets database PharmKGB 23/09/2018 Israel Ortega i Alex Sánchez

20 Israel Ortega i Alex Sánchez
Entrez databases 23/09/2018 Israel Ortega i Alex Sánchez

21 Listado de bases de datos biológicas
Nucleic Acids Research Database Listing Annual Database issue Suplemento en el número de enero de cada año 2009 describe 179 bases de datos (95 nuevas) que cumplen unos criterios mínimos de calidad. Se añaden a la lista de Nucleic Acids Research online Molecular Biology Database Collection (1170 en total) Son un buen punto de partida para seleccionar la base de datos adecuada Un listado de bases de datos aplicadas a la Biología Molecular, cuyo contenido ha sido referenciado, se publica anualmente en el primer número del mes de enero de la revista científica Nucleic Acids Research 23/09/2018 Israel Ortega i Alex Sánchez

22 Listado de bases de datos (NAR)
Las bases de datos se ordenan en diferentes categorías. La relación de bases de datos se entrega como información adicional. En esta publicación, las bases de datos se organizan por las categorías citadas y contienen un pequeño resumen de sus características 23/09/2018 Israel Ortega i Alex Sánchez

23 Israel Ortega i Alex Sánchez
Estructura de las BDB La forma de organizar los datos en cualquier BD depende del modelo o arquitectura en que se base. Hay múltiples modelos [Relacional, Jerárquico, en Red, …] pero el más habitual es el relacional Múltiples tablas relacionadas entre ellas Mediante campos clave. 23/09/2018 Israel Ortega i Alex Sánchez

24 Formatos de datos en las BDB
El trabajar con BD relacionales comporta que se utilicen formatos de datos planos Archivos de texto Con algun tipo de etiqueta para indicar el contenido de cada linea o región del archivo. Existen múltiples formatos y los programas deben poder reconocerlos e intercambiarlos. 23/09/2018 Israel Ortega i Alex Sánchez

25 Formatos de secuencias: FASTA
Símbol fasta Identificador Comentaris 1a línia: descripció Seqüència >gi| |gb|AF | Human echovirus 29 strain JV-10 5' UTR, partial sequence CAAGCACTTCTGTTTCCCCGGACTGAGTATCAATAGACTGCTCACGCGGTTGAAGGAGAAAACGTTCGTT ATCCGGCCAACTACTTCGAGAAACCTAGTAACGCCATGGAAGTTGTGGAGTGTTTCGCTCAGCACTACCC CAGTGTAGATCAGGTTGATGAGTCACCGCATTCCCCACGGGTGACCGTGGCGGTGGCTGCGTTGGCGGCC TGCCCATGGGGAAACCCATGGGACGCTCTTATACAGACATGGTGCGAAGAGTCTATTGAGCTAGTTGGTA GTCCTCCGGCCCCTGAATGCGGCTAATCCCAACTGCGGAGCATACACTCTCAAGCCAGAGGGTAGTGTGT CGTAATGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT >gi| |gb|AF | Human echovirus 6 strain D' Amori 5' UTR, partial sequence CAAGCACTTCTGTTTCCCCGGACCGAGTATCAATAAGCTGCTCACGCGGCTGAAGGAGAAAGTGTTCGTT ACCCGGCTAGTTACTTCGAGAAACCTAGTACCACCATGAAGGTTGCGCAGCGTTTCGCTCCGCACAACCC CAGTGTAGATCAGGTCGATGAGTCACCGCGTTCCCCACGGGCGACCGTGGCGGTGGCTGCGTTGGCGGCC TGCCCATGGGGCAACCCATGGGACGCTTCAATACTGACATGGTGCGAAGAGTCTATTGAGCTAACTAGTA GTCCTCCGGCCCCTGAATGCGGATAATCTTAACTGCGGAGCAGGTGCTCACAATCCAGTGGGTGGCCTGT CGTAACGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT 23/09/2018 Israel Ortega i Alex Sánchez

26 Ejemplo entrada Genbank
23/09/2018 Israel Ortega i Alex Sánchez

27 Israel Ortega i Alex Sánchez
Ejemplo entrada EMBL 23/09/2018 Israel Ortega i Alex Sánchez

28 Entrada de información
Muchas BD biológicas son públicas y cualquier usuario suele poder contribuir con nuevos datos. Se pueden enviar múltiples tipos de datos pero los más habituales son Secuencias Experimentos de microarrays 23/09/2018 Israel Ortega i Alex Sánchez

29 Contribución de secuencias
Enviar información a EMBL Como enviar información a GeneBank 23/09/2018 Israel Ortega i Alex Sánchez

30 Contribución de datos de expresión
Enviar información a ArrayExpress (EBI) Enviar información a GEO (NCBI) Se explica en las FAQs de GEO/ 23/09/2018 Israel Ortega i Alex Sánchez

31 III. Motores de busqueda en bases de datos
23/09/2018 Israel Ortega i Alex Sánchez

32 Israel Ortega i Alex Sánchez
SRS Sequence Retrieval System Es el sistema de recuperación de la información disponible en el EBI. Realiza búsquedas en las bases de datos seleccionadas A partir de criterios especificados por el usuario Permite definir vistas propias, combinar consultas y vincular resultados de la búsqueda a otras BD. 23/09/2018 Israel Ortega i Alex Sánchez

33 Israel Ortega i Alex Sánchez
Entrez Es el sistema de búsqueda disponible en el NCBI. Gran potencia y versatilidad pero menos intuitivo que SRS No dispone de formularios para cada campo Suele utilizarse en estilo “TopBottom” Realizar una consulta Refinar los resultados hasta encontrar lo que se busca. 23/09/2018 Israel Ortega i Alex Sánchez

34 Ejemplos de búsqueda con SRS/Entrez
Estamos interesados en el gen MLH1 humano, implicado en el cáncer de colon Separar el grano de la paja: identificar una secuencia de mRNA representativa y bien anotada del gen MLH1. Obtener literatura asociada y su secuencia potéica. Identificar proteínas similares. Identificar dominios conservados dentro de la proteína. Identificar mutaciones conocidas en el gen o la proteína. Encontrar la estructura tridimensional de la proteína, si esta es conocida, o si no es así, identificar estructuras de secuencia homóloga. Ver el contexto genómico del gen y descargar la región que lo contiene. 23/09/2018 Israel Ortega i Alex Sánchez

35 Israel Ortega i Alex Sánchez
Ejemplo con SRS 23/09/2018 Israel Ortega i Alex Sánchez

36 Israel Ortega i Alex Sánchez
Inicio de sesión Tras iniciar la sesión se accede a la página principal Top Page Desde esta pagina es posible… Seleccionar la base de datos donde buscar Puede seleccionarse todo (“all”), uno o más bancos (“Uniprot”, “EMBL”,…) o subconjuntos de estos (“TrEMBL”,…) Realizar consultas sencillas (“Quick search”) mediante un solo término 23/09/2018 Israel Ortega i Alex Sánchez

37 Inicio de SRS y búsqueda rápida:
23/09/2018 Israel Ortega i Alex Sánchez

38 Israel Ortega i Alex Sánchez
Búsqueda estándar Más completa Permite combinar campos y términos Elegir “Standard Query” Introducir términos de búsqueda Seleccionar campos donde buscar Combinar con AND / OR… Seleccionar formato de salida En vez de la anterior se puede, p.ej. buscar Description = “Prion” AND Organism = “Bovin” Pasamos a obtener 10 resultados 23/09/2018 Israel Ortega i Alex Sánchez

39 Busca estándar: Entrada
23/09/2018 Israel Ortega i Alex Sánchez

40 Busca estándar: resultados
23/09/2018 Israel Ortega i Alex Sánchez

41 Visualización de los resultados
Haciendo doble clic sobre los resultados se accede a la información contenida en la BD de donde procede Es posible visualizar los resultados en distintos formatos Si, por ejemplo, deseamos proseguir con los análisis podemos obtener la secuencia en formato FASTA seleccionando FastaSeq en el menú View 23/09/2018 Israel Ortega i Alex Sánchez

42 Resultados en formato FASTA
23/09/2018 Israel Ortega i Alex Sánchez

43 Israel Ortega i Alex Sánchez
Ejemplo con ENTREZ 23/09/2018 Israel Ortega i Alex Sánchez

44 Israel Ortega i Alex Sánchez
Ejemplo Entrez - 1 Pas 1: Cerca de “colon cancer”  > 10,000 resultats!!! 23/09/2018 Israel Ortega i Alex Sánchez

45 Israel Ortega i Alex Sánchez
Ejemplo Entrez - 1 Pas 2: Buscar per gen i organisme  20 resultats... molt millor! (tot i que podem tenir problemes si el gen és conegut per molts sinònims diferents) 23/09/2018 Israel Ortega i Alex Sánchez

46 Israel Ortega i Alex Sánchez
Ejemplo Entrez - 1 Pas 3: Limitar la cerca a seqüències de referència (RefSeq)  3 resultats! 23/09/2018 Israel Ortega i Alex Sánchez


Descargar ppt "Eines bioinformàtiques i estadístiques per a la investigació biomèdica"

Presentaciones similares


Anuncios Google