La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Programa de formación De la publicación al acceso abierto a la producción científica en el área de la salud Tecnología e Interoperabilidad de repositorios.

Presentaciones similares


Presentación del tema: "Programa de formación De la publicación al acceso abierto a la producción científica en el área de la salud Tecnología e Interoperabilidad de repositorios."— Transcripción de la presentación:

1 Programa de formación De la publicación al acceso abierto a la producción científica en el área de la salud Tecnología e Interoperabilidad de repositorios y su implementación en proyectos OA relacionados con la Salud Pública Instituto de Salud Carlos III Madrid. Del 28 de febrero al 2 de marzo. Alicia López Medina UNED

2 Programa de formación La Declaración de Berlín, 2003

3 Programa de formación Con el fin de hacer realidad la visión de una representación global y accesible del conocimiento, la futura Web tiene que ser sostenible, interactiva y transparente. El contenido y las herramientas de software deben ser libremente accesibles y compatibles Una versión completa del trabajo […] se deposita […] en por lo menos un repositorio online, que utilice estándares técnicos adecuados […] que busque la implementación del acceso abierto […] interoperabilidad […] Declaración de Berlín, 2003

4 Los contenidos accesibles libremente, sin restricciones y de forma permanente a través de Internet Repositorios (vía verde) abiertos (interoperables) Representación interactiva global, del conocimiento en la web (operable por las máquinas) Para ser usados : Leer, procesar, visualizar, reutilizar, compartir, analizar, minería de datos, a través de disciplinas, en entornos de colaboración, en red, en acceso abierto Avanzando la investigación global de la salud a través de la tecnología y compartiendo los datos y el conocimiento En todas las fases del ciclo completo de la investigación científica Un mundo en el que es más rápido, más fácil y más barato encontrar medicinas y curar enfermedades.

5 Programa de formación ¿Qué es un repositorio? IBM: Los repositorios proporcionan un medio para organizar y gestionar contenidos de manera que puedan ser rápida y fácilmente intercambiados y compartidos La definición de Herbert Van de Sompel (uno de los co-creadores del protocolo OAI-PMH): Un sistema en red que proporciona servicios referidos a una colección de objetos digitales La biblioteca del Congreso Una herramienta para almacenar y gestionar información digital en una forma accesible.

6

7 Programa de formación

8 Repositorio de Acceso Abierto (se refiere a una propiedad de sus contenidos) sus contenidos están accesibles libremente, sin restricciones y de forma permanente a través de Internet para ser usados Repositorio abierto (interoperable) (se refiere a una propiedad del propio sistema) … que puede intercambiar procesos, servicios o datos con otros sistemas de manera que puedan trabajar juntos de forma eficiente

9 Programa de formación La interoperabilidad puede realizarse a varios niveles: Interoperabilidad de los sistemas Interoperabilidad de los datos Interoperabilidad de las políticas, governanza.

10 Programa de formación Interoperabilidad de los sistemas Cuando los repositorios pueden intercambiar servicios y datos entre sí y con otros sistemas -Protocolo OAI-PMH: exposición de metadatos -Sword: depósito transparente -CRIS/CERIF: integración con el contexto de la investigación

11 Programa de formación Open Archive Initiative (OAI) La interoperabilidad de los repositorios recibe un fuerte impulso con la Open Archive Initiative. Sus orígenes están ligados al movimiento de Acceso Abierto. Uno de sus objetivos es desarrollar e impulsar estándares de interoperabilidad que faciliten una eficiente búsqueda y visibilidad de las publicaciones científicas distribuidas en diferentes repositorios, tanto institucionales como temáticos. Es independiente de cualquier aplicación La Open Archive Initiative ha creado un protocolo fundamental para conseguir un nivel básico de interoperabilidad entre los repositorios: el protocolo OAI-PMH

12 Programa de formación El protocolo OAI-PMH (Open Archive Initiative-Protocol for Metadata Harvesting) Es un protocolo que permite a los repositorios exponer sus metadatos de manera que otros sistemas puedan recolectarlos y agregarlos para construir nuevos y más eficientes y útiles servicios que los que podría ofrecer cada repositorio individualmente. Proporciona funcionalidades que son esenciales para las propuestas del movimiento por el Acceso Abierto a las publicaciones científicas El protocolo OAI es abierto en el sentido de que proporciona una interfaz al proveedor de datos; no significa necesariamente abierto en el sentido de que permite el acceso libre a la información a cualquiera.

13

14 Programa de formación El depósito transparente No existe una interfaz estándar para transferir objetos digitales entre repositorios No se puede depositar en más de un repositorio con un único click No se puede iniciar un proceso de depósito desde fuera de un sistema de repositorio

15 Programa de formación Sword - Introducción (Simple Web-services Offering Repository Deposit) Un protocolo para depositar objetos digitales en lugares diferentes Proyecto financiado por JISC iniciado en 2007 Creado por encima del protocolo Atom Publishing Protocol (APP o ATOMPUB)

16 Programa de formación Sword – Casos de uso Depositar desde una herramienta de Escritorio en línea Depósito múltiple: en un repositorio institucional, en un repositorio de un financiador (mandato) y en un repositorio temático con una sola acción Depósito automático desde una máquina, por ejemplo desde una máquina de laboratorio Depositarlo en OJS y en el repositorio Migración/transferencia, por ejemplo a un servicio de preservación Depósito mediado, por ejemplo por un bibliotecario, a repositorios adicionales.

17

18

19 Programa de formación CRIS Gestión del contexto de la investigación CERIF Data Model (enriquecido semánticamente) RI Gestión del contenido de la investigación Solapamiento de datos, actores, unidades Peligro de duplicar esfuerzos Fragmentación, descontextualización de la información

20 Programa de formación

21 La interoperabilidad de los DATOS: la representación virtual global del conocimiento DATOS: literatura, datos en bruto, simulaciones, objetos culturales… la representación del conocimiento humano Abiertos: en acceso abierto, manipulables por máquinas, agnósticos respecto a los dispositivos, en formatos abiertos

22 Programa de formación E-ciencia/e-investigación Nuevas formas y métodos de investigación gracias a la aparición de herramientas e infraestructuras Data deluge (Hey & Threfethen 2003) More digital data will be produce in the next 5 years than in whole human history (Australian DEST ) Uno de los retos que la e-Ciencia pretende abordar es la integración de datos. Data management es un componente crucial de la e- Infraestructura

23 Programa de formación DATOS Todas las publicaciones en el campo de las ciencias empíricas se basan en datos Conforme la investigación médica se vuelve más compleja y el público espera más y más de la medicina y la ciencia, el artículo ha dejado de ser el final de la historia. Cada vez más y con razón, se considera que el artículo científico es como una instantánea de la investigación, superpuesta por la interpretación de su análisis por los autores y el resultado fundamental de la investigación son los datos brutos en sí.

24 Programa de formación Repositorios de Datos Las mismas funciones que un repositorio institucional o temático, pero además… Tamaños enormes en casos de GRID datasets Control de Acceso Visualizaciones Análisis Minería de datos Anotación Temas legales de creación, acceso y publicación Preservación

25

26 Protein Data Bank (PDB) es el único repositorio en todo el mundo de información acerca de las estructuras 3D de las grandes moléculas biológicas, como proteínas y ácidos nucleicos.. Los usuarios pueden realizar búsquedas simples y avanzadas basadas en las anotaciones correspondientes a la secuencia, estructura y función. Estas moléculas se visualizan, son descargadas y analizadas por los usuarios que van desde estudiantes a los científicos especializados.

27 Programa de formación A medida que avanzamos hacia la comprensión de la biología, el acceso a grandes conjuntos de datos de muchos tipos diferentes se ha convertido en crucial. Sin embargo al mismo tiempo la revolución de alto rendimiento también amenaza con ahogarnos en los datos. Hay una continua y creciente necesidad de recopilar, almacenar y proteger toda esta información de manera que permitan su recuperación eficiente y la explotación. El Instituto Europeo de Bioinformática es uno de los pocos lugares en el mundo que tiene los recursos y experiencia para cumplir con esta importante tarea. [About Us]

28

29 La propagación mundial de la gripe aviar H5N1 exigía que los científicos de diferentes campos de experiencia tuvieran pleno acceso a la secuencia genética completa, y a los datos clínicos y epidemiológicos de los animales y el virus de las cepas humanas. Global Inititative on Sharing Avian Influenza Data (GISAID) Los datos se depositan en las tres bases de datos públicas que participan en el proyecto (EMBL, DDBJ and GenBank) tan pronto como sea posible después del análisis y validación, en un plazo máximo de seis meses "Nuestro entendimiento es que el progreso científico será más rápido e innovador si se dispone de datos fácilmente accesibles a todos los investigadores en las comunidades que investigan la gripe, crean herramientas de diagnóstico, tratamiento y prevención " Ilaria Capua, Berlin 5 Open Access http://hdl.handle.net/10760/10882

30 Compartir los datos conduce al progreso de la enfermedad de Alzheimer Diferentes personas, usando diferentes métodos, en diferentes áreas, en diferentes lugares, estaban obteniendo diferentes resultados, lo cual no es extraño. Lo que se necesitaba era poner a trabajar a todos juntos y obtener un data set común Alzheimers Disease Neuroimaging Initiative,, un proyecto de colaboración para encontrar los marcadores biológicos que muestran la progresión de la enfermedad de Alzheimer en el cerebro humano. La clave es compartir todos los datos, permitiendo la búsqueda de inmediato - "a disposición de cualquiera con una computadora en cualquier parte del mundoAlzheimers Disease Neuroimaging Initiative El esfuerzo ha producido "una gran cantidad de trabajos científicos sobre el diagnóstico precoz de la enfermedad de Alzheimer utilizando métodos como la tomografía PET y pruebas de líquido espinal. Más de 100 estudios en marcha para probar medicamentos que puedan disminuir o detener la enfermedad. "La colaboración se ha convertido en un " modelo para esfuerzos similares contra la enfermedad de Parkinson. "

31 Programa de formación ACCESO ABIERTO A LOS DATOS Nuevas oportunidades para la investigación GenBank y Protein Structure Database son dos ejemplos excepcionalmente existosos: El éxito del Proyecto Genoma se debe en gran parte al hecho de que todas las secuencias de DNA publicadas han estado en acceso abierto durante los últimos 20 años. Si hubiera que haber obtenido las secuencias mediante el proceso tradicional en que se publican los trabajos científicos, no habría habido proyecto genoma (Patrick Brown 2004).Patrick Brown Otro ejemplo es el hecho de que usando los DNA históricos, datos medioambientales y otros datos, ha sido posible encontrar patrones de distribución del cólera que de otro modo no hubieran podido ser detectados

32 Programa de formación Sobrecarga cognitiva Huntington en Entrez Web + 6.000 art. + 450 secuencias de genes + 200 secuencias de proteínas + 55.000 perfiles de expresión y abundancia molecular Complejidad del cuerpo de conocimiento: relaciones, consecuencias, inferencias La investigación translacional, el esfuerzo de acoplar los resultados de la investigación básica para aplicaciones clínicas, depende de la capacidad efectiva de responder a preguntas usando información que abarca múltiples disciplinas y sistemas. Lo que estamos viendo es los límites de la mente humana en relación con la información. Tenemos que utilizar estrategias de informática y estrategias de gestión automática de datos para complementar nuestras mentes y poner todo eso en un marco que pueden manejar nuestras mentes.

33 Programa de formación La oportunidad de Internet…

34 Programa de formación La herramientas biocomputacionales, un arma poderosa en la lucha contra las enfermedades raras ¿Qué son las herramientas biocomputacionales? Son las herramientas que nos permiten capturar de forma automatizada la información biológica que necesitamos. Para ello, hemos desarrollado un sistema de integración de valores biológicos procedentes de distintos bancos de datos creando un lenguaje propio en la web semántica, lo que se ha dado en llamar la web 3.0, de manera que una vez establecidas las relaciones entre los distintos conceptos biológicos introducidos, el sistema de forma automática es capaz de encontrar información e incluso de responder a preguntas relativamente complejas. ¿Cómo aplica su grupo toda esta tecnología en la investigación de las enfermedades raras? Se comienza con la aplicación de una herramienta, que hemos desarrollado, de captura y predicción de estructuras proteicas. Este paso nos resulta muy útil para facilitar el poder realizar con posterioridad, modelos de proteínas de las que se conocen mutaciones que han provocado las enfermedades raras que estudiamos. Una vez concluida esta fase, a partir de la información que hemos obtenido sobre las proteínas que nos interesa estudiar, podemos llevar acabo, mediante el procesador, los pasos siguientes en los que optimizamos los valores hallados y éste nos presenta simulaciones de la dinámica molecular. Una dinámica que va a permitir explicar el comportamiento de las proteínas tanto nativas como las mutadas. A partir de los cuales, podremos de nuevo simular las consecuencias sobre otras vías metabólicas y estudiar los efectos que esos cambios producen en las propiedades de interacción de la proteína con su ligando, o buscar y/o diseñar inhibidores o activadores de las reacciones, en definitiva nuevos moduladores de su actividad. Grupo Bases Moleculares de la Proliferación Celular. Dpto. Biología Molecular y Bioquímica de la Facultad de Ciencias, Unidad 74 del Centro de Investigación Biomédica en Red de Enfermedades Raras (CIBER-ER), del Instituto de Salud Carlos III y al Ministerio de Ciencia e Innovación.

35 Programa de formación La web semántica La web semántica es la próxima generación de Internet. La idea de la web semántica es hacer el contenido de la web comprensible para máquinas añadiéndoles una descripción formal y significativa. Permite a las comunidades de usuarios colocar contenido comprensible por la máquina en la web que así puede ser compartido y procesado tanto por personas como por herramientas automatizadas. Es posible la integración y la reutilización de la información en nuevas aplicaciones imprevisibles y dominios La visión de la web semántica: Open Linked Data

36 Programa de formación Los pilares de la web semántica Uniform Resource Identifiers (URIs) The Web Ontology Language (OWL) The Resource Description Framework (RDF) XML

37 Programa de formación XML Conjunto extensible de etiquetas Orientado a contenido Infraestructura de datos estándar Permite diferentes presentaciones HTML Conjunto de etiquetas fijo Orientado a la presentación Una única presentación

38 Programa de formación URIS: Identificadores persistentes

39 Programa de formación RDF Triplete: sujeto-predicado-objeto >URI: algo> Es la sintaxis para decir cosas en la web sobre cosas web, de forma comprensible para la máquina.

40 Programa de formación Ontologías >URI: proteínas> Vocabularios controlados y estructurados que permiten a las máquinas comprender y razonar

41 Programa de formación Ejemplos de ontologías Basic Formal Ontology (BFO) Common Anatomy Reference Ontology (CARO) Environment Ontology (EnvO) Foundational Model of Anatomy (FMA) Infectious Disease Ontology (IDO) Ontology for Biomedical Investigations (OBI) Ontology for Clinical Investigations (OCI) Phenotypic Quality Ontology (PATO) Relation Ontology (RO)

42 Programa de formación Muchos tipos de datos en muchos tipos de silos Lab / pathology data Electronic Health Record data Clinical trial data Patient histories Medical imaging Microarray data Protein chip data Flow cytometry Mass spec Genotype / SNP data

43 Programa de formación Las ontologías facilitan la recuperación de la información: »brain 20 »hindbrain 15 »Rhombomere10 –Interrogación brain sin ontología 20 –Interrogación brain con ontología 45 Y permiten a las máquinas razonar

44 Programa de formación

45 El corpus XML de artículos a texto completo de BioMed Central and PubMed Central se puede descargar libremente BioMed Central ya expone los registros de todos los artículos en RDF

46 Programa de formación El nuevo objeto científico

47 Programa de formación

48 Es necesario hacer explícitas para las máquinas las relaciones (agregaciones) entre los objetos en la web Cornell/LANL Pathways Project

49 Programa de formación Aproximaciones potenciales alternativas: –OAI-ORE (Object Reuse and Exchange) –Topic Maps –Linked Data (RDF)

50 Programa de formación OAI-ORE: Open Archive Initiative-Open Reuse and Exchange: http://www.openarchives.org/ore/ http://www.openarchives.org/ore/ OAI-ORE es un nuevo esfuerzo de interoperabilidad de la OAI Su objetivo son los Objetos complejos (agregaciones) en la web Su ámbito es más amplio que el ámbito de los repositorios Open Archives Initiative Object Reuse and Exchange (OAI-ORE) define estándares para la descripción e intercambio de agregaciones de los recursos en la web. El objetivo de estos estándares es exponer el contenido de estas agregaciones a aplicaciones que soportan la creación, el depósito, intercambio visualización, reutilización y preservación de contenidos digitales.

51 Módulo 9 – Repositorios de Acceso Abierto: tecnologías, estándares y plataformas

52 Programa de formación Semantic Web for Health Care and Life Sciences Interest Group La misión de HLC es desarrollar, promover y apoyar el uso de tecnologías de Web Semántica para Ciencias Biológicas Medicina Traslacional Cuidado de la salud Estas áreas pueden obtener enormes beneficios mediante la adopción de tecnologías de Web Semántica, ya que dependen de la interoperabilidad de la información de diferentes ámbitos y procesos para apoyar las decisiones eficientes

53 Programa de formación W3CHCLS Grupos de trabajo BioRDF – federación de bases de datos de neurociencias Interoperabilidad de Observaciones clínicas Linking Open Drug Data Ontología de Medicina Translacional Ontology – Discurso Científico

54 Programa de formación Linking Open Drug Data (LODD) Relacionar diferentes fuentes de datos de medicamentos para responder a interesantes preguntas de carácter científico y empresarial

55 Programa de formación El discurso científico estructurado Parece esencial que, si queremos permitir que los ordenadores ayuden a los científicos a dar sentido a las vastas colecciones de trabajos de investigación, tenemos que desarrollar formas de identificar los principales componentes argumentales, sus conexiones y las conexiones a sus pruebas correspondientes a través del espacio y el tiempo, y presentar estos elementos conectados redes de conocimiento a los usuarios.

56 Programa de formación

57 Neurocommons.org Un proyecto de ScienceCommons Trabajando con artículos de acceso abierto de BioMed Central y PLoS En colaboración con los principales hospitales de investigación, infraestructura de neurociencia, W3HCLSIG, editoriales de Acceso Abierto Un intento de definir las mejores prácticas / estándares para el enriquecimiento semántico de los artículos: grafo (RDF) de dominio público de los hechos neurológicos construido sobre el Acceso Abierto y bases de datos públicas. Tanto la minería de datos como herramientas mejoradas de edición tienen un papel en el proyecto. Construyendo sobre los beneficios del Acceso Abierto

58

59

60 Programa de formación Muchas gracias por vuestra atención alopezm@pas.uned.es


Descargar ppt "Programa de formación De la publicación al acceso abierto a la producción científica en el área de la salud Tecnología e Interoperabilidad de repositorios."

Presentaciones similares


Anuncios Google