La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo.

Presentaciones similares


Presentación del tema: "Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo."— Transcripción de la presentación:

1 Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo Torréns José Alejandro Torres Niño Luis Nuñez Noviembre, 2011 Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida Large Aperture Gamma Ray Burst Observatory

2 Contenido El problema de la ubicación, preservación y uso de colecciones de datos científicas Tendencias en la colaboración científica Herramientas que pueden ayudar a solucionar algunos de los problemas Hablaremos sobre: Large Aperture Gamma Ray Burst Observatory

3 Partamos de las preguntas básicas: Los datos que yo necesito… existen? Donde están? Como los obtengo? La mayoria de los científicos se han planteado estas preguntas alguna vez Los datos producto de una investigación científica Large Aperture Gamma Ray Burst Observatory

4 4 axiomas para la ciencia intensiva en datos Acceso Global y abierto Colecciones completas Reservorios distribuidos (BD, repositorios de datos, datos en “la nube” ) Preservación Interacción Metadata Servicios web de herramientas Reutilización Flujo Procesos Curaduría Gerencia y mantenimiento Publicación Compartir Estándares, XML esquemas, ontologías Redes sociales Minería de datos Claudio Mendoza. http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf Large Aperture Gamma Ray Burst Observatory

5 Tenemos que tener capacidades para… Manejar volumen de datos generados actualmente Preservarlos Encontrarlos Compartirlos, distribuirlos Usarlos, reusarlos Problemas-retos a los que nos enfrentamos Large Aperture Gamma Ray Burst Observatory

6 Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo …Problemas a los que nos enfrentamos Momento de publicación Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo Retiro o cambio de carrera del científico recolector Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida de registros restantes Contenidos de Información Tiempo (Michener, 1997) Large Aperture Gamma Ray Burst Observatory

7 Volumen de datos… El problema del “diluvio” de datos. La era del Petabyte www.wired.com Large Aperture Gamma Ray Burst Observatory

8 Ante estos retos, tenemos posibilidades y nuevas maneras de… Producir datos, de compartirlos (publicarlos), y… de trabajar colaborativamente Nuevas formas de colaboración científica Large Aperture Gamma Ray Burst Observatory

9 Frecuentemente o cada vez más escuchamos y hablamos de… “ciberinfraestructura” “e-ciencia” “e-investigación” “colaboracion ubicua” “data-driven Science” “computación grid” “computación social” “acceso abierto al conocimiento ” …refiriendose a nuevas formas de producción y diseminación del conocimiento Nuevas formas de colaboración científica Large Aperture Gamma Ray Burst Observatory

10 e-ciencia El termino e-ciencia es usado para representar la creciente colaboración global de personas y uso de recursos compartidos, que serán (son) necesarias para resolver nuevos problemas de la ciencia y la ingeniería Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf Large Aperture Gamma Ray Burst Observatory

11 Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.): Datos del LHC generados en el CERN Datos generados por las redes mundiales de sensores sísmicos Estudios sobre cambios globales (GCMD-NASA) Astronomía, los “telescopios virtuales” (Global Internet Telescope) Banco de datos de Proteinas (PDB, Protein Data Bank) Datos del genoma humano y de otras especies Ejemplos de colecciones de datos: Large Aperture Gamma Ray Burst Observatory

12 A esto se unen las iniciativas por el uso sin restricciones de la información y datos: Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives) Movimiento Datos Libres (OD, Open Data) Repositorios Institucionales y por disciplina (temáticos) Iniciativas de Acceso Abierto Large Aperture Gamma Ray Burst Observatory

13 - Ejemplos: CERN LHC

14 Necesidad de usar tecnologías de información (TICs) Ubicar Accesar Recuperar Compartir …datos La mayoría usa LA RED (la Web) para satisfacer estas necesidades Para… Large Aperture Gamma Ray Burst Observatory

15 Un objetivo importante Qué debemos hacer para lograr el… Uso secundario y a largo plazo de colecciones de datos científicos Se debe… Garantizar permanencia de los datos en el tiempo Poder ubicar y recuperar la información Large Aperture Gamma Ray Burst Observatory

16 Herramientas Herramientas organizativas y tecnológicas que pueden hacer esto posible: Uso de metadatos y estándares de intercambio de información Tecnologías de Información y Comunicaciones Formación de Redes de colaboración entre científicos y entre usuarios de información Creación y mantenimiento de repositorios de datos Large Aperture Gamma Ray Burst Observatory

17 ¿Qué significa la palabra “metadatos”? " Datos sobre los datos ". "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997). D M D M1 D M2 Mc D M a) b)c) Metadatos como parte de los datos Metadatos externos al recurso de información Meta-metadatos (colecciones de metadatos) Large Aperture Gamma Ray Burst Observatory

18 ¿Para qué “metadatos”? Preguntas que se deberían poder responder usando metadatos: Que datos describe una coleccion de datos científicos? Quien produjo la colección? Porqué fue creada la colección? Como fue creada la colección? Que datos componen la colección? Cuan confiables son los datos. Que problemas persisten en la colección? Como alguien puede obtener una copia de la colección? Quien escribio los metadatos? Large Aperture Gamma Ray Burst Observatory

19 ¿Para qué “metadatos”? El valor científico y económico de las colecciones de datos es muy grande Para asegurar su uso posterior, la comunidad científica necesita acceso eficiente a estos datos Los datos tienen que ser confiables y persistentes en el tiempo La calidad de los datos debe poder probarse Large Aperture Gamma Ray Burst Observatory

20 ¿Que hacer? Tratar a los datos como si fueran una publicación científica tradicional – Edición – Agregación (documentación con metadatos) – Análisis – Revisión por pares – Publicación …para que sean útiles a los usuarios finales Large Aperture Gamma Ray Burst Observatory

21 Ejemplos de metadatos y de comunidades que usan metadatos Muestra datos NBII http://www.nbii.gov/ Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy Large Aperture Gamma Ray Burst Observatory

22 Ejemplos de metadatos y de comunidades que usan metadatos Documentación de datos geoespaciales (Interfaz a Clearinghouse FGDC y GCMD Data Documenter) Large Aperture Gamma Ray Burst Observatory

23 Algunos de los estándares para metadatos geoespaciales, biológicos, científicos y ambientales más usados FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov] FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov]. Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la Tierra. [gcmd.gsfc.nasa.gov] Darwin Core (DwC). Colecciones de Historia Natural. Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos ecológicos. Base del estándar EML. [lternet.washington.edu] Dublin Core. Estandar general de identificacion de objetos de información en Internet. [www.dublincore.org] CCLRC Scientific metadata model (CSMD). study-data set orientated model Large Aperture Gamma Ray Burst Observatory

24 Repositorios Almacenan y preservan la producción de una institución o de una disciplina científica. Contienen información académica y científica. - Artículos de revista, tesis, congresos, informes, colecciones de datos, etc. Compuestos de Metadatos + documentos. Libre acceso a sus contenidos (open access), es la tendencia actual. Large Aperture Gamma Ray Burst Observatory

25 Repositorios institucionales Incluyen los contenidos académicos de una institución (universidad, centro de investigación, etc.). Ejemplos: CERN Document Server: http://cdsweb.cern.ch/ Repositorio SABER-ULA: http://www.saber.ula.ve Dspace@MIT: http://dspace.mit.edu Large Aperture Gamma Ray Burst Observatory

26 Repositorios temáticos Incluyen los contenidos académicos de una disciplina o ámbito temático. Ejemplos: – E-LIS (biblioteconomía y documentación), – ArXiv (física), – Cogprints (psicología), – Repec (economía). Large Aperture Gamma Ray Burst Observatory

27 Repositorios temáticos Large Aperture Gamma Ray Burst Observatory

28 Repositorios de datos Publican y preservan colecciones de datos Organizados frecuentemente por disciplinas científicas como por ejemplo: – HEP, – Genómica – Datos geoespaciales, – Datos biológicos – Datos astronómicos – Datos gubernamentales Large Aperture Gamma Ray Burst Observatory

29 Plataforma Dspace DSpace es una plataforma de software de Código Abierto que provee herramientas de administración de repositorios para gestionar muchos tipos de contenidos digitales, incluyendo colecciones de datos. www.dspace.org Large Aperture Gamma Ray Burst Observatory

30 ¿Donde usan Dspace? www.dspace.org Large Aperture Gamma Ray Burst Observatory

31 Repositorios de datos con Dspace Large Aperture Gamma Ray Burst Observatory

32 Dificultades comunes Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos Poca disposición de los científicos para compartir los datos. Poca receptividad o disposición para aportar metadatos que documenten las colecciones de datos. Confusiones y reservas que tienen que ver con los derechos de propiedad, publicación y uso de los datos. Dificultades (aún) con la conexión a internet (conectividad, velocidad) Costos de los instrumentos de captura de datos No existe la figura de “gerente local de información”, o es muy costoso tenerlos Large Aperture Gamma Ray Burst Observatory

33 El Futuro Redes de gestión de conocimientos basadas en datos y metadatos Herramientas analíticas "en-línea" con acceso a datos de red de científicos Herramientas que facilitan la creación de diferentes formas de metadatos Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids) Por último…Comunidades y sociedades del conocimiento Large Aperture Gamma Ray Burst Observatory

34 A manera de conclusión para esta parte El reto para la infraestructura de investigación actual es facilitar la más amplia diseminación posible de los descubrimientos científicos Estas infraestructuras allanaran el camino para la e- ciencia, donde los investigadores serán capaces de producir, gestionar, diseminar y comparar grandes conjuntos de datos, magnificando las posibilidaded de nuevos descubrimientos Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46 Large Aperture Gamma Ray Burst Observatory

35 LAGODSpace

36 Large Aperture Gamma Ray Burst Observatory LAGODSpace

37 Large Aperture Gamma Ray Burst Observatory LAGODSpace Recolector de datos y Metadatos SAI

38 Large Aperture Gamma Ray Burst Observatory LAGODSpace

39 Large Aperture Gamma Ray Burst Observatory LAGOVirtual

40 Large Aperture Gamma Ray Burst Observatory LAGOVirtual

41 Large Aperture Gamma Ray Burst Observatory

42 LAGODSpace (metadatos) Datos que describen Datos ??? ¿Donde esta?

43 Large Aperture Gamma Ray Burst Observatory LAGODSpace (metadatos)

44 Large Aperture Gamma Ray Burst Observatory USO DE LAGODSpace

45 Large Aperture Gamma Ray Burst Observatory RedCLARA Beneficios, servicios ofrecidos, etc. Financiación ????????? Servicios Red de Alta Velocidad Videoconferencias H.323 Asociaciones Capacitación Visibilidad Necesidad


Descargar ppt "Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Rodrigo."

Presentaciones similares


Anuncios Google