Mejoras en la gestión de datos en la Biblioteca Digital de la FCEN-UBA: impactos en el usuario y en la visibilidad Ana María Sanllorenti Martín Williman.

Slides:



Advertisements
Presentaciones similares
ZeroComa – EdasFacturas
Advertisements

Lognoter. gestión de datos en Ingeniería. ¿Qué es? Programa de almacenamiento, tratamiento de datos y generación de informes Programa con interface propia,
COLEGIO DE BACHILLERES PLANTEL #13 Xochimilco-TEPEPAN
Búsqueda de una frase exacta
Herramientas informáticas
Aplicación Web Programación Docente
Introducción a LAS Bases de Datos
Gestión descentralizada de un portal cooperativo para la difusión de contenidos digitales Dra. Dominique Babini Consejo Latinoamericano de Ciencias Sociales.
Presentación Informe Usabilidad Webs Administraciones Públicas.
Ing. Brenda G. Estupiñán Cuevas Día virtual tesis digitales - CUDI
EndNote X2.
Facultad de Traducción y Documentación
IDES - 20 de Noviembre Gestión descentralizada de un portal cooperativo para la difusión de contenidos digitales Dra. Dominique Babini Consejo Latinoamericano.
Buscar bibliografía en
Understanding SOA Design Patterns
La manera más simple para describir un patrón es que ofrece una solución probada a un problema común.
Biblioteca Digital para la FCEN-UBA utilizando Greenstone Biblioteca Central Dr. Luis F. Leloir. Facultad de Ciencias Exactas y Naturales. Universidad.
Facultad de Ciencia Política y Relaciones Internacionales Dirección de Concursos Proyecto: Informatización de la Gestión de Concursos Sistema CONDOR.
Autor: Antonio Sarasa Cabezuelo Directora: María Antonia Huertas.
El portal de recursos-e de la Biblioteca de la Universidad de Navarra
Un wiki o una wiki (del hawaiano wiki, 'rápido') es un sitio web cuyas páginas pueden ser editadas por múltiples voluntarios a través del navegador web.
El análisis y recuperación de información
UNIDAD I Conceptos Básicos.
Sistema Gestión Gubernativa
La biblioteca universitaria hacia el año El gran reto: que el usuario encuentre lo que necesita Federico Portas Lagar Coloquio.
Gestión de recursos electrónicos en la Biblioteca de la Universidad Complutense de Madrid Inmaculada Fernández Ángeles Morillas Servicio de Tecnologías.
Introducción a los Recursos y Sistemas de Recuperación de Información (SRI) de Biblioteca Por Biblioteca [Vínculo Académico e Investigación/Referencia.
Arquitectura de una aplicación
DATA WAREHOUSE Equipo 9.
Módulo 12 Herramienta de aseguramiento de la calidad del PSA 1.
Almacenamiento de la información Conabio CNA INEGI Conanp Profepa INE Otras dependencias Conafor Semarnat.
Placa Apertura. PROGRAMA EDUCACION, FORMACION Y EMPLEO PARA LA SOSTENIBILIDAD Campus Mintur – Repotur - Educatur Comunidades Virtuales de Aprendizaje.
1. QUÉ ES UN WIKI 2. COMO USAR UN WIKI 3. OBJETIVOS DEL DINAWIKI TALLER WIKI PARA DINAMIZADORES [[ PRESENTACIÓN ]] Reconocimiento - Compartir igual: El.
Computación en la Nube UASF.
Dirección Provincial de Información y Planeamiento Educativo
Placa Apertura. PROGRAMA EDUCACION, FORMACION Y EMPLEO PARA LA SOSTENIBILIDAD Campus Mintur – Repotur - Educatur Comunidades Virtuales de Aprendizaje.
PROYECTO DE TITULACIÓN
Tecnologías de administración de contenidos Rodrigo Guaiquil
Herramientas informáticas
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
Aplicación y uso de la herramienta
Recursos en la UCM y principales plataformas en uso Novedades en los catálogos complutenses: Cisne, Compludoc, Complured y la plataforma de revistas electrónicas.
5a. JBDU, UNGS, Los Polvorines, Pcia de Buenos Aires 1 COLABORACIÓN INSTITUCIONAL PARA LA PRESERVACIÓN DIGITAL EN BIBLIOTECAS ARGENTINAS Ana Sanllorenti.
PROYECTO EMPRESARIAL Clase # 1.
NUEVO DISEÑO SITIO WEB EXPLORA REGIÓN METROPOLITANA Resultados en cuanto a tráfico, posicionamiento y nuevas herramientas.
Web Semántica La Web Semántica es la nueva generación de la Web, que intenta realizar un filtrado automático preciso de la información. Para ello, es necesario.
Muchas de las investigaciones sobre el comportamiento de los usuarios de la Web que se están realizando en poblaciones de personas nacidas posteriormente.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
COLEGIO DE BACHILLERES “XOCHIMILCO TEPEPAN” Nº13  Tecnologías de la Información y comunicación 3.  Profa. Gabriela Pichardo Lazardo EQUIPO 25  Emmanuel.
MARTÍNEZ VALLEJO ISAMAR SCANDA MONTOYA MENDOZA DIANA RUBI GRUPO: 304.
Las Páginas WIKI. ¿Que son? Es un sitio web colaborativo que puede ser editado por varios usuarios. Los usuarios de una wiki pueden así crear, editar,
UNIVERSIDAD LATINA III. MANTENIMIENTO Y GESTIÓN DE LA INFORMACIÓN DE UNA BASE DE DATOS. E.I. L.E. Prof. Ramón Castro Liceaga.
BASES DE DATOS JULIAN DAVID OSPINA AGUDELO.
COLEGIO DE BACHILLERES PLANTEL #13 Xochimilco-TEPEPAN NOMBRE DEL PROFESORA: Gabriela Pichardo NOMBRE DEL ALUMNO: García monroy jazmín GRADO: 3er Semestre.
Winisis Versión 1.5 UNESCO División de la Sociedad de la Información Sector de Comunicación e Información Dirección Ejecutiva de Bibliotecas Escolares.
GUÍA DE USO Acceso A través de las PC habilitadas por IP El acceso a la Biblioteca Electrónica de Ciencia y Tecnología.
Universidad de Carabobo Facultad Ciencias de la Educación Escuela de Educación Departamento de Matemática Trabajo Colaborativo Wikipedia Integrantes:
INTERFAZ DE ACCESS  Access es un sistema gestor de bases de datos relacionales (SGBD). Una base de datos suele definirse como un conjunto de información.
Gestión Electrónica Documental (GED)
Arquitectura de una aplicación Arquitectur a: desarrolla un plan general del sistema, asegurando que las necesidades de los usuarios sean atendidas. Ingeniería.
Carlos Mauricio Cuervo Vanegas Servicios de Información Digital Escuela Interamericana de Bibliotecología 2015.
INSTRUCTIVO PARA EL MANEJO DE ZOTERO
Bases de Datos y Sistemas de Gestión de Bases Relacionales.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
BUSINESS T&G Think & Grow Uniclass Gestión Documental Solución Web para Mejorar la Captura y Gestión.
Repositorio Institucional de Tesis
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO TEPEPAN INTEGRANTES: Montoya Mendoza Diana Rubí Martínez Vallejo Isamar Scanda PROFA: Gabriela Pichardo Lozada.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
SOFTWARE EDUCATIVO y PRODUCTOS HUASCARÁN juan josé lapeyre corzo.
Gestión del Conocimento MBA Luis Elissondo. Definición de KM Knowledge Management Es el proceso de administrar y aprovechar de forma sistemática y activa.
Transcripción de la presentación:

Mejoras en la gestión de datos en la Biblioteca Digital de la FCEN-UBA: impactos en el usuario y en la visibilidad Ana María Sanllorenti Martín Williman Nicolas Rucks Biblioteca Central - Facultad de Ciencias Exactas y Naturales - UBA

Contexto General Se insertan en sistema de procesos y servicios preexistentes que los condicionan y que a su vez, modifican. Nuevas colecciones, necesidad de nuevos metadatos, fuentes diversas de los documentos, circuitos heterogéneos para el tratamiento de la información, nuevos servicios. Bibliotecas digitales deben cumplir con estándares internacionales que aseguren interoperabilidad.  Plantean desafíos técnicos, organizativos y de capacitación de recursos humanos.

Biblioteca Digital FCEN-UBA: Contexto Biblioteca Híbrida Articulación de servicios, procesos y circuitos Digitalización de colecciones existentes –Reutilización de metadatos Colecciones nuevas –Nuevos metadatos Nuevas capacidades

Biblioteca Digital FCEN-UBA: Modelo OAIS Funciones Ingesta Área de archivos Gestión de datos Acceso Agentes Productor Gestión Consumido r

Biblioteca Digital FCEN-UBA: Colecciones Desde Números Desde Números Desde Números Desde Números Números Números Artículos Desde Números Publicaciones

Biblioteca Digital FCEN-UBA: Colecciones Tesis 535 tesis doctorales desde 1955 Archivo Actas CD 1957 – 1962 Memorias FCEN 1950 – 1983 Expediente Fotografías 556 Fotografías desde 1900

Biblioteca Digital FCEN-UBA: Crecimiento

Biblioteca Digital FCEN-UBA: Uso

9 Mejoras, ¿porqué? - Nuevas colecciones, nuevos datos - Gestión más compleja - Coherencia de bases: base Biblioteca Digital (Greenstone) base Catálogo (ISIS) - Automatizar procesos manuales - Equipo de Biblioteca Digital incorpora personal conocedor de Greenstone e ISIS. => Año 2012 se focaliza en mejorar función de Gestión de Datos

10

11 Colección Tesis digitales: situación anterior Base de datos ya existente del catálogo (ISIS). - Formato de salida "xml.pft" exportación a metadata.xml Pero - revisión manual - inclusión manual de nuevos datos ausentes en la base del catálogo: -Jurados de las Tesis -Tema en esquema jerárquico (“navegable”) -Resumen => “Fuente maestra” de metadatos es conjunto de archivos metadata.xml. Corrección en el catálogo debía ser volcada a mano en el archivo correspondiente. catálogo no contenía toda la descripción.

12 Colección Tesis digitales: Necesidades - archivo metadata.xml completo en un solo paso - metadatos extra, como versiones SIN ACENTOS - “metas” para Google - archivo en juego de caracteres UTF-8 - metadatos en los PDF* - Link OPAC/Biblioteca Digital para cada tesis - rutinas de chequeo de consistencia de datos (datos/carpetas/archivos) - responder ágilmente a cambios en los requisitos de metadatos presentes (en PDFs y páginas web) que plantean los buscadores *presencia y respaldo institucionales, informa sobre declaración de uso, cumple con Google Scholar

13 Mejorar qué/cómo. Principios rectores Concentrar los datos (“metadatos”) en base de datos y Minimizar las bases de datos (una por colección parece ser práctico) Maximizar la automatización de lo automatizable Automatizar las rutinas (muchos datos pueden generarse automáticamente) lo cual permite Minimizar el trabajo en la carga de datos y minimiza errores de carga Respetar los circuitos ya existentes pero tendiendo a automatizarlos no tener que modificar las bases existentes, sino “aggiornarlas” para seguir respetando el circuito existente Herramientas lo más básicas y clásicas posible Cumplidos requisitos funcionales imprescindibles, tender al menor requisito posible (Postura personal tomada ante la tecnología, no la única ni la mejor)

14 Tesis Digitales: Mejoras Implementadas Datos en Base (ISIS) + salidas formateadas (PFT) + programas batch (shell) permite: TESIS, se sigue cargando con WinISIS, incorporados nuevos metadatos Ej: jurados de las tesis y áreas temáticas. Trabajo previo: - se definieron campos nuevos en la base del catálogo - para tesis ya tratadas, exportación de campos de interés provenientes del metadata.xml de cada tesis - importación a los registros correspondientes en la base del catálogo. (realizado con AWK y MX desde archivos metadata.xml hacia base ISIS). Formato de salida refinado genera metadata.xml en UTF-8 con todos los datos, incluso el resumen Resumen (extendido), fuera de la base: archivo de texto aparte (uno por tesis e idioma), nombre similar al PDF. Se vuelca a metadata.xml desde el formato de salida (pft) al generar la salida.

15 Tesis Digitales: Mejoras Implementadas programa batch genera archivo metadata.xml de una tesis con solo ingresar el número de tesis. programa batch genera metadata.xml de todas las tesis. link en OPAC hacia tesis digitalizada. Estructura de URL de una Tesis Digital: se puede construir con datos presentes en la base. Cuáles: batch analiza qué tesis están en Biblioteca Digital y marca base del catálogo nombres de archivo se construyen a partir de datos de la base + aplicación de reglas =>Programa batch para chequeos de consistencia de nombres de archivos de tesis en PDF, sus correspondientes copias y backups, nombre en la base de datos. PDFs de las tesis: datos en metadata.xml (proviene de la base ISIS única) + rutina realizada con ruby+pdftk, => automatización de portada institucional + inclusión de metadatos en los PDFs

16

17

18

19

20

21

22

23

24 Colección Tesis digitales: efectos inmediatos/ventajas conseguidas Con todos los datos en base de datos: - Se puede generar metadata.xml sin intervención manual posterior - modificación de datos: solo en base [o en el archivo resumen] - fácil recuperar un conjunto de registros por ecuación de búsqueda para modificaciones o correcciones - datos en base del catálogo y datos en Greenstone coherentes - fácil homogeneización de nombres de carpetas y archivos con metadatos. - cambios de requerimientos en metadatos puede adaptarse ágilmente modificando los formatos de salida. - esquemas fácilmente replicables a otras colecciones Personal puede dedicar tiempo a otras actividades, como conseguir autorizaciones de publicar tesis.

25 Colección Tesis digitales: comentario sobre metadatos A partir de base ISIS, metadatos presentes en 3 instancias: - Para Greenstone, en metadata.xml (búsqueda y browsing) - Para Google, en el header de página web “de visita” generada por Greenstone (metadato gs.DocumentHeader), en sus tres sabores: “Google”, “Dublin Core” y “General” incluso se genera una “frase tipo”: - Dentro del propio PDF, como metadatos “embebidos”.

26

27

28

29

30

31 Colección El Hornero: situación anterior Inicialmente - un archivo metadata.xml (texto simple) como “plantilla” - se replicaba y modificaba para cada registro (cada artículo)

32 Colección El Hornero : Necesidades (Básicamente las mismas que con las Tesis) - archivo metadata.xml completo en un solo paso - metadatos extra, como ocurrencias numeradas - “metas” para Google - archivo en juego de caracteres UTF-8 - metadatos en los PDF - rutinas de chequeo de consistencia de datos (datos/carpetas/archivos) - responder ágilmente a cambios en los requisitos de metadatos presentes (en PDFs y páginas web) que plantean los buscadores

33 Mejorar qué/cómo. Principios rectores Concentrar los datos (“metadatos”) en base de datos y Minimizar las bases de datos (una por colección parece ser práctico) Maximizar la automatización de lo automatizable Automatizar las rutinas (muchos datos pueden generarse automáticamente) lo cual permite Minimizar el trabajo en la carga de datos y minimiza errores de carga Respetar los circuitos ya existentes pero tendiendo a automatizarlos no tener que modificar las bases existentes, sino “aggiornarlas” para seguir respetando el circuito existente Herramientas lo más básicas y clásicas posible Cumplidos requisitos funcionales imprescindibles, tender al menor requisito posible (Postura personal tomada ante la tecnología, no la única ni la mejor)

34 Colección El Hornero:mejoras implementadas “El Hornero”, colección nueva, se implementa módulo de carga. Base de datos ISIS (se importa metadata.xml ya existentes a la base) Módulo de carga de datos vía web (en base a desarrollos previos) -MX+WXIS+PHP -utf-8 nativo Posibilidad de: - búsquedas sobre cualquier campo - generación datos según patrones. ej: dl.Identifier, dl.ArchiveName, dl.Identifier_URL, dl.URL_HTML - cambios globales - generación de datos modificados a partir de datos existentes. Ej: dl.Creator_normalizado - responder a necesidades de carga particulares. Ej; - exportación a metadata.xml. (salida con.pft)

35 Colección El Hornero:mejoras implementadas Motivos para la elección de ISIS? (sin orden de importancia) -versatilidad -conocimientos de la herramienta (curva de aprendizaje muy leve) -posibilidad (pero necesidad) de programación: herramientas a medida -versatilidad y flexibilidad del lenguaje de formateo permiten generar prácticamente cualquier salida :“metadata.xml”, preformatear metadatos según necesidades.

36

37 tit

38 tit

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73 Colección El Hornero: efectos inmediatos/ventajas conseguidas Los mismos que para Tesis, en la medida en que los datos se gestionan desde una base de datos. Más específicamente: - campos generados automáticamente no tienen que cargarse: se ahorra tiempo y se evita errores. - campos “controlados” son controlados al momento de la carga: se ahorra tiempo y se evita errores. - campos faltantes identificados inmediatamente - marcas html se ingresan con un botón: se ahorra tiempo y se evita errores - generación del archivo metadata.xml de la colección es casi automática - parametrización del formulario de carga de datos se fue adaptando a las necesidades y requerimientos del equipo (en la medida de lo posible) Ya se replicó para otra colección “Ecología Austral”

74 Conclusiones: Función de Gestión de datos ≠ Función de Acceso : Pasa lo mismo con software utilizado. Siguiendo el Modelo OAIS, resulta útil y aclarador diferenciar conceptualmente funciones -de Acceso (Consulta del Usuario) -de Gestión de Datos (Administración por Gestor) Posibilidad, tal vez conveniencia, de usar softwares diferentes para cada función. (Diferentes necesidades, diferentes softwares) Siempre cumpliendo con necesidad de poder articular ambas funciones, y por lo tanto los softwares utilizados. Software para Gestión de Datos (ISIS) a parte permite independencia del software de Acceso (Greenstone) y cada uno atiende mejor su función

75 Conclusiones: Complementariedad de Softwares Greenstone responde bien a necesidades de navegación para lector (browsing, searching) Greenstone no fue pensado como herramienta para Gestión de Datos (Data Management). No incluye herramienta de gestión de base de datos satisfactoria para necesidades de Biblioteca Digital FCEN. Separar las 2 funciones, utilizando base de datos (ISIS)+módulo de carga nos permite (y obliga a) definir nuestras propias necesidades y rutinas [La libertad viene con responsabilidades] Agiliza la manipulación de datos Permite adaptar a necesidades propias “Sinergia” de softwares: Soft-DM (ISIS) + Soft-ACC (GS) = "suma sinérgica" : permite aprovechar las virtudes de cada uno de ellos. Problemas que no se resuelven con uno se resuelven con otro.

76 Conclusiones : Curva de aprendizaje Su costo no es despreciable. Todas las herramientas, ISIS/WXIS, Greenstone, DSpace, etc., tienen costo de aprendizaje: requieren conocimiento y capacidad No alcanza con tener la herramienta, también hay que saber usarla y sacarle provecho. Sacar provecho => Conocer => Aprender Las capacidades de las herramientas están condicionas a la capacidad de la gente a utilizarlas, y a aprovecharlas. Relación costo/beneficio de implementación de un software: se pudo implementar Módulo de Carga porque conocemos herramientas y tenemos base/conocimiento previos Primordial: apoyo de Sistemas; conveniente: tasa rotación de personal < tiempo de aprendizaje

77 Conclusiones: Ventajas, impactos obtenidos Cambios notables por el usuario? aparentemente no nota ningún cambio. Cambios introducidos son eminentemente internos: articulación Biblioteca / Biblioteca Digital mucho más fluida se aceitan y unifican circuitos mejor gestión de metadatos: se evita la "doble descripción" de objetos (ej: tesis y sus metadatos) mejor integridad de nombres de archivo/metadatos/bases de datos menor cantidad de errores y menor tiempo para detectarlos y corregirlos. mayor posibilidad de revisiones, cambios, y correcciones globales

78 Conclusiones: Ventajas, impactos obtenidos (en los usuarios) PERO, usuario beneficia de cambios imperceptibles: menor tiempo de procesamiento de colección: (las tesis se procesan considerablemente más rápido) usuario puede acceder ANTES a nuevos documentos y colecciones TESISTA visible ANTES disminución de tasa de errores y de tiempos de corrección: usuario accede a información más precisa, fidedigna y normalizada mayor VISIBILIDAD en Google, (metadatos en “head” de páginas web generadas por Greenstone).

¡Muchas gracias por su atención ! ¿Preguntas?