La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Mejoras en la gestión de datos en la Biblioteca Digital de la FCEN-UBA: impactos en el usuario y en la visibilidad Ana María Sanllorenti Martín Williman.

Presentaciones similares


Presentación del tema: "Mejoras en la gestión de datos en la Biblioteca Digital de la FCEN-UBA: impactos en el usuario y en la visibilidad Ana María Sanllorenti Martín Williman."— Transcripción de la presentación:

1 Mejoras en la gestión de datos en la Biblioteca Digital de la FCEN-UBA: impactos en el usuario y en la visibilidad Ana María Sanllorenti Martín Williman Nicolas Rucks Biblioteca Central - Facultad de Ciencias Exactas y Naturales - UBA

2 Contexto General Se insertan en sistema de procesos y servicios preexistentes que los condicionan y que a su vez, modifican. Nuevas colecciones, necesidad de nuevos metadatos, fuentes diversas de los documentos, circuitos heterogéneos para el tratamiento de la información, nuevos servicios. Bibliotecas digitales deben cumplir con estándares internacionales que aseguren interoperabilidad.  Plantean desafíos técnicos, organizativos y de capacitación de recursos humanos.

3 Biblioteca Digital FCEN-UBA: Contexto Biblioteca Híbrida Articulación de servicios, procesos y circuitos Digitalización de colecciones existentes –Reutilización de metadatos Colecciones nuevas –Nuevos metadatos Nuevas capacidades

4 Biblioteca Digital FCEN-UBA: Modelo OAIS Funciones Ingesta Área de archivos Gestión de datos Acceso Agentes Productor Gestión Consumido r

5 Biblioteca Digital FCEN-UBA: Colecciones Desde 1998 711 Números Desde 1994 48 Números Desde 2007 16 Números Desde 2008 5 Números 1921 - 1959 80 Números 1935 - 1961 17 Números 1917 1099 Artículos Desde 2002 28 Números Publicaciones

6 Biblioteca Digital FCEN-UBA: Colecciones Tesis 535 tesis doctorales desde 1955 Archivo Actas CD 1957 – 1962 Memorias FCEN 1950 – 1983 Expediente 411212 1966 - 1967 Fotografías 556 Fotografías desde 1900

7 Biblioteca Digital FCEN-UBA: Crecimiento

8 Biblioteca Digital FCEN-UBA: Uso

9 9 Mejoras, ¿porqué? - Nuevas colecciones, nuevos datos - Gestión más compleja - Coherencia de bases: base Biblioteca Digital (Greenstone) base Catálogo (ISIS) - Automatizar procesos manuales - Equipo de Biblioteca Digital incorpora personal conocedor de Greenstone e ISIS. => Año 2012 se focaliza en mejorar función de Gestión de Datos

10 10

11 11 Colección Tesis digitales: situación anterior Base de datos ya existente del catálogo (ISIS). - Formato de salida "xml.pft" exportación a metadata.xml Pero - revisión manual - inclusión manual de nuevos datos ausentes en la base del catálogo: -Jurados de las Tesis -Tema en esquema jerárquico (“navegable”) -Resumen => “Fuente maestra” de metadatos es conjunto de archivos metadata.xml. Corrección en el catálogo debía ser volcada a mano en el archivo correspondiente. catálogo no contenía toda la descripción.

12 12 Colección Tesis digitales: Necesidades - archivo metadata.xml completo en un solo paso - metadatos extra, como versiones SIN ACENTOS - “metas” para Google - archivo en juego de caracteres UTF-8 - metadatos en los PDF* - Link OPAC/Biblioteca Digital para cada tesis - rutinas de chequeo de consistencia de datos (datos/carpetas/archivos) - responder ágilmente a cambios en los requisitos de metadatos presentes (en PDFs y páginas web) que plantean los buscadores *presencia y respaldo institucionales, informa sobre declaración de uso, cumple con Google Scholar

13 13 Mejorar qué/cómo. Principios rectores Concentrar los datos (“metadatos”) en base de datos y Minimizar las bases de datos (una por colección parece ser práctico) Maximizar la automatización de lo automatizable Automatizar las rutinas (muchos datos pueden generarse automáticamente) lo cual permite Minimizar el trabajo en la carga de datos y minimiza errores de carga Respetar los circuitos ya existentes pero tendiendo a automatizarlos no tener que modificar las bases existentes, sino “aggiornarlas” para seguir respetando el circuito existente Herramientas lo más básicas y clásicas posible Cumplidos requisitos funcionales imprescindibles, tender al menor requisito posible (Postura personal tomada ante la tecnología, no la única ni la mejor)

14 14 Tesis Digitales: Mejoras Implementadas Datos en Base (ISIS) + salidas formateadas (PFT) + programas batch (shell) permite: TESIS, se sigue cargando con WinISIS, incorporados nuevos metadatos Ej: jurados de las tesis y áreas temáticas. Trabajo previo: - se definieron campos nuevos en la base del catálogo - para tesis ya tratadas, exportación de campos de interés provenientes del metadata.xml de cada tesis - importación a los registros correspondientes en la base del catálogo. (realizado con AWK y MX desde archivos metadata.xml hacia base ISIS). Formato de salida refinado genera metadata.xml en UTF-8 con todos los datos, incluso el resumen Resumen (extendido), fuera de la base: archivo de texto aparte (uno por tesis e idioma), nombre similar al PDF. Se vuelca a metadata.xml desde el formato de salida (pft) al generar la salida.

15 15 Tesis Digitales: Mejoras Implementadas programa batch genera archivo metadata.xml de una tesis con solo ingresar el número de tesis. programa batch genera metadata.xml de todas las tesis. link en OPAC hacia tesis digitalizada. Estructura de URL de una Tesis Digital: se puede construir con datos presentes en la base. Cuáles: batch analiza qué tesis están en Biblioteca Digital y marca base del catálogo nombres de archivo se construyen a partir de datos de la base + aplicación de reglas =>Programa batch para chequeos de consistencia de nombres de archivos de tesis en PDF, sus correspondientes copias y backups, nombre en la base de datos. PDFs de las tesis: datos en metadata.xml (proviene de la base ISIS única) + rutina realizada con ruby+pdftk, => automatización de portada institucional + inclusión de metadatos en los PDFs

16 16

17 17

18 18

19 19

20 20

21 21

22 22

23 23

24 24 Colección Tesis digitales: efectos inmediatos/ventajas conseguidas Con todos los datos en base de datos: - Se puede generar metadata.xml sin intervención manual posterior - modificación de datos: solo en base [o en el archivo resumen] - fácil recuperar un conjunto de registros por ecuación de búsqueda para modificaciones o correcciones - datos en base del catálogo y datos en Greenstone coherentes - fácil homogeneización de nombres de carpetas y archivos con metadatos. - cambios de requerimientos en metadatos puede adaptarse ágilmente modificando los formatos de salida. - esquemas fácilmente replicables a otras colecciones Personal puede dedicar tiempo a otras actividades, como conseguir autorizaciones de publicar tesis.

25 25 Colección Tesis digitales: comentario sobre metadatos A partir de base ISIS, metadatos presentes en 3 instancias: - Para Greenstone, en metadata.xml (búsqueda y browsing) - Para Google, en el header de página web “de visita” generada por Greenstone (metadato gs.DocumentHeader), en sus tres sabores: “Google”, “Dublin Core” y “General” incluso se genera una “frase tipo”: - Dentro del propio PDF, como metadatos “embebidos”.

26 26

27 27

28 28

29 29

30 30

31 31 Colección El Hornero: situación anterior Inicialmente - un archivo metadata.xml (texto simple) como “plantilla” - se replicaba y modificaba para cada registro (cada artículo)

32 32 Colección El Hornero : Necesidades (Básicamente las mismas que con las Tesis) - archivo metadata.xml completo en un solo paso - metadatos extra, como ocurrencias numeradas - “metas” para Google - archivo en juego de caracteres UTF-8 - metadatos en los PDF - rutinas de chequeo de consistencia de datos (datos/carpetas/archivos) - responder ágilmente a cambios en los requisitos de metadatos presentes (en PDFs y páginas web) que plantean los buscadores

33 33 Mejorar qué/cómo. Principios rectores Concentrar los datos (“metadatos”) en base de datos y Minimizar las bases de datos (una por colección parece ser práctico) Maximizar la automatización de lo automatizable Automatizar las rutinas (muchos datos pueden generarse automáticamente) lo cual permite Minimizar el trabajo en la carga de datos y minimiza errores de carga Respetar los circuitos ya existentes pero tendiendo a automatizarlos no tener que modificar las bases existentes, sino “aggiornarlas” para seguir respetando el circuito existente Herramientas lo más básicas y clásicas posible Cumplidos requisitos funcionales imprescindibles, tender al menor requisito posible (Postura personal tomada ante la tecnología, no la única ni la mejor)

34 34 Colección El Hornero:mejoras implementadas “El Hornero”, colección nueva, se implementa módulo de carga. Base de datos ISIS (se importa metadata.xml ya existentes a la base) Módulo de carga de datos vía web (en base a desarrollos previos) -MX+WXIS+PHP -utf-8 nativo Posibilidad de: - búsquedas sobre cualquier campo - generación datos según patrones. ej: dl.Identifier, dl.ArchiveName, dl.Identifier_URL, dl.URL_HTML - cambios globales - generación de datos modificados a partir de datos existentes. Ej: dl.Creator_normalizado - responder a necesidades de carga particulares. Ej; - exportación a metadata.xml. (salida con.pft)

35 35 Colección El Hornero:mejoras implementadas Motivos para la elección de ISIS? (sin orden de importancia) -versatilidad -conocimientos de la herramienta (curva de aprendizaje muy leve) -posibilidad (pero necesidad) de programación: herramientas a medida -versatilidad y flexibilidad del lenguaje de formateo permiten generar prácticamente cualquier salida :“metadata.xml”, preformatear metadatos según necesidades.

36 36

37 37 tit

38 38 tit

39 39

40 40

41 41

42 42

43 43

44 44

45 45

46 46

47 47

48 48

49 49

50 50

51 51

52 52

53 53

54 54

55 55

56 56

57 57

58 58

59 59

60 60

61 61

62 62

63 63

64 64

65 65

66 66

67 67

68 68

69 69

70 70

71 71

72 72

73 73 Colección El Hornero: efectos inmediatos/ventajas conseguidas Los mismos que para Tesis, en la medida en que los datos se gestionan desde una base de datos. Más específicamente: - campos generados automáticamente no tienen que cargarse: se ahorra tiempo y se evita errores. - campos “controlados” son controlados al momento de la carga: se ahorra tiempo y se evita errores. - campos faltantes identificados inmediatamente - marcas html se ingresan con un botón: se ahorra tiempo y se evita errores - generación del archivo metadata.xml de la colección es casi automática - parametrización del formulario de carga de datos se fue adaptando a las necesidades y requerimientos del equipo (en la medida de lo posible) Ya se replicó para otra colección “Ecología Austral”

74 74 Conclusiones: Función de Gestión de datos ≠ Función de Acceso : Pasa lo mismo con software utilizado. Siguiendo el Modelo OAIS, resulta útil y aclarador diferenciar conceptualmente funciones -de Acceso (Consulta del Usuario) -de Gestión de Datos (Administración por Gestor) Posibilidad, tal vez conveniencia, de usar softwares diferentes para cada función. (Diferentes necesidades, diferentes softwares) Siempre cumpliendo con necesidad de poder articular ambas funciones, y por lo tanto los softwares utilizados. Software para Gestión de Datos (ISIS) a parte permite independencia del software de Acceso (Greenstone) y cada uno atiende mejor su función

75 75 Conclusiones: Complementariedad de Softwares Greenstone responde bien a necesidades de navegación para lector (browsing, searching) Greenstone no fue pensado como herramienta para Gestión de Datos (Data Management). No incluye herramienta de gestión de base de datos satisfactoria para necesidades de Biblioteca Digital FCEN. Separar las 2 funciones, utilizando base de datos (ISIS)+módulo de carga nos permite (y obliga a) definir nuestras propias necesidades y rutinas [La libertad viene con responsabilidades] Agiliza la manipulación de datos Permite adaptar a necesidades propias “Sinergia” de softwares: Soft-DM (ISIS) + Soft-ACC (GS) = "suma sinérgica" : permite aprovechar las virtudes de cada uno de ellos. Problemas que no se resuelven con uno se resuelven con otro.

76 76 Conclusiones : Curva de aprendizaje Su costo no es despreciable. Todas las herramientas, ISIS/WXIS, Greenstone, DSpace, etc., tienen costo de aprendizaje: requieren conocimiento y capacidad No alcanza con tener la herramienta, también hay que saber usarla y sacarle provecho. Sacar provecho => Conocer => Aprender Las capacidades de las herramientas están condicionas a la capacidad de la gente a utilizarlas, y a aprovecharlas. Relación costo/beneficio de implementación de un software: se pudo implementar Módulo de Carga porque conocemos herramientas y tenemos base/conocimiento previos Primordial: apoyo de Sistemas; conveniente: tasa rotación de personal < tiempo de aprendizaje

77 77 Conclusiones: Ventajas, impactos obtenidos Cambios notables por el usuario? aparentemente no nota ningún cambio. Cambios introducidos son eminentemente internos: articulación Biblioteca / Biblioteca Digital mucho más fluida se aceitan y unifican circuitos mejor gestión de metadatos: se evita la "doble descripción" de objetos (ej: tesis y sus metadatos) mejor integridad de nombres de archivo/metadatos/bases de datos menor cantidad de errores y menor tiempo para detectarlos y corregirlos. mayor posibilidad de revisiones, cambios, y correcciones globales

78 78 Conclusiones: Ventajas, impactos obtenidos (en los usuarios) PERO, usuario beneficia de cambios imperceptibles: menor tiempo de procesamiento de colección: (las tesis se procesan considerablemente más rápido) usuario puede acceder ANTES a nuevos documentos y colecciones TESISTA visible ANTES disminución de tasa de errores y de tiempos de corrección: usuario accede a información más precisa, fidedigna y normalizada mayor VISIBILIDAD en Google, (metadatos en “head” de páginas web generadas por Greenstone).

79 ¡Muchas gracias por su atención ! ¿Preguntas? martin@bl.fcen.uba.ar rucks@bl.fcen.uba.ar


Descargar ppt "Mejoras en la gestión de datos en la Biblioteca Digital de la FCEN-UBA: impactos en el usuario y en la visibilidad Ana María Sanllorenti Martín Williman."

Presentaciones similares


Anuncios Google