Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porBernardo Ortíz Escobar Modificado hace 8 años
1
Mejoras en la gestión de datos en la Biblioteca Digital de la FCEN-UBA: impactos en el usuario y en la visibilidad Ana María Sanllorenti Martín Williman Nicolas Rucks Biblioteca Central - Facultad de Ciencias Exactas y Naturales - UBA
2
Contexto General Se insertan en sistema de procesos y servicios preexistentes que los condicionan y que a su vez, modifican. Nuevas colecciones, necesidad de nuevos metadatos, fuentes diversas de los documentos, circuitos heterogéneos para el tratamiento de la información, nuevos servicios. Bibliotecas digitales deben cumplir con estándares internacionales que aseguren interoperabilidad. Plantean desafíos técnicos, organizativos y de capacitación de recursos humanos.
3
Biblioteca Digital FCEN-UBA: Contexto Biblioteca Híbrida Articulación de servicios, procesos y circuitos Digitalización de colecciones existentes –Reutilización de metadatos Colecciones nuevas –Nuevos metadatos Nuevas capacidades
4
Biblioteca Digital FCEN-UBA: Modelo OAIS Funciones Ingesta Área de archivos Gestión de datos Acceso Agentes Productor Gestión Consumido r
5
Biblioteca Digital FCEN-UBA: Colecciones Desde 1998 711 Números Desde 1994 48 Números Desde 2007 16 Números Desde 2008 5 Números 1921 - 1959 80 Números 1935 - 1961 17 Números 1917 1099 Artículos Desde 2002 28 Números Publicaciones
6
Biblioteca Digital FCEN-UBA: Colecciones Tesis 535 tesis doctorales desde 1955 Archivo Actas CD 1957 – 1962 Memorias FCEN 1950 – 1983 Expediente 411212 1966 - 1967 Fotografías 556 Fotografías desde 1900
7
Biblioteca Digital FCEN-UBA: Crecimiento
8
Biblioteca Digital FCEN-UBA: Uso
9
9 Mejoras, ¿porqué? - Nuevas colecciones, nuevos datos - Gestión más compleja - Coherencia de bases: base Biblioteca Digital (Greenstone) base Catálogo (ISIS) - Automatizar procesos manuales - Equipo de Biblioteca Digital incorpora personal conocedor de Greenstone e ISIS. => Año 2012 se focaliza en mejorar función de Gestión de Datos
10
10
11
11 Colección Tesis digitales: situación anterior Base de datos ya existente del catálogo (ISIS). - Formato de salida "xml.pft" exportación a metadata.xml Pero - revisión manual - inclusión manual de nuevos datos ausentes en la base del catálogo: -Jurados de las Tesis -Tema en esquema jerárquico (“navegable”) -Resumen => “Fuente maestra” de metadatos es conjunto de archivos metadata.xml. Corrección en el catálogo debía ser volcada a mano en el archivo correspondiente. catálogo no contenía toda la descripción.
12
12 Colección Tesis digitales: Necesidades - archivo metadata.xml completo en un solo paso - metadatos extra, como versiones SIN ACENTOS - “metas” para Google - archivo en juego de caracteres UTF-8 - metadatos en los PDF* - Link OPAC/Biblioteca Digital para cada tesis - rutinas de chequeo de consistencia de datos (datos/carpetas/archivos) - responder ágilmente a cambios en los requisitos de metadatos presentes (en PDFs y páginas web) que plantean los buscadores *presencia y respaldo institucionales, informa sobre declaración de uso, cumple con Google Scholar
13
13 Mejorar qué/cómo. Principios rectores Concentrar los datos (“metadatos”) en base de datos y Minimizar las bases de datos (una por colección parece ser práctico) Maximizar la automatización de lo automatizable Automatizar las rutinas (muchos datos pueden generarse automáticamente) lo cual permite Minimizar el trabajo en la carga de datos y minimiza errores de carga Respetar los circuitos ya existentes pero tendiendo a automatizarlos no tener que modificar las bases existentes, sino “aggiornarlas” para seguir respetando el circuito existente Herramientas lo más básicas y clásicas posible Cumplidos requisitos funcionales imprescindibles, tender al menor requisito posible (Postura personal tomada ante la tecnología, no la única ni la mejor)
14
14 Tesis Digitales: Mejoras Implementadas Datos en Base (ISIS) + salidas formateadas (PFT) + programas batch (shell) permite: TESIS, se sigue cargando con WinISIS, incorporados nuevos metadatos Ej: jurados de las tesis y áreas temáticas. Trabajo previo: - se definieron campos nuevos en la base del catálogo - para tesis ya tratadas, exportación de campos de interés provenientes del metadata.xml de cada tesis - importación a los registros correspondientes en la base del catálogo. (realizado con AWK y MX desde archivos metadata.xml hacia base ISIS). Formato de salida refinado genera metadata.xml en UTF-8 con todos los datos, incluso el resumen Resumen (extendido), fuera de la base: archivo de texto aparte (uno por tesis e idioma), nombre similar al PDF. Se vuelca a metadata.xml desde el formato de salida (pft) al generar la salida.
15
15 Tesis Digitales: Mejoras Implementadas programa batch genera archivo metadata.xml de una tesis con solo ingresar el número de tesis. programa batch genera metadata.xml de todas las tesis. link en OPAC hacia tesis digitalizada. Estructura de URL de una Tesis Digital: se puede construir con datos presentes en la base. Cuáles: batch analiza qué tesis están en Biblioteca Digital y marca base del catálogo nombres de archivo se construyen a partir de datos de la base + aplicación de reglas =>Programa batch para chequeos de consistencia de nombres de archivos de tesis en PDF, sus correspondientes copias y backups, nombre en la base de datos. PDFs de las tesis: datos en metadata.xml (proviene de la base ISIS única) + rutina realizada con ruby+pdftk, => automatización de portada institucional + inclusión de metadatos en los PDFs
16
16
17
17
18
18
19
19
20
20
21
21
22
22
23
23
24
24 Colección Tesis digitales: efectos inmediatos/ventajas conseguidas Con todos los datos en base de datos: - Se puede generar metadata.xml sin intervención manual posterior - modificación de datos: solo en base [o en el archivo resumen] - fácil recuperar un conjunto de registros por ecuación de búsqueda para modificaciones o correcciones - datos en base del catálogo y datos en Greenstone coherentes - fácil homogeneización de nombres de carpetas y archivos con metadatos. - cambios de requerimientos en metadatos puede adaptarse ágilmente modificando los formatos de salida. - esquemas fácilmente replicables a otras colecciones Personal puede dedicar tiempo a otras actividades, como conseguir autorizaciones de publicar tesis.
25
25 Colección Tesis digitales: comentario sobre metadatos A partir de base ISIS, metadatos presentes en 3 instancias: - Para Greenstone, en metadata.xml (búsqueda y browsing) - Para Google, en el header de página web “de visita” generada por Greenstone (metadato gs.DocumentHeader), en sus tres sabores: “Google”, “Dublin Core” y “General” incluso se genera una “frase tipo”: - Dentro del propio PDF, como metadatos “embebidos”.
26
26
27
27
28
28
29
29
30
30
31
31 Colección El Hornero: situación anterior Inicialmente - un archivo metadata.xml (texto simple) como “plantilla” - se replicaba y modificaba para cada registro (cada artículo)
32
32 Colección El Hornero : Necesidades (Básicamente las mismas que con las Tesis) - archivo metadata.xml completo en un solo paso - metadatos extra, como ocurrencias numeradas - “metas” para Google - archivo en juego de caracteres UTF-8 - metadatos en los PDF - rutinas de chequeo de consistencia de datos (datos/carpetas/archivos) - responder ágilmente a cambios en los requisitos de metadatos presentes (en PDFs y páginas web) que plantean los buscadores
33
33 Mejorar qué/cómo. Principios rectores Concentrar los datos (“metadatos”) en base de datos y Minimizar las bases de datos (una por colección parece ser práctico) Maximizar la automatización de lo automatizable Automatizar las rutinas (muchos datos pueden generarse automáticamente) lo cual permite Minimizar el trabajo en la carga de datos y minimiza errores de carga Respetar los circuitos ya existentes pero tendiendo a automatizarlos no tener que modificar las bases existentes, sino “aggiornarlas” para seguir respetando el circuito existente Herramientas lo más básicas y clásicas posible Cumplidos requisitos funcionales imprescindibles, tender al menor requisito posible (Postura personal tomada ante la tecnología, no la única ni la mejor)
34
34 Colección El Hornero:mejoras implementadas “El Hornero”, colección nueva, se implementa módulo de carga. Base de datos ISIS (se importa metadata.xml ya existentes a la base) Módulo de carga de datos vía web (en base a desarrollos previos) -MX+WXIS+PHP -utf-8 nativo Posibilidad de: - búsquedas sobre cualquier campo - generación datos según patrones. ej: dl.Identifier, dl.ArchiveName, dl.Identifier_URL, dl.URL_HTML - cambios globales - generación de datos modificados a partir de datos existentes. Ej: dl.Creator_normalizado - responder a necesidades de carga particulares. Ej; - exportación a metadata.xml. (salida con.pft)
35
35 Colección El Hornero:mejoras implementadas Motivos para la elección de ISIS? (sin orden de importancia) -versatilidad -conocimientos de la herramienta (curva de aprendizaje muy leve) -posibilidad (pero necesidad) de programación: herramientas a medida -versatilidad y flexibilidad del lenguaje de formateo permiten generar prácticamente cualquier salida :“metadata.xml”, preformatear metadatos según necesidades.
36
36
37
37 tit
38
38 tit
39
39
40
40
41
41
42
42
43
43
44
44
45
45
46
46
47
47
48
48
49
49
50
50
51
51
52
52
53
53
54
54
55
55
56
56
57
57
58
58
59
59
60
60
61
61
62
62
63
63
64
64
65
65
66
66
67
67
68
68
69
69
70
70
71
71
72
72
73
73 Colección El Hornero: efectos inmediatos/ventajas conseguidas Los mismos que para Tesis, en la medida en que los datos se gestionan desde una base de datos. Más específicamente: - campos generados automáticamente no tienen que cargarse: se ahorra tiempo y se evita errores. - campos “controlados” son controlados al momento de la carga: se ahorra tiempo y se evita errores. - campos faltantes identificados inmediatamente - marcas html se ingresan con un botón: se ahorra tiempo y se evita errores - generación del archivo metadata.xml de la colección es casi automática - parametrización del formulario de carga de datos se fue adaptando a las necesidades y requerimientos del equipo (en la medida de lo posible) Ya se replicó para otra colección “Ecología Austral”
74
74 Conclusiones: Función de Gestión de datos ≠ Función de Acceso : Pasa lo mismo con software utilizado. Siguiendo el Modelo OAIS, resulta útil y aclarador diferenciar conceptualmente funciones -de Acceso (Consulta del Usuario) -de Gestión de Datos (Administración por Gestor) Posibilidad, tal vez conveniencia, de usar softwares diferentes para cada función. (Diferentes necesidades, diferentes softwares) Siempre cumpliendo con necesidad de poder articular ambas funciones, y por lo tanto los softwares utilizados. Software para Gestión de Datos (ISIS) a parte permite independencia del software de Acceso (Greenstone) y cada uno atiende mejor su función
75
75 Conclusiones: Complementariedad de Softwares Greenstone responde bien a necesidades de navegación para lector (browsing, searching) Greenstone no fue pensado como herramienta para Gestión de Datos (Data Management). No incluye herramienta de gestión de base de datos satisfactoria para necesidades de Biblioteca Digital FCEN. Separar las 2 funciones, utilizando base de datos (ISIS)+módulo de carga nos permite (y obliga a) definir nuestras propias necesidades y rutinas [La libertad viene con responsabilidades] Agiliza la manipulación de datos Permite adaptar a necesidades propias “Sinergia” de softwares: Soft-DM (ISIS) + Soft-ACC (GS) = "suma sinérgica" : permite aprovechar las virtudes de cada uno de ellos. Problemas que no se resuelven con uno se resuelven con otro.
76
76 Conclusiones : Curva de aprendizaje Su costo no es despreciable. Todas las herramientas, ISIS/WXIS, Greenstone, DSpace, etc., tienen costo de aprendizaje: requieren conocimiento y capacidad No alcanza con tener la herramienta, también hay que saber usarla y sacarle provecho. Sacar provecho => Conocer => Aprender Las capacidades de las herramientas están condicionas a la capacidad de la gente a utilizarlas, y a aprovecharlas. Relación costo/beneficio de implementación de un software: se pudo implementar Módulo de Carga porque conocemos herramientas y tenemos base/conocimiento previos Primordial: apoyo de Sistemas; conveniente: tasa rotación de personal < tiempo de aprendizaje
77
77 Conclusiones: Ventajas, impactos obtenidos Cambios notables por el usuario? aparentemente no nota ningún cambio. Cambios introducidos son eminentemente internos: articulación Biblioteca / Biblioteca Digital mucho más fluida se aceitan y unifican circuitos mejor gestión de metadatos: se evita la "doble descripción" de objetos (ej: tesis y sus metadatos) mejor integridad de nombres de archivo/metadatos/bases de datos menor cantidad de errores y menor tiempo para detectarlos y corregirlos. mayor posibilidad de revisiones, cambios, y correcciones globales
78
78 Conclusiones: Ventajas, impactos obtenidos (en los usuarios) PERO, usuario beneficia de cambios imperceptibles: menor tiempo de procesamiento de colección: (las tesis se procesan considerablemente más rápido) usuario puede acceder ANTES a nuevos documentos y colecciones TESISTA visible ANTES disminución de tasa de errores y de tiempos de corrección: usuario accede a información más precisa, fidedigna y normalizada mayor VISIBILIDAD en Google, (metadatos en “head” de páginas web generadas por Greenstone).
79
¡Muchas gracias por su atención ! ¿Preguntas? martin@bl.fcen.uba.ar rucks@bl.fcen.uba.ar
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.