La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Greenstone Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza

Presentaciones similares


Presentación del tema: "Greenstone Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza"— Transcripción de la presentación:

1 Greenstone Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com

2 Greenstone… Es una aplicación para bibliotecas digitales… Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc. La interface de visualización es en html y permite una visualización total del contenido Organiza los documentos en colecciones… Permite desarrollar estructuras de organización de la colección…

3 Aplicaciones En organizaciones y/o servicios de información que utilicen documentos digitales Indexa y busca sobre texto completo además de hacerlo sobre los metadatos Es multilingüe: utiliza Unicode

4 Arquitectura Aplicación en Perl Usa el motor de representación y recuperación de información MG, o su versión avanzada MGPP, que usan el modelo vectorial Codifica toda la información en XML Necesita de un servidor web de soporte Incorpora una interfaz gráfica en Java

5 Requerimientos Versiones binarias ejecutables para Linux, Windows y Mac Requiere un intérprete Perl Requiere un servidor web Requiere Java Runtime Environment, JRE Para otros Unix hay código fuente que es necesario compilar

6 Greenstone en acción Da acceso a una interfaz predefinida, donde muestra las colecciones disponibles La selección de una de ellas lleva a la consulta de la misma La interfaz está muy estandarizada: barra de botones, campo de expresión de búsqueda y listado de respuestas El acceso es libre a la interfaz de busqueda y recuperación

7 La consulta en Greenstone Uso de las opciones en la barra de menú, y del campo de búsqueda Une los términos con AND Uso de comillas para frases Existencia de una interfaz más avanzada, a través de Preferencias Visualiza los documentos según haya sido predefinido por el creador de la colección

8 Creación de colecciones El proceso clave es la creación de colecciones Es necesario definir claramente el objetivo, contenido, características y organización de la colección Interfaces de creación: –Greenstone Librarian Interface, GLI –Línea de órdenes

9 Greenstone Librarian Interface, GLI Método recomendado (y recomendable) desde la versión 2.41a Interfaz en Java que necesita el JRE Integra todos los pasos necesarios para crear una colección Comprobar las Preferencias

10 Desarrollo de la colección, 1 Definir el nombre y la descripción de la colección Seleccionar el conjunto de metadatos a utilizar Crea un fichero básico de configuración de la colección Selección de los documentos a incluir Asignación de metadatos a cada uno de los documentos

11 Desarrollo de la colección, 2 Es necesario definir los tipos de documentos, y los plugins necesarios para su manipulación Definir tipos de búsqueda Definir índices para las búsquedas Definir los clasificadores Definir los formatos de presentación Construir la colección… e informe de errores

12 Plugins Son los procesadores de los tipos de documentos Son terceros programas, pueden aparecer nuevos Se pueden seleccionar y configurar Cuatro son necesarios: BasPlug, GAPlug, ArcPlug y RecPlug Los más importantes: TextPlug, WordPlug, PDFPlug, IsisPlug, EMAILPlug, ExcelPlug, LaTeXPlug, PSPPlug…

13 Clasificadores Criterios de organización de los documentos de la colección Suelen aparecer en forma de botones Clasificadores: –List –AzList, AzCompactList –DateList –Hierarchy –Phind…

14 Nuestra experiancia Instalación Linux Si bien tiene algunos inconvenientes ya que necesita que estén instalados ciertos componentes y en el manual de instalación no indica cuales, una vez que estos están instalados no tiene mayor dificultad, la inteface es buena y se configura fácilmente, en la versión 2.60 han corregidos alguno errores con respecto a esto.

15 Nuestra experiencia Interface para crear colecciones Muy amena e intuitiva, su pueden configurar los plugins que procesan los distintos tipos de documentos, se puede asociar un conjunto de metadatos a cada archivo de la colección, se puede indicar la forma de recuperación de las colecciones, (institución, letra, tema, etc), se puede editar el formato de visualización (no fue investigado a fondo) entre otras cosas.

16 Nuestra Experiencia Marcado de las tesis para que se puedan ver en capítulos El marcado es sencillo, cualquier persona con conocimientos intermedios de HTML lo puede hacer, lo recomendable en todos los casos es convertir el documento a html, por lo que habría que conseguir un buen programa, el mejor resultado que conseguí para convertir docs es con el CZ-Doc2html y después aplicando el Bresoft Word HTML cleanup, para “limpiar” el documento ya que deja mucho “basura” de Word al convertirlo, y esto dificulta el marcado. En el caso de pdf el procedimiento es el mismo. Después de la conversión hay que recorrer todo el documento de punta a punta para observar si se corresponde con el original, ya que puede haber algunos problemas con las tablas y listas. En promedio (depende de la cantidad de capítulos, exagerada muchas veces y de la fidelidad de la conversión) el formateo de la tesis en capítulos nos llevó entre uno y dos días de trabajo.

17 Nuestra Experiencia Tratamiento de tesis escaneadas En líneas generales el ocr interpretó bien el texto. En líneas generales el ocr interpretó bien el texto. Problemas: 1. Se pierden las listas, sobre todo si en lugar de puntos, se usó otro caracter. 2. Las tablas salen bien en cuanto al contenido, se pierde todo el formato, por lo que hay que reconstruirlas

18 Nuestra Experiencia 3. Imágenes y formulas, principal problema, no se puede obtener automáticamente, hay que escanear uno por uno, por lo que con una tesis con muchas formulas como es el comun en exactas, ingenieria, etc., el trabajo que lleva es mucho y tedioso. Una buena manera de tratar las formulas, podría ser, conseguir el texto en Word y escribirlas de vuelta con el constructor de formulas (se va a conseguir una calidad mejor que escanearlas, si bien es mas trabajoso) 4. El tiempo de tratamiento de las tesis escaneadas depende de la cantidad de gráficos y formulas que tengan.


Descargar ppt "Greenstone Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza"

Presentaciones similares


Anuncios Google