La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca.

Presentaciones similares


Presentación del tema: "Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca."— Transcripción de la presentación:

1 Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca Nacional de Maestros

2 En que consiste Es un buscador que le da al usuario la posibilidad de buscar frases o palabras en textos digitalizados en formato de imagen.

3 El material en una biblioteca digital se somete a: Catalogación Digitalización Indexado de texto completo del contenido

4 Catalogación Interfases de catalogación: IsisMarc – Catalis – Aguapey Software de catalogación y OPAC: microIsis – OpenIsis - Malette

5 Proceso para la digitalización Imágenes: registro asociado y metadatos Digitalización de videos: registro asociado y metadatos Texto en imagen: se lo digitaliza y se realiza un control de calidad. –OCR: Se realiza de manera automática un conocimiento óptico de caracteres y se somete a algoritmos de depuración. –Indexación: Se alimenta una base de datos con el documento asociado.

6 Organización del material Material organizado por inventario y páginas Software que actúa como book reader con conversión automática de formatos. Software para streaming de los videos digitalizados

7 Almacenaje Inventario Número de página Sistema de archivos: ReiserFS (Permite hasta 2.000.0000 de archivos por directorio) Imagen: 200-360 DPI (2 MBY aprox en JPG) 00011354 - 0003. JPG 00011354

8 Automatización Se cataloga el material agregando el registro correspondiente a la base de datos. Se procede a la digitalización del material en las estaciones de trabajo Control de calidad del material digitalizado Ejecución de script de actualización del buscador

9 Reconocimiento óptico de caracteres Se tiene un porcentaje bajo de errores en la digitalización el mas bajo es de 2 % para implementar un buscador en un muy buen índice de errores… Software: GOCR –Ocrad Mediante IPC (Interprocess comunication) Salida mediante una (pipe)

10 Algoritmos de depuración Por distancia: vectorizado de palabras Algoritmo de Bayer B-Tree*

11 Software de bases de datos Se puede implementar en: Berkeley DB (base de datos no relacional: MySQL y Oracle fueron construidos con ella) MYSQL o cualquier otro motor de base datos relacional ZODB (Base datos orientada a objetos – Python)

12 Arquitectura informática Estaciones de trabajo Internet Servicios: Sitio web Catálogos Lectura de documentos on- line Streaming de video Cluster Linux: etherblades + GFS

13 Conclusiones Pros: Manera fácil y barata de implementar un buscador de texto completo en imágenes utilizando software libre. Se realiza todo de manera casi automatizada. Contras: El material debe estar en buen estado y hay ciertas restricciones a algunas tipografías de los documentos (dependiendo del OCR). Hay que realizar una buena gestión de la calidad en los documentos digitalizados.

14 Contacto Marcio Luis Andrade Lessa Biblioteca Nacional de Maestros Teléfono: 4129-1203 E-Mail: mandrade@me.gov.ar


Descargar ppt "Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca."

Presentaciones similares


Anuncios Google