Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca Nacional de Maestros
En que consiste Es un buscador que le da al usuario la posibilidad de buscar frases o palabras en textos digitalizados en formato de imagen.
El material en una biblioteca digital se somete a: Catalogación Digitalización Indexado de texto completo del contenido
Catalogación Interfases de catalogación: IsisMarc – Catalis – Aguapey Software de catalogación y OPAC: microIsis – OpenIsis - Malette
Proceso para la digitalización Imágenes: registro asociado y metadatos Digitalización de videos: registro asociado y metadatos Texto en imagen: se lo digitaliza y se realiza un control de calidad. –OCR: Se realiza de manera automática un conocimiento óptico de caracteres y se somete a algoritmos de depuración. –Indexación: Se alimenta una base de datos con el documento asociado.
Organización del material Material organizado por inventario y páginas Software que actúa como book reader con conversión automática de formatos. Software para streaming de los videos digitalizados
Almacenaje Inventario Número de página Sistema de archivos: ReiserFS (Permite hasta de archivos por directorio) Imagen: DPI (2 MBY aprox en JPG) JPG
Automatización Se cataloga el material agregando el registro correspondiente a la base de datos. Se procede a la digitalización del material en las estaciones de trabajo Control de calidad del material digitalizado Ejecución de script de actualización del buscador
Reconocimiento óptico de caracteres Se tiene un porcentaje bajo de errores en la digitalización el mas bajo es de 2 % para implementar un buscador en un muy buen índice de errores… Software: GOCR –Ocrad Mediante IPC (Interprocess comunication) Salida mediante una (pipe)
Algoritmos de depuración Por distancia: vectorizado de palabras Algoritmo de Bayer B-Tree*
Software de bases de datos Se puede implementar en: Berkeley DB (base de datos no relacional: MySQL y Oracle fueron construidos con ella) MYSQL o cualquier otro motor de base datos relacional ZODB (Base datos orientada a objetos – Python)
Arquitectura informática Estaciones de trabajo Internet Servicios: Sitio web Catálogos Lectura de documentos on- line Streaming de video Cluster Linux: etherblades + GFS
Conclusiones Pros: Manera fácil y barata de implementar un buscador de texto completo en imágenes utilizando software libre. Se realiza todo de manera casi automatizada. Contras: El material debe estar en buen estado y hay ciertas restricciones a algunas tipografías de los documentos (dependiendo del OCR). Hay que realizar una buena gestión de la calidad en los documentos digitalizados.
Contacto Marcio Luis Andrade Lessa Biblioteca Nacional de Maestros Teléfono: