Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca.

Slides:



Advertisements
Presentaciones similares
Trabajo de informática
Advertisements

Moodle.
En 5 años más cada alumno que navegue por Internet lo hará con la ayuda de Web 2.0 Educación 2.0 Aprendaris.
Gestión descentralizada de un portal cooperativo para la difusión de contenidos digitales Dra. Dominique Babini Consejo Latinoamericano de Ciencias Sociales.
PJSF Licitación pública internacional nro. 10 Lote 2 (parcial) Sistema Documental Jurídico Caso de estudio Infojus La más completa biblioteca digital de.
Proyecto portal Municipios de la Argentina Programa de Mejora de la Gestión Municipal – BID 1855/OC-AR UEC - Ministerio del Interior.
Pensiones Civiles del Estado PROYECTO: Página Web PCE
Ing. Brenda G. Estupiñán Cuevas Día virtual tesis digitales - CUDI
5º Jornada sobre la Biblioteca Digital Universitaria El ciclo del conocimiento en el entorno académico INTERNET INVISIBLE: ACCEDIENDO A INFORMACIÓN DE.
INICIO 08:30 a.m. Q Q W W E E A A P P O O I I U U Y Y T T R R S S J J K K F F L L H H G G D D B B Ñ Ñ Z Z X X C C V V N N M M.
Conjunto de información almacenado en memoria auxiliar Permiten acceso directo a programas que las manipulan Es un sistema de archivos electrónicos.
3a Jornada sobre la Biblioteca Digital Universitaria (JBD 2005) Tesis electrónicas en la UBP 3a Jornada sobre la Biblioteca Digital Universitaria (JBD.
Publicar en la web – el rol de los bibliotecarios Dominique Babini – CLACSO Bibliotecas y nuevas lecturas en el espacio digital 2º Congreso Iberoamericano.
SISTEMA DE GESTIÓN DOCENTE Herramientas Web para la Gestión Académica.
Gestión descentralizada de un portal cooperativo para la difusión de contenidos digitales Dra. Dominique Babini Consejo Latinoamericano de Ciencias Sociales.
IDES - 20 de Noviembre Gestión descentralizada de un portal cooperativo para la difusión de contenidos digitales Dra. Dominique Babini Consejo Latinoamericano.
Presentado por: Lenin Isaías Escobar Mendoza
EVOLUCION DE LA WEB LINA MARCELA GOMEZ MORALES MARIANAURREGO PEREZ 9
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COORDINACIÓN DE DIFUSIÓN CULTURAL MUSEO UNIVERSITARIO DEL CHOPO MEDIATECA DEL CHOPO.
PROYECTO “PORTAL EDUCATIVO” Una nueva herramienta para nuevos desafíos
TECNOLOGÍA DE LA COMUNICACIÓN I LICS. EN COMUNICACIÓN SOCIAL Y PERIODISMO CLASE 1- AÑO 2013 ELABORADO POR PROF. VIVIANA M. PONCE
Desarrollo de una red de bibliotecas virtuales con software libre
Escanear imágenes y textos
Navegadores WEB.
Nuevos roles de la biblioteca en la edición, difusión y acceso al libro académico y científico digital CLACSO Consejo Latinoamericano de Ciencias Sociales.
Buscador Es un sistema informático que busca archivos almacenados en servidores web HERRAMIENTAS DE COMPUTACION I.
Es dispositivo utilizado en medicina, electrónica e informática, que explora el cuerpo humano, un espacio, imágenes o documentos. Su plural es escáneres.
Biblioteca de la Universidad de Málaga
H ERRAMIENTAS DE WEB 2.0 CONTENIDO ¿Qué es la web 2.0Web 2.0 y educaciónTipos de herramientas web 2.0 Herramientas y ejemplos de aplicación ¿Dónde buscar.
“EXPERIENCIAS EN LA INTEGRACIÓN DE LA BASE DE DATOS GEOESPACIAL DE GEODESIA (BDGG).”
Curso de Creación aplicaciones dinámicas web con PHP y MySQL Continuamos.
Proceso de Digitalización De Información Sobre Desastres y Salud Información Sobre Desastres y Salud Experiencias Obtenidas en Honduras Lic. Ovidio Enrique.
LA DIGITALIZACION DE DOCUMENTOS
¿Qué es un portal?. Plataforma de software para construir aplicaciones y sitios web. Se usa para desarrollar un amplio abanico de aplicaciones Se constituyen.
¿Qué es la Internet? Es una "red de redes", ¿Cómo así…?
Herramientas de internet
Página Web de las bibliotecas universitarias
Conceptos básicos sobre Internet
28 de Agosto de 2012 Las TIC en el nivel inicial posibilidades y desafíos.
Fundación Telefónica Caracas, Abril 2011 I PROYECTO: “ APRENDO CON LAS TICS”
TELEMATICA Introducción.
BUSCADORES.
DIEGO MADARRIAGA BRIEVA DARIO DIAZ PEÑALOZA ANDERSON ACEVEDO RIOS.
Maestría en Tecnologías para la Gestión y Práctica Docente
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
 Este protocolo opera a través de solicitudes y respuestas, entre un "cliente" y un "servidor". El cliente para los usuarios es el navegador web, usado.
 “la Web”, es un sistema de documentos (o páginas web) interconectados por enlaces de hipertexto, disponibles en Internet.
 Un motor de búsqueda, también conocido como buscador es un sistema informático que busca archivos almacenados en servidores web gracias a su «spider»
Por: Mónica María Rúa Blandón
Tecnologías de la información y comunicación.. Buscadores de informaciónBuscadores de información O Un buscador es una página web que ofrece algún sistema.
PROGRAMA CONECTAR IGUALDAD Taller AULAS TIC Gestión de Recursos y Elaboración de Secuencias Didácticas desde el Modelo 1:1.
Taller 5 1)Que es una pagina web? página web es el nombre de un documento o información electrónica adaptada para la world Wide web y que puede ser accedida.
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
HERRAMIENTAS WEB 2.0.
Juan José Velásquez 9a.   Es una empresa creada por Mark Zuckerberg Esta consiste en un sitio de internet de redes sociales era solamente para estudiantes.
Navegadores. Para poder acceder al World Wide Web es necesario emplear un programa cliente de este servicio. A estos clientes se les suele denominar “browsers”
Arquitectura de un Data Warehouse
HTML.
Las tipologías multimedia se clasifican según el tipo de proyectos: Multimedia Educativa Multimedia Comercial Multimedia Informativa Multimedia Publicitaria.
Motor de búsqueda Un motor de búsqueda es una aplicación de software diseñado para encontrar los recursos digitales como páginas web, textos, noticias.
*SERVICIOS DE BOLETINES INFORMACIÓN BASE DE DATOS REVISTAS ELECTRONICAS BIBLIOTECAS VIRTUALES WEB *SERVICIOS DE CORREO –e COMUNICACIÓN FOROS DE DISCUSION.
Tema: Motores de Búsqueda
Camila Maidana INFORMÁTICA 1er año, secundaria NEA.
 El término WikiWiki es de origen hawaiano que significa: rápido. Comúnmente para abreviar esta palabra se utiliza Wiki y en términos tecnológicos es.
Implementación de proyectos de digitalización y preservación digital Lic. Marisol Zuñiga Coordinadora de colecciones Biblioteca Ludwig.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Jornadas LEXNET II Diciembre de PROGRAMAS Creación PDF Impresora Virtual Escáner Firma PDF.
Anakaren Saláis Marisela Arreola Los libros no se encuentran realizados en papel sino en otro soporte, en formatos de textos digitalizados,
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
CD. VICTORIA, TAMAULIPAS FEBRERO DEL  La interfaz del software es independiente y no está dentro del código.  Permite a los usuarios cambiar.
Transcripción de la presentación:

Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca Nacional de Maestros

En que consiste Es un buscador que le da al usuario la posibilidad de buscar frases o palabras en textos digitalizados en formato de imagen.

El material en una biblioteca digital se somete a: Catalogación Digitalización Indexado de texto completo del contenido

Catalogación Interfases de catalogación: IsisMarc – Catalis – Aguapey Software de catalogación y OPAC: microIsis – OpenIsis - Malette

Proceso para la digitalización Imágenes: registro asociado y metadatos Digitalización de videos: registro asociado y metadatos Texto en imagen: se lo digitaliza y se realiza un control de calidad. –OCR: Se realiza de manera automática un conocimiento óptico de caracteres y se somete a algoritmos de depuración. –Indexación: Se alimenta una base de datos con el documento asociado.

Organización del material Material organizado por inventario y páginas Software que actúa como book reader con conversión automática de formatos. Software para streaming de los videos digitalizados

Almacenaje Inventario Número de página Sistema de archivos: ReiserFS (Permite hasta de archivos por directorio) Imagen: DPI (2 MBY aprox en JPG) JPG

Automatización Se cataloga el material agregando el registro correspondiente a la base de datos. Se procede a la digitalización del material en las estaciones de trabajo Control de calidad del material digitalizado Ejecución de script de actualización del buscador

Reconocimiento óptico de caracteres Se tiene un porcentaje bajo de errores en la digitalización el mas bajo es de 2 % para implementar un buscador en un muy buen índice de errores… Software: GOCR –Ocrad Mediante IPC (Interprocess comunication) Salida mediante una (pipe)

Algoritmos de depuración Por distancia: vectorizado de palabras Algoritmo de Bayer B-Tree*

Software de bases de datos Se puede implementar en: Berkeley DB (base de datos no relacional: MySQL y Oracle fueron construidos con ella) MYSQL o cualquier otro motor de base datos relacional ZODB (Base datos orientada a objetos – Python)

Arquitectura informática Estaciones de trabajo Internet Servicios: Sitio web Catálogos Lectura de documentos on- line Streaming de video Cluster Linux: etherblades + GFS

Conclusiones Pros: Manera fácil y barata de implementar un buscador de texto completo en imágenes utilizando software libre. Se realiza todo de manera casi automatizada. Contras: El material debe estar en buen estado y hay ciertas restricciones a algunas tipografías de los documentos (dependiendo del OCR). Hay que realizar una buena gestión de la calidad en los documentos digitalizados.

Contacto Marcio Luis Andrade Lessa Biblioteca Nacional de Maestros Teléfono: