Grupo de trabajo iris-index Jornadas Técnicas RedIRIS-97
Índice Repaso de las actividades realizadas en el grupo iris-index Metainformación, formatos de metainformación Herramientas de generación de metainformación Actividades restantes en el grupo iris-index Proyectos relacionados con iris-index
Fase 1. Objetivos Elección de centros participantes Software a usar Instalación harvest 1.5 Información a indexar Páginas de prueba Estructura del sistema Creación de gatherer y broker en cada nodo (g1,b1) Creación de broker global en rediris (b0) Creación de interface de consultas a ese broker final http://www.rediris.es/harvest/brokers/i1-index/ g1,b1 b0
Fase 1. Resultados obtenidos Problemas Índices generados muy grandes Información en los índices de diferentes tipos No se han indexado correctamente las páginas con los caracteres "á,é,í,ó,ú,ñ" Falta de metainformación en casi todas las páginas Posibles soluciones Modificar HTML.Sum.Tbl, RunGatherer, RunBroker Incorporar metainformación
Fase 2. Expansión otro nivel Estructura del nuevo sistema Gatherer local en los centros en el nivel 2 Broker basado en ese gatherer Broker en el nivel 1 que apunte a todos los brokers de los centros en el nivel 2 y al propio en el nivel 1 1 2 g1,b1 b0 b2
Fase 2. Resultados Obtenidos Consultas desde el nivel superior con resultados favorables Posibilidad de expansión de la estructura Problemas Escasa colaboración de centros para el nivel 2
Fase 3. Metainformación ¿ Qué metainformación necesitamos ? Análisis de conjuntos de metainformación existentes Desarrollo de una herramienta que permita introducir metainformación en las páginas
Metainformación Beneficios de uso Facilita la recuperación de información Identifica las diferentes características de los recursos (autor, claves, título,...) Identifica documentos que de otra forma pasarían desapercibidos para los buscadores (imagenes, BD, documentos PDF, ...) Posible creación de repositorios de ficheros de metainformación para facilitar las tareas de recolección de recursos
Esquemas de Metainformación Dublin Core http://purl.oclc.org/metadata/dublin_core_elements Aproximación minimalista 15 elementos Aproximación estructuralista Utilización de cualificadores http://www.loc.gov/marc/dcqualif.html TYPE Refina el significado del campo creator.name, creator.email, creator.name.address SCHEME Explica el significado del valor contenido en el campo ejemplo: la fecha
Conjunto de metadatas de Dublin Core title Nombre del recurso creator Persona, organización responsable de la creación del recurso subject Claves description Descripción textual del contenido del recurso publisher Entidad responsable de que el recurso esté disponible en la red contributor Colaboradores en la creación del recurso date Fecha en la que el recurso fue editado en su forma actual type Categoría del recurso (página, novela, poema ...) format Formato del recurso, hardware necesario para verlo, identifier Cadena para identificar unívocamente el recurso source Cadena para identificar el orígen del recurso language Idioma en que está escrito el recurso relation Relaciones de este recurso con otros coverage Localización espacial y temporal del recurso rights Enlace a una nota de copyright
Ejemplos <meta name=“DC.Creator.PersonalName” content="martin hamilton"> <meta name=“DC.Creator.email” content="martin@net.Lut.Ac.Uk"> <meta name=“DC.Creator.PersonalName.Address” content=“Avda. la Hispanidad, 5. Sevilla”> <meta name=“DC.Date.Creation_of_intellectual_content” content=“19971005”> <meta name="DC.form" scheme="IMT" content="text/html"> <meta name="DC.language" scheme="ISO639” content="en"> <meta name="DC.identifier" scheme="URL" content="http://purl.oclc.org/metadata/DC">
Herramientas de generación de metainformación Necesidad de introducir metainformación No a la generación manual de metainformación No a la modificación manual de las páginas ya existentes Generación basada en ficheros de plantilla para los valores comunes a una serie de recursos ¿ Qué necesitamos ?
MetaWebber ¿ Qué hace ? ¿ Que más debería hacer ? ¿ Donde está ? Introduce líneas con metainformación Se basa en ficheros de plantilla No modifica la apariencia de la página ¿ Que más debería hacer ? Usar una plantilla distinta para cada página Páginas origen y destino distintas Especificar qué metainformación ha de incluir Extracción de información clave del propio documento para la inclusión automática en el meta DC.Subject ¿ Donde está ? http://www.rediris.es/si/iris-index/herramientas/metawebber
MetaWebber. Ejemplo Actualización al conjunto de metadatas a usar <!-- Start metawebber --> <Meta name="keywords" content="Boletín de rediris"> <Meta name="description" content="Versión electrónica del boletín 40 de rediris"> <Meta name="date" content="19971027"> <Meta name="reply to" content="Boletin@rediris.Es"> <Meta name="organization" content="CSIC/rediris"> <Meta name="locality" content="Madrid. España"> <Meta name="author" content="Servicios de difusión"> <Meta name="lang" content="es"> <!-- End metawebber --> Actualización al conjunto de metadatas a usar
Actividades restantes Decidir el conjunto de metadatas a usar (DC) Software Kits con binarios de harvest para varias plataformas Actualizar metawebber al conjunto de metainformación de Dublin Core Ampliar metawebber hasta llegar a un webber Extracción de claves del documento Documentación a generar Documentación cómoda para la instalación y configuración de harvest Normativa de publicación para la inclusión de metainformación en las páginas web de la rediris
Proyectos relacionados con iris-index TF-CHIC (Cooperative Hierarchical Indexing Coordination) Coordinación de la recolección e indexado de los recursos de la red para la construcción de una base de datos de recursos Reunión en Mayo en Edimburgo Consultas a los buscadores Amplio ancho de banda usado por las consultas Hacer caché de las búsquedas que más se repitan Indexación basada en robots Creación de scripts para ver el % de tráfico debido a robots Desarrollo de harvest no comercial (1.5) Indexado distribuido, búsquedas y réplicas de servers Distribuir información en RDM, SOIF,...
Otros Temas Comentarios ... iris-index@listserv.rediris.es