Universidad de la República - Facultad de Ingeniería Instituto de Computación Proyecto de Grado 2005 Evolución de sistemas de Web Warehousing guiados por parámetros de calidad Integrantes Daniela Vila Martín Balestra Tutoras Regina Motz Verónika Peralta
Agenda Sistemas de Web Warehousing (WW) Introducción al sistema WW existente Evolución del sistema WW Metadata en la evolución del sistema WW Objetivos del Proyecto 2005 Estado actual del proyecto Tareas Pendientes
Sistemas de Web Warehousing (WW) Uso masivo de la Web como fuente de información Poca estructuración de la información Una consulta en la Web puede devolver muchos resultados no relevantes a la información buscada Dada la poca estructuración de las páginas no es posible realizar consultas demasiado específicas Motivación
Sistemas de Web Warehousing (WW) Solución Extracción de Información Consulta de Información Data Warehouse
Introducción al sistema WW existente Descripción WrapperMediadorWrapperMediador Mediador Final Metadata Extrae información de una página Web de un dominio especifico Integra información de diferentes páginas de un mismo dominio Integra información de diferentes dominios Data Warehouse
Introducción al sistema WW existente El proyecto parte de un sistema ya existente que proporciona las siguientes funcionalidades: oExtracción de información a través de los Wrappers oIntegración de información de un dominio especifico a través de los Mediadores Intermedios oGeneración de metadata en formato XML en los dos niveles anteriores Funcionalidades
Evolución del sistema WW El sistema debe ser actualizado cuando se detectan cambios en las páginas fuente Pueden existir diferentes tipos de cambio: oCambios visuales oCambios estructurales oCambios en los datos oCambios semánticos Cambios en el sistema
Evolución del sistema WW La ejecución completa del sistema ante cada cambio en las páginas fuente puede llegar a ser muy costosa e innecesaria Es necesario evaluar cada cambio y su impacto en la información almacenada en el Data Warehouse De la evaluación del cambio se desprende hasta donde debe propagarse el mismo en el sistema Problema
Metadata en la evolución del sistema WW La metadata generada proporciona información de los datos extraídos de cada página fuente En base a esta información se evalúa la propagación del cambio hacia el sistema Desde otra perspectiva la metadata puede incluir también información sobre la calidad de los datos Importancia
Wrapper Generador de Salida Extractor Grouped XML uRules XML iRules XML Sorted XML Metadata en la evolución del sistema WW Metadata existente – Proyecto 2004
Mediador Fusión de Datos Homogenized XML Salida XML Limpieza y Homogenización de Datos Metadata en la evolución del sistema WW Metadata existente – Proyecto 2004 (cont.)
Estructuración y definición de una nueva metadata que provea mayor información con respecto a los datos extraídos Traducción de la metadata existente al lenguaje OWL Administración de la evolución del sistema (propagación de cambios) Actualización de la metadata del sistema Utilización de parámetros de calidad en la elección de los datos a almacenar en el Data Warehouse Objetivos del Proyecto 2005
Estado actual del proyecto Estudio del entorno y la arquitectura del sistema y las funcionalidades de cada módulo Identificación de los puntos en los cuales el sistema exporta metadata, elaborando un documento que especifica el estudio realizado Definición de la nueva metadata del sistema y elaboración de una política de calidad Diseño de un prototipo Implementación en curso del prototipo Tareas Realizadas
Se define una política de calidad describiendo la información necesaria tanto del archivo como del contenido de la metadata Información del archivo de metadata oDescripción del módulo que la generó oValidez de la metadata oObjetivo de la metadata oConsumidores conocidos de la metadata Estado actual del proyecto Nueva Metadata
Información del contenido de la metadata oFuente de origen oProceso que genera la metadata oRegla de selección de la metadata Para cada archivo también deben tenerse en cuenta las condiciones en que se genera la metadata, descartando información generada con excepciones o problemas en la ejecución del sistema Estado actual del proyecto Nueva Metadata (cont.)
Extraído de [3] Estado actual del proyecto Jerarquía DescripciónValidezObjetivoConsumidoresFuenteProcesoRegla
Reprocesamiento de la metadata generada por el sistema, agregando políticas de calidad sobre la misma y traduciendo la metadata existente (escrita en XML) al lenguaje OWL Monitoreo de las páginas propiamente dicho y su reprocesamiento en caso de cambios detectados procurando el mínimo impacto posible Estado actual del proyecto Procesos Definidos
Extraído de [4] Estado actual del proyecto Reprocesamiento de la Metadata
Extraído de [4] Estado actual del proyecto Control de Cambios
WrapperMediator Pull Pages Estado actual del proyecto Arquitectura Wrapper Translator Mediator Translator OWL XML Eval Changes Metadata
El prototipo presenta una primera generación de metadata en OWL a partir de la metadata que exporta el sistema en XML oNo se ha incorporado aún la selección basada en parámetros de calidad Se ha iniciado el monitoreo de las páginas Web registradas en el sistema oNo se ha procesado todavía el impacto de cambios de las páginas en el sistema Estado actual del proyecto Prototipo en Implementación
Llevar el prototipo al sistema final, incorporando el chequeo de algunas restricciones en cuanto a la metadata generada Incorporar al diseño y desarrollo la evaluación de parámetros de calidad para las fuentes Implementar el módulo de actualización de información del Data Warehouse procesando el impacto de los cambios en el sistema oLa implementación de este módulo se extiende hasta los mediadores intermedios Tareas Pendientes
Referencias [1]A. Marotta, R. Motz, R. Ruggia. Managing Source Schema Evolution in Web Warehouses. International Workshop on Information Integration on the Web (WIIW ‘2001). [2]V. Giaudrone, M. Guerra, M. Vaccaro. Informe General. Proyecto de Grado Extracción e integración en una arquitectura de Web Warehouse. [3]D. Vila, M. Balestra. Metadata del sistema. [4]D. Vila, M. Balestra. Documento de diseño.