Using Quality of Data Metadata for Source Selection and Ranking Santiago López Andrés Margalef.

Slides:



Advertisements
Presentaciones similares
Elija el camino corto o el largo.
Advertisements

Introducción a HIBERNATE
integridad referencial
CEAD La Guajira. I SEMINARIO DE ACTUALIZACIÓN EN INVESTIGACIÓN
Rocío Contreras Águila Primer Semestre 2010
Técnicas para la elaboración de un instrumento
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:23 PRESENTACION: BASE DE DATOS ALUMNAS: Velazquez Corona Elsa Ponciano Antonio.
Evaluación de la información digital 2013
A Theory of Action for MultiAgent Planning Michael Georgeff.
INTELIGENCIA ARTIFICIAL
Estadística Computacional I
Estadística Computacional I
1 Parsing Un parser podría ser definido como un programa que analiza una porción de texto para determinar su estructura lógica: la fase de parsing en un.
Completeness of Information Sources
Maestría en Bioinformática Bases de Datos y Sistemas de Información Fundamentos de Matemática Ing. Alfonso Vicente, PMP
Teórico: Algebra Relacional
Danilo Yáñez Alarcón. Avance II
Data Mart para la gestión de reportes y apoyo a la toma de decisiones del departamento de RR.HH. de la empresa de agua S.A.” Agosto 2010.
Informe caso de estudio Implementación de un Datawarehouse
MODELO RELACIONAL.
Modelo Entidad-Relación
Ciclo de formulación del proyecto.
Como usar el Catálogo Bello Guía práctica Acceso al catálogo  Se puede acceder al catálogo desde cualquier parte del mundo por Internet.  Es posible.
Diseño de Bases de Datos Distribuidas (2da Parte)
FUNDAMENTOS DE LA TEORÍA DE CONJUNTOS
Objetivos del Año Hacer valoraciones del comportamiento y principales dificultades de la Gestión de Riesgos.Hacer valoraciones del comportamiento y principales.
Proceso de la investigación de mercado
BASE DE DATOS I Clase # 1.
Lenguajes Formales de Consulta
D ESIGN AND A NALYSIS OF Q UALITY I NFORMATION FOR D ATA W AREHOUSES Manfred Jeusfeld, Christoph Quix, Matthias Jarke.
Población y Muestra.
Definition Type Document (DTD)
RÚBRICAS MA. GUADALUPE I. MALAGÓN Y M. NOVIEMBRE 2007.
Planificando la ejecución de queries en múltiples WebSources Investigadores: María Esther Vidal Universidad Simón Bolívar Louiqa Raschid University of.
Viviana Poblete López Módulo: Modelo de Datos
Fernando López Osornio Facultad de Ingeniería - Universidad de Palermo
Componentes sintácticos
Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar.
Clase 10: Estructuras de datos y arreglos.
UNIVERSIDAD NACIONAL INTERCULTURAL DE LA AMAZONIA
XQuery. 2 Introducción De acuerdo al incremento en la cantidad de información que es almacenada, intercambiada y presentada usando XML, la habilidad para.
Fundamentos de bases de datos:
DISEÑO DE CARGOS.
IBD CLASE 15. SQL Lenguaje de Consultas Estruturado (SQL) ◦Lenguaje de trabajo estándard para modelo relacional ◦Componentes ◦DDL: Data Definition Language.
Gases Modulo IV.
DISEÑO DE BASES DE DATOS
INVESTIGACIÓN SOBRE EL PROGRAMA DE LÓGICA PARA BACHILLERATO.
Diseño de base de datos Tema 4 : Algebra relacional.
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS

Restricciones de Integridad
Bases de Datos.
Using e-technology in production, proofing and printing, and in marketing and promotion Jorge Walters Gastelu Metodologías y Tecnologías de Información.
IMPORTANCIA DE LOS FACTORES DE LA EDUACION VIRTUAL Elaborado por: Grupo Beta - Junio de 2012.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
Ingeniería de Sistemas y Modelamiento.
Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.
Ciclo de vida de un sistema
Proyecto: Página Web sobre tema de interés.
Bases de Datos Modelo Relacional.
JOIN EN MYSQL Bueno en esta presentación mostrare cosas acerca de los usos de la sentencia JOIN en mysql , mediante esta presentación planeo mostrar los.
Colegio de Bachilleres Plantel 13 Xochimilco - Tepepan
INTERFAZ DE ACCESS  Access es un sistema gestor de bases de datos relacionales (SGBD). Una base de datos suele definirse como un conjunto de información.
Marzo de 2010Dos Ideas - La visión de Sistemas desde el Desarrollo SQL en PL/SQL Conceptos básicos.
Benemérita Universidad Autónoma Facultad de Enfermería Contenido de los Informes de Investigación.
Sistemas de Calificaciones Como transformamos la evaluación en una calificación.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Base de Datos I – Ing. Mary Carlota Bernal J.
Structure Query Languaje SQL. Introducción a SQL El lenguaje de consulta estructurado (SQL) es un lenguaje de base de datos normalizado, utilizado por.
CLASE Nº1 PROFESOR: ESTEFANO CASTILLO E. Módulo 6: Diseño de Base de Datos.
Transcripción de la presentación:

Using Quality of Data Metadata for Source Selection and Ranking Santiago López Andrés Margalef

Agenda Introducción y Datos generales Motivación Objetivos Modelo Lenguaje de consulta Solución Propuesta Críticas Conclusión

Introduccion Usando la Calidad de Datos para la selección de fuentes de datos. Autores George Mihaila. (Doctorado en Universidad de Toronto, actualmente trabaja IBM). Louiqa Raschid. (UMIACS) María Esther Vidal. (UMIACS) Fecha Publicación ¿2000?

Motivación Crecimiento del uso de Internet Adopción formatos y estándares Cuales son los datos relevantes para un determinado problema? De los datos relevantes, cuales son los mejores?

Objetivos Usando calidad de datos… Selección de fuentes de datos Ranking de fuentes relevantes Score de rankeo

Modelo Bases del modelo Se basa en atributos de dimensión y de medición, los dominios de ellos y además de parámetros de calidad de los datos. Parámetros de calidad Completitud Edad de los datos (Recency) Frecuencia de actualización (Update Frecuency) Granularidad (Granularity)

Componentes del modelo SODA: conjunto de atributos dimensión como por ejemplo ciudad, tiempo. SOMA: conjunto de atributos de medición por ejemplo, temperatura, presión atmosférica. T 1 …T N son tipos relacionales, cada T i tienen un conjunto de atributos los cuales estos tienen determinados dominios. Los atributos pertenecen a la unión entre SODA y SOMA. Fuente S, que contiene los datos para cada T i comprendida.

Descriptores de calidad del contenido de una fuente (SCQD) Es una terna (t, cd, qods) -t: tipo relacionado a los datos (valor de Ti) -Cd: es el descriptor del contenido, comprende un conjunto de parejas de atributos y su respectivos dominio. Estos atributos pertenecen a SODA. -Qods: conjunto de descriptores de calidad de los datos.

Descriptor de calidad de dato (QOD) Es una tupla con los elementos (lcd, c, r, f, g, soma) los cuales -lcd: descriptor de contenido de alguna fuente, estos deben estar incluidos en el descriptor del contenido (cd). -c, r, f, g: corresponden a los parámetros de calidad de datos, completitud, edad de datos, frecuencia de actualización y granularidad respectivamente. -soma: subconjunto de todos los atributos de medición (SOMA).

Identificación de componentes

Proponen utilizar el formato WS-XML

Lenguaje de Consulta Notación similar a SQL.

Resultados de las Consultas Se devuelve una lista ordenada de las fuentes que verifican las condiciones impuestas en la consulta. A cada fuente se le asigna un score que indica el nivel de relevancia de la fuente. Combinando fuentes.

Solución Propuesta Ejemplo

Agrupando descriptores de contenido de las fuentes. (Buckets) Buckets del ejemplo

Surge un problema… Si bien se reduce el problema de eficiencia, igualmente es posible que la cantidad de buckets crezca considerablemente. Como se puede solucionar?… Extendiendo la solución empleando conjuntos parcialmente ordenados

Conjuntos parcialmente ordenados Relación de inclusión entre Buckets. B i esta incluido en B j si y solo si, los dominios comprendidos por los atributos de B i están incluidos estrictamente en los dominios de los atributos definidos en B j. Incompatibilidad Dos buckets son incompatibles si no son el mismo y ninguno esta incluido en el otro. Usando la inclusión entre buckets se agrupan buckets en diferentes niveles, cada nivel es un superbucket.

SuperBucket Consiste en la agrupación de los buckets incompatibles. Implícitamente si un bucket B i incluye a otro B j, entonces el superbucket que aloja B i incluye al superbucket que aloja B j Conjunto parcialmente ordenado(po-set) Conjunto de superbackets ordenados según la relación de inclusión

po-set del ejemplo

Combinaciones de SCQD Si no hay una fuente que cumpla con la consulta se pueden usar combinaciones de fuentes de datos, de manera tal que el resultado obtenido de esta combinación cumpla con las condiciones de la consulta, y como consecuencia esta combinación es relevante. Aquellos buckets tal que su lcd cumplan con algún elemento del lcd propuesto en la consulta serán los candidatos a formar parte de la combinación.

En este ejemplo los buckets candidatos son: B 32, B 31, B 12, resultando las siguientes combinación de fuentes: {S 1, S 2, S 6 }, {S 1, S 2, S 5 }, {S 2, S 4, S 6 }, {S 2,S 4, S 5 }.

Problemas Puede existir un numero muy grande de combinaciones de fuentes. Alternativa 1 Extender el po-set hacia un lattice. Se agregan todos los buckets generados a través de combinación de fuentes a la estructura de superbukets. El problema de esta solución ese que igualmente puede existir un crecimiento exponencial de la cantidad de buckets.

Alternativa 2 Construir parcialmente el lattice. Se agrega un bucket que contiene la combinación de las fuentes de los buckets mas generales. Solución sencilla, pero tiene como contrapartida la perdida de exactitud en los datos devueltos.

Según esta metodología el ejemplo retornaría el resultado a S 2 y S 3, cuando existe una mejor solución realizando la unión de S 1 y S 2

Criticas No es auto contenido Creación de scores no desarrollados. Elección de parámetros de calidad. No consigue una solución definitiva Ubicación de componentes de ejemplos inadecuada. Ausencia de fecha de publicación del articulo. Profundidad técnica sencilla de comprender Presenta ejemplos claros.

Conclusión Problemática adecuada a la realidad Solución no es completamente madura. Mejorar el desarrollo de las alternativas propuestas. Una buena idea para solucionar problemas que se presentan en la actualidad en esta area.

Preguntas