La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Completeness of Information Sources María José Álvarez Flavia Serra.

Presentaciones similares


Presentación del tema: "Completeness of Information Sources María José Álvarez Flavia Serra."— Transcripción de la presentación:

1 Completeness of Information Sources María José Álvarez Flavia Serra

2 Agenda Introducción Modelo de información Unión de resultados Definición de los factores de calidad, Cobertura y Densidad Definición de la dimensión de calidad Completitud Conclusiones Puntos fuertes y débiles

3 Introducción Se describe un framework para medir la calidad de la información proporcionada por una fuente de datos o por un conjunto de fuentes de datos. Considera los valores de los factores de calidad cobertura y densidad.

4 Introducción Funciones de combinación – Estiman el valor de la calidad de la información cuando los datos de diferentes fuentes son integrados. Completitud – Se combinan los valores de los factores cobertura y densidad

5 Modelo de información Esquema – Consiste en un identificador (ID) y la unión de todos los atributos que proveen las fuentes IDs consistentes – Cada objeto tiene un único identificador que esta asociado a las fuentes

6 Modelo de información Superposición – Disjunción Las fuentes no proveen IDs comunes. – Contención Los IDs de una fuente son un subconjunto de los IDs de otra fuente. Aunque los objetos sean los mismos, los atributos podrían diferir. – Independencia Cuando no se sabe si existe contención o disjunción, se asume que existe independencia.

7 Ejemplo Se presenta un meta servicio de información de stock (MSIS) Es un sistema que provee información de cotización de acciones A diferencia de un sistema de información de stock (SIS) común, un MSIS combina información de varios sistemas El MSIS envía una solicitud a un conjunto de SISs para luego unir los resultados y presentarlos al usuario

8 Ejemplo Se consideran los siguientes SIS:

9 Ejemplo Consulta para IBM en un típico SIS ID Nombre de la compañía Provisto por todos los SIS Proveen información adicional y estadística No están disponibles en los 7 SIS

10 Unión de resultados Un sistema de información distribuye una consulta de usuario a múltiples fuentes. Cuando recibe los resultados individuales, los mismos deben unirse en una respuesta común para el usuario.

11 Unión de resultados Unión de resultados de múltiples fuentes contiene objetos donde: – Algunos atributos no son provistos – Algunos atributos son provistos por una fuente – Algunos atributos son provistos por más de fuente Función de resolución

12 Unión de resultados Para presentar la unión de los resultados como una respuesta completa a una consulta y no como simples atributos se definen operadores relacionales. join-merge union-merge

13 Porción del mundo real que es cubierto por la fuente para un dominio determinado. Cobertura de una fuente: Cobertura cantidad de objetos de la fuente cantidad de objetos del mundo real

14 Cobertura de un conjunto de fuentes Fuente disjuntas Fuentes contenidas Fuentes independientes

15 Porción de valores no nulos que contiene la fuente. Densidad de un atributo Densidad de una fuente Densidad

16 Densidad de una fuente – Vector de densidad Densidad de un conjunto de fuentes – Considera la cobertura para cada fuente

17 Completitud de una fuente de información es la relación de su información y la cantidad total de información del mundo real. Completitud de una fuente Completitud de una fuente utilizando cobertura y densidad Completitud

18 Cantidad de atributos no nulos =12 |W| = 40000, |A| = 9 |W||A|=40000*9 = y 12/ = 1/30000 c(yahoo) = 2/4000 = 1/2000 D(yahoo) = (1,0,1,1,1,1,1,0,0) C(yahoo) = c(yahoo).d(yahoo) = 1/2000*2/3 = 1/30000

19 Conclusiones Cuando se intenta decidir que fuentes o conjuntos de fuentes consultar este modelo ofrece una buena guía de selección del mejor conjunto de fuentes basándose en la calidad de la información esperada. La medida de la completitud es útil para seleccionar el mejor plan de ejecución de la consulta sobre varias fuentes.

20 Conclusiones Valores de cobertura y densidad altos parecen ser buenos, pero muchas veces aparece el problema de information overflow causado por el enorme tamaño de la Web. Se busca reducir las respuestas a las consultas a un número razonable de objetos, devolviéndole al usuario los objetos más útiles y relevantes.

21 Cumple objetivos planteados Autocontenido Fácil de comprender y tiene ejemplos claros Plantea una solución aplicable Las definiciones y conceptos son reiterados a lo largo del documento, lo que permite finalizar la lectura con una buena asimilación de los mismos. Puntos fuertes

22 Puntos débiles Referencia una cantidad de lemas, corolarios y teoremas que lo hacen engorroso En algunos casos los ejemplos consideran valores que son traídos de otras secciones sin indicar las secciones de referencia.

23 ¿Preguntas? Muchas gracias!


Descargar ppt "Completeness of Information Sources María José Álvarez Flavia Serra."

Presentaciones similares


Anuncios Google