La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Completeness of Information Sources

Presentaciones similares


Presentación del tema: "Completeness of Information Sources"— Transcripción de la presentación:

1 Completeness of Information Sources
María José Álvarez Flavia Serra

2 Agenda Introducción Modelo de información Unión de resultados
Definición de los factores de calidad, Cobertura y Densidad Definición de la dimensión de calidad Completitud Conclusiones Puntos fuertes y débiles

3 Introducción Se describe un framework para medir la calidad de la información proporcionada por una fuente de datos o por un conjunto de fuentes de datos. Considera los valores de los factores de calidad cobertura y densidad.

4 Introducción Funciones de combinación Completitud
Estiman el valor de la calidad de la información cuando los datos de diferentes fuentes son integrados. Completitud Se combinan los valores de los factores cobertura y densidad

5 Modelo de información Esquema IDs consistentes
Consiste en un identificador (ID) y la unión de todos los atributos que proveen las fuentes IDs consistentes Cada objeto tiene un único identificador que esta asociado a las fuentes

6 Modelo de información Superposición Disjunción Contención
Las fuentes no proveen IDs comunes. Contención Los IDs de una fuente son un subconjunto de los IDs de otra fuente. Aunque los objetos sean los mismos, los atributos podrían diferir. Independencia Cuando no se sabe si existe contención o disjunción, se asume que existe independencia.

7 Ejemplo Se presenta un meta servicio de información de stock (MSIS)
Es un sistema que provee información de cotización de acciones A diferencia de un sistema de información de stock (SIS) común, un MSIS combina información de varios sistemas El MSIS envía una solicitud a un conjunto de SISs para luego unir los resultados y presentarlos al usuario

8 Ejemplo Se consideran los siguientes SIS:

9 Ejemplo Consulta para IBM en un típico SIS Provisto por todos los SIS
- Una consulta para IBM sobre un típico SIS puede tener como resultado lo que se muestra en la figura. Cuando un atributo no es provisto por una fuente, el campo correspondiente se deja vacío. - En el esquema del articulo los resultados devueltos tienen esta forma. Provisto por todos los SIS ID Nombre de la compañía Proveen información adicional y estadística No están disponibles en los 7 SIS

10 Unión de resultados Un sistema de información distribuye una consulta de usuario a múltiples fuentes. Cuando recibe los resultados individuales, los mismos deben unirse en una respuesta común para el usuario.

11 Unión de resultados Unión de resultados de múltiples fuentes contiene objetos donde: Algunos atributos no son provistos Algunos atributos son provistos por una fuente Algunos atributos son provistos por más de fuente La fusión de los resultados de un CIS en el primer caso, está claro, el objeto resultado no tiene valor. En el segundo caso, el único valor de atributo se utiliza para el objeto resultado. En el tercer caso varias fuentes compiten para llenar los datos del objeto resultado. Si todas las fuentes proporcionan el mismo valor, ese valor se utiliza en el resultado. En caso contrario hay un conflicto y algunos datos de la unión deben determinar qué valor aparece en la tabla de resultados. Función de resolución

12 Unión de resultados Para presentar la unión de los resultados como una respuesta completa a una consulta y no como simples atributos se definen operadores relacionales. La fusión de los resultados de un CIS en el primer caso, está claro, el objeto resultado no tiene valor. En el segundo caso, el único valor de atributo se utiliza para el objeto resultado. En el tercer caso varias fuentes compiten para llenar los datos del objeto resultado. Si todas las fuentes proporcionan el mismo valor, ese valor se utiliza en el resultado. En caso contrario hay un conflicto y algunos datos de la unión deben determinar qué valor aparece en la tabla de resultados. join-merge union-merge

13 Cobertura Porción del mundo real que es cubierto por la fuente para un dominio determinado. Cobertura de una fuente: cantidad de objetos de la fuente cantidad de objetos del mundo real

14 Cobertura de un conjunto de fuentes
Fuente disjuntas Fuentes contenidas Fuentes independientes

15 Densidad Porción de valores no nulos que contiene la fuente.
Densidad de un atributo Densidad de una fuente

16 Densidad Densidad de una fuente Densidad de un conjunto de fuentes
Vector de densidad Densidad de un conjunto de fuentes Considera la cobertura para cada fuente

17 Completitud Completitud de una fuente de información es la relación de su información y la cantidad total de información del mundo real. Completitud de una fuente Completitud de una fuente utilizando cobertura y densidad

18 Completitud c(yahoo) = 2/4000 = 1/2000 D(yahoo) = (1,0,1,1,1,1,1,0,0)
C(yahoo) = c(yahoo).d(yahoo) = 1/2000*2/3 = 1/30000 Cantidad de atributos no nulos =12 |W| = 40000, |A| = 9 |W||A|=40000*9 = y 12/ = 1/30000

19 Conclusiones Cuando se intenta decidir que fuentes o conjuntos de fuentes consultar este modelo ofrece una buena guía de selección del mejor conjunto de fuentes basándose en la calidad de la información esperada. La medida de la completitud es útil para seleccionar el mejor plan de ejecución de la consulta sobre varias fuentes.

20 Conclusiones Valores de cobertura y densidad altos parecen ser buenos, pero muchas veces aparece el problema de information overflow causado por el enorme tamaño de la Web. Se busca reducir las respuestas a las consultas a un número razonable de objetos, devolviéndole al usuario los objetos más útiles y relevantes.

21 Puntos fuertes Cumple objetivos planteados Autocontenido
Fácil de comprender y tiene ejemplos claros Plantea una solución aplicable Las definiciones y conceptos son reiterados a lo largo del documento, lo que permite finalizar la lectura con una buena asimilación de los mismos.

22 Puntos débiles Referencia una cantidad de lemas, corolarios y teoremas que lo hacen engorroso En algunos casos los ejemplos consideran valores que son traídos de otras secciones sin indicar las secciones de referencia.

23 ¿Preguntas? Muchas gracias!


Descargar ppt "Completeness of Information Sources"

Presentaciones similares


Anuncios Google