Completeness of Information Sources

Slides:



Advertisements
Presentaciones similares
Importancia de la Documentación de proyectos
Advertisements

Elaborado por: Ing Edson Rodriguez Legislacion en la Construccion
LA HIPÓTESIS Después de haberse preguntado qué investigar se debe inquirir ahora ¿cuál es la solución probable a la pregunta planteada?
DISEÑO DE EXPERIMENTOS
Rocío Contreras Águila Primer Semestre 2010
SERVIDOR DNS Y WINS INTEGRANTES: Farroñan Beltran Brenher
Evaluación Xalapa, Ver., Diciembre 2011.
El Proceso de Investigación y la Medición
MODELO RELACIONAL.
El Proceso de la Auditoría - ISO
OPERACIÓN Y CONTROL DE UN CENTRO DE CÓMPUTO
INTELIGENCIA ARTIFICIAL
Reporte de estadía para titulación de nivel Técnico Superior Universitario Esquema general 29 de Noviembre de 2010.
UNIDAD I MODELOS Y TOMA DE DECISIONES
Using Quality of Data Metadata for Source Selection and Ranking Santiago López Andrés Margalef.
Data Quality in Context
Teórico: Algebra Relacional
MUESTREO DE AUDITORIA PARA PRUEBAS DE DETALLES DE SALDOS
Evaluación de Productos
MOTORES DE BASE DE DATOS
Investigaciones con variables CAP
Clientes DNS (Resolutores – “resolvers” de nombres) .
Inteligencia artificial
Ciclo de formulación del proyecto.
ANÁLISIS Y DISEÑO DESDE UNA PERSPECTIVA ORIENTADA A OBJETOS Alan Vargas.
Proceso de la Investigación
Direcciones físicas y direcciones virtuales (lógicas)
GESTION NIVELES DE SERVICIO.
BASE DE DATOS I Clase # 1.
PROCESO DE DESARROLLO. Introducción Mediante esta presentación se pretende describir el proceso de desarrollo del TALLER I.
D ESIGN AND A NALYSIS OF Q UALITY I NFORMATION FOR D ATA W AREHOUSES Manfred Jeusfeld, Christoph Quix, Matthias Jarke.
Población y Muestra.
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
Actividad 6. Requisitos del software, referente a la estructura y base de datos. M.C. Juan Carlos Olivares Rojas Syllabus May,
Rúbricas.
“ESTRATEGIAS DE PRODUCTOS” (KOTLER Y ARMSTRONG)
Arquitectura de una aplicación
Material de apoyo para el docente CURSO II: “CANTIDAD”
Unidad VI Documentación
MARÍA JOSÉ ALBÚJAR BEJARANO Exposición. GNU/Linux  Es uno de los términos empleados para referirse a la combinación del núcleo a Linux. Su desarrollo.
Plan de Marketing MKTG-1210 Profa. Dávila
Marco Legal Relacionado al Endeudamiento
LOGO Not Another Dynamic DNS Claudia Codriansky / Francisco Castillo.
Joel Pérez López.  "Un Objeto de Aprendizaje es un conjunto de recursos digitales, autocontenible y reutilizable, con un propósito educativo y constituido.
Introducción a XML por Joel Candia C Universidad Técnica Federico Santa María Departamento de Electrónica ELO-330 Programación de Sistemas.
FUNDAMENTOS DE MARKETING
Medición y Métricas del Software
Unidad 2 – Gestión de Procesos
Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.
Lourdes Kusunoki María del Carmen Navarro
Estructuras web De navegación Y Visual. Investigación de requerimientos ¿Qué es lo que quiere el cliente? – ¿Qué desea comunicar?, y ¿Cómo? – ¿Qué información.
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
INGENIERIA DEL CONOCIMIENTO Toribio Sarmiento Miguel Sesarego Cruz Rosmery.
INTRODUCCION Es un elemento fundamental en todo proceso de investigación Viene después del problema, y el investigador la enuncia Esto orienta el proceso.
Jorge De Nova Segundo. Clientes DNS Se puede considerar que un resolver es cualquier software capaz de preguntar a un servidor DNS e interpretar sus respuestas.
Estimación de proyectos de software
Clientes DNS (Resolutores – “resolvers” de nombres) Jesús Torres Cejudo.
Actividades de aprendizaje basadas en la red: WebQuest R e d d e P r o f e s o r e s I n n o v a d o r e s Módulo: Actividades de aprendizaje basadas en.
Hipótesis.
Aplicar los conceptos y las herramientas para la administración de la calidad y gestión de riesgos del plan del proyecto. MTRA. VERÓNICA NOHEMI TAVERNIER.
Un requerimiento es una condición o capacidad a la que el sistema (siendo construido) debe conformar [ Rational ]. Un requerimiento de software puede.
Diseño de una Base de datos. BASE DE DATOS. Es el conjunto de informaciones almacenadas en un soporte legible por ordenador y organizadas internamente.
Gabriel Montañés León. Los clientes DNS son llamados resolvers, los cuales no son más que rutinas de librería que crean preguntas y las envían a través.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Cómo escribir un informe de investigación
Hernández Camacho Víctor Jesus Islas Sánchez Karla Vanessa
Procesos de Planeación
Diccionario/Directorio de Datos
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Fundamentos de Bases de Datos
Transcripción de la presentación:

Completeness of Information Sources María José Álvarez Flavia Serra

Agenda Introducción Modelo de información Unión de resultados Definición de los factores de calidad, Cobertura y Densidad Definición de la dimensión de calidad Completitud Conclusiones Puntos fuertes y débiles

Introducción Se describe un framework para medir la calidad de la información proporcionada por una fuente de datos o por un conjunto de fuentes de datos. Considera los valores de los factores de calidad cobertura y densidad.

Introducción Funciones de combinación Completitud Estiman el valor de la calidad de la información cuando los datos de diferentes fuentes son integrados. Completitud Se combinan los valores de los factores cobertura y densidad

Modelo de información Esquema IDs consistentes Consiste en un identificador (ID) y la unión de todos los atributos que proveen las fuentes IDs consistentes Cada objeto tiene un único identificador que esta asociado a las fuentes

Modelo de información Superposición Disjunción Contención Las fuentes no proveen IDs comunes. Contención Los IDs de una fuente son un subconjunto de los IDs de otra fuente. Aunque los objetos sean los mismos, los atributos podrían diferir. Independencia Cuando no se sabe si existe contención o disjunción, se asume que existe independencia.

Ejemplo Se presenta un meta servicio de información de stock (MSIS) Es un sistema que provee información de cotización de acciones A diferencia de un sistema de información de stock (SIS) común, un MSIS combina información de varios sistemas El MSIS envía una solicitud a un conjunto de SISs para luego unir los resultados y presentarlos al usuario

Ejemplo Se consideran los siguientes SIS:

Ejemplo Consulta para IBM en un típico SIS Provisto por todos los SIS - Una consulta para IBM sobre un típico SIS puede tener como resultado lo que se muestra en la figura. Cuando un atributo no es provisto por una fuente, el campo correspondiente se deja vacío. - En el esquema del articulo los resultados devueltos tienen esta forma. Provisto por todos los SIS ID Nombre de la compañía Proveen información adicional y estadística No están disponibles en los 7 SIS

Unión de resultados Un sistema de información distribuye una consulta de usuario a múltiples fuentes. Cuando recibe los resultados individuales, los mismos deben unirse en una respuesta común para el usuario.

Unión de resultados Unión de resultados de múltiples fuentes contiene objetos donde: Algunos atributos no son provistos Algunos atributos son provistos por una fuente Algunos atributos son provistos por más de fuente La fusión de los resultados de un CIS en el primer caso, está claro, el objeto resultado no tiene valor. En el segundo caso, el único valor de atributo se utiliza para el objeto resultado. En el tercer caso varias fuentes compiten para llenar los datos del objeto resultado. Si todas las fuentes proporcionan el mismo valor, ese valor se utiliza en el resultado. En caso contrario hay un conflicto y algunos datos de la unión deben determinar qué valor aparece en la tabla de resultados. Función de resolución

Unión de resultados Para presentar la unión de los resultados como una respuesta completa a una consulta y no como simples atributos se definen operadores relacionales. La fusión de los resultados de un CIS en el primer caso, está claro, el objeto resultado no tiene valor. En el segundo caso, el único valor de atributo se utiliza para el objeto resultado. En el tercer caso varias fuentes compiten para llenar los datos del objeto resultado. Si todas las fuentes proporcionan el mismo valor, ese valor se utiliza en el resultado. En caso contrario hay un conflicto y algunos datos de la unión deben determinar qué valor aparece en la tabla de resultados. join-merge union-merge

Cobertura Porción del mundo real que es cubierto por la fuente para un dominio determinado. Cobertura de una fuente: cantidad de objetos de la fuente cantidad de objetos del mundo real

Cobertura de un conjunto de fuentes Fuente disjuntas Fuentes contenidas Fuentes independientes

Densidad Porción de valores no nulos que contiene la fuente. Densidad de un atributo Densidad de una fuente

Densidad Densidad de una fuente Densidad de un conjunto de fuentes Vector de densidad Densidad de un conjunto de fuentes Considera la cobertura para cada fuente

Completitud Completitud de una fuente de información es la relación de su información y la cantidad total de información del mundo real. Completitud de una fuente Completitud de una fuente utilizando cobertura y densidad

Completitud c(yahoo) = 2/4000 = 1/2000 D(yahoo) = (1,0,1,1,1,1,1,0,0) C(yahoo) = c(yahoo).d(yahoo) = 1/2000*2/3 = 1/30000 Cantidad de atributos no nulos =12 |W| = 40000, |A| = 9 |W||A|=40000*9 = 360000 y 12/360000 = 1/30000

Conclusiones Cuando se intenta decidir que fuentes o conjuntos de fuentes consultar este modelo ofrece una buena guía de selección del mejor conjunto de fuentes basándose en la calidad de la información esperada. La medida de la completitud es útil para seleccionar el mejor plan de ejecución de la consulta sobre varias fuentes.

Conclusiones Valores de cobertura y densidad altos parecen ser buenos, pero muchas veces aparece el problema de information overflow causado por el enorme tamaño de la Web. Se busca reducir las respuestas a las consultas a un número razonable de objetos, devolviéndole al usuario los objetos más útiles y relevantes.

Puntos fuertes Cumple objetivos planteados Autocontenido Fácil de comprender y tiene ejemplos claros Plantea una solución aplicable Las definiciones y conceptos son reiterados a lo largo del documento, lo que permite finalizar la lectura con una buena asimilación de los mismos.

Puntos débiles Referencia una cantidad de lemas, corolarios y teoremas que lo hacen engorroso En algunos casos los ejemplos consideran valores que son traídos de otras secciones sin indicar las secciones de referencia.

¿Preguntas? Muchas gracias!