La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Presentaciones similares


Presentación del tema: "Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang."— Transcripción de la presentación:

1 Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang

2 Agenda Motivación Definiciones Hipótesis Proceso de Medición Ejemplo Consideraciones sobre el muestreo Crítica del artículo

3 Motivación Investigaciones previas no brindan una solución general. ▫Asumen tasas fijas de error ▫Dimensiones y factores específicos Quienes toman decisiones, requieren un cierto nivel de calidad.

4 Definiciones IP (Information Product) ▫Resultado de una consulta. Unidad de Datos ▫Celda. ▫Conjunto de celdas. ▫Tupla.

5 Definiciones Aceptabilidad de una unidad de datos ▫Dependiendo de si es apto para el uso en el IP y de la dimensión de calidad considerada. Medida de calidad de un IP ▫Unidades de datos aceptables, dividido el número total de unidades de datos.

6 Hipótesis Hipótesis de Herencia Hipótesis de Distribución del Error Hipótesis de Calidad de Muestras ▫Sistemas comerciales las tablas suelen ser muy grandes y dinámicas. ▫Muestras de las tablas de la base de datos.

7 Proceso de medición Estimación de la Calidad de las Tablas Base para un IP ▫Tablas muy grandes => se toman muestras ▫Se determina la aceptabilidad de cada unidad de datos con respecto al IP. ▫Estimación en función del IP considerado, por lo que puede variar de un IP a otro

8 Procedimiento de Tabla Referencial ▫Estima cuánto se aleja un IP real del IP sin errores.  Se utiliza dicha estimación como la de la calidad del IP. ▫Se estima la calidad del IP como: T1: IP generado a partir de las muestras originales T2: IP generado a partir de las muestras corregidas Proceso de medición

9 Operaciones del álgebra relacional Técnica más intuitiva de obtener estimaciones de la calidad de los IP. Aplicable solo en casos simples. Selección ▫Misma estimación de calidad calculada para la tabla base, por hipótesis de la distribución del error. Proceso de medición

10 Proyección ▫No hay duplicados (incluye la PK):  Se mide la calidad de la muestra considerando solo las columnas seleccionadas. ▫Si hay duplicados:  Se debe aplicar el procedimiento de tabla referencial. Operaciones del álgebra relacional Proceso de medición

11 Unión ▫Si no existen duplicados, se puede estimar como: Pi : proporción de unidades de datos aceptables de la tabla i n i : tamaño de la muestra de la tabla i  Se puede generalizar fácilmente a múltiples tablas. ▫Si existen duplicados, se debe utilizar el Procedimiento de Tabla Referencial. Operaciones del álgebra relacional Proceso de medición

12 Diferencia ▫IP se forma a través de T – S => calidad del IP es la calidad de T. ▫Procedimiento Tabla Referencial Producto Cartesiano ▫Cada tupla del producto será aceptable si las unidades de datos que la componen lo son. ▫ La estimación se obtiene multiplicando la proporción de valores aceptables para los componentes. Operaciones del álgebra relacional Proceso de medición

13 Join ▫Es una combinación del producto cartesiano y selección ▫Se considera en este estudio como un caso especial (es muy utilizada) Join sobre claves foráneas ▫La estimación de la calidad será la estimación de la calidad del producto cartesiano. Join sobre columnas que no son claves foráneas ▫Es necesario recurrir al procedimiento de la tabla referencial. Operaciones del álgebra relacional Proceso de medición

14 Ejemplo Estimar la calidad del siguiente IP: select * from personas; Todos los datos deben ser correctos => granularidad a nivel de tupla - 3 unidades de datos incorrectas - 8 unidades de datos en total - La calidad de la muestra es: (8 -3) /8 = 0,625 - Como es una selección, no es necesario aplicar Proc. Tabla Referencial. La Calidad del IP se puede estimar como 0,625. - Si el IP fuera una proyección por cedula y telefono, el error en la columna nombre no se hubiera considerado y la calidad de la muestra hubiera sido otra.

15 Consideraciones sobre el muestreo Tamaño de la muestra ▫Tomar muestras de tamaño suficientemente grande a fin de que aparezcan tuplas defectuosas en la muestra. Tuplas faltantes ▫Los datos de una tabla son correctos, pero debería tener tuplas que no tiene. ▫Técnica de captura / recaptura: dos etapas de muestreo independiente, donde se etiqueta la primera de ellas.

16 Consideraciones sobre el muestreo Ejemplo Técnica de captura/recaptura: ▫Tabla de empleados con n 2 tuplas. ▫Evaluación independiente (encuesta) encuentra n 1 empleados. ▫De estos n 1 empleados, m 2 se encuentran en la tabla. ▫Se puede estimar el nro. de empleados que faltan como: (n 1 * n 2 / m 2 ) – n 2

17 Critica del artículo Aspectos Positivos ▫Conjunto fijo de muestras reutilizables. ▫No requiere conocimiento a priori sobre la calidad de las tablas. ▫Generalidad del Procedimiento de Tabla Referencial. Aspectos Negativos ▫Dificultad para identificar y corregir los errores en una muestra. ▫No se consideran las operaciones de agregación y agrupamiento (sum, count, avg y group by) ▫Tiempos prohibitivos ante la estimación de calidad de un nuevo IP.

18 Preguntas


Descargar ppt "Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang."

Presentaciones similares


Anuncios Google