Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porSilvia Lucero Nieto Modificado hace 10 años
1
Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang
2
Agenda Motivación Definiciones Hipótesis Proceso de Medición Ejemplo Consideraciones sobre el muestreo Crítica del artículo
3
Motivación Investigaciones previas no brindan una solución general. ▫Asumen tasas fijas de error ▫Dimensiones y factores específicos Quienes toman decisiones, requieren un cierto nivel de calidad.
4
Definiciones IP (Information Product) ▫Resultado de una consulta. Unidad de Datos ▫Celda. ▫Conjunto de celdas. ▫Tupla.
5
Definiciones Aceptabilidad de una unidad de datos ▫Dependiendo de si es apto para el uso en el IP y de la dimensión de calidad considerada. Medida de calidad de un IP ▫Unidades de datos aceptables, dividido el número total de unidades de datos.
6
Hipótesis Hipótesis de Herencia Hipótesis de Distribución del Error Hipótesis de Calidad de Muestras ▫Sistemas comerciales las tablas suelen ser muy grandes y dinámicas. ▫Muestras de las tablas de la base de datos.
7
Proceso de medición Estimación de la Calidad de las Tablas Base para un IP ▫Tablas muy grandes => se toman muestras ▫Se determina la aceptabilidad de cada unidad de datos con respecto al IP. ▫Estimación en función del IP considerado, por lo que puede variar de un IP a otro
8
Procedimiento de Tabla Referencial ▫Estima cuánto se aleja un IP real del IP sin errores. Se utiliza dicha estimación como la de la calidad del IP. ▫Se estima la calidad del IP como: T1: IP generado a partir de las muestras originales T2: IP generado a partir de las muestras corregidas Proceso de medición
9
Operaciones del álgebra relacional Técnica más intuitiva de obtener estimaciones de la calidad de los IP. Aplicable solo en casos simples. Selección ▫Misma estimación de calidad calculada para la tabla base, por hipótesis de la distribución del error. Proceso de medición
10
Proyección ▫No hay duplicados (incluye la PK): Se mide la calidad de la muestra considerando solo las columnas seleccionadas. ▫Si hay duplicados: Se debe aplicar el procedimiento de tabla referencial. Operaciones del álgebra relacional Proceso de medición
11
Unión ▫Si no existen duplicados, se puede estimar como: Pi : proporción de unidades de datos aceptables de la tabla i n i : tamaño de la muestra de la tabla i Se puede generalizar fácilmente a múltiples tablas. ▫Si existen duplicados, se debe utilizar el Procedimiento de Tabla Referencial. Operaciones del álgebra relacional Proceso de medición
12
Diferencia ▫IP se forma a través de T – S => calidad del IP es la calidad de T. ▫Procedimiento Tabla Referencial Producto Cartesiano ▫Cada tupla del producto será aceptable si las unidades de datos que la componen lo son. ▫ La estimación se obtiene multiplicando la proporción de valores aceptables para los componentes. Operaciones del álgebra relacional Proceso de medición
13
Join ▫Es una combinación del producto cartesiano y selección ▫Se considera en este estudio como un caso especial (es muy utilizada) Join sobre claves foráneas ▫La estimación de la calidad será la estimación de la calidad del producto cartesiano. Join sobre columnas que no son claves foráneas ▫Es necesario recurrir al procedimiento de la tabla referencial. Operaciones del álgebra relacional Proceso de medición
14
Ejemplo Estimar la calidad del siguiente IP: select * from personas; Todos los datos deben ser correctos => granularidad a nivel de tupla - 3 unidades de datos incorrectas - 8 unidades de datos en total - La calidad de la muestra es: (8 -3) /8 = 0,625 - Como es una selección, no es necesario aplicar Proc. Tabla Referencial. La Calidad del IP se puede estimar como 0,625. - Si el IP fuera una proyección por cedula y telefono, el error en la columna nombre no se hubiera considerado y la calidad de la muestra hubiera sido otra.
15
Consideraciones sobre el muestreo Tamaño de la muestra ▫Tomar muestras de tamaño suficientemente grande a fin de que aparezcan tuplas defectuosas en la muestra. Tuplas faltantes ▫Los datos de una tabla son correctos, pero debería tener tuplas que no tiene. ▫Técnica de captura / recaptura: dos etapas de muestreo independiente, donde se etiqueta la primera de ellas.
16
Consideraciones sobre el muestreo Ejemplo Técnica de captura/recaptura: ▫Tabla de empleados con n 2 tuplas. ▫Evaluación independiente (encuesta) encuentra n 1 empleados. ▫De estos n 1 empleados, m 2 se encuentran en la tabla. ▫Se puede estimar el nro. de empleados que faltan como: (n 1 * n 2 / m 2 ) – n 2
17
Critica del artículo Aspectos Positivos ▫Conjunto fijo de muestras reutilizables. ▫No requiere conocimiento a priori sobre la calidad de las tablas. ▫Generalidad del Procedimiento de Tabla Referencial. Aspectos Negativos ▫Dificultad para identificar y corregir los errores en una muestra. ▫No se consideran las operaciones de agregación y agrupamiento (sum, count, avg y group by) ▫Tiempos prohibitivos ante la estimación de calidad de un nuevo IP.
18
Preguntas
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.