Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Slides:



Advertisements
Presentaciones similares
El ciclo de vida de un proyecto
Advertisements

MUESTRA.
Estudio del Trabajo.
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
COLEGIO FERNANDO MAZUERA VILLEGAS
ESTADISTICA APLICADA A LAS COMUNICACIONES: CONCEPTOS EN LA INVESTIGACION POR MUESTREO Docente : Fernando Camones SESION 01 Lima, 26 de Octubre 2010.
Técnicas para la elaboración de un instrumento
Estimación de los Errores de Muestreo Encuestas de Salud Reproductiva   RHS Usando SPSS 19.
Estudio Del Trabajo.
Inferencia Estadística
n=muestra dad. CALCULO DE LA MUESTRA
Población Y Muestra..
Completeness of Information Sources
Teórico: Algebra Relacional
FUNDACIÓN UNIVERSITARIA AUTÓNOMA DE LAS AMÉRICAS
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
DISEÑO DE LA MUESTRA ¿Para qué necesitamos recolectar datos?
Tests de permutaciones y tests de aleatorización
Muestreo Obtención de evidencia confiable y pertinente, suficiente para brindar una base razonable sobre la cual emitir una opinión. Procedimientos que.
Modificado de: M.A. Ana Celia Gutiérrez Olivas
Ciclo de formulación del proyecto.
Fundamentos de Investigación
Conceptos básicos de inferencia
Unidad 4. Muestreo de Aceptación
Seleccionar una muestra
MUESTREO DE ACEPTACIÓN DE LOTES POR VARIABLES
UNIVERSIDAD NACIONAL DEL SANTA
DASOMETRÍA DASOMETRÍA.
Proceso de la investigación de mercado
Control estadístico de Proceso
Lenguajes Formales de Consulta
Unidad VI: PRUEBAS DE HIPOTESIS
Clases 4 Pruebas de Hipótesis
Población y Muestra.
HUERTA GONZÁLEZ TANIA GPO
Diseño de la investigación
Algebra Relacional.
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Curso de Bioestadística. ANOVA
ESTADISTICA TEMA y 223.
Gerenciamiento Técnico de Proyectos
Métodos de calibración: regresión y correlación
ESTADISTICA I CSH M. en C. Gal Vargas Neri.
Diseño de la Muestra PLAN DE MUESTREO
Introducción a la investigación de mercados Naresh malhotra
Inferencia Estadística
MAESTRÍA EN GESTIÓN PÚBLICA CURSO: Diseño de Proyectos de Investigación POBLACION, MUESTRA Y MUESTREO Dr. Hugo L. Agüero Alva.
Universidad del Cauca – FIET – Departamento de Sistemas CAPITULO 14 Uso de Operadores de Conjuntos.
Sesión 13: Distribuciones Muestrales y Tamaño de Muestra
El desarrollo del pensamiento multiplicativo
PRESENTADO POR: GUSTAVO VASQUEZ JEISON MORENO JHON FREDY PENAGOS.
Herramientas avanzadas. Lo primero: abrir el modelo.
MÉTODOS DE ANÁLISIS EN LA TOMA DE DECISIONES EXISTEN PROCEDIMIENTOS DE ORDEN MATEMÁTICO, FINANCIERO, ECONÓMICO, ESTADÍSTICO ENTRE OTROS, PARA LA TOMA DE.
Pruebas de hipótesis.
CAPITULO 4 LA ENCUESTA SOCIAL
INGENIERÍA DE REQUERIMIENTOS
Tipos de Datos.
 La sentencia SELECT recupera todas las columnas o un subconjunto de ellas de una tabla. Esto afecta a todas las filas de la tabla, a menos que especifiquemos.
Matem á ticas Aplicadas a las Ciencias Sociales II IES Seritium.
Dificultad y Discriminación
JOIN EN MYSQL Bueno en esta presentación mostrare cosas acerca de los usos de la sentencia JOIN en mysql , mediante esta presentación planeo mostrar los.
Sistemas de ecuaciones
EL CÁLCULO DE LA MULTIPLICACIÓN COMO OBJETO DE ESTUDIO
Taller de investigación 1
Unidad 6. Tema 4. Lenguaje de consultas SQL
Base de Datos I – Ing. Mary Carlota Bernal J.
Administración de Base de Datos Procesamiento y Optimización de Consultas Prof Mercy Ospina Torres Prof Renny A. Hernandez
Teoría de la Generalizabilidad
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
MUESTREO: DISEÑO Y PROCEDIMIENTOS
Transcripción de la presentación:

Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang

Agenda Motivación Definiciones Hipótesis Proceso de Medición Ejemplo Consideraciones sobre el muestreo Crítica del artículo

Motivación Investigaciones previas no brindan una solución general. ▫Asumen tasas fijas de error ▫Dimensiones y factores específicos Quienes toman decisiones, requieren un cierto nivel de calidad.

Definiciones IP (Information Product) ▫Resultado de una consulta. Unidad de Datos ▫Celda. ▫Conjunto de celdas. ▫Tupla.

Definiciones Aceptabilidad de una unidad de datos ▫Dependiendo de si es apto para el uso en el IP y de la dimensión de calidad considerada. Medida de calidad de un IP ▫Unidades de datos aceptables, dividido el número total de unidades de datos.

Hipótesis Hipótesis de Herencia Hipótesis de Distribución del Error Hipótesis de Calidad de Muestras ▫Sistemas comerciales las tablas suelen ser muy grandes y dinámicas. ▫Muestras de las tablas de la base de datos.

Proceso de medición Estimación de la Calidad de las Tablas Base para un IP ▫Tablas muy grandes => se toman muestras ▫Se determina la aceptabilidad de cada unidad de datos con respecto al IP. ▫Estimación en función del IP considerado, por lo que puede variar de un IP a otro

Procedimiento de Tabla Referencial ▫Estima cuánto se aleja un IP real del IP sin errores.  Se utiliza dicha estimación como la de la calidad del IP. ▫Se estima la calidad del IP como: T1: IP generado a partir de las muestras originales T2: IP generado a partir de las muestras corregidas Proceso de medición

Operaciones del álgebra relacional Técnica más intuitiva de obtener estimaciones de la calidad de los IP. Aplicable solo en casos simples. Selección ▫Misma estimación de calidad calculada para la tabla base, por hipótesis de la distribución del error. Proceso de medición

Proyección ▫No hay duplicados (incluye la PK):  Se mide la calidad de la muestra considerando solo las columnas seleccionadas. ▫Si hay duplicados:  Se debe aplicar el procedimiento de tabla referencial. Operaciones del álgebra relacional Proceso de medición

Unión ▫Si no existen duplicados, se puede estimar como: Pi : proporción de unidades de datos aceptables de la tabla i n i : tamaño de la muestra de la tabla i  Se puede generalizar fácilmente a múltiples tablas. ▫Si existen duplicados, se debe utilizar el Procedimiento de Tabla Referencial. Operaciones del álgebra relacional Proceso de medición

Diferencia ▫IP se forma a través de T – S => calidad del IP es la calidad de T. ▫Procedimiento Tabla Referencial Producto Cartesiano ▫Cada tupla del producto será aceptable si las unidades de datos que la componen lo son. ▫ La estimación se obtiene multiplicando la proporción de valores aceptables para los componentes. Operaciones del álgebra relacional Proceso de medición

Join ▫Es una combinación del producto cartesiano y selección ▫Se considera en este estudio como un caso especial (es muy utilizada) Join sobre claves foráneas ▫La estimación de la calidad será la estimación de la calidad del producto cartesiano. Join sobre columnas que no son claves foráneas ▫Es necesario recurrir al procedimiento de la tabla referencial. Operaciones del álgebra relacional Proceso de medición

Ejemplo Estimar la calidad del siguiente IP: select * from personas; Todos los datos deben ser correctos => granularidad a nivel de tupla - 3 unidades de datos incorrectas - 8 unidades de datos en total - La calidad de la muestra es: (8 -3) /8 = 0,625 - Como es una selección, no es necesario aplicar Proc. Tabla Referencial. La Calidad del IP se puede estimar como 0, Si el IP fuera una proyección por cedula y telefono, el error en la columna nombre no se hubiera considerado y la calidad de la muestra hubiera sido otra.

Consideraciones sobre el muestreo Tamaño de la muestra ▫Tomar muestras de tamaño suficientemente grande a fin de que aparezcan tuplas defectuosas en la muestra. Tuplas faltantes ▫Los datos de una tabla son correctos, pero debería tener tuplas que no tiene. ▫Técnica de captura / recaptura: dos etapas de muestreo independiente, donde se etiqueta la primera de ellas.

Consideraciones sobre el muestreo Ejemplo Técnica de captura/recaptura: ▫Tabla de empleados con n 2 tuplas. ▫Evaluación independiente (encuesta) encuentra n 1 empleados. ▫De estos n 1 empleados, m 2 se encuentran en la tabla. ▫Se puede estimar el nro. de empleados que faltan como: (n 1 * n 2 / m 2 ) – n 2

Critica del artículo Aspectos Positivos ▫Conjunto fijo de muestras reutilizables. ▫No requiere conocimiento a priori sobre la calidad de las tablas. ▫Generalidad del Procedimiento de Tabla Referencial. Aspectos Negativos ▫Dificultad para identificar y corregir los errores en una muestra. ▫No se consideran las operaciones de agregación y agrupamiento (sum, count, avg y group by) ▫Tiempos prohibitivos ante la estimación de calidad de un nuevo IP.

Preguntas