Optimización de Consultas Distribuidas. ÍNDICE Definiciones básicas Modelo de costo Estadísticas de la base de datos Optimización centralizada de consultas.

Slides:



Advertisements
Presentaciones similares
IBD Clase 16.
Advertisements

Base de Datos Distribuidas PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS
Optimización de Consultas Distribuidas
Implementación de archivos
Introducción a los Sistemas de Bases de Datos Distribuidos
Diseño de Bases de Datos Distribuidas (1era Parte)
HILOS Y COMUNICACIÓN ENTRE PROCESOS
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
Instituto Tecnológico de La Paz Ing. Fernando Ortiz Ahumada.
Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROBLEMA DE LOS SISTEMAS DISTRIBUIDOS SISTEMAS MANEJADORES DE BASES DE DATOS DISTRIBUIDAS.
Sistemas de tiempo real Msc. Rina Arauz. Sistemas de tiempo real 2 Definición (Donald Gillies) n Un sistema de tiempo real (STR) es aquel en el cual los.
CONSTANTES DENTRO DE UN CÁLCULO O EN LOS PASOS PARA SOLUCIONAR UN PROBLEMA, EXISTIRÁN VALORES QUE NUNCA VAN A CAMBIAR Y SE LOS CONOCE COMO CONSTANTES.
LENGUAJE RADIAL O RADIOF Ó NICO Profesor – Jes ú s Verde.
SISTEMAS DISTRIBUIDOS II DESEMPEÑO. DESEMPEÑO Cuando se ejecuta una aplicación en un sistema distribuido no debe parecer peor que su ejecución en un único.
LENGUAJE RADIAL O RADIOF Ó NICO Profesor – Jes ú s Verde.
SOM- UD1. Introducción a los sistemas informáticos 1 UD1. INTRODUCCIÓN A LOS SISTEMAS INFORMÁTICOS 1. Introducción 2. El sistema informático, software.
2_1 Procesador y memoria Apoyo SSD2. Mtl Lourdes Cahuich2 El procesador y la memoria son los componentes esenciales que permiten que una computadora pueda.
Clustering Redes II Sobre la base que ya conocen… … los clusters requieren un apilamiento de máquinas de diversa estructura, con el fin de repartirse.
Obtención de datos para ser incorporados al proceso de operación y control y su actualización en forma automática en la BD. SISTEMA DE COMUNICACIONES INDUSTRIALES.
INTRODUCCIONHISTORIAQUE ES UN PLCELEMENTOS VENTAJAS TIPOSCONCLUSIONESREFERENCIAS.
Base de Datos Auditoría – Orientación II Cr. Oscar Nielsen
MANUAL DE INSTALACIÓN DE ARRANQUE DUAL EN UNA PC.
NÚMEROS ALEATORIOS DEPARTAMENTO DE INFORMATICA UNSL-2007.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
Alumnas: Cabrilla Marcia Figueroa Gabriela Sánchez Marcela 3° de Matemática.
7 Fragmentación Bases de datos II I-2014 Universidad del Cauca Ing. Wilson Ortega Bases de datos II I-2014 Universidad del Cauca Ing. Wilson Ortega.
Innovación  Jornadas TIC  Movilidad Cámara Oficial de Comercio e Industria de Madrid Soluciones de movilidad y telecomunicaciones para pymes 19 de octubre.
EVALUACION DEL RIESGO Y EL CONTROL INTERNO
Sistemas EPR,s  Los sistemas ERP son sistemas integrales de gestión para la empresa. Se caracterizan por estar compuestos por diferentes partes integradas.
DETERMINACIÓN DE LA VIABILIDAD Y ADMINISTRACIÓN DE LAS ACTIVIDADES DE ANÁLISIS Y DISEÑO DE SISTEMAS. ÁNGEL CEDEÑO MARÍA VERA
Grid Initiatives for e-Science virtual communities in Europe and Latin America Algoritmo Genético para la solución del problema SAT.
Centro de Informática Educativa VRA - UBB Jueves, 07 de Junio de 2007.
1 Conferencia 5 OLAP. 2 Contenido Definición OLAP. Reglas de Codd. Gestores que dan soporte OLAP y los diferentes modos de Almacenamiento.
SISTEMAS OPERATIVOS Contenido: Descripción del proceso proceso nulo estado del procesador imagen del proceso información del BCP Miguel Ángel Martínez.
Historia Correo Electrónico 1971 Aunque los antecedentes del correo electrónico hay que buscarlos unos pocos años antes, no es hasta 1971 cuando Ray Tomlinson,
6.1 ¿Qué significa Cloud Computing? Conjunto de aplicaciones y servicios de software que se ofrecen a través de internet que en lugar de residir en los.
La memoria de acceso aleatorio (en inglés: random-access memory cuyo acrónimo es RAM) es la memoria desde donde el procesador recibe las instrucciones.
La Radio COMO MEDIO PUBLICITARIO. ¿QUÉ ES LA RADIO? La radio es una tecnología que posibilita la transmisión de señales mediante la modulación de ondas.
 El máximo común divisor de dos o más números, es el mayor número que divide a todos exactamente.
TEMA 8 Introducción a Windows 2008 Server Msc. Rina Arauz.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
CENTRO UNIVERSITARIO UAEM TEXCOCO INGENIERÍA EN COMPUTACIÓN DISEÑO DE SISTEMAS M. En C.C. Ma. Dolores Arévalo Zenteno.
Clase II Estructuras dinámicas (TAD) Listas Enlazadas. ¿A que llamamos estructuras dinámicas? ¿Por qué son necesarias? Ventajas y Desventajas que tendremos.
PROTEC VIRGINIA CAROLINA GALLARDO SANCHEZ. Hardware y software En computación tenemos dos elementos básicos: Hardware En términos simples, corresponde.
1 Introducción a la Programación Estructurada Introducción a la Informática Departamento de Sistemas Universidad del Cauca 2006.
Administración de Base de Datos Manejo de memoria (Parte II) Prof Mercy Ospina Torres
Procesamiento de Datos Cód.: 330 Facilitadora: Beatriz González Profesor: Oscar Núñez Universidad Nacional Abierta Vicerrectorado Académico Área: Ingeniería.
Procesos Un proceso es un programa en ejecución. Modelo de procesos secuenciales. Abstracción del SO.
Conceptos de sistemas de información 4 Sistema de información formal –Es un medio informativo organizacionalmente eficaz, que es diseñado con la finalidad.
JANITH SULAY JAIMES PABON GIOVANNY JIMÉNEZ GÓMEZ JOHN ANDRES AYALA ANGARITA SERGIO ANDRES ARAQUE BERMUDEZ GESTIÓN DE ALMACENAMIENTO SECUNDARIO.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Búsquedas a ciegas Julián Andrés Hidalgo Mosquera.
Representación en espacio de estado
CAPITULO 6 REDES DE TRANSPORTES 6. Redes En la Ingeniería Civil es común encontrar problemas que involucran el concepto de redes. La gama es enorme por.
Yaritza Ortega Astrid Zúñiga Vishal Patel
Programación Dinámica  La programación dinámica se suele utilizar en problemas de optimización, donde una solución está formada por una serie de decisiones.
Asignaturas: Informática/Electiva I. Definición de Sistema operativo Conceptos Básicos Funciones de los Sistemas Operativos Clasificación Componentes.
Perfil corporativo. Fabricamos software de gestión para pymes Tras 27 años fabricando software hay cientos de historias.
G ESTIÓN DE LA MEMORIA Paginación y segmentación.
Planificación de CPU. Ráfagas de CPU Ciclo de ráfagas de CPU–E/S – La ejecución de procesos consiste en un ciclo de ejecución de CPU y esperas de E/S.
ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO POR: Evelyn Moreira SEGUNDO SEMESTRE INGENIERIA COMERCIAL.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
Funciones, expresiones y control en Alice
3. Organización de proyectos. Estructura y cultura.
Métodos Cuantitativos de Análisis de Datos I. Medidas de Variación.
¿Tiene un negocio on-line? ¿La mayoría de sus ventas se realizan por medio de e-commerce? ¿Los resultados de su negocio dependen en gran medida de Internet?
Módulo de Gestión Comercial Curso ADMINISTRACIÓN PARA AGENTES INMOBILIARIOS.
Introducción a la Ingeniería del Software 1 El Diseño de Software Caracteristicas: Proceso Creativo Requiere de experiencia e ingenio Necesita del aprendizaje.
Costos para la Gestión Programación Lineal.
Escuela Superior Politécnica de Chimborazo Facultad de Administración de Empresas Escuela de Ingeniería en Marketing Carrera de Ingeniería Comercial Nombre:
Transcripción de la presentación:

Optimización de Consultas Distribuidas

ÍNDICE Definiciones básicas Modelo de costo Estadísticas de la base de datos Optimización centralizada de consultas Ordenamiento de juntas para consultas fragmentadas Optimización de consultas distribuidas

Definiciones Básicas El objetivo de la optimización global de consultas es hallar una estrategia de ejecución para la consulta cercana a la óptima (la mejor de las estrategias que se posean) dada una consulta algebraica sobre fragmentos. La estrategia: - Establece el orden de ejecución de las operaciones. - Incluye las operaciones de comunicación sobre los fragmentos. Para conseguir la mejor estrategia la idea es minimizar la función de costo. El proceso de optimización selecciona el mejor miembro x de un conjunto que optimiza la función de costo. A este conjunto de posibles soluciones se le conoce como el espacio de búsqueda.

Modelo de Costo El costo se puede expresar en base a: 1. Costo Total (tiempo de ejecución): Costo total = costo de I/O + costo de CPU + costo de comunicación En donde: Costo de CPU = costo de una instrucción * no. de instrucciones Costo de I/O = costo unitario de una operación de I/O a disco * no. de accesos Costo de comunicación = (tiempo de iniciación + tiempo de transmisión) * no. de mensajes

Modelo de Costo 2. Tiempo de Respuesta: Es el tiempo transcurrido desde el inicio de la consulta hasta su terminación -> Trata de explotar el paralelismo. Costo total = costo de I/O + costo de CPU + costo de comunicación En donde: Costo de CPU = costo de una instrucción * no. de instrucciones secuenciales Costo de I/O = costo unitario de una operación de I/O a disco * no. de accesos secuenciales Costo de comunicación = (tiempo de iniciación + tiempo de transmisión) * no. de mensajes secuenciales

Estadísticas de las BD La ejecución de una estrategia se ve afectada principalmente por el tamaño de las relaciones intermedias debido a que estas son transmitidas por la red. Entonces se debe estimar el tamaño de las relaciones intermedias para poder minimizar el tamaño de las transferencias de datos. Para ello necesitamos de la siguiente información: La longitud de cada atributo: length( Ai ) El número de valores distintos para cada atributo en cada fragmento: card( P Ai, Rj ) Los valores máximo y mínimo en el dominio de cada atributo: min( Ai ), max( Ai ) Las cardinalidades de cada dominio: card( dom[Ai] ) Las cardinalidades de cada fragmento: card( dom[Rj] )

Optimización Centralizada de Consultas Las técnicas de optimización más populares se deben a dos sistemas de bases de datos relacionales: INGRES y System R. Sus técnicas difieren sustancialmente porque INGRES utiliza una técnica dinámica la cual es ejecutada por un intérprete mientras que System R utiliza un algoritmo estático basado en búsqueda exhaustiva. Los sistemas más comerciales utilizan variantes de la búsqueda exhaustiva por su eficiencia y compatibilidad con la compilación de consultas.

Ordenamiento de juntas para consultas fragmentadas El ordenamiento de juntas es un aspecto importante para la optimización de consultas centralizadas, pero en ambientes distribuidos es aún más importante ya que las juntas entre fragmentos pueden incrementar los costos de comunicación. La consulta es R >< S en donde R y S son relaciones almacenadas en nodos diferentes. La elección obvia es transferir la relación más pequeña al nodo con la relación más grande

Ordenamiento de juntas para consultas fragmentadas

Consideremos ahora el caso en donde hay más de dos relaciones en la junta. El objetivo sigue siendo transferir los operandos más pequeños. La dificultad aparece del hecho de que las operaciones de juntas pueden reducir o incrementar el tamaño de los resultados intermedios. Así, estimar el tamaño de los resultados de las juntas es obligatorio pero difícil. Una solución es estimar el costo de comunicación de todas las estrategias posibles y elegir la de costo menor. Sin embargo, el número de estrategias crece rápidamente con el número de relaciones.