Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROBLEMA DE LOS SISTEMAS DISTRIBUIDOS SISTEMAS MANEJADORES DE BASES DE DATOS DISTRIBUIDAS.

Slides:



Advertisements
Presentaciones similares
IBD Clase 16.
Advertisements

Definición En un sistema de base de datos distribuida, los datos se almacenan en varios computadores. Los computadores de un sistema distribuido se comunican.
Diseño de Bases de Datos
DBMS (SGBD) El Sistema de Gestión
Base de Datos Distribuidas PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS
BASES DE DATOS DISTRIBUIDAS
Bases de Datos Distribuidas
Bases de datos distribuidas
Base de Datos Distribuidas Bases de Datos II Universidad Argentina J. F. Kennedy - Año 2008 Maletin Yahoo => briefcase.yahoo.com Usuario => bd2_jfk Pssw.
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
Sistemas de Bases de Datos Distribuidas
Optimización de Consultas Distribuidas
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
“Tuning” Universidad Nacional Autónoma de México Bases de datos I
Ordenamiento Interno y Búsqueda Binaria
Introducción a los Sistemas de Bases de Datos
Diseño orientado al flujo de datos
BASES DE DATOS DISTRIBUIDAS
Windows XP sp3.
Introducción a los Sistemas de Bases de Datos Distribuidos
UNIDAD II Modelo de Datos.
Johanna Lizeth Rodríguez Lorena Fda. Chávarro Ramos
Algorítmo de Mapeo Directo
INTEGRANTES ALEXIS MENDOZA ALDAIR ARRIETA CARLOS PASTOR LORENA RODRIGUEZ ANTHONY JIMENEZ.
Bases de Datos Distribuidas
Bases de Datos Distribuidas Por: Israel Miralles y Vicente Toledo.
Direcciones físicas y direcciones virtuales (lógicas)
Diseño de Bases de Datos Distribuidas (1era Parte)
REPLICACIÓN EN SQL SERVER
Ing. Héctor Abraham Hernández Erazo
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
Instituto Tecnológico de La Paz Ing. Fernando Ortiz Ahumada.
Bases de datos Distribuidas ITES de la región carbonífera 1 Problemas de las Bases de datos distribuidas.
BASES DE DATOS DISTRIBUIDAS
Elaborado por: Guillermo Baquerizo I Término
Introducción A Las Bases De Datos
BASE DE DATOS BY: Julián Villar Vázquez.
(Organización y Manejo de Archivos)
ORGANIZACIÓN DE LOS DATOS PARA PROCESARLOS EN COMPUTADORA Las computadoras trabajan con datos. Aceptan y procesan datos, y comunican resultados. No pueden.
5. Sistemas de archivos avanzados1 Tema 5: Sistemas de Archivos Avanzados Resumen: –Sistema de archivos distribuido –File Replication Service.
12 Reglas para un SBDD Autonomía local.
Capítulo 7 Gestión de memoria.
TEMA 10. SISTEMAS OPERATIVOS DISTRIBUIDOS
BASES DE DATOS DISTRIBUIDAS
BASES DE DATOS DISTRIBUIDAS
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
Seminario de Informática Elementos Conceptuales
Tecnologías para el Aprendizaje
VENTAJAS DE LAS BASES DE DATOS.  Los sistemas de ficheros almacenan varias copias de los mismos datos en ficheros distintos. Esto hace que se desperdicie.
Departamento de Informática Universidad de Rancagua Profesor: Paula Quitral Reglas BDD.
Sistemas de Archivos Sistemas Operativos.  Se debe proporcionar un almacenamiento secundario que respalda a la memoria principal  El Sistema de archivos.
Bases de Datos II BASES DE DATOS DISTRIBUIDAS
BASE DE DATOS.
Tecnologías Cliente / Servidor Capitulo II Richard Jiménez V. clienteserver.wordpress.com.
SISTEMAS COMPUTACIONALES ADMINISTRATIVOS E.E. Fundamentos de Base de Datos 1.8 Estructura de un sistema de base de datos Fuentes: Fundamentos de Bases.
BASE DE DATOS DISTRIBUIDAS
Las doce reglas de las bases de datos distribuidas
DISCOS RAID (Redundant Array of Independent Disks)
1 RAID (Redundant Array of Inexpensive Disks). RAID Una serie de sistemas para organizar varios discos como si de uno solo se tratara. Haciendo que trabajen.
INTEGRANTE: FLORES GODOY JUAN E. Grupo:308. Una tabla es una colección de datos sobre un tema específico, como productos o proveedores. Al usar una tabla.
SISTEMAS DISTRIBUIDOS II DESEMPEÑO. DESEMPEÑO Cuando se ejecuta una aplicación en un sistema distribuido no debe parecer peor que su ejecución en un único.
¿Qué es una base de datos? Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada. Desde.
QUÉ ES UNA BASE DE DATOS? Es un Conjunto de Información, que está clasificada de distintas maneras; pero que comparten entre sí algún tipo de vínculo,
Para cada uno de los atributos, indicaremos su campo de descripción. Cuando un campo no dispone de este (como el.
Circuitos Combinacionales I
BASES DE DATOS DISTRIBUIDAS M.C.C. María Guadalupe Villanueva Carrasco INGENIERIA EN SISTEMAS COMPUTACIONALES.
DLM Transact SQL Sesión I Introducción al SQL Server Uso de las herramientas de consultas del Transact SQL.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
Consistencia y Replicación
Transcripción de la presentación:

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROBLEMA DE LOS SISTEMAS DISTRIBUIDOS SISTEMAS MANEJADORES DE BASES DE DATOS DISTRIBUIDAS

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández Bases de Datos Distribuidas El problema principal es que las redes de comunicación – al menos las de larga distancia o redes de área amplia (WLAN) – son lentas. Una Wan típica puede tener una velocidad de datos efectiva cercana a los 5 o 10 mil bytes por segundo. Por el contrario, la unidad de disco típica tiene una velocidad de datos cercana a los 5 o 10 millones de bytes por segundo.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández Por consecuencia, un objetivo principal en los sistemas distribuidos es minimizar la utilización de la red. Es decir, minimizar la cantidad y el volumen de los mensajes. Este objetivo hace a su vez que se presenten problemas en varias áreas complementarias, entre ellas las siguientes: –Procesamiento de Consultas –Administración del Catálogo –Propagación de la actualización –Control de la Recuperación –Control de la Concurrencia

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS El objetivo de minimizar la utilización de la red implica que el propio Proceso de Optimización de Consultas debe ser distribuido, al igual que el proceso de ejecución de consulta. En otras palabras, el proceso de optimización general consistirá típicamente en un paso de optimización global seguido por pasos de optimización local en cada sitio afectado.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS DESCOMPOSICION DE CONSULTAS En un DDBMS sin transparencia el usuario expresa su consulta en términos de fragmentos específicos. También será responsabilidad del usuario mantener la consistencia. Si el DDBMS tiene transparencia el usuario especificará una consulta como si el sistema fuera centralizado. En las actualizaciones, la consistencia deberá garantizarla el sistema.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS DESCOMPOSICION DE CONSULTAS En las consultas, el módulo de descomposición de subconsultas deberá descomponer la consulta en subconsultas que puedan ejecutarse en sitios individuales. Además tiene que existir una estrategia de composición de resultados. Si el sistema detecta un elemento replicado dentro de una consulta, deberá mantenerlo actualizado tras la ejecución de ésta.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Supongamos que una consulta C se envía al sitio X, y supongamos que la consulta C involucra la unión de una relación Ry de cien tuplas en el sitio Y con una relación Rz de un millón de tuplas en el sitio Z. El optimizador que está en el sitio X seleccionará la estrategia global para la ejecución de C; es claramente necesario que decida mover Ry hacia Z y no Rz hacia Y (por supuesto, tampoco Ry y Rz hacia el sitio X)

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Entonces, una vez que que se ha decido mover Ry hacia Z, la estrategia para ejecutar la unión real en el sitio Z será decida por el optimizador local que está en Z.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández TablasNúmero de Tuplas Sitio Proveedores10, 000A Partes100, 000B Envíos1, 000, 000A Supongamos que cada tupla almacenada es de 25 bytes (200 bits) de longitud. PROCESAMIENTO DE CONSULTAS Ejemplo:

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández SNoProveedorStatusCiudad Proveedores PnoParteColorPesoCiudad Partes Envíos SNoPNoCantidad Tablas que Componen el SBDD

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Consulta: “Obtener los Números de Proveedores que surten Partes rojas de Londres”. Cardinalidad estimada de ciertos resultados intermedios: –Cantidad de Partes Rojas= 10 –Cantidad de envíos de los proveedores de Londres = 100, 000 Suposiciones de comunicación: –Velocidad de datos= 50, 000 bits/segundo –Retardo en el acceso= 0.1 segundo

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Ahora analicemos brevemente 6 estrategias posibles para el procesamiento de esta consulta, y para cada estrategia calcularemos el tiempo de comunicación total a partir de la fórmula: (retardo de acceso total) + (volumen total de datos / velocidad de datos) que se convierte (en segundos) (cantidad de mensajes / 10) + (cantidad de bits / )

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Primer Estrategia. Mover Partes hacia el sitio A y procesar la consulta en A. T1 = ( * 200) / = 400 segs. Aproximadamente (6.67 minutos)

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Segunda Estrategia. Mover Proveedores y Envíos hacia el sitio B y procesar la consulta en B. T2= (( ) * 200) / = 4040 segs. Aproximadamente (1.12 horas)

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Tercer Estrategia. Juntar Proveedores y Envíos en el sitio A, restringir el resultado a los proveedores de Londres y luego, para cada uno de esos proveedores, revisar el sitio B para ver si la parte correspondiente es roja. Cada una de estas revisiones involucrará dos mensajes (una consulta y una respuesta). El tiempo de transmisión para estos mensajes será pequeño en comparación con el retardo del acceso. T3= segundos aproximadamente (5.56 horas)

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Cuarta Estrategia. Restringir las Partes en el sitio B a solamente las que sean rojas y luego, para cada una de éstas, revisar el sitio A para ver si existe un envío que relacione la parte con un proveedor de Londres. Cada una de estas revisiones involucrará dos mensajes; de nuevo, el tiempo de transmisión de los mensajes será pequeño en comparación con el retardo del acceso. T4= 2 segundos aproximadamente

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Quinta Estrategia. Juntar Proveedores y Envíos en el sitio A, restringir el resultado a los proveedores de Londres, proyectar el resultado sobre Sno y Pno, y mover el resultado al sitio B. Completar el procesamiento en el sitio B. T5= ( * 200) / = 400 segundos aproximadamente (6.67 minutos)

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Sexta Estrategia. Restringir las Partes en el sitio B a las que son Rojas y mover el resultado al sitio A. Completar el procesamiento en el sitio A. T6= (10 * 200) / = 0.1 segundos aproximadamente

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández EstrategiaTécnicaTiempo de comunicación 1Mover Partes hacia A6.67 minutos 2Mover Proveedores y Envíos hacia B 1.12 horas 3Para cada envío de Londres, revisar si la parte es roja 5.56 horas 4Para cada parte roja, revisar si existe un proveedor de Londres 2.00 segundos 5Mover los envíos de Londres hacia B 6.67 minutos 6Mover las partes rojas hacia A0.10 segundos (el mejor) Resumen de las Estrategias y Tiempos

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Conclusión: Cada una de las seis estrategias representan un enfoque admisible para el problema, pero la variación en el tiempo de comunicación es enorme (la más lenta es dos millones de veces más lenta que la más rápida).

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández PROCESAMIENTO DE CONSULTAS Conclusión: La velocidad de datos y el retardo en el acceso son factores importantes para selección de una estrategia. Además, algunas estrategias permiten el procesamiento paralelo en los dos sitios; por lo tanto, el tiempo de respuesta ante el usuario puede ser, de hecho, menor que en un sistema centralizado.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO ACTUALIZACIONES La información relativa a las réplicas se encuentra en el catálogo: Para la fragmentación horizontal se guarda la condición de cada fragmento. Para la vertical la lista de atributos de cada fragmento. Para la mixta se almacenan ambas informaciones.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO En un sistema distribuido, el Catálogo del Sistema (o Diccionario de Datos) incluirá no solamente los datos usuales del catálogo con relación a la estructura de las tablas, vistas, autorizaciones, etc. Sino también toda la información de control necesaria para permitir que el sistema proporcione la independencia de ubicación, fragmentación y replicación necesaria. Ahora bien ¿Dónde y cómo debe ser almacenado el propio catálogo?

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO 1. Centralizado. El catálogo total es almacenado exactamente una vez en un sitio central. 2. Completamente replicado. El catálogo total es almacenado por completo en cada uno de los sitios. 3. Dividido. Cada sitio mantiene su propio catálogo de los objetos que están almacenados en ese sitio. –El catálogo total es la unión de todos los catálogos locales.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO 4. Combinación de Centralizado y Dividido. Cada sitio mantiene su propio catálogo local. Además, un único sitio central mantiene una copia unificada de todos esos catálogos locales.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Problemas del Manejo del Catálogo 1. Centralizado.- Viola el objetivo de “no dependencia de un sitio central”. 2. Completamente Replicado.- Sufre una severa pérdida de autonomía, ya que cada actualización del catálogo tiene que ser propagada a cada uno de los sitios.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Problemas del Manejo del Catálogo 3.Dividido.- El enfoque eleva en gran medida el costo de las operaciones que no son locales (para localizar un objeto remoto será necesario acceder, en promedio, a la mitad de los sitios). 4.Centralizado-Dividido.- Este enfoque es más eficiente que el punto 3 (la localización de un objeto remoto requiere sólo un acceso al catálogo remoto), pero viola nuevamente el objetivo de “no dependencia de un sitio central”

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Una forma de manejador el Catálogo del Sistema, para lograr la transparencia de localización, es a través del Mapeo. Esto es, primero se distingue el Nombre Común de una relación o tabla, que es nombre por el cual los usuarios hacen normalmente referencia al objeto. Y su Nombre a Nivel de Sistema, que es un identificador interno globalmente único para ese objeto.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Los nombres a nivel de sistema tienen cuatro componentes: –ID del creador (ID del usuario) –ID del sitio del creador (sitio donde se operó CREATE) –Nombre local (nombre original) –ID del sitio de nacimiento (sitio donde se almacenó inicialmente) Por ejemplo: MORELIA. URUAPAN

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO MORELIA. URUAPAN Donde se denota la creación de una tabla denominada localmente Cliente. Creada por el usuario Alberto desde el sitio de Morelia. Y almacenada inicialmente en Uruapan. Donde se garantiza que este nombre no cambiará, ni aunque el objeto emigre a otro sitio.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Los usuarios pueden acceder a ella a través de su nombre común o un sinónimo para ese nombre a nivel de sistema. Para esto, se realiza un mapeo del nombre común al de nivel de sistema. Por ejemplo (sistema R*): CREATE SYNONYM MCLIENTE FOR MORELIA. URUAPAN;

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Ahora la manipulación del elemento se puede realizar de la siguiente manera: SELECT... FROM CLIENTE...; o SELECT... FROM MCLIENTE...;

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Para acceder a la tabla MCLIENTE, el sistema consulta la Tabla de Sinónimos. Donde la tabla de sinónimos puede ser vista como el primer componente del catálogo. Cada sitio mantiene un conjunto de esas tablas para los usuarios, y transforma los sinónimos conocidos en los nombres a nivel de sistema correspondiente.

Bases de Datos Distribuidas M. en C. Anastacio Antolino Hernández ADMINISTRACION DEL CATALOGO Además, cada sitio mantiene: Una entrada de catálogo para cada tabla nacida en ese sitio Una entrada de catálogo para cada tabla almacenada actualmente en ese sitio.