Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International.

Slides:



Advertisements
Presentaciones similares
Study of Network Performance Measurement Based on SNMP Paper publicado en: Computer Supported Cooperative Work in Design, Proceedings. The 8th conference.
Advertisements

PLANIFICACIÓN DE TESTING
Planificación de Monoprocesadores
DEFINICIÓN DE PLATAFORMAS TECNOLÓGICAS (COMUNICACIONES ) LAN-WAN
Algoritmo ford- fulkerson
Supervisión del rendimiento de SQL Server
Noveno Semestre UNIDEC
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
Optimización de Consultas Distribuidas
Aplicaciones Cliente-Servidor
Logística (Manejo de la cadena de abastecimiento)
Investigación de Operaciones
BASES DE DATOS CLIENTE SERVIDOR Y DISTRIBUIDAS
2.1 DEFINICIONES LINEAS DE ESPERA, CARACTERISTICAS Y SUPOSICIONES
INTRODUCCIÓN ESTADO DE LA TÉCNICA PROCESAMIENTO DISTRIBUIDO CON MPI PROCESAMIETNO DISTRIBUIDO DE IMÁGENES GENÉRICO CON VTK PROCESAMIENTO DISTRIBUIDO DE.
Gabriel Montañés León. La principal idea de la arquitectura Peer-to-Peer (Par a par, P2P) es determinar la base y reglas necesarias para compartir recursos.
Sistemas Operativos Distribuidos
BASES DE DATOS DISTRIBUIDAS
Universidad Centroamericana
Contexto en el proceso general
Redes de Transmisión de Datos Unidad IV. Interconexion de Redes.
PROCESAMIENTO PARALELO.  Organización lógica ◦ Visión que tiene el programados  Capacidad de expresar tareas paralelas (Estructura de control)  Método.
ELEMENTOS DE UNA RED ( Parte I)
Prueba Suficiencia Investigadora Doctorando: Rosa Filgueira Vicente Tutor: David Expósito Singh 27 Febrero 2007.
Tema 10: Gestión de Memoria
Introducción Calculabilidad clásica Computación celular
REPLICACIÓN EN SQL SERVER
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
Diseño y análisis de algoritmos
Hecho por: Celeste Amalvy Y Victoria D´Arrisso. Funcionalidades. Localizar un ordenador de forma inequívoca. Realizar una conexión con otro ordenador.
CONCEPTES AVANÇATS DE SISTEMES OPERATIUS Departament d’Arquitectura de Computadors (apunts de l’assignatura en format transparència) Beowulf Vs Clusters.
  Tiene como objetivo medir y hacer disponibles varios aspectos del funcionamiento de la red para que la interconexión pueda hacerse a niveles aceptables.
Introducción al modelo Cliente-Servidor Carlos Rojas Kramer Universidad Cristóbal Colón.
Desarrollo de aplicaciones para ambientes distribuidos
Medición y Métricas del Software
TEMA 10. SISTEMAS OPERATIVOS DISTRIBUIDOS
Principales distribuciones discretas
PROGRAMACIÓN PARALELA Modelos de programación paralela Modelos computacionales Paradigmas de programación paralela Programación en memoria compartida:
Primer Foro Universitario de Software Libre 6, 7, 8 y 9 de Mayo de 2013 Proyecto GNU FreeBSD Linux Simulación de Flooding en OMNeT++ para Redes de Sensores.
Protocolo de comunicaciones. Se usan en las comunicaciones, son una serie de normas que aportan diferentes funciones. Permiten localizar un ordenador de.
Sistema de análisis distribuido de ATLAS (ADA) Farida Fassi / Mª Dolores Jordán IFIC.
NOTA: Para cambiar la imagen de esta dispositiva, seleccione la imagen y elimínela. A continuación haga clic en el icono Imágenes en el marcador de posición.
Introducción a la Simulación de Eventos Discretos José Daniel García Sánchez Grupo de Arquitectura Comunicaciones y Sistemas Universidad Carlos III de.
BASES DE DATOS DISTRIBUIDAS
Tema 8: Introducción a los SOs. Tema 8: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.), Introducción.
Procesos Estocásticos Edgar H Criollo V Mayo 2010
Teoría de Probabilidad Dr. Salvador García Lumbreras
Departamento de Informática Universidad de Rancagua
Francisco Gamboa Herrera Tanya Pérez Herrera 26 Noviembre 2010.
ORGANIZACIÓN Y PLANIFICACIÓN
Servicio Remoto de Monitoreo
S ERVICIOS DE RED E I NTERNET T EMA 5 : I NSTALACIÓN Y ADMINISTRACIÓN DE SERVICIOS DE TRANSFERENCIA DE FICHEROS ” Nombre: Adrián de la Torre López.
INTRODUCCIÓN El rendimiento, costo de compra y costo de operación forman la base para la toma de decisiones, sobre que PC es mejor que otra y así adquirir.
“Pastry” Francisco Gamboa Herrera Tanya Pérez Herrera Taller de Redes 2010.
Cloud Computing July Palma L..
TEMA II FUNDAMENTOS DEL DISENO DE COMPUTADORES
UNIDAD 1. ORGANIZACIÓN BÁSICA Y DISEÑO DEL COMPUTADOR
Propuestas arquitectónicas para servidores Web distribuidos con réplicas parciales Septiembre de 2005 Autor: José Daniel García Sánchez Directores:Jesús.
UD 1: “Introducción a los servicios de red e Internet” Capa de Acceso a la Red. Ethernet. Gustavo Antequera Rodríguez.
INTRODUCCIÓN A LAS REDES DE COMPUTADORAS. ·
Análisis de un Servidor HTTP Carlos Miguel Tavares Calafate Arquitectura y Prestaciones de la Web 2002.
Matemáticas Discretas MISTI
ADMINISTRACIÓN DE REDES Planes de Migración. Migración En tecnología de información y comunicación, la migración es el proceso de la transferencia desde.
SISTEMAS DISTRIBUIDOS II DESEMPEÑO. DESEMPEÑO Cuando se ejecuta una aplicación en un sistema distribuido no debe parecer peor que su ejecución en un único.
1 Unidad I.2.- Objetivos de los Sistemas Distribuidos Ing. Luis Armando García Eliseo © Agosto 2011.
Sistemas Distribuidos Conceptos Básicos Propiedades MSI. Nancy A. Olivares Ruiz.
Planificación adaptativa en Grid: Códigos Monte Carlo Rafael Mayo García CIEMAT I Jornadas de Computación Distribuida Inteligente y Sistemas Complejos.
Planificación de CPU Conceptos Básicos Criterios de Planificación Algoritmos de Planificación Planificación con Múltiples Procesadores Planificación Real-Time.
Ejecuciones más eficientes de códigos Monte Carlo en Grid Rafael Mayo García CIEMAT Red Gallega de Computación de Altas Prestaciones Santiago de Compostela,
Optimización de Consultas Distribuidas. ÍNDICE Definiciones básicas Modelo de costo Estadísticas de la base de datos Optimización centralizada de consultas.
Transcripción de la presentación:

Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International Symposium on High Performance Distributed Computing, HPDC Proceedings.

Introducción  La planificación de procesos en sistemas distribuidos es un problema complejo.  Crítico en aplicaciones y simulaciones científicas.  Intento de resoluci ó n de distintas formas pero sigue sin encontrarse una soluci ó n ó ptima para todo tipo de arquitecturas, datos y procesos. 22

Definición del problema  Dados un conjunto de procesadores (CE) y unidades de almacenamiento (SE) distribuidos por sitios.  Dadas aplicaciones con requisitos de CPU y de almacenamiento.  Objetivos:  Buscar una estrategia que:  Maximice la productividad (throuhgput)  Maximice el uso de los recursos en global 33

Arquitectura User ES J ComputersStorage D JJ DD JJ Q: Local Scheduler DataSet Scheduler DSLS ComputersStorage Data Mover DSLS ComputersStorage J J J D D Schedule on idle node Monitor popularity Migrate data Request remote data N users E External Schedulers S Sites 44

Propuesta  Analizar el impacto de:  Planificación de trabajos  Planificación de datos que tienen juntos y por separado a la hora de conseguir el máximo beneficio.  Se utilizarán distintos algoritmos de planificación. 55

Planificación de Trabajos (ES)  Random  Elegir el sitio de forma aleatoria.  LeastLoaded  Elegir el sitio menos cargado  Local  El trabajo se realiza en el sitio que lo recibe.  AtData  El trabajo se manda al sitio donde más cantidad de datos que necesite tenga.  Si hay varios se elige el menos cargado 66

Replicación de Datos (DS)  Caching  no se replica,  Ramdom  Se elige para replicar los archivos más populares. Cuando sobrepasa un cierto umbral, se elije al azar la máquina a replicarlo  LeastLoaded  Cuando pasa del umbral al que menos cargado esté. 77

Metodología de evaluación  Simulador:  Realizado en Parsec (simulador de eventos discretos).  Las entidades (CE, SE, DM, ES, la red, etc.) se comunican por mensajes.  Los algoritmos se realizan en cada una de las entidades involucradas.  No hay topología de red, los sitios están todos interconectados.  Ancho de banda de la red constante.  Usuarios asociados a 1 ES.  Varios ES, no intercomunicados. 88

Infraestructura simulada  Número de usuarios: 120  Número de sitios: 30  Número total de trabajos: 6000  Ancho de banda: 10MB/seg  Elementos de cómputo por sitio: 2-5 99

Carga de trabajo  Peticiones por una Poisson con llegada cada 5 seg  Tamaños de conjuntos de datos distribución entre 500MB-2GB.  Cada trabajo necesita un único fichero para la ejecución y tarda 300D segundos, donde D=tam fichero en GB.  Se ignora la salida.  Coste transmisión= size fich/ ancho de banda.  El tipo de trabajos se genera con una Zip-f  10

Resultados  11

Resultados  12

Conclusiones  Localidad de los datos importante para planificar.  Desacoplamiento movimiento de datos/ planificación de trabajos incrementa el rendimiento y descentraliza el sistema.  Dependencia de las características del Grid.  Trabajos con ficheros pequeños: mejor mandar a varios sitios y esperar respuesta que mandar los datos por la red.  13

Conclusiones personales  14