La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International.

Presentaciones similares


Presentación del tema: "Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International."— Transcripción de la presentación:

1 Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International Symposium on High Performance Distributed Computing, 2002. HPDC-11 2002. Proceedings.

2 Introducción  La planificación de procesos en sistemas distribuidos es un problema complejo.  Crítico en aplicaciones y simulaciones científicas.  Intento de resoluci ó n de distintas formas pero sigue sin encontrarse una soluci ó n ó ptima para todo tipo de arquitecturas, datos y procesos. 22

3 Definición del problema  Dados un conjunto de procesadores (CE) y unidades de almacenamiento (SE) distribuidos por sitios.  Dadas aplicaciones con requisitos de CPU y de almacenamiento.  Objetivos:  Buscar una estrategia que:  Maximice la productividad (throuhgput)  Maximice el uso de los recursos en global 33

4 Arquitectura User ES J ComputersStorage D JJ DD JJ Q: Local Scheduler DataSet Scheduler DSLS ComputersStorage Data Mover DSLS ComputersStorage J J J D D Schedule on idle node Monitor popularity Migrate data Request remote data N users E External Schedulers S Sites 44

5 Propuesta  Analizar el impacto de:  Planificación de trabajos  Planificación de datos que tienen juntos y por separado a la hora de conseguir el máximo beneficio.  Se utilizarán distintos algoritmos de planificación. 55

6 Planificación de Trabajos (ES)  Random  Elegir el sitio de forma aleatoria.  LeastLoaded  Elegir el sitio menos cargado  Local  El trabajo se realiza en el sitio que lo recibe.  AtData  El trabajo se manda al sitio donde más cantidad de datos que necesite tenga.  Si hay varios se elige el menos cargado 66

7 Replicación de Datos (DS)  Caching  no se replica,  Ramdom  Se elige para replicar los archivos más populares. Cuando sobrepasa un cierto umbral, se elije al azar la máquina a replicarlo  LeastLoaded  Cuando pasa del umbral al que menos cargado esté. 77

8 Metodología de evaluación  Simulador:  Realizado en Parsec (simulador de eventos discretos).  Las entidades (CE, SE, DM, ES, la red, etc.) se comunican por mensajes.  Los algoritmos se realizan en cada una de las entidades involucradas.  No hay topología de red, los sitios están todos interconectados.  Ancho de banda de la red constante.  Usuarios asociados a 1 ES.  Varios ES, no intercomunicados. 88

9 Infraestructura simulada  Número de usuarios: 120  Número de sitios: 30  Número total de trabajos: 6000  Ancho de banda: 10MB/seg  Elementos de cómputo por sitio: 2-5 99

10 Carga de trabajo  Peticiones por una Poisson con llegada cada 5 seg  Tamaños de conjuntos de datos distribución entre 500MB-2GB.  Cada trabajo necesita un único fichero para la ejecución y tarda 300D segundos, donde D=tam fichero en GB.  Se ignora la salida.  Coste transmisión= size fich/ ancho de banda.  El tipo de trabajos se genera con una Zip-f  10

11 Resultados  11

12 Resultados  12

13 Conclusiones  Localidad de los datos importante para planificar.  Desacoplamiento movimiento de datos/ planificación de trabajos incrementa el rendimiento y descentraliza el sistema.  Dependencia de las características del Grid.  Trabajos con ficheros pequeños: mejor mandar a varios sitios y esperar respuesta que mandar los datos por la red.  13

14 Conclusiones personales  14


Descargar ppt "Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International."

Presentaciones similares


Anuncios Google