Decoupling Computation and Data Scheduling in Distributed Data-Intensive Applications Kavitha Ranganathan, Ian Foster University of Chicago 11th IEEE International Symposium on High Performance Distributed Computing, HPDC Proceedings.
Introducción La planificación de procesos en sistemas distribuidos es un problema complejo. Crítico en aplicaciones y simulaciones científicas. Intento de resoluci ó n de distintas formas pero sigue sin encontrarse una soluci ó n ó ptima para todo tipo de arquitecturas, datos y procesos. 22
Definición del problema Dados un conjunto de procesadores (CE) y unidades de almacenamiento (SE) distribuidos por sitios. Dadas aplicaciones con requisitos de CPU y de almacenamiento. Objetivos: Buscar una estrategia que: Maximice la productividad (throuhgput) Maximice el uso de los recursos en global 33
Arquitectura User ES J ComputersStorage D JJ DD JJ Q: Local Scheduler DataSet Scheduler DSLS ComputersStorage Data Mover DSLS ComputersStorage J J J D D Schedule on idle node Monitor popularity Migrate data Request remote data N users E External Schedulers S Sites 44
Propuesta Analizar el impacto de: Planificación de trabajos Planificación de datos que tienen juntos y por separado a la hora de conseguir el máximo beneficio. Se utilizarán distintos algoritmos de planificación. 55
Planificación de Trabajos (ES) Random Elegir el sitio de forma aleatoria. LeastLoaded Elegir el sitio menos cargado Local El trabajo se realiza en el sitio que lo recibe. AtData El trabajo se manda al sitio donde más cantidad de datos que necesite tenga. Si hay varios se elige el menos cargado 66
Replicación de Datos (DS) Caching no se replica, Ramdom Se elige para replicar los archivos más populares. Cuando sobrepasa un cierto umbral, se elije al azar la máquina a replicarlo LeastLoaded Cuando pasa del umbral al que menos cargado esté. 77
Metodología de evaluación Simulador: Realizado en Parsec (simulador de eventos discretos). Las entidades (CE, SE, DM, ES, la red, etc.) se comunican por mensajes. Los algoritmos se realizan en cada una de las entidades involucradas. No hay topología de red, los sitios están todos interconectados. Ancho de banda de la red constante. Usuarios asociados a 1 ES. Varios ES, no intercomunicados. 88
Infraestructura simulada Número de usuarios: 120 Número de sitios: 30 Número total de trabajos: 6000 Ancho de banda: 10MB/seg Elementos de cómputo por sitio: 2-5 99
Carga de trabajo Peticiones por una Poisson con llegada cada 5 seg Tamaños de conjuntos de datos distribución entre 500MB-2GB. Cada trabajo necesita un único fichero para la ejecución y tarda 300D segundos, donde D=tam fichero en GB. Se ignora la salida. Coste transmisión= size fich/ ancho de banda. El tipo de trabajos se genera con una Zip-f 10
Resultados 11
Resultados 12
Conclusiones Localidad de los datos importante para planificar. Desacoplamiento movimiento de datos/ planificación de trabajos incrementa el rendimiento y descentraliza el sistema. Dependencia de las características del Grid. Trabajos con ficheros pequeños: mejor mandar a varios sitios y esperar respuesta que mandar los datos por la red. 13
Conclusiones personales 14