La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Técnicas de Comunicación Colectiva sobre QsNet

Presentaciones similares


Presentación del tema: "Técnicas de Comunicación Colectiva sobre QsNet"— Transcripción de la presentación:

1 Técnicas de Comunicación Colectiva sobre QsNet
Salvador Coll Francisco J. Mora (DSD), José Duato (GAP) Fabrizio Petrini, Eitan Frachtenberg (LANL) Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas Última Actualización 02/12/2018

2 Motivación ASCI: Accelerated Strategic Computing Initiative
( ahora Advanced Simulation and Computing Program) LLNL,SNL,LANL Empleo de tecnologías estándar en computación de altas prestaciones Creciente empleo de los clusters como plataformas de computación de altas prestaciones (7 en Top10) QsNet (red de interconexión de Quadrics) es empleada en 4 de los 7 clusters entre los Top10 Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

3 QsNet Proporciona una abstracción de memoria virtual compartida y distribuida Basada en dos bloques NIC: Elan Elan3, 64-bit, 66 MHz PCI bus (QsNetI) Elan4, 64-bit, 133MHz PCI-X bus (QsNetII) Switch crossbar (16x8): Elite Elite3, 35ns (QsNetI) Elite4, 21ns (QsNetII) QsNetI: 320MB/s, 2.5μs* QsNetII: 900MB/s, 1.7μs* *Escritura de 8 bytes, 4000 nodos, 50m cable Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

4 Trabajos desarrollados
QsNet Redes Multirail Asignación dinámica de rails Evaluación de prestaciones de diferentes patrones de comunicación 2001 2002 Entrada/Salida Evaluación de prestaciones Posicionamiento de los nodos de E/S 2003 Ultimos años: evaluación de prestaciones de QsNet Esto permite identificar las limitaciones más importantes: tráfico bidireccional, broadcast en presencia de fallos (nodos no consecutivos) Multirail: aborda dos problemas, el tráfico bidireccional (80% del ancho de banda del unidireccional debido al chipset PCI); conflictos en el nodo destino al emplear división de mensajes largos entre varios rails Entrada/salida: análisis del tráfico de E/S, posición de los nodos de E/S, uso de nodos de E/S dedicados o compartidos, impacto del tráfico de fondo Comunicación Colectiva Desarrollo de nuevas técnicas de comunicación colectiva 2004 Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

5 Topología: Fat-tree Escalabilidad Tolerancia a fallos
Conectividad uniforme Soporte para operaciones colectivas Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

6 Comunicación Colectiva. Mecanismo HW
Ejemplo para 16 nodos 6μs para sincronizar 1024 nodos Estas excelentes prestaciones son un factor clave para: Obtener buen rendimiento de las aplicaciones científicas [Petrini et al. SC’03] Mejorar las operaciones de gestión de recursos [Frachtenberg et al. SC’02] Sincronización de 1024 nodos: 6us (LLNL) Broadcast: aproximadamente el ancho de banda de unicast para redes de hasta 64 nodos (140MB/s medidos sobre 1024 nodos) 1) Algunas aplicaciones científicas pasan una considerable parte de su tiempo de ejecución realizando comunicación colectiva (en algunos casos hasta el 70% del tiempo) SAGE dedica el 50% de su tiempo (4096 nodos) para hacer reducciones totales (allreduce) 2) Gestión de recursos: ej. Planificación de un trabajo 2 órdenes de magnitud más rápido que los mejores resultados publicados previamente BLOQUEO Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

7 Comunicación Colectiva. Limitaciones
Limitado al caso en que los nodos destino son consecutivos. En caso contrario se usa un árbol basado en mensajes punto a punto. Barrera 2 veces más lenta y broadcast 8 veces más lento en un sistema con 32 nodos. Tolerancia a fallos, fragmentación por planificación de trabajos Impacto en los mecanismos de gestión de recursos y en el rendimiento de las aplicaciones Solución: árboles basados en mensajes multicast (HW) Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

8 Árboles de Multicast HW
EJEMPLO: Fuente: Destinos: [2,4],[6,9],[11,15] Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

9 Árboles de Multicast HW. Problemas
Múltiples multicasts en paralelo pueden producir bloqueo La red serializa todos lo multicasts a través del “árbol de broadcast” Cálculo del árbol óptimo, en términos de latencia Algoritmo de backtracking: complejidad exponencial, problema NP-Completo Algoritmo voraz: complejidad proporcional a la profundidad del árbol Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

10 Árboles de Multicast HW. Resultados
Árboles multicast óptimos 2 pasos para grandes sistemas con menos del 0.8% fallos 4 pasos en el caso peor (hasta 4096 nodos, 10% fallos) Comportamiento del algoritmo voraz Obtiene el árbol óptimo en el 99% de los casos ( nodos, 0.1%..10% fallos) 100% con menos del 1% de fallos Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

11 Árboles de Multicast HW. Resultados
Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

12 Árboles de Multicast HW. Resultados
Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

13 Árboles de Multicast HW. Resultados
Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas

14 Conclusiones Se ha desarrollado un nuevo mecanismo denominado Árboles Multicast con Soporte Hardware Soluciones óptimas pueden ser calculadas con un algoritmo voraz Cualquier caso práctico requiere solo 2 pasos En una red con 32 nodos, se reduce a la mitad la latencia de la barrera y se duplica el ancho de banda del broadcast Los Árboles Multicast con Soporte Hardware son una alternativa escalable y tolerante a fallos Jornada de Arquitecturas para el Cálculo y Comunicaciones Avanzadas


Descargar ppt "Técnicas de Comunicación Colectiva sobre QsNet"

Presentaciones similares


Anuncios Google