La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Arquitecturas Avanzadas Curso 10/11

Presentaciones similares


Presentación del tema: "Arquitecturas Avanzadas Curso 10/11"— Transcripción de la presentación:

1 Arquitecturas Avanzadas Curso 10/11
Horas 5 7 2 4 INTRODUCCIÓN CONECTIVIDAD MÁQUINAS MIMD MÁQUINAS SIMD SUPERESCALARES

2 arqAva Temario Conectividad-2
“Interconnection Networks. An engineering…” José Duato y … [Capítulos 1 y 2] “Principles and Practices of Interconnection ...” William James Dally y … [Cap: 1,2,3,22] CONECTIVIDAD Introducción Conceptos Clasificación de las redes Caracterización por Grafos Perfiles de comunicación Redes de medio de transmisión compartido (Buses) Redes directas (estáticas ) Encaminamiento Array lineal, anillo, ..., hipercubo Redes indirectas (dinámicas) Crossbar, redes multietapa ()

3 arqAva Introducción Conectividad-3
QUEREMOS MÁS VELOCIDAD: A menor Grano, mayor Grado TAREA µP1 µP2 µP3 µP4 µP5 ! AUMENTAN LAS NECESIDADES DE COMUNICACIÓN !

4 arqAva Introducción Conectividad-4
Comunicación Hw <===> Comunicación Sw Memoria Común (Load/Store) Comunicar µPi y Memoria Paso Mensajes (Send/Receive) Comunicar Pi con Pj µP1 µP2 µPi µPn R E D M1 Mj Mk P1 P2 Pi Pn R E D Es muy importante la Latencia y el Ancho de banda

5 arqAva Introducción Conectividad-5
Coste * 50 Gigabit Ethernet 0,1 10..40 ¡ LA RED TIENE UNA IMPORTANCIA VITAL !

6 arqAva Introducción Conectividad-6
LAN WAN Sistema Placa ChipMulticore

7 arqAva Introducción Conectividad-7
Sistema 36 placas SC5832 27 nodos Placa Chip 6 núcleos

8 arqAva Introducción Conectividad-8
72 núcleos 96GB 100GF => € 27/Mayo/2009: Quiebra

9 arqAva Introducción Conectividad-9
LAN/WAN Internet Multiprocesadores … Millones de nodos Cientos .. Miles # Nodos dinámico Fijo Enlaces largos Cortos Red irregular Regular Latencia alta Baja

10 arqAva Conceptos Conectividad-10
CLASIFICACIÓN DE LAS REDES MEDIO DE TRANSMISIÓN COMPARTIDO DIRECTAS vs INDIRECTAS TOTAL vs PARCIALMENTE CONECTADAS CARACTERIZACIÓN POR GRAFOS GRADO Y DIÁMETRO PERFILES DE COMUNICACIÓN 1 => 1; N => N; 1 => N; N => 1

11 arqAva Clasificación de las Redes Conectividad-11
Medio de Transmisión Compartido: Ponerse de acuerdo en su uso (maestro/esclavo, …) Redes inalámbricas Redes locales Ethernet Token Ring Buses (Backplane) µP1 M1 µP2 µPi µPn Mj Mk Síncronos vs asíncronos Multiplexados Arbitraje del bus

12 arqAva Clasificación de las Redes Conectividad-12
Redes directas: Conexiones fijas entre los elementos (Pi, Pj) “invariables durante la ejecución” Acoplamiento débil P1 P4 P2 P3 Amplio uso en multicomputadores Los propios Nodos encaminan Los caminos del origen al destino pueden ser distintos

13 arqAva Clasificación de las Redes Conectividad-13
Redes indirectas: Conexiones varían entre los elementos (µPi, Mj) “variables durante la ejecución” µP1 µP2 µPi µPn R E D M1 Mj Mk Red Telefónica Acoplamiento fuerte Amplio uso en multiprocesadores Encamina la propia red

14 arqAva Clasificación de las Redes Conectividad-14
Totalmente conectadas: “Cada elemento tiene conexión directa con los demás” Parcialmente conectadas: ¡ conexas ! Latencia mínima (Lm) Menor coste O(n) Mayor latencia (2Lm) Encaminar más complejo Alto coste O(n2) No escalable Jerarquizadas: Aislar tráfico por “localidades”

15 arqAva Caracterización por Grafos Conectividad-15
Nodos => µP y/o Bancos de Memoria Aristas => Enlaces de comunicación Grado de un nodo: Líneas incidentes (Si unidireccionales Ge + Gs) 1 2 3 4 A B C D E Relacionado con el número de puertos E/S y, por lo tanto, con el coste Deseable constante y pequeño Grado de la red: El del nodo con mayor grado (4) Deseable regularidad Más conectividad => Menor latencia Mayor coste Compromiso en el Grado Menor conectividad => Más latencia Menor coste

16 arqAva Caracterización por Grafos Conectividad-16
Diámetro de la red: Camino más distante de entre los mínimos que unen a dos nodos cualesquiera. Métrica => Número de saltos => 2 ¿1, 2, 3, ? ¿5? => 2, 5, 4, 8, 7, 6 1 4 7 6 5 9 2 8 3 4 => 2, 5, 4, 3, 6 más corto Relación directa con la latencia

17 arqAva Perfiles de Comunicación Conectividad-17
Enlaces de comunicación establecidos concurrentemente. 1 => 1 Ventanilla única Bus Común N => N Varias Ventanillas T.V. News 1 => N Difusión, Broadcast, Multicast Reducción N => 1 Máquinas CRCW

18 arqAva Redes Medio Compartido (Bus I) Conectividad-18
Mj Mk µP2 µPi µPn ¿Cuántos Pi podré instalar? $ ¡ Cachés ! Pentium 4 a 3,8GHz Bus de 64 bits y 800MHz ¿Un único Pi satura el Bus? µP1  98% Hit ¡ Algunos problemas ! µP2 µPn colisiones Fallo costoso ¿ Soluciones ?

19 arqAva Redes Medio Compartido (Bus II) Conectividad-19
Bus pipelining Pedir bus Arbitrar Dar bus Usar bus AR ARB AG RQ ACK P RPLY Write Read ¿Cuántos ciclos 2W y 4R? Con pipeline mejor read 1 write 2 write 3 read 4 read 5 read 6 bus ocupado AR ARB AG RQ RPL Stall P ACK

20 arqAva Redes Medio Compartido (Bus III) Conectividad-20
Split transaction: Pipelining + Dividir la transacción en dos read 1 resp 1 write 2 ack 2 write 3 ack 3 read 4 resp 4 read 5 resp 5 read 6 resp 6 AR ARB AG RQ Stall RPL ACK ¿ Mejora ? RqA RpA RqB RpB RqC RpC Transacciones variables: 1..6 ciclos PCI Express USB 8 peticiones pendientes en SGI 112 peticiones pendientes en SUN E 6000 RpA RqA RqB RqC RpB RpC

21 arqAva Redes Medio Compartido (Bus IV) Conectividad-21
Modo ráfaga (Burst): Transacciones largas (línea de caché) Normal Arb Cmd Dir Dato Arb Cmd Dir Dato Ráfaga ¿ Inconveniente ? arbitraje mensaje A mensaje B GrA Cmd Dir Dato GrB ReA Eti Mensaje más prioritario Mensaje continuado

22 arqAva Redes Medio Compartido (Bus V) Conectividad-22
Buses jerárquicos Concluyendo Cachés (L1, L2 y L3) Pipelining Split Transaction Modo ráfaga Buses Jerárquicos Buses Múltiples Muy costoso + 32µP Difusión Serialización Buses múltiples Frecuencia Secuencial

23 arqAva Redes directas Conectividad-23
Generalidades Encaminamiento Menor diámetro aumentando el grado Array lineal Anillo simple y de grado “n” Conectividad total Compromiso grado vs diámetro y muchos nodos Árbol, Fat Tree y Estrella Mallas y Toroides Hipercubo con y sin ciclo Tabla de parámetros

24 arqAva Redes directas (Generalidades) Conectividad-24
Pn L2 Switch MultiC más integrado De otros nodos A otros nodos P M IC Red con enlaces directos entre Pi Buffers Arbitraje Encamina. Transputer Nodos => PC’s o similares Ejemplos: Alpha 21364, SiCortex, Intel Core i7, AMD Istanbul

25 arqAva Redes directas (P 21364) Conectividad-25

26 arqAva Redes directas ( Toro2D 21364 ) Conectividad-26
Here’s the block diagram of a 12 processor system using the 2D torus topology. Each processor may have its own local memory and may have its own local I/O connection. It is possible for a processor to operate in the system without memory or I/O if that is attractive nodos [8x16] .. 4 TB MP 12 diámetro .. 10GBseg 15nseg Lat

27 arqAva Redes directas (P SiCortex) Conectividad-27
500MHz 2GBseg 1µseg Lat

28 arqAva Redes directas (P SiCortex) Conectividad-28
Kautz Graph

29 arqAva Redes directas (Intel Core i7…) Conectividad-29
19,2..25,6 GBseg

30 arqAva Redes directas (Intel Core i7…) Conectividad-30

31 arqAva Redes directas (AMD Istanbul…) Conectividad-31
..51,2 GBseg

32 arqAva Encaminamiento (Modos) Conectividad-32
Mecanismo Hw/Sw para que la información llegue del origen al destino. Hay que distinguir entre: Algoritmo: Elección del camino y gestión de conflictos Técnica: Modo de propagar la información 1 4 7 6 5 9 2 8 3 Conmutación de paquetes Redes directas Conmutación de circuitos Redes indirectas

33 arqAva Encaminamiento (Algoritmo) Conectividad-33
0,0 0,1 0,2 0,7 0,3 0,4 0,5 0,6 1,0 2,0 7,0 3,0 4,0 5,0 6,0 8x8 = 64 nodos Diámetro = 7+7=14 Numerar nodo 0..63 fila col 0..7 C D En origen: C[3,4] => D[1,6] A B Distribuido: A[2,3] => B[5,1] E datos L 5,1 Algo: MovCol+MovFila E datos L 5,1 ….,NN,E,E E datos L 5,1 …….,NN,E N[00], E[01], S[10], O[11]

34 arqAva Encaminamiento (wormhole) Conectividad-34
En conmutación de paquetes veremos dos técnicas: Origen Almacenamiento y reenvío Destino Buffer de paquete Los mensajes se dividen en paquetes ( bits) y se envían paquete a paquete Buffer de flit Los paquetes se dividen en flits (2..32 bits) y se envían flit a flit 2 1 2 1 1 1 2 Elevada latencia (3*Tiempo trans. Paquete “Ttp”) Origen “Wormhole” Destino ¿Similar a IP/ATM MPLS? Mejora la latencia (2*Tiempo trans. Flit + Ttp)

35 arqAva Encaminamiento (ejemplo) Conectividad-35
Almacena y Reenvío Toro2D 8*16 Alpha 21364 Diámetro = 12 Flit = 39 b Paquete = 702b Ancho Banda = 3,2Gb*seg Tflit = 12,1875nseg Tpaq = 219,375nseg AlmaReen => 2.632,5 nseg Wormhole => ,4 nseg Latencia + 7 veces mejor Wormhole Distancia

36 arqAva Encaminamiento (Interbloqueo) Conectividad-36

37 arqAva Encaminamiento (Canales virtuales) Conectividad-37
B A D B A D Una forma de evitar el interbloqueo

38 arqAva Redes directas (array, anillo) Conectividad-38
Grado, diámetro, escalable, … ARRAY LINEAL 1 2 3 4 5 6 7 ANILLO (DE GRADO 2) 1 2 3 4 5 6 7 ANILLO (DE GRADO ‘n’ 3) 1 2 3 4 5 6 7

39 arqAva Redes directas (anillo de grado “n”) Conectividad-39
N = 8 n = 3 Salto 2 Salto 3 Salto 4 1 1 3 2 1 2 2 3 d = 3, d = 1,71 d = 3, d = 1,71 d = 2, d = 1,57

40 arqAva Redes directas (anillo de grado “n”) Conectividad-40
N = n = 3 Salto 2 Salto 3 Salto 4 d = 6, d = 3,2 6 5 d = 5, d = 2,67 4 d = 4, d = 2,27 Salto 5 iguala y 7 y 8 empeoran

41 arqAva Redes directas (anillo de grado “n”) Conectividad-41
N = n = 4 Salto 3 Salto 4 Salto 5 3 d = 3, d = 2 d = 4, d = 2,13 4 4 d = 4, d = 2,13 ¿Cómo podría ser N=32 y n=5?

42 arqAva Redes directas (anillo de grado “n”) Conectividad-42
N = n = 5 4 4 ¿ Escalable ? d = 4, d = ???

43 arqAva Redes directas (conexión total) Conectividad-43
Grado, diámetro, escalable, … 1 2 3 4 5 6 7

44 arqAva Redes directas (Gráfica) Conectividad-44
Moverse por aquí con menor grado

45 arqAva Redes directas (árbol, …) Conectividad-45
Grado, diámetro, escalable, … ÁRBOL BINARIO EQUILIBRADO “Fat Tree” 2 4 ÁRBOL BINARIO K=0 K=1 K=2 K=3 ESTRELLA Cuello de botella [tráfico aleatorio] ¿Cómo encaminar A  B?

46 arqAva Redes directas (malla) Conectividad-46
Grado, diámetro, escalable, … K=3 MALLA 3D MALLA 2D K=1 K=2 Encaminamiento ordenado por direcciones O(1,1,1) D(3,3,3) O(2,2,1) D(3,3,2) ¡Colisión! M3D 512 8*8*8 => D=21 ¿ Interbloqueos ? ¿Escalabilidad cuadrática o cúbica? ¿ Cuello de botella?

47 arqAva Redes directas (malla3D) Conectividad-47
¿Cuello de botella tráfico NN? 18 ¡ 18 msj por todos los enlaces en cada sentido !

48 arqAva Redes directas (toroide) Conectividad-48
Grado, diámetro, escalable, … TOROIDES (2D y 3D) K=1 K=2 T3D 512 8*8*8 => D=12 ¡ Anillo embebido !

49 arqAva Redes directas (hipercubo) Conectividad-49
‘N=2k’ nodos, ‘k’ dimensiones = log2 N Dim3 Dim1 Dim2 Diámetro = log2 N Grado = log2 N Fácil encaminar Dim4 Escalable a costa de demasiado grado Topología cada vez menos utilizada

50 arqAva Redes directas (hipercubo) Conectividad-50
Encaminamiento en HIPERCUBO (Sea N=16) 1 2 3 4 1. Numerar nodos en binario. Nodos adyacentes difieren en un bit (el asociado a la dirección que les une) 0000 4321 1010 1111 0101 0111 0110 0011 Nodo actual 0111 Nodo destino 1010 2. Enviar mensaje por el enlace asociado a la menor dirección donde no coinciden bit del nodo actual y bit del nodo destino 0001 0010 0100 1000 ¿ Realizar ORX ? 0111 ORX 1010 = 1101 0110 1010 0010 1010 1010

51 arqAva Redes directas (hipercubo con ciclos) Conectividad-51
Grado, diámetro, escalable, … K=3 2 4 3 5 1 6 HIPERCUBO CON CICLOS ¿ Diámetro ?

52 arqAva Redes directas (Grafo de Kautz) Conectividad-52

53 arqAva Redes directas (Un ejemplo) Conectividad-53
¿Cómo conectar unos 512 nodos? M3D 8*8*8 Topología Diámetro Grado 21 6* T3D 8*8*8 12 6 Hipercubo 9 9 HiperCiclo 6 14 3 384 N HiperCiclo 7 16 896 N T3D 8*8*6 11 6 T3D 10*10*9 14 Grafo Kautz 6 3 972 N 5832 núcleos

54 arqAva Redes directas (Tabla de Parámetros) Conectividad-54
Topología Grado Diámetro Nº de nodos Array lineal Anillo Anillo de grado ‘n’ Árbol binario Árbol binario equilibrado Estrella Malla Toroide Hipercubo Hipercubo con ciclos N 2 N-1 N/2 n=log2N n-1 2K-1 3 2*(K-1) 2K nK 2*K K*(n-1) K*  n/2  K K*2K 2*K  K/2 

55 arqAva Perspectiva histórica Introducción-55
MIMD HWANG (1993) IDENTIFICA TRES GENERACIONES: Hipercubo con Encaminamiento Sw Malla con Encaminamiento Hw (Sw de grano medio) µP y comunicaciones en el mismo chip (grano fino) ¿2010? Multiprocessor systems-on-chips (MPSoCs) Niagara Hoy 4..8 núcleos en ¿Se llegará a 1.000? ¿Conexión interna? Simil con intracluster

56 arqAva Redes indirectas (Barras cruzadas) Conectividad-56
P1 Perfil N*M O (N2) Muchas patas P2 P3 “Crossbar” Pn M1 M2 M3 Mm Área ≈ 5 núcleos Wat ≈ 2 núcleos 8x8 onChip Funcionalidad de los conmutadores simples: difusión colisión

57 arqAva Redes indirectas (Multietapa) Conectividad-57
crossbar 8*8 O (64) Perfil 8*8 Latencia 1 ¿ Reducir O( N2) a costa de … ? Usar sólo crossbar 2*2 cruce difusión colisión directo etapa 1 etapa 2 etapa m Red de interconexión Conjunto de crossbar 2*2

58 arqAva Redes indirectas (Red ) Conectividad-58
Red de interconexión “perfect Suffle” Limitado a N = potencia de 2 Colisión 000 001 010 011 100 101 110 111 ¿Encaminamiento? Sea de 001 a 010 001 010 011 001 100 001 010 001 010 001 010 110 101 Bit igual => directo Bit distinto => cruce ¿ Latencia y O( ) ? ¿Mejorable?

59 arqAva Redes indirectas (Red ) Conectividad-59
101 000 001 010 011 100 110 111 000 001 010 011 100 101 110 111 ¡ Permite difusión !

60 arqAva Redes indirectas (Tabla de parámetros) Conectividad-60
BUS Barato y limitado 2..32 CROSSBAR Más caro. Bueno para N moderado Mayor ancho de banda y fácil encaminar MULTIETAPA Compromiso entre Bus y Crossbar

61 arqAva Implantación en el mercado (Julio/2009) Conectividad-61
#NODOS TIPO DE RED SUPERCOMPUTADOR ..N Configurable Bull NovaScale ..248 Red Clos C-DAC PARAM Padma ..192*N Toro 3D Cray Inc. XT5 ..128 Crossbar Fujitsu/Siemens M9000 ..32 Crossbar Fujitsu/Siemens PRIMEQUEST ..64 Crossbar Hitachi BladeSymphony ..512 Crossbar multidim. Hitachi SR 16000 ..N Configurable IBM eServer p575 Toro 3D y árbol IBM BlueGene/L&P Configurable IBM System Cluster 1350 ..32 Crossbar NEC Express5800/1000 Crossbar multidim. NEC SX-9 ..512 Fat tree SGI Altix 4000 intercluster

62 arqAva Redes en Top500 Conectividad-62
48,4% 41,4% 6,0% FIN


Descargar ppt "Arquitecturas Avanzadas Curso 10/11"

Presentaciones similares


Anuncios Google