La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4.

Presentaciones similares


Presentación del tema: "Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4."— Transcripción de la presentación:

1 Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas

2 arqAvaTemarioConectividad-2 2CONECTIVIDAD 1Introducción 2Conceptos 1Clasificación de las redes 2Caracterización por Grafos 3Perfiles de comunicación 3Redes de medio de transmisión compartido (Buses) 4Redes directas (estáticas ) 1Encaminamiento 2Array lineal, anillo,..., hipercubo 5Redes indirectas (dinámicas) 1Crossbar, redes multietapa ( ) Interconnection Networks. An engineering… José Duato y … [Capítulos 1 y 2] Principles and Practices of Interconnection... William James Dally y … [Cap: 1,2,3,22]

3 arqAva IntroducciónConectividad-3 QUEREMOS MÁS VELOCIDAD: A menor Grano, mayor Grado µP 1 TAREAµP 2 µP 3 µP 4 µP 5 ! AUMENTAN LAS NECESIDADES DE COMUNICACIÓN !

4 arqAva IntroducciónConectividad-4 Comunicación Hw Comunicación Sw Memoria Común (Load/Store) Comunicar µPi y Memoria Paso Mensajes (Send/Receive) Comunicar Pi con Pj µP 1 µP 2 µP i µP n R E D M1M1 MjMj MkMk P1P1 P2P2 PiPi PnPn Es muy importante la Latencia y el Ancho de banda

5 arqAva IntroducciónConectividad-5 ¡ LA RED TIENE UNA IMPORTANCIA VITAL ! Gigabit Ethernet0, Coste * 50

6 LAN WAN arqAva IntroducciónConectividad-6 Sistema Placa ChipMulticore

7 arqAva IntroducciónConectividad-7 Sistema PlacaChip SC nodos 36 placas 6 núcleos

8 arqAva IntroducciónConectividad-8 72 núcleos 96GB 100GF => /Mayo/2009: Quiebra

9 arqAva IntroducciónConectividad-9 LAN/WAN Internet Multiprocesadores … Millones de nodosCientos.. Miles # Nodos dinámicoFijo Enlaces largosCortos Red irregularRegular Latencia altaBaja

10 arqAva ConceptosConectividad-10 CLASIFICACIÓN DE LAS REDES –MEDIO DE TRANSMISIÓN COMPARTIDO –DIRECTAS vs INDIRECTAS –TOTAL vs PARCIALMENTE CONECTADAS PERFILES DE COMUNICACIÓN – 1 => 1; N => N; 1 => N; N => 1 CARACTERIZACIÓN POR GRAFOS –GRADO Y DIÁMETRO

11 arqAva Clasificación de las RedesConectividad-11 Medio de Transmisión Compartido: Ponerse de acuerdo en su uso (maestro/esclavo, …) Síncronos vs asíncronos Multiplexados Arbitraje del bus Redes locales Ethernet Token Ring µP 2 µP i µP n MjMj MkMk Buses (Backplane) µP 1 M1M1 Redes inalámbricas

12 arqAva Clasificación de las RedesConectividad-12 Redes directas: Conexiones fijas entre los elementos (Pi, Pj) invariables durante la ejecución P1P1 P4P4 P2P2 P3P3 Acoplamiento débil Amplio uso en multicomputadores Los propios Nodos encaminan Los caminos del origen al destino pueden ser distintos

13 Red Telefónica arqAva Clasificación de las RedesConectividad-13 Redes indirectas: Conexiones varían entre los elementos (µPi, Mj) variables durante la ejecución Acoplamiento fuerte Amplio uso en multiprocesadores Encamina la propia red µP 1 µP 2 µP i µP n R E D M1M1 MjMj MkMk

14 arqAva Clasificación de las RedesConectividad-14 Totalmente conectadas: Cada elemento tiene conexión directa con los demás Parcialmente conectadas: ¡ conexas ! Jerarquizadas: Aislar tráfico por localidades Latencia mínima (L m ) Alto coste O(n 2 ) No escalable Menor coste O(n) Mayor latencia (2L m ) Encaminar más complejo

15 arqAva Caracterización por GrafosConectividad-15 Nodos => µP y/o Bancos de Memoria Aristas => Enlaces de comunicación Grado de un nodo: Líneas incidentes (Si unidireccionales Ge + Gs) Relacionado con el número de puertos E/S y, por lo tanto, con el coste Deseable constante y pequeño Grado de la red: El del nodo con mayor grado (4) Deseable regularidad Compromiso en el Grado Más conectividad => Menor latencia Mayor coste Menor conectividad => Más latencia Menor coste A B C D E

16 arqAva Caracterización por GrafosConectividad-16 Diámetro de la red: Camino más distante de entre los mínimos que unen a dos nodos cualesquiera. Relación directa con la latencia ¿1, 2, 3,......? Métrica => Número de saltos => ¿5? => 2, 5, 4, 8, 7, 6 4 => 2, 5, 4, 3, 6 más corto

17 arqAva Perfiles de ComunicaciónConectividad-17 Enlaces de comunicación establecidos concurrentemente. 1 => 1 Ventanilla única Bus Común N => N Varias Ventanillas T.V. News 1 => N Difusión, Broadcast, Multicast Reducción N => 1 Máquinas CRCW

18 arqAva Redes Medio Compartido (Bus I)Conectividad-18 µP 1 M1M1 MjMj MkMk µP 2 µP i µP n ¿Cuántos Pi podré instalar? Pentium 4 a 3,8GHz Bus de 64 bits y 800MHz ¿Un único Pi satura el Bus? $$$$ $ ¡ Cachés ! µP2µP2 µPnµPn ¡ Algunos problemas ! Fallo costoso ¿ Soluciones ? µP1µP1 98% Hit colisiones

19 arqAva Redes Medio Compartido (Bus II)Conectividad-19 Bus pipelining Pedir bus Arbitrar Dar bus Usar bus ARARBAGRQACK ARARBAGRQP RPLY WriteRead ¿Cuántos ciclos 2W y 4R? read 1 write 2 write 3 read 4 read 5 read 6 bus ocupado ARARBAGRQRPL ARARBAG Stall P RQACK ARARBStall AGStallRQACK AR Stall ARBStallAGStallRQRPLP ARStallARBStallAGRQRPLP AR Stall ARBAG Stall RQ RPLP Con pipeline mejor

20 arqAva Redes Medio Compartido (Bus III)Conectividad-20 Split transaction: Pipelining + Dividir la transacción en dos 8 peticiones pendientes en SGI 112 peticiones pendientes en SUN E 6000 read 1 resp 1 write 2 ack 2 write 3 ack 3 read 4 resp 4 read 5 resp 5 read 6 resp 6 ARARBAGRQ ARARB AGStall RQStall RPL ARARBAG ARARBAGRQ ACK ARARBAG ARARBAGRQ ACK ARARBAG ARARBAGRQ RPL ARARBAG RPL ARARBAG ARARB AGStall RQStall RPL ARARBAG RpA RqA RqB RqC RpB RpC ¿ Mejora ? RqA RpA RqB RpB RqC RpC Transacciones variables: 1..6 ciclos PCI Express USB

21 arqAva Redes Medio Compartido (Bus IV)Conectividad-21 Modo ráfaga (Burst): Transacciones largas (línea de caché) Normal Arb Cmd DirDato Arb Cmd Dir Dato Arb CmdDirDato Arb CmdDirDato Arb Cmd DirDato Ráfaga ¿ Inconveniente ? arbitraje mensaje A mensaje B GrA CmdDirDato GrB CmdDirDato ReA EtiDato Mensaje más prioritario Mensaje continuado

22 arqAva Redes Medio Compartido (Bus V)Conectividad-22 Buses jerárquicos Buses múltiples Concluyendo Cachés (L1, L2 y L3) Pipelining Split Transaction Modo ráfaga Buses Jerárquicos Buses Múltiples Muy costoso + 32µP Difusión Serialización Frecuencia Secuencial

23 Menor diámetro aumentando el grado Compromiso grado vs diámetro y muchos nodos Tabla de parámetros arqAva Redes directasConectividad-23 Encaminamiento Generalidades Array lineal Anillo simple y de grado n Conectividad total Árbol, Fat Tree y Estrella Mallas y Toroides Hipercubo con y sin ciclo

24 PM IC Red con enlaces directos entre Pi PM IC PM Nodos => PCs o similares PnPn L2 Switch MultiC más integrado De otros nodos A otros nodos arqAva Redes directas (Generalidades)Conectividad-24 Buffers Arbitraje Encamina. Ejemplos: Alpha 21364, SiCortex, Intel Core i7, AMD Istanbul Transputer

25 arqAva Redes directas ( P 21364)Conectividad-25

26 arqAva Redes directas ( Toro2D ) Conectividad GBseg 15nseg Lat nodos [8x16].. 4 TB MP 12 diámetro

27 arqAva Redes directas ( P SiCortex)Conectividad MHz 2GBseg 1µseg Lat

28 arqAva Redes directas ( P SiCortex)Conectividad-28 Kautz Graph

29 arqAva Redes directas (Intel Core i7…)Conectividad ,2..25,6 GBseg

30 arqAva Redes directas (Intel Core i7…)Conectividad-30

31 arqAva Redes directas (AMD Istanbul…)Conectividad ,2 GBseg

32 arqAva Encaminamiento (Modos)Conectividad-32 Mecanismo Hw/Sw para que la información llegue del origen al destino. Hay que distinguir entre: Algoritmo:Elección del camino y gestión de conflictos Técnica:Modo de propagar la información Conmutación de paquetes Redes directas Conmutación de circuitos Redes indirectas

33 arqAva Encaminamiento (Algoritmo)Conectividad-33 8x8 = 64 nodos Diámetro = 7+7=14 Numerar nodo filacol ,00,00,10,10,20,20,70,70,30,30,40,40,50,50,60,6 1,01,0 2,02,0 7,07,0 3,03,0 4,04,0 5,05,0 6,06,0 A B Distribuido: A[2,3] => B[5,1] E datos L5,15,1 Algo: MovCol+MovFila C D En origen: C[3,4] => D[1,6] E datos L5,15,1….,NN,E,EE datos L5,15,1…….,NN,E N[00], E[01], S[10], O[11]

34 arqAva Encaminamiento (wormhole)Conectividad-34 En conmutación de paquetes veremos dos técnicas: Buffer de paquete Los mensajes se dividen en paquetes ( bits) y se envían paquete a paquete Origen Almacenamiento y reenvío Destino Elevada latencia (3*Tiempo trans. Paquete Ttp) Origen Wormhole Destino Mejora la latencia (2*Tiempo trans. Flit + Ttp) Buffer de flit Los paquetes se dividen en flits (2..32 bits) y se envían flit a flit ¿Similar a IP/ATM MPLS?

35 Distancia Latencia Almacena y Reenvío Wormhole arqAva Encaminamiento (ejemplo)Conectividad-35 Toro2D 8*16 Alpha Diámetro = 12 Flit = 39 b Paquete = 702b Ancho Banda = 3,2Gb*seg Tflit = 12,1875nseg Tpaq = 219,375nseg AlmaReen => 2.632,5 nseg Wormhole => 353,4 nseg + 7 veces mejor

36 arqAva Encaminamiento (Interbloqueo)Conectividad-36 AB CD D C A B D C A B D C A B D C A B ¡ Interbloqueo !

37 arqAva Encaminamiento (Canales virtuales)Conectividad-37 A D B A D B A D Una forma de evitar el interbloqueo

38 ARRAY LINEAL arqAva Redes directas (array, anillo)Conectividad-38 ANILLO (DE GRADO 2) ANILLO (DE GRADO n 3) Grado, diámetro, escalable, …

39 N = 8n = 3 arqAva Redes directas (anillo de grado n)Conectividad-39 Salto d = 3, d = 1,71 Salto d = 3, d = 1,71 Salto d = 2, d = 1,57

40 N = 16 n = 3 arqAva Redes directas (anillo de grado n)Conectividad-40 Salto 2 d = 6, d = 3,2 6 Salto 3 5 d = 5, d = 2,67 Salto 4 4 d = 4, d = 2,27 Salto 5 iguala y 7 y 8 empeoran

41 N = 16 n = 4 arqAva Redes directas (anillo de grado n)Conectividad-41 d = 4, d = 2, d = 3, d = 2 Salto 5 4 d = 4, d = 2,13 ¿Cómo podría ser N=32 y n=5? Salto 3Salto 4

42 N = 32 n = 5 arqAva Redes directas (anillo de grado n)Conectividad-42 d = 4, d = ??? 4 ¿ Escalable ? 4

43 arqAva Redes directas (conexión total)Conectividad Grado, diámetro, escalable, …

44 arqAva Redes directas (Gráfica)Conectividad-44 Moverse por aquí con menor grado

45 K=0 K=1 K=2 K=3 ÁRBOL BINARIO arqAva Redes directas (árbol, …)Conectividad-45 ÁRBOL BINARIO EQUILIBRADO Fat Tree Grado, diámetro, escalable, … Cuello de botella [tráfico aleatorio] ¿Cómo encaminar A B? ESTRELLA

46 K=3 MALLA 3D MALLA 2D K=1 K=2 arqAva Redes directas (malla)Conectividad-46 M3D 512 8*8*8 => D=21 ¿Escalabilidad cuadrática o cúbica? Encaminamiento ordenado por direcciones O(1,1,1) D(3,3,3) O(2,2,1) D(3,3,2) ¡Colisión! ¿ Interbloqueos ? Grado, diámetro, escalable, … ¿ Cuello de botella?

47 arqAva Redes directas (malla3D)Conectividad-47 ¿Cuello de botella tráfico N N? 18 ¡ 18 msj por todos los enlaces en cada sentido !

48 TOROIDES (2D y 3D) K=1 K=2 arqAva Redes directas (toroide)Conectividad-48 T3D 512 8*8*8 => D=12 ¡ Anillo embebido ! Grado, diámetro, escalable, …

49 HIPERCUBO Dim1Dim2 Dim3 Dim4 Diámetro = log 2 N Grado = log 2 N Fácil encaminar arqAva Redes directas (hipercubo)Conectividad-49 N=2 k nodos, k dimensiones = log 2 N Escalable a costa de demasiado grado Topología cada vez menos utilizada

50 Encaminamiento en HIPERCUBO (Sea N=16) Numerar nodos en binario. Nodos adyacentes difieren en un bit (el asociado a la dirección que les une) Enviar mensaje por el enlace asociado a la menor dirección donde no coinciden bit del nodo actual y bit del nodo destino Nodo actual0111 Nodo destino ¿ Realizar ORX ? 0111 ORX 1010 = 1101 arqAva Redes directas (hipercubo)Conectividad-50

51 HIPERCUBO CON CICLOS K=3 arqAva Redes directas (hipercubo con ciclos)Conectividad Grado, diámetro, escalable, … ¿ Diámetro ?

52 arqAva Redes directas (Grafo de Kautz)Conectividad-52

53 arqAva Redes directas (Un ejemplo)Conectividad-53 ¿Cómo conectar unos 512 nodos? M3D 8*8*8 TopologíaDiámetroGrado 216* T3D 8*8*8 126 Hipercubo 999 HiperCiclo N HiperCiclo N T3D 8*8*6 116 T3D 10*10*9 146 Grafo Kautz N 5832 núcleos

54 TopologíaGradoDiámetroNº de nodos Array lineal Anillo Anillo de grado n Árbol binario Árbol binario equilibrado Estrella Malla Toroide Hipercubo Hipercubo con ciclos N2N-1 N2 N/2 Nn=log 2 Nn-1 2 K -132*(K-1) 2 K -12K2K 2*(K-1) NN-12 nKnK 2*KK*(n-1) nKnK 2*K K* n/2 2K2K KK K*2 K 3 2*K K/2 arqAva Redes directas (Tabla de Parámetros)Conectividad-54

55 arqAva Perspectiva históricaIntroducción-55 Simil con intracluster ¿Conexión interna? MIMD HWANG (1993) IDENTIFICA TRES GENERACIONES: Hipercubo con Encaminamiento Sw Malla con Encaminamiento Hw (Sw de grano medio) µP y comunicaciones en el mismo chip (grano fino) ¿2010?Multiprocessor systems-on-chips (MPSoCs) Niagara Hoy 4..8 núcleos.. 64 en ¿Se llegará a 1.000?

56 M1M1 M2M2 M3M3 MmMm P 1 arqAva Redes indirectas (Barras cruzadas)Conectividad-56 P 2 P 3 P n Crossbar Funcionalidad de los conmutadores simples: colisión difusión Perfil N*M O (N 2 ) Muchas patas Área 5 núcleos Wat 2 núcleos 8x8 onChip

57 arqAva Redes indirectas (Multietapa)Conectividad-57 crossbar 8*8 O (64) Perfil 8*8 Latencia 1 ¿ Reducir O( N 2 ) a costa de … ? Usar sólo crossbar 2*2 directo crucedifusióncolisión etapa 1etapa 2etapa m Red de interconexión Conjunto de crossbar 2*2

58 arqAva Redes indirectas (Red )Conectividad-58 Red de interconexión perfect Suffle Limitado a N = potencia de ¿Encaminamiento? Sea de 001 a Bit igual => directo Bit distinto => cruce Colisión ¿ Latencia y O( ) ? ¿Mejorable?

59 arqAva Redes indirectas (Red )Conectividad ¡ Permite difusión !

60 arqAva Redes indirectas (Tabla de parámetros)Conectividad-60 BUSBarato y limitado CROSSBARMás caro. Bueno para N moderado Mayor ancho de banda y fácil encaminar MULTIETAPACompromiso entre Bus y Crossbar

61 #NODOSTIPO DE REDSUPERCOMPUTADOR..NConfigurableBull NovaScale..248Red ClosC-DAC PARAM Padma..192*NToro 3DCray Inc. XT5..128CrossbarFujitsu/Siemens M CrossbarFujitsu/Siemens PRIMEQUEST..64CrossbarHitachi BladeSymphony..512Crossbar multidim.Hitachi SR NConfigurableIBM eServer p Toro 3D y árbolIBM BlueGene/L&P..1024ConfigurableIBM System Cluster CrossbarNEC Express5800/ Crossbar multidim.NEC SX Fat treeSGI Altix 4000 arqAva Implantación en el mercado (Julio/2009)Conectividad-61 intercluster

62 arqAva Redes en Top500Conectividad-62 FIN 48,4% 41,4% 6,0%


Descargar ppt "Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4."

Presentaciones similares


Anuncios Google