La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4.

Presentaciones similares


Presentación del tema: "Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4."— Transcripción de la presentación:

1 Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4

2 arqAvaTemarioConectividad-2 2CONECTIVIDAD 1Introducción 2Conceptos 1Clasificación de las redes 2Caracterización por Grafos 3Perfiles de comunicación 3Redes de medio de transmisión compartido (Buses) 4Redes directas (estáticas ) 1Encaminamiento 2Array lineal, anillo,..., hipercubo 5Redes indirectas (dinámicas) 1Crossbar, redes multietapa ( ) Interconnection Networks. An engineering… José Duato y …- 2003 [Capítulos 1 y 2] Principles and Practices of Interconnection... William James Dally y … - 2004 [Cap: 1,2,3,22]

3 arqAva IntroducciónConectividad-3 QUEREMOS MÁS VELOCIDAD: A menor Grano, mayor Grado µP 1 TAREAµP 2 µP 3 µP 4 µP 5 ! AUMENTAN LAS NECESIDADES DE COMUNICACIÓN !

4 arqAva IntroducciónConectividad-4 Comunicación Hw Comunicación Sw Memoria Común (Load/Store) Comunicar µPi y Memoria Paso Mensajes (Send/Receive) Comunicar Pi con Pj µP 1 µP 2 µP i µP n R E D M1M1 MjMj MkMk P1P1 P2P2 PiPi PnPn Es muy importante la Latencia y el Ancho de banda

5 arqAva IntroducciónConectividad-5 ¡ LA RED TIENE UNA IMPORTANCIA VITAL ! Gigabit Ethernet0,110..40 http://www.euroben.nl/reports/overview09.pdf Coste * 50

6 LAN WAN arqAva IntroducciónConectividad-6 Sistema Placa ChipMulticore

7 arqAva IntroducciónConectividad-7 Sistema PlacaChip www.sicortex.com SC5832 27 nodos 36 placas 6 núcleos

8 arqAva IntroducciónConectividad-8 72 núcleos 96GB 100GF => 19.000 27/Mayo/2009: Quiebra

9 arqAva IntroducciónConectividad-9 LAN/WAN Internet Multiprocesadores … Millones de nodosCientos.. Miles # Nodos dinámicoFijo Enlaces largosCortos Red irregularRegular Latencia altaBaja

10 arqAva ConceptosConectividad-10 CLASIFICACIÓN DE LAS REDES –MEDIO DE TRANSMISIÓN COMPARTIDO –DIRECTAS vs INDIRECTAS –TOTAL vs PARCIALMENTE CONECTADAS PERFILES DE COMUNICACIÓN – 1 => 1; N => N; 1 => N; N => 1 CARACTERIZACIÓN POR GRAFOS –GRADO Y DIÁMETRO

11 arqAva Clasificación de las RedesConectividad-11 Medio de Transmisión Compartido: Ponerse de acuerdo en su uso (maestro/esclavo, …) Síncronos vs asíncronos Multiplexados Arbitraje del bus Redes locales Ethernet Token Ring µP 2 µP i µP n MjMj MkMk Buses (Backplane) µP 1 M1M1 Redes inalámbricas

12 arqAva Clasificación de las RedesConectividad-12 Redes directas: Conexiones fijas entre los elementos (Pi, Pj) invariables durante la ejecución P1P1 P4P4 P2P2 P3P3 Acoplamiento débil Amplio uso en multicomputadores Los propios Nodos encaminan Los caminos del origen al destino pueden ser distintos

13 Red Telefónica arqAva Clasificación de las RedesConectividad-13 Redes indirectas: Conexiones varían entre los elementos (µPi, Mj) variables durante la ejecución Acoplamiento fuerte Amplio uso en multiprocesadores Encamina la propia red µP 1 µP 2 µP i µP n R E D M1M1 MjMj MkMk

14 arqAva Clasificación de las RedesConectividad-14 Totalmente conectadas: Cada elemento tiene conexión directa con los demás Parcialmente conectadas: ¡ conexas ! Jerarquizadas: Aislar tráfico por localidades Latencia mínima (L m ) Alto coste O(n 2 ) No escalable Menor coste O(n) Mayor latencia (2L m ) Encaminar más complejo

15 arqAva Caracterización por GrafosConectividad-15 Nodos => µP y/o Bancos de Memoria Aristas => Enlaces de comunicación Grado de un nodo: Líneas incidentes (Si unidireccionales Ge + Gs) Relacionado con el número de puertos E/S y, por lo tanto, con el coste Deseable constante y pequeño Grado de la red: El del nodo con mayor grado (4) Deseable regularidad Compromiso en el Grado Más conectividad => Menor latencia Mayor coste Menor conectividad => Más latencia Menor coste 1 2 3 4 2 A B C D E

16 arqAva Caracterización por GrafosConectividad-16 Diámetro de la red: Camino más distante de entre los mínimos que unen a dos nodos cualesquiera. Relación directa con la latencia ¿1, 2, 3,......? Métrica => Número de saltos => 2 1 4 76 5 9 2 8 3 ¿5? => 2, 5, 4, 8, 7, 6 4 => 2, 5, 4, 3, 6 más corto

17 arqAva Perfiles de ComunicaciónConectividad-17 Enlaces de comunicación establecidos concurrentemente. 1 => 1 Ventanilla única Bus Común N => N Varias Ventanillas T.V. News 1 => N Difusión, Broadcast, Multicast Reducción N => 1 Máquinas CRCW

18 arqAva Redes Medio Compartido (Bus I)Conectividad-18 µP 1 M1M1 MjMj MkMk µP 2 µP i µP n ¿Cuántos Pi podré instalar? Pentium 4 a 3,8GHz Bus de 64 bits y 800MHz ¿Un único Pi satura el Bus? $$$$ $ ¡ Cachés ! µP2µP2 µPnµPn ¡ Algunos problemas ! Fallo costoso ¿ Soluciones ? µP1µP1 98% Hit colisiones

19 arqAva Redes Medio Compartido (Bus II)Conectividad-19 Bus pipelining Pedir bus Arbitrar Dar bus Usar bus ARARBAGRQACK 1 2 3 4 5 ARARBAGRQP 1 2 3 4 5 6 RPLY WriteRead ¿Cuántos ciclos 2W y 4R? read 1 write 2 write 3 read 4 read 5 read 6 bus ocupado ARARBAGRQRPL ARARBAG Stall P RQACK ARARBStall AGStallRQACK AR Stall ARBStallAGStallRQRPLP ARStallARBStallAGRQRPLP AR Stall ARBAG Stall RQ RPLP 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Con pipeline mejor

20 arqAva Redes Medio Compartido (Bus III)Conectividad-20 Split transaction: Pipelining + Dividir la transacción en dos 8 peticiones pendientes en SGI 112 peticiones pendientes en SUN E 6000 read 1 resp 1 write 2 ack 2 write 3 ack 3 read 4 resp 4 read 5 resp 5 read 6 resp 6 ARARBAGRQ ARARB AGStall RQStall 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 RPL ARARBAG ARARBAGRQ ACK ARARBAG ARARBAGRQ ACK ARARBAG ARARBAGRQ RPL ARARBAG RPL ARARBAG ARARB AGStall RQStall RPL ARARBAG RpA RqA RqB RqC RpB RpC ¿ Mejora ? RqA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 RpA RqB RpB RqC RpC Transacciones variables: 1..6 ciclos PCI Express USB

21 arqAva Redes Medio Compartido (Bus IV)Conectividad-21 Modo ráfaga (Burst): Transacciones largas (línea de caché) Normal Arb 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Cmd DirDato Arb Cmd Dir Dato Arb CmdDirDato Arb CmdDirDato Arb Cmd DirDato Ráfaga ¿ Inconveniente ? arbitraje mensaje A mensaje B GrA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 CmdDirDato GrB CmdDirDato ReA EtiDato Mensaje más prioritario Mensaje continuado

22 arqAva Redes Medio Compartido (Bus V)Conectividad-22 Buses jerárquicos Buses múltiples Concluyendo Cachés (L1, L2 y L3) Pipelining Split Transaction Modo ráfaga Buses Jerárquicos Buses Múltiples Muy costoso + 32µP Difusión Serialización Frecuencia Secuencial

23 Menor diámetro aumentando el grado Compromiso grado vs diámetro y muchos nodos Tabla de parámetros arqAva Redes directasConectividad-23 Encaminamiento Generalidades Array lineal Anillo simple y de grado n Conectividad total Árbol, Fat Tree y Estrella Mallas y Toroides Hipercubo con y sin ciclo

24 PM IC Red con enlaces directos entre Pi PM IC PM Nodos => PCs o similares PnPn L2 Switch MultiC más integrado De otros nodos A otros nodos arqAva Redes directas (Generalidades)Conectividad-24 Buffers Arbitraje Encamina. Ejemplos: Alpha 21364, SiCortex, Intel Core i7, AMD Istanbul Transputer

25 arqAva Redes directas ( P 21364)Conectividad-25

26 arqAva Redes directas ( Toro2D 21364 ) Conectividad-26.. 10GBseg 15nseg Lat.. 128 nodos [8x16].. 4 TB MP 12 diámetro

27 arqAva Redes directas ( P SiCortex)Conectividad-27 www.sicortex.com 500MHz 2GBseg 1µseg Lat

28 arqAva Redes directas ( P SiCortex)Conectividad-28 Kautz Graph

29 arqAva Redes directas (Intel Core i7…)Conectividad-29 www.intel.com/technology/quickpath/introduction.pdf 19,2..25,6 GBseg

30 arqAva Redes directas (Intel Core i7…)Conectividad-30

31 arqAva Redes directas (AMD Istanbul…)Conectividad-31..51,2 GBseg

32 arqAva Encaminamiento (Modos)Conectividad-32 Mecanismo Hw/Sw para que la información llegue del origen al destino. Hay que distinguir entre: Algoritmo:Elección del camino y gestión de conflictos Técnica:Modo de propagar la información 1 4 76 5 9 2 8 3 Conmutación de paquetes Redes directas Conmutación de circuitos Redes indirectas

33 arqAva Encaminamiento (Algoritmo)Conectividad-33 8x8 = 64 nodos Diámetro = 7+7=14 Numerar nodo 0..63 filacol 0..7 0,00,00,10,10,20,20,70,70,30,30,40,40,50,50,60,6 1,01,0 2,02,0 7,07,0 3,03,0 4,04,0 5,05,0 6,06,0 A B Distribuido: A[2,3] => B[5,1] E datos L5,15,1 Algo: MovCol+MovFila C D En origen: C[3,4] => D[1,6] E datos L5,15,1….,NN,E,EE datos L5,15,1…….,NN,E N[00], E[01], S[10], O[11]

34 arqAva Encaminamiento (wormhole)Conectividad-34 En conmutación de paquetes veremos dos técnicas: Buffer de paquete Los mensajes se dividen en paquetes (64..1024bits) y se envían paquete a paquete Origen Almacenamiento y reenvío Destino Elevada latencia (3*Tiempo trans. Paquete Ttp) Origen Wormhole Destino Mejora la latencia (2*Tiempo trans. Flit + Ttp) Buffer de flit Los paquetes se dividen en flits (2..32 bits) y se envían flit a flit 210 0 0 01 1 012 2 012 ¿Similar a IP/ATM MPLS?

35 Distancia Latencia Almacena y Reenvío Wormhole arqAva Encaminamiento (ejemplo)Conectividad-35 Toro2D 8*16 Alpha 21364 Diámetro = 12 Flit = 39 b Paquete = 702b Ancho Banda = 3,2Gb*seg Tflit = 12,1875nseg Tpaq = 219,375nseg AlmaReen => 2.632,5 nseg Wormhole => 353,4 nseg + 7 veces mejor

36 arqAva Encaminamiento (Interbloqueo)Conectividad-36 AB CD D C A B D C A B D C A B D C A B ¡ Interbloqueo !

37 arqAva Encaminamiento (Canales virtuales)Conectividad-37 A D B A D B A D Una forma de evitar el interbloqueo

38 ARRAY LINEAL 01234567 arqAva Redes directas (array, anillo)Conectividad-38 ANILLO (DE GRADO 2) 01 2 3 4 5 6 7 ANILLO (DE GRADO n 3) 01 2 3 4 5 6 7 Grado, diámetro, escalable, …

39 N = 8n = 3 arqAva Redes directas (anillo de grado n)Conectividad-39 Salto 3 1 1 1 2 2 2 3 d = 3, d = 1,71 Salto 2 1 1 1 3 2 2 2 d = 3, d = 1,71 Salto 4 1 2 1 1 2 2 2 d = 2, d = 1,57

40 N = 16 n = 3 arqAva Redes directas (anillo de grado n)Conectividad-40 Salto 2 d = 6, d = 3,2 6 Salto 3 5 d = 5, d = 2,67 Salto 4 4 d = 4, d = 2,27 Salto 5 iguala y 7 y 8 empeoran

41 N = 16 n = 4 arqAva Redes directas (anillo de grado n)Conectividad-41 d = 4, d = 2,13 4 3 d = 3, d = 2 Salto 5 4 d = 4, d = 2,13 ¿Cómo podría ser N=32 y n=5? Salto 3Salto 4

42 N = 32 n = 5 arqAva Redes directas (anillo de grado n)Conectividad-42 d = 4, d = ??? 4 ¿ Escalable ? 4

43 arqAva Redes directas (conexión total)Conectividad-43 01 2 3 4 5 6 7 Grado, diámetro, escalable, …

44 arqAva Redes directas (Gráfica)Conectividad-44 Moverse por aquí con menor grado

45 K=0 K=1 K=2 K=3 ÁRBOL BINARIO arqAva Redes directas (árbol, …)Conectividad-45 ÁRBOL BINARIO EQUILIBRADO Fat Tree 2 2 2 2 4 4 Grado, diámetro, escalable, … Cuello de botella [tráfico aleatorio] ¿Cómo encaminar A B? ESTRELLA

46 K=3 MALLA 3D MALLA 2D K=1 K=2 arqAva Redes directas (malla)Conectividad-46 M3D 512 8*8*8 => D=21 ¿Escalabilidad cuadrática o cúbica? Encaminamiento ordenado por direcciones O(1,1,1) D(3,3,3) O(2,2,1) D(3,3,2) ¡Colisión! ¿ Interbloqueos ? Grado, diámetro, escalable, … ¿ Cuello de botella?

47 arqAva Redes directas (malla3D)Conectividad-47 ¿Cuello de botella tráfico N N? 18 ¡ 18 msj por todos los enlaces en cada sentido !

48 TOROIDES (2D y 3D) K=1 K=2 arqAva Redes directas (toroide)Conectividad-48 T3D 512 8*8*8 => D=12 ¡ Anillo embebido ! Grado, diámetro, escalable, …

49 HIPERCUBO Dim1Dim2 Dim3 Dim4 Diámetro = log 2 N Grado = log 2 N Fácil encaminar arqAva Redes directas (hipercubo)Conectividad-49 N=2 k nodos, k dimensiones = log 2 N Escalable a costa de demasiado grado Topología cada vez menos utilizada

50 Encaminamiento en HIPERCUBO (Sea N=16) 0001 0010 0100 1000 1 2 3 4 1.Numerar nodos en binario. Nodos adyacentes difieren en un bit (el asociado a la dirección que les une) 0000 4321 1010 1111 0101 01110110 0011 2.Enviar mensaje por el enlace asociado a la menor dirección donde no coinciden bit del nodo actual y bit del nodo destino Nodo actual0111 Nodo destino1010 0110 1010 0010 1010 ¿ Realizar ORX ? 0111 ORX 1010 = 1101 arqAva Redes directas (hipercubo)Conectividad-50

51 HIPERCUBO CON CICLOS K=3 arqAva Redes directas (hipercubo con ciclos)Conectividad-51 2 2 4 3 4 5 5 4 34 1 31 2 2 3 6 4 4 3 3 1 5 0 Grado, diámetro, escalable, … ¿ Diámetro ?

52 arqAva Redes directas (Grafo de Kautz)Conectividad-52

53 arqAva Redes directas (Un ejemplo)Conectividad-53 ¿Cómo conectar unos 512 nodos? M3D 8*8*8 TopologíaDiámetroGrado 216* T3D 8*8*8 126 Hipercubo 999 HiperCiclo 6143 384 N HiperCiclo 7163896 N T3D 8*8*6 116 T3D 10*10*9 146 Grafo Kautz63 972 N 5832 núcleos

54 TopologíaGradoDiámetroNº de nodos Array lineal Anillo Anillo de grado n Árbol binario Árbol binario equilibrado Estrella Malla Toroide Hipercubo Hipercubo con ciclos N2N-1 N2 N/2 Nn=log 2 Nn-1 2 K -132*(K-1) 2 K -12K2K 2*(K-1) NN-12 nKnK 2*KK*(n-1) nKnK 2*K K* n/2 2K2K KK K*2 K 3 2*K - 1 + K/2 arqAva Redes directas (Tabla de Parámetros)Conectividad-54

55 arqAva Perspectiva históricaIntroducción-55 Simil con intracluster ¿Conexión interna? MIMD HWANG (1993) IDENTIFICA TRES GENERACIONES: 1983-1987Hipercubo con Encaminamiento Sw 1988-1992Malla con Encaminamiento Hw (Sw de grano medio) 1993-1997µP y comunicaciones en el mismo chip (grano fino) ¿2010?Multiprocessor systems-on-chips (MPSoCs) Niagara Hoy 4..8 núcleos.. 64 en 2010.. ¿Se llegará a 1.000?

56 M1M1 M2M2 M3M3 MmMm P 1 arqAva Redes indirectas (Barras cruzadas)Conectividad-56 P 2 P 3 P n Crossbar Funcionalidad de los conmutadores simples: colisión difusión Perfil N*M O (N 2 ) Muchas patas Área 5 núcleos Wat 2 núcleos 8x8 onChip

57 arqAva Redes indirectas (Multietapa)Conectividad-57 crossbar 8*8 O (64) Perfil 8*8 Latencia 1 ¿ Reducir O( N 2 ) a costa de … ? Usar sólo crossbar 2*2 directo crucedifusióncolisión etapa 1etapa 2etapa m Red de interconexión Conjunto de crossbar 2*2

58 arqAva Redes indirectas (Red )Conectividad-58 Red de interconexión perfect Suffle Limitado a N = potencia de 2 000 001 010 011 100 101 110 111 000 001 010 011 100 101 110 111 ¿Encaminamiento? Sea de 001 a 010 001 010 0 01 0 10 Bit igual => directo Bit distinto => cruce 001001 010010 00 1 01 0 011 001 100 110 101 Colisión ¿ Latencia y O( ) ? ¿Mejorable?

59 arqAva Redes indirectas (Red )Conectividad-59 000 001 010 011 100 101 110 111 000 001 010 011 100 101 110 111 101 000 001 010 011 100 101 110 111 ¡ Permite difusión !

60 arqAva Redes indirectas (Tabla de parámetros)Conectividad-60 BUSBarato y limitado 2..32 CROSSBARMás caro. Bueno para N moderado Mayor ancho de banda y fácil encaminar MULTIETAPACompromiso entre Bus y Crossbar

61 #NODOSTIPO DE REDSUPERCOMPUTADOR..NConfigurableBull NovaScale..248Red ClosC-DAC PARAM Padma..192*NToro 3DCray Inc. XT5..128CrossbarFujitsu/Siemens M9000..32CrossbarFujitsu/Siemens PRIMEQUEST..64CrossbarHitachi BladeSymphony..512Crossbar multidim.Hitachi SR 16000..NConfigurableIBM eServer p575..221184Toro 3D y árbolIBM BlueGene/L&P..1024ConfigurableIBM System Cluster 1350..32CrossbarNEC Express5800/1000..8192Crossbar multidim.NEC SX-9..512Fat treeSGI Altix 4000 arqAva Implantación en el mercado (Julio/2009)Conectividad-61 intercluster http://www.euroben.nl/reports/

62 arqAva Redes en Top500Conectividad-62 FIN 48,4% 41,4% 6,0%


Descargar ppt "Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5SUPERESCALARES Horas 5 7 2 4."

Presentaciones similares


Anuncios Google