Arquitecturas Paralelas Curso 13/14

Slides:



Advertisements
Presentaciones similares
SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
Advertisements

Madrid, 16 de noviembre de 2010 Estadística sobre las actividades en investigación científica y desarrollo tecnológico (I+D) año 2009.
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
RELACIÓN POSTULADOS POR SEXO
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
CAPÍTULO 9 La economía en pleno empleo
SIMATICA V2.0. Automatización de Viviendas con Simatic S7-200
Modas Página Internet: Correo Electrónico:
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Estructura Económica de México Prof. Abelardo Mariña Flores trimestre 2010-P.
PROGRAMACIÓN PARALELA Tema 3: Rutinas básicas de comunicación
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
Estadísticas e Indicadores de Deserción Estudiantil Diana Marcela Durán Coordinadora Grupo de Fomento a la Permanencia Bucaramanga Abril 13 de
Grupo de Sequía del Servicio Meteorológico Nacional
Autodesk Civil 3D 2007 Essentials
Estudio de la evolución de la topología de Internet a través de tablas BGP David Domingo Alegre Universidad Politécnica de Catalunya 4 de Febrero de 2004.
Phone2Wave-Server Manual de Operación.
TELEFONÍA IP.
Evolución Tasas de Interés Promedio del Sistema Financiero *
Parte 3. Descripción del código de una función 1.
Vocabulario querer comerlo -paja por supuesto - madera
de Joaquín Díaz Garcés (Angel Pino)
FUNCIONES DE UNA VARIABLE REAL
REDES DE INTERCONEXIÓN
Dr. Fernando Galassi - Lic. Gisela Forlin
EL OSO APRENDIZ Y SUS AMIGOS
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Hacer click Hacer click en cualquiera de estos links.
Indicadores CNEP Escuela
Ecuaciones Cuadráticas
La elección óptima del consumidor
¡Primero mira fijo a la bruja!
Arquitecturas Avanzadas Curso 10/11
Introducción a las Señales Aleatorias ISAL
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
CONSTRUCCIONES - 2 Construcciones, divisiones, transposiciones, ... con palillos, cerillas, monedas, triángulos, cuadrados, trapecios, polígonos, etc.
RELEVAMIENTO (especies mayores) PASEO GRAL. LAVALLE (entre Av. del Libertador y 25 de Mayo) Alejandro Amoruso Alfredo Jorge Etchevarne Parravicini.
I.Sistemas de coordenadas II. Gráfica de una ecuación y lugares geométricos III. La línea recta IV. Ecuación de la circunferencia V. Transformación de.
MINIMO COMÚN MÚLTIPLO DE DOS NÚMEROS a y b
1. Datos prensa. Fuente: ACEM
Un ejemplo de agrupación de datos Problema 1 del capítulo 2 del libro de texto.
Quetzalpapalotl Quetzalpapalotl – Gevederde Slang, vlindergod.
0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.
The top ten of the world 全球前十名 李常生 Eddie Lee 9/28/2010 Taipei 1 手動翻頁 LOS “TOP TEN” DEL MUNDO.
By: Nicholas, Rayna, Nathaniel, Calvin
Los números. Del 0 al 100.
5-Variables K-mapas ƒ(A,B,C,D,E) = Sm(2,5,7,8,10,
Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.
Vocabulario: (Los números)
Vocabulario: Para Empezar (Numbers & Colors)
uno cero dos seis siete nueve Los Números DIEZ cinco ocho tres
Los Numeros.
FACULTAD DE DERECHO PROTAGONISTAS PROMOCIÓN aniversario
Diagrama CAUSA_EFECTO ó ISHIKAWA ó ESPINA DE PESCADO
1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Herramienta FRAX Expositor: Boris Inturias.
INTRODUCCIÓN CONECTIVIDAD COPROCESAMIENTO MÁQUINAS MIMD MÁQUINAS SIMD
Transcripción de la presentación:

Arquitecturas Paralelas Curso 13/14 Horas 5 6 INTRODUCCIÓN CONECTIVIDAD MÁQUINAS MIMD MÁQUINAS SIMD y SIMT SUPERESCALARES

arqPar Temario Conectividad-2 “Interconnection Networks. An engineering…” José Duato y …- 2003 [Capítulos 1 y 2] “Principles and Practices of Interconnection ...” William James Dally y … - 2004 [Cap: 1,2,3,22] CONECTIVIDAD Introducción Conceptos Clasificación de las redes Caracterización por Grafos Perfiles de comunicación Redes de medio de transmisión compartido (Buses) Redes directas (estáticas ) Encaminamiento Array lineal, anillo, ..., hipercubo Redes indirectas (dinámicas) Crossbar, redes multietapa ()

arqPar Introducción Conectividad-3 QUEREMOS MÁS VELOCIDAD: A menor Grano, mayor Grado TAREA µP1 µP2 µP3 µP4 µP5 ! AUMENTAN LAS NECESIDADES DE COMUNICACIÓN !

arqPar Introducción Conectividad-4 Comunicación Hw <===> Comunicación Sw Memoria Común (Load/Store) Comunicar µPi y Memoria Paso Mensajes (Send/Receive) Comunicar Pi con Pj µP1 µP2 µPi µPn R E D M1 Mj Mk P1 P2 Pi Pn R E D Es muy importante la Latencia y el Ancho de banda

arqPar Introducción Conectividad-5 http://www.euroben.nl/reports/overview13.pdf ¿Consumo? Coste * 50 Gigabit Ethernet 0,1 29..120 ¡ LA RED TIENE UNA IMPORTANCIA VITAL !

arqPar Introducción Conectividad-6 ¡ LA RED TIENE UNA IMPORTANCIA VITAL !

arqPar Introducción Conectividad-7 LAN WAN Sistema Placa ChipMulticore

arqPar Introducción Conectividad-8 Sistema 36 placas www.sicortex.com SC5832 27 nodos Placa Chip 6 núcleos

arqPar Introducción Conectividad-9 72 núcleos 96GB 100GF => 19.000€ 27/Mayo/2009: Quiebra

arqPar Introducción Conectividad-10 IBM Sequoia #2 Nov/12 1.572.864 nodos Tom Willis Sep/2007 Intel Connects Cables

arqPar Introducción Conectividad-11 LAN/WAN Internet Multiprocesadores … Millones de nodos Cientos .. Miles # Nodos dinámico Fijo Enlaces largos Cortos Red irregular Regular Latencia alta Baja

arqPar Conceptos Conectividad-12 CLASIFICACIÓN DE LAS REDES MEDIO DE TRANSMISIÓN COMPARTIDO DIRECTAS vs INDIRECTAS TOTAL vs PARCIALMENTE CONECTADAS CARACTERIZACIÓN POR GRAFOS GRADO Y DIÁMETRO PERFILES DE COMUNICACIÓN 1 => 1; N => N; 1 => N; N => 1

arqPar Clasificación de las Redes Conectividad-13 Medio de Transmisión Compartido: Ponerse de acuerdo en su uso (maestro/esclavo, …) Redes inalámbricas Redes locales Ethernet Token Ring Buses (Backplane) µP1 M1 µP2 µPi µPn Mj Mk Síncronos vs asíncronos Multiplexados Arbitraje del bus

arqPar Clasificación de las Redes Conectividad-14 Redes directas: Conexiones fijas entre los elementos (Pi, Pj) “invariables durante la ejecución” Acoplamiento débil P1 P4 P2 P3 Amplio uso en multicomputadores Los propios Nodos encaminan Los caminos del origen al destino pueden ser distintos

arqPar Clasificación de las Redes Conectividad-15 Redes indirectas: Conexiones varían entre los elementos (µPi, Mj) “variables durante la ejecución” µP1 µP2 µPi µPn R E D M1 Mj Mk Red Telefónica Acoplamiento fuerte Amplio uso en multiprocesadores Encamina la propia red

arqPar Clasificación de las Redes Conectividad-16 Totalmente conectadas: “Cada elemento tiene conexión directa con los demás” Parcialmente conectadas: ¡ conexas ! Latencia mínima (Lm) Menor coste O(n) Mayor latencia (2Lm) Encaminar más complejo Alto coste O(n2) No escalable Jerarquizadas: Aislar tráfico por “localidades”

arqPar Caracterización por Grafos Conectividad-17 Nodos => µP y/o Bancos de Memoria Aristas => Enlaces de comunicación Grado de un nodo: Líneas incidentes (Si unidireccionales Ge + Gs) 1 2 3 4 A B C D E Relacionado con el número de puertos E/S y, por lo tanto, con el coste Deseable constante y pequeño Grado de la red: El del nodo con mayor grado (4) Deseable regularidad Más conectividad => Menor latencia Mayor coste Compromiso en el Grado Menor conectividad => Más latencia Menor coste

arqPar Caracterización por Grafos Conectividad-18 Diámetro de la red: Camino más distante de entre los mínimos que unen a dos nodos cualesquiera. Métrica => Número de saltos => 2 ¿1, 2, 3, ......? ¿5? => 2, 5, 4, 8, 7, 6 1 4 7 6 5 9 2 8 3 4 => 2, 5, 4, 3, 6 más corto Relación directa con la latencia

arqPar Perfiles de Comunicación Conectividad-19 Enlaces de comunicación establecidos concurrentemente. 1 => 1 Ventanilla única Bus Común N => N Varias Ventanillas T.V. News 1 => N Difusión, Broadcast, Multicast Reducción N => 1 Máquinas CRCW

arqPar Redes Medio Compartido (Bus I) Conectividad-20 Mj Mk µP2 µPi µPn ¿Cuántos Pi podré instalar? $ ¡ Cachés ! Pentium 4 a 3,8GHz Bus de 64 bits y 800MHz ¿Un único Pi satura el Bus? µP1  98% Hit ¡ Algunos problemas ! µP2 µPn colisiones Fallo costoso ¿ Niveles cache ?

arqPar Redes Medio Compartido (Bus II) Conectividad-21 ¿ Cuánto hit en cache “ld” ? Simulación con: PTLsim/X arquitectura tipo x86-64 L1D = 32KB [128 conjuntos, 4 vías] SPEC CPU2006 400 millones de instrucciones simuladas Benchmark L1D L2 L3 88,3 65,2 22,7 L* 98,0 %Hit 16K 256K 4M

arqPar Redes Medio Compartido (Bus III) Conectividad-22 Shared L2 cache L2 cache controler Shared Bus µP1 M1 Mj Mk µP2 µPi µPn L Shared L3 cache L3 cache controler Shared Bus ¿ Soluciones ?

arqPar Redes Medio Compartido (Bus IV) Conectividad-23 Bus pipelining Pedir bus Arbitrar Dar bus Usar bus AR ARB AG RQ ACK 1 2 3 4 5 P 1 2 3 4 5 6 RPLY Write Read ¿Cuántos ciclos 2W y 4R? Con pipeline mejor read 1 write 2 write 3 read 4 read 5 read 6 bus ocupado AR ARB AG RQ RPL Stall P ACK 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ?

arqPar Redes Medio Compartido (Bus V) Conectividad-24 Split transaction: Pipelining + Dividir la transacción en dos read 1 resp 1 write 2 ack 2 write 3 ack 3 read 4 resp 4 read 5 resp 5 read 6 resp 6 AR ARB AG RQ Stall 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 RPL ACK ¿ Mejora ? RqA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 RpA RqB RpB RqC RpC Transacciones variables: 1..6 ciclos 8 peticiones pendientes en SGI 112 peticiones pendientes en SUN E 6000 RpA RqA RqB RqC RpB RpC

arqPar Redes Medio Compartido (Bus VI) Conectividad-25 Modo ráfaga (Burst): Transacciones largas (línea de caché) Normal Arb 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Cmd Dir Dato Arb Cmd Dir Dato Ráfaga ¿ Inconveniente ? arbitraje mensaje A mensaje B GrA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Cmd Dir Dato GrB ReA Eti Mensaje más prioritario Mensaje continuado

arqPar Redes Medio Compartido (Bus VII) Conectividad-26 Buses jerárquicos Concluyendo Cachés (L1, L2 y L3) Pipelining Split Transaction Modo ráfaga Buses Jerárquicos Buses Múltiples Muy costoso + 32µP Difusión Serialización Buses múltiples Frecuencia Secuencial

arqPar Redes Medio Compartido (Bus VIII) Conectividad-27 Evolución FSB Intel

arqPar Redes directas Conectividad-28 Generalidades Encaminamiento Menor diámetro aumentando el grado Array lineal Anillo simple y de grado “n” Conectividad total Compromiso grado vs diámetro y muchos nodos Árbol, Fat Tree y Estrella Mallas, Toroides y WK-rec Hipercubo con y sin ciclo Tabla de parámetros

arqPar Redes directas (Generalidades) Conectividad-29 Pn L2 Switch MultiC más integrado De otros nodos A otros nodos P M IC Red con enlaces directos entre Pi Buffers Arbitraje Encamina. Nodos => PC’s o similares Ejemplos: Alpha 21364, SiCortex, Intel Core i7 y SCC

arqPar Redes directas (P 21364) Conectividad-30

arqPar Redes directas ( Toro2D 21364 ) Conectividad-31 Here’s the block diagram of a 12 processor system using the 2D torus topology. Each processor may have its own local memory and may have its own local I/O connection. It is possible for a processor to operate in the system without memory or I/O if that is attractive .. 128 nodos [8x16] .. 4 TB MP 12 diámetro .. 10GBseg 15nseg Lat

arqPar Redes directas (P SiCortex) Conectividad-32 www.sicortex.com 500MHz 2GBseg 1µseg Lat

arqPar Redes directas (P SiCortex) Conectividad-33 Kautz Graph

arqPar Redes directas (Intel Core i7…) Conectividad-34 www.intel.com/technology/quickpath/introduction.pdf 19,2..25,6 GBseg

arqPar Redes directas (Intel Core i7…) Conectividad-35

arqPar Redes directas (Intel Xeon E5…) Conectividad-36

arqPar Redes directas (Intel SCC …) Conectividad-37 http://techresearch.intel.com/spaw2/uploads/files/SCC_Platform_Overview.pdf Mayo 2010: Intel lanza de forma selectiva el SCC [prototipo] 48 IA-32 núcleos 64 GBseg Memoria común sin coherencia  Sw

arqPar Redes directas (Intel SCC …) Conectividad-38 Nov 2012: Intel lanza el coprocesador Xeon Phi (60/61 núcleos)

arqPar Encaminamiento (Modos) Conectividad-39 Mecanismo Hw/Sw para que la información llegue del origen al destino. Hay que distinguir entre: Algoritmo: Elección del camino y gestión de conflictos Técnica: Modo de propagar la información 1 4 7 6 5 9 2 8 3 Conmutación de paquetes Redes directas Conmutación de circuitos Redes indirectas

arqPar Encaminamiento (Algoritmo) Conectividad-40 0,0 0,1 0,2 0,7 0,3 0,4 0,5 0,6 1,0 2,0 7,0 3,0 4,0 5,0 6,0 8x8 = 64 nodos Diámetro = 7+7=14 Numerar nodo 0..63 fila col 0..7 C D En origen: C[3,4] => D[1,6] A B Dinámico: A[2,3] => B[5,1] E datos L 5,1 SiCortex, Intel QuickPath, … Algo: MovCol+MovFila E datos L 1,6 ,N,N,E,E E datos L 1,6 ,N,N,E N[00], E[01], S[10], O[11]

arqPar Encaminamiento (wormhole) Conectividad-41 En conmutación de paquetes veremos dos técnicas: Origen Almacenamiento y reenvío Destino Buffer de paquete Los mensajes se dividen en paquetes (64..1024bits) y se envían paquete a paquete Buffer de flit Los paquetes se dividen en flits (2..64bits) y se envían flit a flit 2 1 2 1 1 1 2 Elevada latencia (3*Tiempo trans. Paquete “Ttp”) Origen “Wormhole” Destino ¿Similar a IP/ATM MPLS? Mejora la latencia (2*Tiempo trans. Flit + Ttp)

arqPar Encaminamiento (wormhole) Conectividad-42 Header Payload CRC 8 64 20 | 10 | 5 Flit Phit

arqPar Encaminamiento (ejemplo) Conectividad-43 Almacena y Reenvío Toro2D 8*16 Alpha 21364 Diámetro = 12 Flit = 39 b Paquete = 702b Ancho Banda = 3,2Gb*seg Tflit = 12,1875nseg Tpaq = 219,375nseg AlmaReen => 2.632,5 nseg Wormhole => 353,4 nseg Latencia + 7 veces mejor Wormhole Distancia

arqPar Encaminamiento (Interbloqueo) Conectividad-44

arqPar Encaminamiento (Canales virtuales) Conectividad-45 B A D B A D Una forma de evitar el interbloqueo

arqPar Redes directas (array, anillo) Conectividad-46 Grado, diámetro, escalable, … ARRAY LINEAL 1 2 3 4 5 6 7 ANILLO (DE GRADO 2) 1 2 3 4 5 6 7 ANILLO (DE GRADO ‘n’ 3) 1 2 3 4 5 6 7

arqPar Redes directas (array, anillo) Conectividad-47 “Navigation in a small world” – Jon M. Kleinberg Nature – 24 Agosto 2000

arqPar Redes directas (anillo de grado “n”) Conectividad-48 N = 8 n = 3 Salto 2 Salto 3 Salto 4 1 1 3 2 1 2 2 3 d = 3, d = 1,71 d = 3, d = 1,71 d = 2, d = 1,57

arqPar Redes directas (anillo de grado “n”) Conectividad-49 N = 16 n = 3 Salto 2 Salto 3 Salto 4 d = 6, d = 3,2 6 5 d = 5, d = 2,67 4 d = 4, d = 2,27 Salto 5 iguala y 7 y 8 empeoran

arqPar Redes directas (anillo de grado “n”) Conectividad-50 N = 16 n = 4 Salto 3 Salto 4 Salto 5 3 d = 3, d = 2 d = 4, d = 2,13 4 4 d = 4, d = 2,13 ¿Cómo podría ser N=32 y n=5?

arqPar Redes directas (anillo de grado “n”) Conectividad-51 N = 32 n = 5 4 4 ¿ Escalable ? d = 4, d = ???

arqPar Redes directas (conexión total) Conectividad-52 Grado, diámetro, escalable, … 1 2 3 4 5 6 7

arqPar Redes directas (Gráfica) Conectividad-53 Moverse por aquí con menor grado

arqPar Redes directas (árbol, …) Conectividad-54 Grado, diámetro, escalable, … ÁRBOL BINARIO EQUILIBRADO “Fat Tree” 2 4 ÁRBOL BINARIO K=1 K=2 K=3 K=4 ESTRELLA Cuello de botella [tráfico aleatorio] ¿Cómo encaminar A  B?

arqPar Redes directas (árbol, …) Conectividad-55 32 16 8 Fat Tree ¡Indirectas! ¿Más nodos más niveles? => más latencia

arqPar Redes directas (árbol, …) Conectividad-56 Dragonfly “high radix routers” local channels 36, 100 .. 600 40Gb/s

arqPar Redes directas (malla) Conectividad-57 Grado, diámetro, escalable, … K=3 MALLA 3D MALLA 2D K=1 K=2 Encaminamiento ordenado por direcciones O(1,1,1) D(3,3,3) O(2,2,1) D(3,3,2) ¡Colisión! M3D 102410*10*10 => D=27 ¿ Interbloqueos ? ¿Escalabilidad cuadrática o cúbica? ¿ Cuello de botella?

arqPar Redes directas (malla3D) Conectividad-58 ¿Cuello de botella tráfico NN? 18 ¡ 18 msj por todos los enlaces en cada sentido !

arqPar Redes directas (toroide) Conectividad-59 Grado, diámetro, escalable, … Cables largos vs cortos Muchos cruces TOROIDES (2D y 3D) K=1 K=2 T3D 102410*10*10 => D=15 ¡ Anillo embebido !

arqPar Redes directas (WK-Recursivo) Conectividad-60 Grado, diámetro, escalable, … Grado 3 (3,1) (3,3) (3,2) ¿Grado 5? (4,3) Grado 4 (4,1) (4,2)

arqPar Redes directas (WK-Recursivo) Conectividad-61 (5,1) (5,2)

arqPar Redes directas (hipercubo) Conectividad-62 ‘N=2k’ nodos, ‘k’ dimensiones = log2 N Dim3 Dim1 Dim2 Diámetro = log2 N Grado = log2 N Fácil encaminar Dim4 Escalable a costa de demasiado grado Topología cada vez menos utilizada

arqPar Redes directas (hipercubo) Conectividad-63 Encaminamiento en HIPERCUBO (Sea N=16) 1 2 3 4 1. Numerar nodos en binario. Nodos adyacentes difieren en un bit (el asociado a la dirección que les une) 0000 4321 1010 1111 0101 0111 0110 0011 Nodo actual 0111 Nodo destino 1010 2. Enviar mensaje por el enlace asociado a la menor dirección donde no coinciden bit del nodo actual y bit del nodo destino 0001 0010 0100 1000 ¿ Realizar ORX ? 0111 ORX 1010 = 1101 0110 1010 0010 1010 1010

arqPar Redes directas (hipercubo con ciclos) Conectividad-64 Grado, diámetro, escalable, … K=3 2 4 3 5 1 6 HIPERCUBO CON CICLOS ¿ Diámetro ?

arqPar Redes directas (Grafo de Kautz) Conectividad-65

arqPar Redes directas (Un ejemplo) Conectividad-66 ¿Cómo conectar unos 1024 nodos? Topología Diámetro Grado Total 1 1023 Anillo10 9 10 Anillo2 512 2 Array lineal 2* WK 4ary 5rec 31 4* M2D 32*32 62 Árbol 18 3* M3D 10*10*10 27 6* T3D 10*10*10 15 6 Hipercubo 10 10 HiperCiclo 7 3 896 N Grafo Kautz 6 972 N 16

arqPar Redes directas (Tabla de Parámetros) Conectividad-67 Topología Grado Diámetro Nº de nodos Array lineal Anillo Anillo de grado ‘n’ Árbol binario Árbol binario equilibrado Estrella Malla Toroide Hipercubo Hipercubo con ciclos N 2 N-1 N/2 n=log2N n-1 2K-1 3 2*(K-1) 2K nK 2*K K*(n-1) K*  n/2  K K*2K 2*K - 1 +  K/2 

arqPar Perspectiva histórica Conectividad-68 MIMD HWANG (1993) IDENTIFICA TRES GENERACIONES: 1983-1987 Hipercubo con Encaminamiento Sw 1988-1992 Malla con Encaminamiento Hw (Sw de grano medio) 1993-1997 µP y comunicaciones en el mismo chip (grano fino) 1983-1987 1988-1992 1993-1997 Multiprocessor systems-on-chips (MPSoCs) Hoy 4..16 núcleos ¿Se llegará a 400 en 2020?

arqPar Redes indirectas (Barras cruzadas) Conectividad-69 Perfil N*M O (N2) Muchas patas P2 P3 “Crossbar” Pn M1 M2 M3 Mm 8x8 OnChip mm2 => 5 núcleos W => 2 núcleos Funcionalidad de los conmutadores simples: difusión colisión

arqPar Redes indirectas (Multietapa) Conectividad-70 crossbar 8*8 O (64) Perfil 8*8 Latencia 1 ¿ Reducir O( N2) a costa de … ? Usar sólo crossbar 2*2 cruce difusión colisión directo  etapa 1 etapa 2 etapa m Red de interconexión Conjunto de crossbar 2*2

arqPar Redes indirectas (Red ) Conectividad-71 Red de interconexión “perfect Suffle” Limitado a N = potencia de 2 Viable: [a,f – b,e – c,h – d,g] N = 2 NoViable: [a,f - c,e - …....] N = 4 a b c d e f g h Crossbar  24 Red   16

arqPar Redes indirectas (Red ) Conectividad-72 Red de interconexión “perfect Suffle” Limitado a N = potencia de 2 Colisión 000 001 010 011 100 101 110 111 ¿Encaminamiento? Sea de 001 a 010 001 010 011 001 100 001 010 001 010 001 010 110 101 Bit igual => directo Bit distinto => cruce ¿ Latencia y O( ) ? ¿Mejorable?

arqPar Redes indirectas (Red ) Conectividad-73 101 000 001 010 011 100 110 111 000 001 010 011 100 101 110 111 ¡ Permite difusión !

arqPar Redes indirectas (Tabla de parámetros) Conectividad-74 BUS Barato y limitado 2..32 CROSSBAR Más caro. Bueno para N moderado Mayor ancho de banda y fácil encaminar MULTIETAPA Compromiso entre Bus y Crossbar

arqPar Implantación en el mercado (Oct/2013) Conectividad-75 #NODOS TIPO DE RED SUPERCOMPUTADOR ..N Configurable Bull systems >50.000 Dragonfly Cray Inc. XC30 .. 1.152 Toro 2y3D Cray Inc. XE6/XE6m (96+96)*N Toro 3D Cray Inc. XK7 .. 4.096 ..? Toro 3D + Árbol Eurotech Aurora .. 98.304 Toro 6D Fujitsu PRIMEHPC FX 10 .. 512 Crossbar multidim. Hitachi SR 16000 .. 1.572.864 Toro 5D IBM BlueGene/Q 256 x 2.048 Variable IBM eServer p775 .. 8.192 Crossbar multidim. NEC SX-9 .. 4.096 Toro 2D .. ? SGI Altix UV intercluster

arqPar Redes en Top500 (Nov/2013) Conectividad-76 FIN