proPar Multicomputadores comParalelos-57

proPar Multicomputadores comParalelos-57
Pn RED de Comunicación Memoria Privada | Memoria Distribuída MPP COW/NOW Beowulf ASCI Q (#2 Nov02) 8192 Pi 13,88 TF 175 millones € System X (#7 Nov04) 2200 Pi (G5) 10,28 TF 4,5 millones € 12 Pi, €

proPar Multicomputadores comParalelos-58
21 servidores Supermicro Intel Core 2 Q6600 2,4GHz + 4GB 84 núcleos + 84GB 20.600€  21 servidores 1.000€  armario Sep/2008

proPar Ejemplos de Jerarquía de Memoria comParalelos-59
1 2002 ASCI Q 22 TB 440 TB 2 2003 Virginia Tech’s X 4 TB 176 TB 7 2004 30 91 108 2007 472 Tianhe-2 1,3 PB 12,4 PB 1 Nov/2013 Summit 10 PB 250 PB 1 Jun/2018 MTBF = 6,16 días* ¡ núcleos !

proPar Redes Directas comParalelos-60
Switch MultiC más integrado De otros nodos A otros nodos P M IC Red con enlaces directos entre Pi Unas redes directas: Array lineal Anillo Árbol Mallas 2D y 3D Toros 2D y 3D Hipercubo Nodos => PC’s o similares

proPar Redes Directas y... comParalelos-61
Parámetros de interés: Ancho de banda (agregado vs bisección) y x Latencia (Msj[0], Msj[N]) Diámetro Coste (grado: #puertos comunicaciones) Toro 2D ¿ Por qué todo esto ? ¡ Anillo embebido !

HIPERCUBO Dim3 Dim1 Dim2 Diámetro = log2 N Grado = log2 N Fácil encaminar Dim4

Encaminamiento en HIPERCUBO (Sea N=16) 1 2 3 4 1. Numerar nodos en binario. Nodos adyacentes difieren en un bit (el asociado a la dirección que les une) 0000 4321 1010 1111 0101 0111 0110 0011 Nodo actual 0111 Nodo destino 1010 2. Enviar mensaje por el enlace asociado a la menor dirección donde no coinciden bit del nodo actual y bit del nodo destino 0001 0010 0100 1000 ¿ Realizar ORX ? 0111 ORX 1010 = 1101 0110 1010 0010 1010 1010

proPar Redes de PC’s como ... comParalelos-64
Ventajas del entorno PC, o similar, para Sistemas Paralelos Hardware rápido y barato (cada año | año y medio más) CPU (Core i7, AMD Phenom, IBM PowerPC, …) Memoria P. y Caché (4..8GB.. y 2MB..8MB) Disco (1TB rpm RAID) Tecnologías de interconexión Ethernet (Fast, Giga, 10Giga), Infiniband, .... Software Sistema Operativo (Linux, Solaris, Windows, ...) Entorno de programación ( PVM, MPI, ...  C, C++, .... ) Thomas Sterling, “Beowulf Cluster Computing with Linux” | “Windows” , 2002

Tecnologías de interconexión Ethernet Más común (barato)  10 4µs GigaEthernet 10GigaEthernet Infiniband Gbps 1 Latencia? µs 10µs TarjetaRed 10€ 400€.. 500$.. Switch (16) 80€ miles€ 6.000$.. ¡ Ojo, todavía menos ! MsjMin 64B Control Error Datos (variable) 4B B Tipo 2B Dirección Origen Destino 6B Preámbulo 8B dirección + COLISIONES

Nuestro entorno de prácticas Core i7 Pentium Core 2 Quad Q6600 2,4GHz • 8ML2 • 4GB • 500GB Switch GigaEthernet pc1 pc2 pc3 pc5 pc4 pc6 pc7 pc8 Red E.U.I. iaclusters2 iaclusters1

proPar Posibilidades de acelerar ... comParalelos-68
ALGUNAS MEDIDAS DE PARALELISMO GRADO: Número de CPU’s para las que tengo trabajo simultaneo GRANO: Tamaño (# instrucciones) asignado a cada CPU Granularidad gruesa, media, fina Miles I. Cientos I. Varias I. + grado + comunicación Maximizar ratio = Tcómputo / Tcomunicación

GRADO y GRANO: ¡ Pintar 18 habitaciones ! ¿18 pintores => Grado = 18 Grano = 1h? ¿Sólo cuento con 3 pintores? ¿Tengo 7 pintores? ¿Me la pega mi marido | mujer?

ordenarPar: Ordenar un vector en memoria ordenar T1 T2 T3 T4 T1 T3 mezclar T1 mezclar

ACELERACIÓN: “Speedup” Cuántas veces más rápido al contar con “n” CPU’s en vez de una. (Absoluta) Sn = Tsecuencial / Tparalelo = T1 / Tn SI CON UNA CPU SE ORDENA EN 1 MINUTO, ¿CON 4 CPU’s SE ORDENA EN? ===> 15”, 20”, .....??? 1 <= Sn <= n n = Máximo teórico EFICIENCIA: Lo mismo, pero teniendo en cuenta “n”. (Relativa) En = Sn / n = T1 / nTn 1/n <= En <= 1 1 = Máximo teórico

proPar Cantidad de paralelismo comParalelos-72
ACELERACIÓN: ¿Por qué no tanto? t/2 Thread1 Thread2 rec(1, &msj) ? Acceso a datos comunes Sincronismo Comunicación 1 env(2, &msj)

ACELERACIÓN: ¿Por qué no tanto? P0 P1 P2 P3 P4 P5 ? Reparto no equilibrado 2 A unos más trabajo que a otros Unos cores más rápidos que otros Código secuencial puro 3

proPar Cantidad de paralelismo comParalelos-75
ACELERACIÓN: ¿Puede que todavía más? t/2 ? Superaceleración Ficticia Real ? #nodos T 1 2 4 29:381 Ordenar int 1000 Sn 3,38 1.000 8:693 2:181 13,47

16 32 64 128 10 20 30 40 50 60 70 versión 12/94 versión 9/94 versión 8/94 Aceleración en tres versiones de un programa paralelo Pfeiffer et al (AMBER en Intel Paragon 128 P)

proPar Posibilidades de acelerar … comParalelos-77
Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

¡ Eficiencia del 96% ! ¡ cores En=82%!

proPar Posibilidades de acelerar ..... comParalelos-80
¿Máxima Aceleración? – Ley de Amdahl (a) Una CPU T1 200 F T1 (1-F) T1 0,1 20 180 Secuencial Trozos paralelizables n CPU’s 5 (b) Varias CPU’s 36 Sn = T1 / Tn 8 Tn (1-F)T1/n n Sn = 1 + (n-1) F

proPar Posibilidades de acelerar ..... comParalelos-81
Sn Significado F = 0% 20 FIN n Sn = 1 + (n-1) F 16 12 F = 5% 8 ¡ F=5% => Lim Sn = 20 ! 4 F = 20% “Amdahl’s Law in the Multicore Era” Mark D. Hill & Michael R. Marty 2007 n 4 8 12 16 20

proPar Multicomputadores comParalelos-57

Presentaciones similares

Presentación del tema: "proPar Multicomputadores comParalelos-57"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

proPar Multicomputadores comParalelos-57

Presentaciones similares

Presentación del tema: "proPar Multicomputadores comParalelos-57"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback