Descargar la presentación
La descarga está en progreso. Por favor, espere
1
proPar Multicomputadores comParalelos-57
Pn RED de Comunicación Memoria Privada | Memoria Distribuída MPP COW/NOW Beowulf ASCI Q (#2 Nov02) 8192 Pi 13,88 TF 175 millones € System X (#7 Nov04) 2200 Pi (G5) 10,28 TF 4,5 millones € 12 Pi, €
2
proPar Multicomputadores comParalelos-58
21 servidores Supermicro Intel Core 2 Q6600 2,4GHz + 4GB 84 núcleos + 84GB 20.600€ 21 servidores 1.000€ armario Sep/2008
3
proPar Ejemplos de Jerarquía de Memoria comParalelos-59
1 2002 ASCI Q 22 TB 440 TB 2 2003 Virginia Tech’s X 4 TB 176 TB 7 2004 30 91 108 2007 472 Tianhe-2 1,3 PB 12,4 PB 1 Nov/2013 Summit 10 PB 250 PB 1 Jun/2018 MTBF = 6,16 días* ¡ núcleos !
4
proPar Redes Directas comParalelos-60
Switch MultiC más integrado De otros nodos A otros nodos P M IC Red con enlaces directos entre Pi Unas redes directas: Array lineal Anillo Árbol Mallas 2D y 3D Toros 2D y 3D Hipercubo Nodos => PC’s o similares
5
proPar Redes Directas y... comParalelos-61
Parámetros de interés: Ancho de banda (agregado vs bisección) y x Latencia (Msj[0], Msj[N]) Diámetro Coste (grado: #puertos comunicaciones) Toro 2D ¿ Por qué todo esto ? ¡ Anillo embebido !
6
proPar Redes Directas comParalelos-62
HIPERCUBO Dim3 Dim1 Dim2 Diámetro = log2 N Grado = log2 N Fácil encaminar Dim4
7
proPar Redes Directas comParalelos-63
Encaminamiento en HIPERCUBO (Sea N=16) 1 2 3 4 1. Numerar nodos en binario. Nodos adyacentes difieren en un bit (el asociado a la dirección que les une) 0000 4321 1010 1111 0101 0111 0110 0011 Nodo actual 0111 Nodo destino 1010 2. Enviar mensaje por el enlace asociado a la menor dirección donde no coinciden bit del nodo actual y bit del nodo destino 0001 0010 0100 1000 ¿ Realizar ORX ? 0111 ORX 1010 = 1101 0110 1010 0010 1010 1010
8
proPar Redes de PC’s como ... comParalelos-64
Ventajas del entorno PC, o similar, para Sistemas Paralelos Hardware rápido y barato (cada año | año y medio más) CPU (Core i7, AMD Phenom, IBM PowerPC, …) Memoria P. y Caché (4..8GB.. y 2MB..8MB) Disco (1TB rpm RAID) Tecnologías de interconexión Ethernet (Fast, Giga, 10Giga), Infiniband, .... Software Sistema Operativo (Linux, Solaris, Windows, ...) Entorno de programación ( PVM, MPI, ... C, C++, .... ) Thomas Sterling, “Beowulf Cluster Computing with Linux” | “Windows” , 2002
9
proPar Redes de PC’s como ... comParalelos-65
10
proPar Redes de PC’s como ... comParalelos-66
Tecnologías de interconexión Ethernet Más común (barato) 10 4µs GigaEthernet 10GigaEthernet Infiniband Gbps 1 Latencia? µs 10µs TarjetaRed 10€ 400€.. 500$.. Switch (16) 80€ miles€ 6.000$.. ¡ Ojo, todavía menos ! MsjMin 64B Control Error Datos (variable) 4B B Tipo 2B Dirección Origen Destino 6B Preámbulo 8B dirección + COLISIONES
11
proPar Redes de PC’s como ... comParalelos-67
Nuestro entorno de prácticas Core i7 Pentium Core 2 Quad Q6600 2,4GHz • 8ML2 • 4GB • 500GB Switch GigaEthernet pc1 pc2 pc3 pc5 pc4 pc6 pc7 pc8 Red E.U.I. iaclusters2 iaclusters1
12
proPar Posibilidades de acelerar ... comParalelos-68
ALGUNAS MEDIDAS DE PARALELISMO GRADO: Número de CPU’s para las que tengo trabajo simultaneo GRANO: Tamaño (# instrucciones) asignado a cada CPU Granularidad gruesa, media, fina Miles I. Cientos I. Varias I. + grado + comunicación Maximizar ratio = Tcómputo / Tcomunicación
13
proPar Posibilidades de acelerar ... comParalelos-69
GRADO y GRANO: ¡ Pintar 18 habitaciones ! ¿18 pintores => Grado = 18 Grano = 1h? ¿Sólo cuento con 3 pintores? ¿Tengo 7 pintores? ¿Me la pega mi marido | mujer?
14
proPar Posibilidades de acelerar ... comParalelos-70
ordenarPar: Ordenar un vector en memoria ordenar T1 T2 T3 T4 T1 T3 mezclar T1 mezclar
15
proPar Posibilidades de acelerar ... comParalelos-71
ACELERACIÓN: “Speedup” Cuántas veces más rápido al contar con “n” CPU’s en vez de una. (Absoluta) Sn = Tsecuencial / Tparalelo = T1 / Tn SI CON UNA CPU SE ORDENA EN 1 MINUTO, ¿CON 4 CPU’s SE ORDENA EN? ===> 15”, 20”, .....??? 1 <= Sn <= n n = Máximo teórico EFICIENCIA: Lo mismo, pero teniendo en cuenta “n”. (Relativa) En = Sn / n = T1 / nTn 1/n <= En <= 1 1 = Máximo teórico
16
proPar Cantidad de paralelismo comParalelos-72
ACELERACIÓN: ¿Por qué no tanto? t/2 Thread1 Thread2 rec(1, &msj) ? Acceso a datos comunes Sincronismo Comunicación 1 env(2, &msj)
17
proPar Posibilidades de acelerar ... comParalelos-73
18
proPar Posibilidades de acelerar ... comParalelos-74
ACELERACIÓN: ¿Por qué no tanto? P0 P1 P2 P3 P4 P5 ? Reparto no equilibrado 2 A unos más trabajo que a otros Unos cores más rápidos que otros Código secuencial puro 3
19
proPar Cantidad de paralelismo comParalelos-75
ACELERACIÓN: ¿Puede que todavía más? t/2 ? Superaceleración Ficticia Real ? #nodos T 1 2 4 29:381 Ordenar int 1000 Sn 3,38 1.000 8:693 2:181 13,47
20
proPar Posibilidades de acelerar ... comParalelos-76
16 32 64 128 10 20 30 40 50 60 70 versión 12/94 versión 9/94 versión 8/94 Aceleración en tres versiones de un programa paralelo Pfeiffer et al (AMBER en Intel Paragon 128 P)
21
proPar Posibilidades de acelerar … comParalelos-77
Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)
22
proPar Posibilidades de acelerar … comParalelos-78
Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)
23
proPar Posibilidades de acelerar … comParalelos-79
¡ Eficiencia del 96% ! ¡ cores En=82%!
24
proPar Posibilidades de acelerar ..... comParalelos-80
¿Máxima Aceleración? – Ley de Amdahl (a) Una CPU T1 200 F T1 (1-F) T1 0,1 20 180 Secuencial Trozos paralelizables n CPU’s 5 (b) Varias CPU’s 36 Sn = T1 / Tn 8 Tn (1-F)T1/n n Sn = 1 + (n-1) F
25
proPar Posibilidades de acelerar ..... comParalelos-81
Sn Significado F = 0% 20 FIN n Sn = 1 + (n-1) F 16 12 F = 5% 8 ¡ F=5% => Lim Sn = 20 ! 4 F = 20% “Amdahl’s Law in the Multicore Era” Mark D. Hill & Michael R. Marty 2007 n 4 8 12 16 20
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.