La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

arqAvaPar Necesidades, Evolución/Revolución Introducción-60

Presentaciones similares


Presentación del tema: "arqAvaPar Necesidades, Evolución/Revolución Introducción-60"— Transcripción de la presentación:

1 arqAvaPar Necesidades, Evolución/Revolución Introducción-60
3MHz MHz ¡ 2mW vs 10, 35, 45, 130W ! ISSCC’12

2 arqAvaPar Necesidades, Evolución/Revolución Introducción-61
19 Ene 2015 14 Dic 2016 Apollo 2 horas, semanas meses, años

3 arqAvaPar Necesidades, Evolución/Revolución Introducción-62
Problemática del cosumo: Energía dinámica + estática V (ke ) -qVth/(akaT) ¿ Entre 10 y 100 veces mejor ? high-k + metal gate 2008

4 arqAvaPar Necesidades, Evolución/Revolución Introducción-63
¿Hasta cuándo?

5 arqAvaPar Necesidades, Evolución/Revolución Introducción-64
¿Necesidades alcanzables con modelo Von Neumann? 1989-Decegama µP secuenciales al límite “Velocidad luz” 1999-Prensa La tecnología actual se agotará en 1/2 décadas 2006-UCM Hasta 2018, 8 nanómetros, T 2012-Carver Mead Estamos ante chips al límite de su miniaturización ISSCC 2015 ¿InGaAs? Arseniuro de Galio Indio

6 arqAvaPar Necesidades, Evolución/Revolución Introducción-65
¿Necesidades alcanzables con modelo Von Neumann? 1989-Decegama µP secuenciales al límite “Velocidad luz” 1999-Prensa La tecnología actual se agotará en 1/2 décadas 2006-UCM Hasta 2018, 8 nanómetros, T 2012-Carver Mead Estamos ante chips al límite de su miniaturización En busca de “El Dorado” o el síndrome Von Neumann EVOLUCIÓN Invisible µProgramación Segmentación Caché MIMD tiempo compartido Memoria virtual Instrucciones vectoriales ¿Ciencia Ficción? Silicon Laser Moleculares Cuánticos REVOLUCIÓN Visible Mayor grado de paralelismo RISC, Superescalares SIMD masivo MIMD Propósito específico Intel TeraFlop Research Chip

7 arqAvaPar Necesidades, Evolución/Revolución Introducción-66
Febrero 2007: Intel anuncia el Teraflops Research Chip kW 62W 80 núcleos

8 arqAvaPar Necesidades, Evolución/Revolución Introducción-67

9 arqAvaPar Necesidades, Evolución/Revolución Introducción-68
Julio 2007: Intel rompe la barrera de los 40Gbps en Silicon Laser Julio 2010: Intel solución integral a 50Gbps en Silicon Laser

10 arqAvaPar Necesidades, Evolución/Revolución Introducción-69
64 x 25G  1,6 Tbps + Robusto + Delgados + Baratos Hasta 300 metros Q3 2014 11Millones$

11 arqAvaPar Necesidades, Evolución/Revolución Introducción-70
Algunos ¿avances? en computación molecular A 16-bit parallel processing in a molecular assembly – 2008 Massively parallel computing on an organic molecular layer – 2010 Nature nanotechnology Oct/2014

12 arqAvaPar Necesidades, Evolución/Revolución Introducción-71
Algunos ¿avances? en computación molecular CSIC

13 arqAvaPar Necesidades, Evolución/Revolución Introducción-72
¿Existe? la computación cuántica EUI 2 Junio 2006: Ignacio Cirac Instituto Max Planck 1995 => Artefactos de 1 ión 2005 => Artefactos de 8 iones 2012 => Artefactos de 15 iones Factorizar números de 200 cifras => iones ¡ Llegar a iones ! 13 Feb 2007: D-Wave 16 qubit adiabatic quantum computer ¿ Marketing ?

14 arqAvaPar Necesidades, Evolución/Revolución Introducción-73
128 qubits 1000 qubits 21000 búsquedas simultaneas de soluciones Harvard & D-Wave 25Kw vs 2.500Kw 512 qubits rápido 2048 qubits rápido

15 arqAvaPar Necesidades, Evolución/Revolución Introducción-74
Sep/2016 ¿15 m$ ?

16 arqAvaPar Necesidades, Evolución/Revolución Introducción-75

17 arqAvaPar Conceptos Introducción-76
CANTIDAD DE PARALELISMO Y MEDIDAS GRADO – GRANO ACELERACIÓN – EFICIENCIA TIPO / FUENTES DEL PARALELISMO CONTROL – DATOS – FLUJO ACOPLAMIENTO (Dependencia) FUERTE – DÉBIL ESCALABILIDAD (Crecimiento lineal) SI – NO

18 arqAvaPar Conceptos Introducción-77
CANTIDAD DE PARALELISMO Y MEDIDAS GRADO – GRANO ACELERACIÓN – EFICIENCIA Asturias 1963

19 arqAvaPar Cantidad de paralelismo Introducción-78
GRADO: Número de Unidades de Proceso para las que se tiene trabajo durante un intervalo de tiempo 1 3 2 4 6 5 Grado T0 T1 T9 T2 T8 T7 T6 T5 T4 T3 Tiempo Grado = 26 / 9 = 2,89 Poco 3-5 Mucho 32 Muchísimo ¿Cómo varía?

20 arqAvaPar Conceptos Introducción-79
ordenarPar: Ordenar un vector en memoria ordenar T1 T2 T3 T4 T1 T3 mezclar T1 mezclar

21 arqAvaPar Cantidad de paralelismo Introducción-80
GRANO: Tamaño medio de las acciones ejecutadas en paralelo por Unidad de Proceso (Distribución de Carga) #Instr. Finísimo 1 Instrucción 20 FINO 2 Bucle 500 MEDIO 3 Subrutina 2000 MEDIO/ 4 Subprograma Miles GRUESO GRUESO 5 Programa Miles.... Grado de paralelismo Sobrecarga Comunica. Hw + Compilador Programador S.O.

22 arqAvaPar Cantidad de paralelismo Introducción-81
gcc gcc –O3 Epiphany 16

23 arqAvaPar Cantidad de paralelismo Introducción-82
ACELERACIÓN: “Speedup” Cuántas veces más rápido al contar con “n” U.P. en vez de una. (Absoluta) Sn = Tsecuencial / Tparalelo = T1 / Tn SI CON UNA U.P. SE ORDENA EN 1 MINUTO, ¿CON 4 U.P. SE ORDENA EN? ===> 15”, 20”, .....??? 1 <= Sn <= n n = Máximo teórico EFICIENCIA: Lo mismo, pero teniendo en cuenta “n”. (Relativa) En = Sn / n = T1 / nTn 1/n <= En <= 1 1 = Máximo teórico

24 arqAvaPar Cantidad de paralelismo Introducción-83
ACELERACIÓN: ¿Por qué no tanto? t/2 Thread1 Thread2 rec(1, &msj) ? Acceso a datos comunes Sincronismo Comunicación 1 env(2, &msj)

25 arqAvaPar Cantidad de paralelismo Introducción-84

26 arqAvaPar Cantidad de paralelismo Introducción-85
ACELERACIÓN: ¿Por qué no tanto? P0 P1 P2 P3 P4 P5 ? Reparto no equilibrado 2 A unos más trabajo que a otros Unos cores más rápidos que otros Código secuencial puro 3

27 arqAvaPar Cantidad de paralelismo Introducción-86
ACELERACIÓN: ¿Puede que todavía más? t/2 ? Superaceleración Ficticia Real ? #nodos T 1 2 4 29:381 Ordenar int 1000 Sn 3,38 1.000 8:693 2:181 13,47

28 arqAvaPar Cantidad de paralelismo Introducción-87
16 32 64 128 10 20 30 40 50 60 70 versión 12/94 versión 9/94 versión 8/94 Aceleración en tres versiones de un programa paralelo Pfeiffer et al (AMBER en Intel Paragon 128 P)

29 arqAvaPar Cantidad de paralelismo Introducción-88
Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

30 arqAvaPar Cantidad de paralelismo Introducción-89
Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

31 arqAvaPar Cantidad de paralelismo Introducción-90
¡ Eficiencia del 96% ! ¡ cores En=82%!

32 arqAvaPar Conceptos Introducción-91
PARALELISMO DE CONTROL (Prog. Concurrente) Descomposición en subtareas simultáneas (Una x núcleo) Supervisión industrial, Productor/Consumidor, Editor … MUY COMÚN, pero .... ¡Poco relevante! (Grado  3) PARALELISMO DE DATOS (Espacial) Operaciones sobre datos regulares (vectores) aplicando la misma operación sobre cada elemento MMX SSE SSE4 AVX 3DNow AltiVec 2 1 3 4 5 7 8 6 9 A B C + MENOS COMÚN, pero ¡Más relevante! (Grado  )

33 arqAvaPar Tipo / Fuentes (Control, Datos, Flujo) Introducción-92
PARALELISMO DE FLUJO (Temporal) Idea intuitiva => Cadena de montaje de coches Secuencia de datos homogéneos de entrada Peluquería Personas Despeinadas (Di) Lavar => Cortar => Marcar Proceso divisible en subtareas secuenciales (filtros) LCM 1Hora 3 Mill. 11:00 (2) D5,D4,D3 P1 10:45 (1) D4,D3,D2 10:00 (1) 10:15 (1) D2 10:30 (1) D3,D2 10:40 (3) (2) (1) 11:00 (4) (3) (2) D5 P1 10:30 (2) (1) D3 10:45 (3) (2) (1) D4 10:15 (1) D2 10:20 (2) (1) 10:00 (1) L C M 20’ 20’ ’ 1,5 M 1,5M ,5M Secuencial => 1P x Hora Vs Pipeline => 1P x 20’

34 arqAvaPar Tipo / Fuentes (Control, Datos, Flujo) Introducción-93
PARALELISMO DE FLUJO (II) Direct3D F D I E M W Control Flujo Datos 3 30 106 Grado ¡ No siempre mejora de N ! ALGO COMÚN, pero .... ¡No muy relevante! (Grado  30)

35 arqAvaPar Acoplamiento Introducción-94
Grado de dependencia entre las partes (Hw/Sw) Datos Comunes Cantidad relativa de interacciones Sincronismo Grano Fino Grueso FUERTE Pi Pj DC DÉBIL Pi Pj Poca localidad Cuellos de botella Mucha localidad Buena característica

36 arqAvaPar Escalabilidad Introducción-95
Aumento de prestaciones con coste lineal o nlogn NO ESCALABLE 2 3 4 5 1 6 10 ESCALABLE 4 9 16 25 12 24 40 1 1,3 1,5 1,6 0,5 1,0 1,5 2,0 ,5

37 arqAvaPar Escalabilidad Introducción-96
Aumento de prestaciones con coste lineal o nlogn 13.000 20.000 30.000 30.000 42.000 75.000 66.000

38 arqAvaPar Límites al paralelismo Introducción-97
¿Máxima Aceleración? – Ley de Amdahl (a) Una CPU T1 200 F T1 (1-F) T1 0,1 20 180 Secuencial Trozos paralelizables n CPU’s 5 (b) Varias CPU’s 36 Sn = T1 / Tn 8 Tn (1-F)T1/n n Sn = 1 + (n-1) F

39 arqAvaPar Límites al paralelismo Introducción-98
Sn Significado F = 0% 20 n Sn = 1 + (n-1) F 16 12 F = 5% 8 ¡ F=5% => Lim Sn = 20! 4 F = 20% “Amdal’s Law in the Multicore Era”. Mark D. Hill & Michael R. Marty 2007 n 4 8 12 16 20

40 arqAvaPar Clasificación de Flynn (1972) Introducción-99
Combina Flujo de Datos y Flujo de Instrucciones con (Single) Único y Múltiple, dando 4 combinaciones: Flujo de Datos Múltiple Único Flujo de Intrucc. SISD MISD MIMD SIMD SISD Una Instrucción un Dato Von Neumann SIMD Una Instrucción muchos Datos Vectoriales / Sistólicos MISD Muchas Instrucciones un Dato Pipeline? MIMD Muchas Instrucciones muchos Datos Multiprocesadores / Multicomputadores

41 arqAvaPar Modelos SISD y MISD Introducción-100
SISD: Una Instrucción un Dato (Von Neumann) I UC UP MP D MISD: Muchas Instrucciones un Dato (Pipeline?) MP Programa Datos UC1 UC2 UCN UP1 UP2 UPN I1 In I2 D

42 arqAvaPar Modelo SIMD Introducción-101
SIMD: Una Instrucción muchos Datos (Vectoriales, ....) UC UP1 MP UPi UPn Memoria Común R E D Host Síncronas LockStep UC UP1 UPi UPn ML1 MLn MLi Memoria Distribuida D1 Dn Di D1 Dn Di I I I I Cuello de botella Acoplamiento fuerte Acoplamiento débil No escalable

43 arqAvaPar Modelo MIMD Introducción-102
MIMD: Muchas Instrucciones muchos Datos M. Común (Multiprocesador) UC1 UP1 M.P. UPi UPn BUS RED D1 Dn Di I1 UCi UCn In Ii M. Distribuida (Multicomputador) M P Red a t1 t2 aa a t1 t2 Acoplamiento Fuerte Acoplamiento Débil Memoria común vs Paso de mensajes

44 arqAvaPar Clasificación de Flynn Ampliada Introducción-103
Arquitecturas Paralelas GRID Computing ? CLOUD Computing ? SISD SIMD MISD MIMD Procesadores Vectoriales Array de Procesadores Sistólicos Von Neumann ?? Multi-procesadores Multi-computadores UMA NUMA COMA Distintas formas de organizar la memoria común MPP COW NOW Beowulf Symetric Multi Processor Distributed Shared Memory

45 arqAvaPar Perspectiva histórica Introducción-104
SIMD Se inicia en 1965, se vende en 1972 y funciona en 1975 Fiasco ILLIAC IV Presupuesto $6 Mill y costó $31 Mill 1/4 de máquina Se esperaban 1000 MF y se obtuvieron 15MF ¿Dormidas para propósito general?, pero tienen su nicho: Procesamiento de Imagen, Señal, Genética, Búsquedas

46 arqAvaPar Perspectiva histórica Introducción-105
MIMD HWANG (1993) IDENTIFICA TRES GENERACIONES: Hipercubo con Encaminamiento Sw Malla con Encaminamiento Hw (Sw de grano medio) µP y comunicaciones en el mismo chip (grano fino) Multiprocessor systems-on-chips (MPSoCs) Hoy núcleos ¿Se llegará a 400 en 2020?

47 arqAvaPar Tendencias Introducción-106
MÁQUINAS BASADAS EN µP COMERCIALES ¿MUCHOS µP SENCILLOS O POCOS Y POTENTES? ¿QUÉ TIPO DE MÁQUINA PARALELA? MÁQUINAS MÁS POTENTES: ¿CUÁLES Y PARA QUÉ? ¿QUÉ SISTEMA OPERATIVO?

48 arqAvaPar Las máquinas más potentes (Nov/2017) Introducción-107
¿Qué micros se utilizan? Intel Intel 94% AMD 1% IBM POWER 3% Micros convencionales de gama alta Dell 98% Cray Cray SUN/Oracle Otros IBM

49 arqAvaPar Las máquinas más potentes (Nov/2017) Introducción-108
¿Cientos o miles de micros? Total Max Med Min 9.792 58.578 Sin TOP10

50 arqAvaPar Las máquinas más potentes (Nov/2017) Introducción-109
¿Qué arquitecturas dominan? MPP SMP Cluster Constelación SIMD Mono

51 arqAvaPar Las máquinas más potentes (Nov/2017) Introducción-110
¿Cuáles? N Ordenador Tflops Ubicación #Núcleos 1 Sunway TaihuLight 93.015 National Super Computer Center (China) 2 Tianhe-2 (MilkyWay-2) 33.863 3 Piz Daint Cray XC50 Xeon 12 19.590 Swiss National Supercomputing Centre (Suiza) 4 Gyoukou HPC Xeon 16 19.136 Japan Agency for Marine-Earth Science … (Japón) 5 Titan Cray XK7 Opteron 16 17.590 DOE/SC/Oak Ridge National Laboratory (USA) 16 MareNostrum 4 Xeon 24 6.471 Barcelona Supercomputer Center (España) Centros: 3, 3, 1, 7, 6, 7, 5, 3, 3, 3, 2, 2, 2, 2, 1, 1, 1 Puesto: 424, 5, 11, 5, 9, 26, 60, 87, 118, 114, 36, 34, 57, 93, 129, 13, 16

52 arqAvaPar Las máquinas más potentes (Nov/2015) Introducción-111
¿En qué se utilizan? ¿ Cada vez más en la industria ? Nov2017  Sin especificar 96,2% 481/500

53 arqAvaPar Las máquinas más potentes (Nov/2017) Introducción-112
¿Qué S.O. usan? CMOST HP-UX Otros Windows => 0 UNICOS UNIX Linux IRIX AIX OSF Solaris

54 arqAvaPar ¿Quién se come a quién? Introducción-113
FIN now.cs.berkeley.edu/


Descargar ppt "arqAvaPar Necesidades, Evolución/Revolución Introducción-60"

Presentaciones similares


Anuncios Google