La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5AUMENTO DE PRESTACIONES Horas 4.. 5 7 3 4.

Presentaciones similares


Presentación del tema: "Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5AUMENTO DE PRESTACIONES Horas 4.. 5 7 3 4."— Transcripción de la presentación:

1 Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5AUMENTO DE PRESTACIONES Horas

2 arqAvaTemarioIntroducción-2 1INTRODUCCIÓN 1Necesidades, evolución/revolución de la tecnología 2Conceptos 1Cantidad de paralelismo (Medidas) 2Tipos/Fuentes del paralelismo 3Acoplamiento (Dependencia) 4Escalabilidad (Crecimiento lineal) 3Clasificación de Flynn (ampliada) 4Perspectiva histórica, tendencias, implantación

3 arqAvaNecesidades, Introducción-3 ¿Se necesita más potencia que la de un superPC? Modelización predictiva y Simulaciones Diseño y automatización (Proyectos de ingeniería) Exploración de recursos energéticos Investigación médica y militar Investigación básica Dibujos animados y efectos especiales Realidad virtual eCommerce y Web serving ¿De qué orden de magnitud estamos hablando Flops?

4 arqAvaNecesidades, Introducción-4 SDK-85 de 1977 a 250$ Intel 8085A 3MHz y B RAM Usado en EUI en 1980/81 MZ 80B de 1981 a 1100£ Zilog Z-80A 4MHz y KB RAM Usado en TFC en 1983 ¿Qué tenemos hoy?

5 arqAva Necesidades, Introducción-5 Simulación peligro caro inviable TeoríaExperimentos

6 arqAva Necesidades, Introducción-6 Predicción del tiempo (CESGA: METEO ) 250 Km 35 niveles ¿ Tiempo para 24 horas ? Fujitsu VPP300E => 6h30m (T, P, H, VV, DV, …) celdas y paso de 10 seg Predicción a días (ECMWF: celdas y paso de 20 minutos Predicción a 10 días: Fujitsu VPP700 => 1h35min 2003 Nuevo supercomputador y modelo: 40 25Km; niveles; 15 12; Op* ¿Con un PC, 4..5 días?

7 arqAvaNecesidades, … Introducción-7 Predicción a 10 días (ECMWF: Fortran90+MPI+OpenMP Típico: tareas MPI 2 o 4 threads OpenMP 288 núcleos predecir POWER POWER7

8 arqAva Necesidades, Introducción-8 Centro de Supercomputación de Pittsburgh 512 procesadores (x8) Intel Xeon (Nehalem) Projects in Scientific Computing (141) Plegamiento de proteínas Predicción de tormentas Estudios de turbulencias Modelos sísmicos Investigación: SIDA, CANCER Modelización del fluido cardiaco Fenómenos oceánicos Dinámica de fluidos y electromagnetismo átomos Simular 1 seg 256 procesadores ¡¡ 3 meses !! folding.stanford.edu ¡¡ Tifón !!

9 arqAva NecesidadescomParalelos-9 Centro de Supercomputación de Pittsburgh + CAPS + NOAA + … 4Mayo2007 Tornado EF5 Greensburg Emergencia 30´ antes Suenan sirenas 20´ antes Sólo 10 víctimas 95% del pueblo arrasado ¿Será posible predecir antes? 1989: Escepticismo: caóticos e impredecibles 2007: Investigadores+Supercomp. viable predecir a 24 horas

10 arqAva Necesidades, Introducción-10 Dibujos animados y efectos especiales ¡ Muy costosa la renderización ! ª totalmente digital 117 SUNs millones Pts ª Europea en 3D > 20 CPUs CESGA 550 millones Pts er superhéroe digital 100 SGI Octane millones Pts. 2008

11 arqAva Necesidades, Introducción-11 El sueño de una noche de San Juan (2005) 45 x fotograma [ ] Un nodo => + 32 años 165 Pentium III y 4 Pixar How We Do It 6h x fotograma, algunos 90h

12 arqAvaNecesidades, …Introducción : Hellenic Cosmos SGI Octane III – IDF 2009 hasta 80 núcleos con 1 TB desde 8.000$ Personal Supercomputer 2004: El Museo Británico abre un centro de realidad virtual que permite explorar virtualmente una momia de hace 3000 años SGI Onix procesadores

13 arqAva Necesidades, Introducción-13 Requisitos identificados por el HPCC Program (1992) Capacidad de Memoria Mflops Gflops Tflops Gflops Gflops 10 MB Velocidad del Sistema Genoma Humano Turbulencia fluidos Dinámica de vehículos Circulación océanos Visión, Tiempo en 48 horas Tiempo en 72 horas Identificar vehículos Modelos Plasma 3D Diseño farmacéutico Dinámica de la Química Biología estructural 100 MB 1000 GB 100 GB 10 GB 1 GB ¿2010? µP Jaguar AMD SixCore 2,66GHz 2331 TFlop 4µP Core i ,66GHz 60 GFlop 4/12/96 ¿1 Pflops? ¿2010? 5 Tflops y 8 Tbytes 98Tbytes

14 arqAva Necesidades, Introducción-14 Introduction to Terascale Code Development (Sep/2004)

15 arqAva Necesidades, Evolución/RevoluciónIntroducción-15 –Según Moore x2 cada 2 años. Según Hennessy: Rendimiento anual Mainframes y MinisµP CISCµP RISC 20-30% 50% 35% ¿Necesidades alcanzables con modelo Von Neumann? –Las mejoras han sido contínuas: Mayor velocidad de conmutación Mayor grado de integración Memorias caché y multipuerto Paralelismo interno (Pipeline y Superescalar) Racionalización de diseños (RISC) ¿Sostenible? Consumo % Procesadores con varios núcleos 2/3 Tecnología µArq

16 arqAva Necesidades, Evolución/RevoluciónIntroducción-16 Mayor velocidad de conmutación Silicio 2MHz.. 2GHz] Arseniuro de Galio *10 Silicio Grafeno 100GHz? Mayor grado de integración micras ,18 0,15 0,13 0,09 0, nm

17 arqAva Necesidades, Evolución/RevoluciónIntroducción-17 Gordon Moore (Cofundador de Intel) 19/04/1965 Dual core Intel® Itanium® 2 (24MB cache) Intel Core i7 8MB cache L

18 arqAva Necesidades, Evolución/RevoluciónIntroducción-18 Problemática del cosumo: Energía dinámica + estática Capacitancia * Actividad * V 2 * f Longitud cables 4 núcleos mejor Cachés pequeñas ¿multibanco? 0 1 UF Reloj Activar ¡ Clock gating ! 5V 1V 0,4V 2016 Baja Sube Dynamic Voltage Frequency Scaling

19 arqAva Necesidades, Evolución/RevoluciónIntroducción-19 Problemática del cosumo: Energía dinámica + estática V ( ke ) -qV th /(ak a T) ¿ Entre 10 y 100 veces mejor ? high-k + metal gate

20 ¿Hasta cuándo? arqAva Necesidades, Evolución/RevoluciónIntroducción-20 HPCA03

21 arqAva Necesidades, Evolución/RevoluciónIntroducción-21 ¿Necesidades alcanzables con modelo Von Neumann? –1989-Decegama µP secuenciales al límite Velocidad luz –1999-Prensa La tecnología actual se agotará en 1/2 décadas –2006-UCM Hasta 2018, 8 nanómetros, T En busca de El Dorado o el síndrome Von Neumann EVOLUCIÓN Invisible µProgramación Segmentación Caché MIMD tiempo compartido Memoria virtual Instrucciones vectoriales REVOLUCIÓN Visible Mayor grado de paralelismo RISC, Superescalares SIMD masivo MIMD Propósito específico ¿Ciencia Ficción? Silicon Laser Moleculares Cuánticos Intel TeraFlop Research Chip

22 arqAva Necesidades, Evolución/RevoluciónIntroducción-22 Febrero 2007: Intel anuncia el Teraflops Research Chip kW 62W 80 núcleos

23 arqAva Necesidades, Evolución/RevoluciónIntroducción-23 1 Tbps Julio 2007: Intel rompe la barrera de los 40Gbps en Silicon Laser

24 arqAva Necesidades, Evolución/RevoluciónIntroducción-24 Algunos ¿avances? en computación molecular A 16-bit parallel processing in a molecular assembly – PNAS Un grano de arena : 1000 µP Conexiones : nanotubos

25 arqAva Necesidades, Evolución/RevoluciónIntroducción-25 ¿Existe? la computación cuántica EUI 2 Junio 2006: Ignacio Cirac Instituto Max Planck 1995 => Artefactos de 1 ión 2005 => Artefactos de 8 iones Factorizar números de 200 cifras => iones 13 Feb 2007: D-Wave 16 qubit adiabatic quantum computer ¡ Marketing !

26 arqAva ConceptosIntroducción-26 CANTIDAD DE PARALELISMO Y MEDIDAS –GRADO– GRANO –ACELERACIÓN – EFICIENCIA TIPO / FUENTES DEL PARALELISMO –CONTROL– DATOS– FLUJO ACOPLAMIENTO (Dependencia) –FUERTE– DÉBIL ESCALABILIDAD (Crecimiento lineal) –SI– NO

27 arqAva Cantidad de paralelismoIntroducción-27 GRADO: Número de Unidades de Proceso para las que se tiene trabajo durante un intervalo de tiempo Grado T0T0 T1T1 T9T9 T2T2 T8T8 T7T7 T6T6 T5T5 T4T4 T3T3 Tiempo Grado = 26 / 9 = 2,89 ¿Cómo varía? Poco3-5 Mucho32 Muchísimo

28 arqAva Cantidad de paralelismoIntroducción-28 GRANO: Tamaño medio de las acciones ejecutadas en paralelo por Unidad de Proceso (Distribución de Carga) #Instr. FINO1Instrucción20 FINO2Bucle500 MEDIO3Subrutina2000 MEDIO/4SubprogramaMiles GRUESO GRUESO5ProgramaMiles.... Hw + Compilador Programador S.O. Grado de paralelismo Sobrecarga Comunica.

29 arqAva Cantidad de paralelismoIntroducción-29 ACELERACIÓN: Speedup Cuántas veces más rápido al contar con n U.P. en vez de una. (Absoluta) Sn = T secuencial / T paralelo = T 1 / T n SI CON UNA U.P. SE ORDENA EN 1 MINUTO, ¿CON 4 U.P. SE ORDENA EN? ===> 15, 20,.....??? 1 <= Sn <= n n = Máximo teórico EFICIENCIA: Lo mismo, pero teniendo en cuenta n. (Relativa) En = S n / n = T 1 / nT n 1/n <= En <= 1 1 = Máximo teórico

30 arqAva Cantidad de paralelismoIntroducción versión 8/94 versión 9/94 versión 12/94 Aceleración en tres versiones de un programa paralelo Pfeiffer et al (AMBER en Intel Paragon 128 P)

31 arqAva Cantidad de paralelismoIntroducción-31 Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

32 arqAva Cantidad de paralelismoIntroducción-32 Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

33 arqAva Tipo / Fuentes (Control, Datos, Flujo)Introducción-33 PARALELISMO DE CONTROL ( Prog. Concurrente) –Descomposición en subtareas simultáneas (Una x U.P.) R := [A(X) + B(Y)] * C(Z)¿Qué puede hacerse en paralelo? A(X) B(Y) C(Z) + * Tiempos de cada operación ¿Grado? MUY COMÚN, pero.... ¡Poco relevante! (Grado 3) = 13 / 6 = 2,

34 arqAva Tipo / Fuentes (Control, Datos, Flujo)Introducción-34 PARALELISMO DE DATOS (Espacial) –Operaciones sobre datos regulares (vectores) aplicando la misma operación sobre cada elemento MENOS COMÚN, pero.... ¡Más relevante! (Grado ) A C B Suma de Vectores, etc. ¡LIMITACIONES! Más datos que U.P. Operaciones escalares

35 arqAva Tipo / Fuentes (Control, Datos, Flujo)Introducción-35 PARALELISMO DE FLUJO (Temporal) –Idea intuitiva => Cadena de montaje de coches Secuencia de datos homogéneos de entrada Proceso divisible en subtareas secuenciales (filtros) Peluquería Personas Despeinadas (Di) Lavar => Cortar => Marcar LCM 1Hora 3 Mill. 10:00 (1)(1) 10:15 (1)(1) D2D2 10:30 (1)(1) D 3,D 2 10:45 (1)(1) D 4,D 3,D 2 11:00 (2)(2) D 5,D 4,D 3 P1P1 LCM ,5 M 1,5M 1,5M 10:00 (1)(1) 10:15 (1)(1) D2D2 10:20 (2)(2)(1)(1) 10:30 (2)(2)(1)(1) D3D3 10:40 (3)(3)(2)(2)(1)(1) 10:45 (3)(3)(2)(2)(1)(1) D4D4 11:00 (4)(4)(3)(3)(2)(2) D5D5 P1P1 Secuencial => 1P x HoraVsPipeline => 1P x 20

36 arqAva Tipo / Fuentes (Control, Datos, Flujo)Introducción-36 PARALELISMO DE FLUJO (II) LCM 1Hora 3 Mill. 11:00 (2)(2) D 5,D 4,D 3 P1P1 LCM ,5 M 1,5M 1,5M 11:00 (4)(4)(3)(3)(2)(2) D5D5 P1P1 ¡Ojo! Mejora no siempre de N (3) ¿Y si C ==> 30? Otros ejemplos: CPU Segmentada Voz, CD ALGO COMÚN, pero.... ¡No muy relevante! (Grado 30) Control Flujo Datos Grado

37 arqAva AcoplamientoIntroducción-37 Grado de dependencia entre las partes (Hw/Sw) Datos Comunes Cantidad relativa de interacciones Sincronismo FUERTE PiPj DC DÉBIL PiPj Poca localidad Cuellos de botella Mucha localidad Buena característica Grano FinoGrueso

38 arqAva EscalabilidadIntroducción-38 Aumento de prestaciones con coste lineal o nlogn NO ESCALABLE ,5 1,0 1,5 2, ,5 ESCALABLE ,3 1,5 1,6

39 arqAva Clasificación de Flynn (1972)Introducción-39 Combina Flujo de Datos y Flujo de Instrucciones con (Single) Único y Múltiple, dando 4 combinaciones: Flujo de Datos Múltiple Único Múltiple Único Flujo de Intrucc. SISD MISDMIMD SIMD SISDUna Instrucción un DatoVon Neumann SIMDUna Instrucción muchos DatosVectoriales / Sistólicos MISDMuchas Instrucciones un DatoPipeline? MIMDMuchas Instrucciones muchos DatosMultiprocesadores / Multicomputadores

40 arqAva Modelos SISD y MISDIntroducción-40 SISD: Una Instrucción un Dato (Von Neumann) I UCUPMP ID MISD: Muchas Instrucciones un Dato (Pipeline?) MP Programa Datos UC 1 UC 2 UC N UP 1 UP 2 UP N I1I1 InIn I2I2 I1I1 I2I2 InIn D D DD

41 arqAva Modelo SIMDIntroducción-41 SIMD: Una Instrucción muchos Datos (Vectoriales,....) I UC UP 1 MPUP i UP n Memoria Común REDRED Host D1D1 DnDn DiDi I I I I I I I D1D1 DnDn DiDi UC UP 1 UP i UP n ML 1 ML n ML i Memoria Distribuida Cuello de botella Acoplamiento fuerteAcoplamiento débil No escalable Síncronas LockStep

42 arqAva Modelo MIMDIntroducción-42 MIMD: Muchas Instrucciones muchos Datos M. Común (Multiprocesador) UC 1 UP 1 M. P. UP i UP n B U S R E D D1D1 DnDn DiDi I1I1 UC i UC n InIn IiIi M. Distribuida (Multicomputador) MPMPMP MPMP MPMPMP Red Acoplamiento FuerteAcoplamiento Débil Memoria comúnvsPaso de mensajes a t1t1 t2t2 aa a t1t1 t2t2

43 arqAva Clasificación de Flynn AmpliadaIntroducción-43 Arquitecturas Paralelas SISDSIMDMISDMIMD Multi- procesadores Multi- computadores MPPCOW NOW Von Neumann Procesadores Vectoriales Array de Procesadores Sistólicos UMANUMACOMA Distintas formas de organizar la memoria común ?? Beowulf Symetric Multi Processor Distributed Shared Memory GRID Computing ? CLOUD Computing ?

44 arqAva Perspectiva históricaIntroducción-44 SIMD Se inicia en 1965, se vende en 1972 y funciona en 1975 Fiasco ILLIAC IVPresupuesto $6 Mill y costó $31 Mill 1/4 de máquina Se esperaban 1000 MF y se obtuvieron 15MF ¿Dormidas para propósito general?, pero tienen su nicho: Procesamiento de Imagen, Señal, Genética, Búsquedas MIMD HWANG (1993) IDENTIFICA TRES GENERACIONES: Hipercubo con Encaminamiento Sw Malla con Encaminamiento Hw (Sw de grano medio) µP y comunicaciones en el mismo chip (grano fino) ¿2010?Multiprocessor systems-on-chips (MPSoCs) Niagara Hoy 4..8 núcleos.. 64 en ¿Se llegará a 1.000?

45 arqAva Perspectiva históricaIntroducción-45

46 arqAva TendenciasIntroducción-46 MÁQUINAS BASADAS EN µP COMERCIALES ¿MUCHOS µP SENCILLOS O POCOS Y POTENTES? ¿QUÉ TIPO DE MÁQUINA PARALELA? MÁQUINAS MÁS POTENTES: ¿CUÁLES Y PARA QUÉ? ¿QUÉ SISTEMA OPERATIVO?

47 IBM HP Cray SGI SUN Intel arqAva Las máquinas más potentes (Junio/2010)Introducción-47 ¿Qué micros se utilizan? Intel81,2% AMD 9,8% IBM POWER 8,4% Micros convencionales de gama alta 99% Dell

48 arqAva Las máquinas más potentes (Junio/2010)Introducción-48 ¿Cientos o miles de micros? Total Max Med Min Total

49 arqAva Las máquinas más potentes (Junio/2010)Introducción-49 ¿Qué arquitecturas dominan? MPP SMP Cluster Constelación SIMD Mono

50 Bull NovaScale C-DAC PARAM Padma Cray Inc. XT3 Cray Inc. XT4 Cray Inc. XT5 Cray Inc. XMT Fujitsu/Siemens M9000 Fujitsu/Siemens PRIMEQUEST Hitachi BladeSymphony Hitachi SR11000 HP Integrity SuperDome IBM eServer p575 IBM BlueGene/L&P IBM System Cluster 1350 Liquid Computing LiquidIQ NEC Express5800/1000 NEC SX-9 SGI Altix 4000 SiCortex SC series Sun M9000 arqAva Implantación en el mercado (Julio/2008)Introducción-50 Overview of Recent Supercomputers Memoria ComúnDistri. Total 11SIMD2 711MIMD18

51 arqAva Las máquinas más potentes (Junio/2010)Introducción-51 ¿Cuáles? Centros: 5, 3, 2, 2, 0, 2, 3, 3, 1, 7, 6, 7, 5, 3 Puesto: 233, 314, 456, 427,, 267, 424, 5, 11, 5, 9, 26, 60, 87

52 arqAva Las máquinas más potentes (Junio/2010)Introducción-52 ¿En qué se utilizan? ¿ Cada vez más en la industria ?

53 arqAva Las máquinas más potentes (Junio/2010)Introducción-53 ¿Qué S.O. usan? Windows 5 => 1%

54 arqAva ¿Quién se come a quién?Introducción-54 now.cs.berkeley.edu/ FIN


Descargar ppt "Arquitecturas AvanzadasCurso 10/11 1INTRODUCCIÓN 2CONECTIVIDAD 3MÁQUINAS MIMD 4MÁQUINAS SIMD 5AUMENTO DE PRESTACIONES Horas 4.. 5 7 3 4."

Presentaciones similares


Anuncios Google