La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Arquitecturas Avanzadas Curso 10/11

Presentaciones similares


Presentación del tema: "Arquitecturas Avanzadas Curso 10/11"— Transcripción de la presentación:

1 Arquitecturas Avanzadas Curso 10/11
Horas 4.. 5 7 3 4 INTRODUCCIÓN CONECTIVIDAD MÁQUINAS MIMD MÁQUINAS SIMD AUMENTO DE PRESTACIONES

2 arqAva Temario Introducción-2
Necesidades, evolución/revolución de la tecnología Conceptos Cantidad de paralelismo (Medidas) Tipos/Fuentes del paralelismo Acoplamiento (Dependencia) Escalabilidad (Crecimiento lineal) Clasificación de Flynn (ampliada) Perspectiva histórica, tendencias, implantación

3 arqAva Necesidades, ......... Introducción-3
¿Se necesita más potencia que la de un superPC? Modelización predictiva y Simulaciones Diseño y automatización (Proyectos de ingeniería) Exploración de recursos energéticos Investigación médica y militar Investigación básica Dibujos animados y efectos especiales Realidad virtual eCommerce y Web serving ¿De qué orden de magnitud estamos hablando “Flops”?

4 arqAva Necesidades, ......... Introducción-4
SDK-85 de 1977 a 250$ Intel 8085A 3MHz y B RAM Usado en EUI en 1980/81 MZ 80B de 1981 a 1100£ Zilog Z-80A 4MHz y KB RAM Usado en TFC en 1983 ¿Qué tenemos hoy?

5 arqAva Necesidades, ......... Introducción-5
Teoría Experimentos Simulación peligro inviable caro

6 arqAva Necesidades, ......... Introducción-6
Predicción del tiempo (CESGA: METEO ) 250 Km 35 niveles (T, P, H, VV, DV, …) celdas y paso de 10 seg ¿ Tiempo para 24 horas ? ¿Con un PC, 4..5 días? Fujitsu VPP300E => 6h30m Predicción a días (ECMWF: celdas y paso de 20 minutos Predicción a 10 días: Fujitsu VPP700 => 1h35min 2003 Nuevo supercomputador y modelo: 4025Km; 6091 niveles; 1512’; Op*4 2006

7 arqAva Necesidades, … Introducción-7
Predicción a 10 días (ECMWF: Fortran90+MPI+OpenMP Típico: tareas MPI 2 o 4 threads OpenMP 288 núcleos “predecir” POWER 2011 POWER7

8 arqAva Necesidades, ......... Introducción-8
Centro de Supercomputación de Pittsburgh 512 procesadores (x8) Intel Xeon (Nehalem) “Projects in Scientific Computing (141)” folding.stanford.edu Plegamiento de proteínas Predicción de tormentas Estudios de turbulencias Modelos sísmicos Investigación: SIDA, CANCER Modelización del fluido cardiaco Fenómenos oceánicos Dinámica de fluidos y electromagnetismo átomos Simular 1seg 256 procesadores ¡¡ 3 meses !! ¡¡ Tifón !!

9 arqAva Necesidades comParalelos-9
Centro de Supercomputación de Pittsburgh + CAPS + NOAA + … 4Mayo2007 Tornado EF5 Greensburg Emergencia 30´ antes Suenan sirenas 20´ antes “Sólo 10 víctimas” 95% del pueblo arrasado ¿Será posible predecir antes? 1989: Escepticismo: caóticos e impredecibles 2007: Investigadores+Supercomp. viable predecir a 24 horas

10 arqAva Necesidades, ......... Introducción-10
Dibujos animados y efectos especiales 1995 1ª totalmente digital 117 SUN’s millones Pts. 2000 1ª Europea en 3D > 20 CPU’s CESGA 550 millones Pts. 2008 2002 1er superhéroe digital 100 SGI Octane2 millones Pts. ¡ Muy costosa la renderización !

11 arqAva Necesidades, ......... Introducción-11
Pixar How We Do It El sueño de una noche de San Juan (2005) 45’ x fotograma [ ] Un nodo => + 32 años 165 Pentium III y 4 6h x fotograma, algunos 90h

12 arqAva Necesidades, … Introducción-12
2004: El Museo Británico abre un centro de realidad virtual que permite explorar virtualmente una momia de hace 3000 años SGI Onix procesadores 2006: Hellenic Cosmos SGI Octane III – IDF 2009 hasta 80 núcleos con 1 TB desde 8.000$ Personal Supercomputer

13 arqAva Necesidades, ......... Introducción-13
Requisitos identificados por el HPCC Program (1992) Capacidad de Memoria Genoma Humano Turbulencia fluidos Dinámica de vehículos Circulación océanos Visión, 1000 GB 100 GB 5 Tflops y 8 Tbytes Biología estructural 10 GB Identificar vehículos 1 GB Tiempo en 72 horas Diseño farmacéutico 98Tbytes Modelos Plasma 3D 100 MB Dinámica de la Química Tiempo en 48 horas ¿1 Pflops? ¿2010? 4/12/96 10 MB Velocidad del Sistema 1980 100 Mflops 1988 1 Gflops 1991 10 Gflops 1993 100 Gflops 1 Tflops ¿2010? 4µP Core i ,66GHz GFlop µP Jaguar AMD SixCore 2,66GHz TFlop

14 arqAva Necesidades, ......... Introducción-14
Introduction to Terascale Code Development (Sep/2004)

15 arqAva Necesidades, Evolución/Revolución Introducción-15
¿Necesidades alcanzables con modelo Von Neumann? Las mejoras han sido contínuas: Mayor velocidad de conmutación Mayor grado de integración Memorias caché y multipuerto Paralelismo interno (Pipeline y Superescalar) Racionalización de diseños (RISC) 2/3 Tecnología µArq Procesadores con varios núcleos Según Moore x2 cada 2 años. Según Hennessy: 2002 20% Rendimiento anual 70 90 80 Mainframes y Minis µP CISC µP RISC 20-30% 50% 35% ¿Sostenible?  Consumo

16 arqAva Necesidades, Evolución/Revolución Introducción-16
Mayor velocidad de conmutación Silicio  2MHz .. 2GHz] Arseniuro de Galio  *10 Silicio Grafeno  100GHz? Mayor grado de integración micras 0,18  0,15  0,13  0,09  0,065 90nm  65  45  32  22  16  11 2011 2013 2015

17 arqAva Necesidades, Evolución/Revolución Introducción-17
Gordon Moore (Cofundador de Intel) 19/04/1965 Intel Core i7 8MB cache L3 Dual core Intel® Itanium® 2 (24MB cache) 2006

18 arqAva Necesidades, Evolución/Revolución Introducción-18
Problemática del cosumo: Energía dinámica + estática Capacitancia * Actividad * V2 * f Sube Longitud cables 0  1 5V 1V 0,4V 2016 Baja Dynamic Voltage Frequency Scaling 4 núcleos mejor UF Reloj Activar ¡ Clock gating ! Cachés pequeñas ¿multibanco?

19 arqAva Necesidades, Evolución/Revolución Introducción-19
Problemática del cosumo: Energía dinámica + estática V (ke ) -qVth/(akaT) ¿ Entre 10 y 100 veces mejor ? high-k + metal gate

20 arqAva Necesidades, Evolución/Revolución Introducción-20
HPCA’03 ¿Hasta cuándo?

21 arqAva Necesidades, Evolución/Revolución Introducción-21
¿Necesidades alcanzables con modelo Von Neumann? 1989-Decegama µP secuenciales al límite “Velocidad luz” 1999-Prensa La tecnología actual se agotará en 1/2 décadas 2006-UCM Hasta 2018, 8 nanómetros, T En busca de “El Dorado” o el síndrome Von Neumann EVOLUCIÓN Invisible µProgramación Segmentación Caché MIMD tiempo compartido Memoria virtual Instrucciones vectoriales ¿Ciencia Ficción? Silicon Laser Moleculares Cuánticos REVOLUCIÓN Visible Mayor grado de paralelismo RISC, Superescalares SIMD masivo MIMD Propósito específico Intel TeraFlop Research Chip

22 arqAva Necesidades, Evolución/Revolución Introducción-22
Febrero 2007: Intel anuncia el Teraflops Research Chip kW 62W 80 núcleos

23 arqAva Necesidades, Evolución/Revolución Introducción-23
1 Tbps Julio 2007: Intel rompe la barrera de los 40Gbps en Silicon Laser

24 arqAva Necesidades, Evolución/Revolución Introducción-24
Algunos ¿avances? en computación molecular A 16-bit parallel processing in a molecular assembly – PNAS 2008 news.nationalgeographic.com/news/2008/10 Un grano de arena : 1000 µP Conexiones : nanotubos

25 arqAva Necesidades, Evolución/Revolución Introducción-25
¿Existe? la computación cuántica EUI 2 Junio 2006: Ignacio Cirac Instituto Max Planck 1995 => Artefactos de 1 ión 2005 => Artefactos de 8 iones Factorizar números de 200 cifras => iones 13 Feb 2007: D-Wave 16 qubit adiabatic quantum computer ¡ Marketing !

26 arqAva Conceptos Introducción-26
CANTIDAD DE PARALELISMO Y MEDIDAS GRADO – GRANO ACELERACIÓN – EFICIENCIA TIPO / FUENTES DEL PARALELISMO CONTROL – DATOS – FLUJO ACOPLAMIENTO (Dependencia) FUERTE – DÉBIL ESCALABILIDAD (Crecimiento lineal) SI – NO

27 arqAva Cantidad de paralelismo Introducción-27
GRADO: Número de Unidades de Proceso para las que se tiene trabajo durante un intervalo de tiempo 1 3 2 4 6 5 Grado T0 T1 T9 T2 T8 T7 T6 T5 T4 T3 Tiempo Grado = 26 / 9 = 2,89 Poco 3-5 Mucho 32 Muchísimo ¿Cómo varía?

28 arqAva Cantidad de paralelismo Introducción-28
GRANO: Tamaño medio de las acciones ejecutadas en paralelo por Unidad de Proceso (Distribución de Carga) #Instr. FINO 1 Instrucción 20 FINO 2 Bucle 500 MEDIO 3 Subrutina 2000 MEDIO/ 4 Subprograma Miles GRUESO GRUESO 5 Programa Miles.... Grado de paralelismo Sobrecarga Comunica. Hw + Compilador Programador S.O.

29 arqAva Cantidad de paralelismo Introducción-29
ACELERACIÓN: “Speedup” Cuántas veces más rápido al contar con “n” U.P. en vez de una. (Absoluta) Sn = Tsecuencial / Tparalelo = T1 / Tn SI CON UNA U.P. SE ORDENA EN 1 MINUTO, ¿CON 4 U.P. SE ORDENA EN? ===> 15”, 20”, .....??? 1 <= Sn <= n n = Máximo teórico EFICIENCIA: Lo mismo, pero teniendo en cuenta “n”. (Relativa) En = Sn / n = T1 / nTn 1/n <= En <= 1 1 = Máximo teórico

30 arqAva Cantidad de paralelismo Introducción-30
16 32 64 128 10 20 30 40 50 60 70 versión 12/94 versión 9/94 versión 8/94 Aceleración en tres versiones de un programa paralelo Pfeiffer et al (AMBER en Intel Paragon 128 P)

31 arqAva Cantidad de paralelismo Introducción-31
Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

32 arqAva Cantidad de paralelismo Introducción-32
Sn y En resolviendo Sistemas Lineales de 1000 variables (Jack Dongarra, 2004)

33 arqAva Tipo / Fuentes (Control, Datos, Flujo) Introducción-33
PARALELISMO DE CONTROL (Prog. Concurrente) Descomposición en subtareas simultáneas (Una x U.P.) R := [A(X) + B(Y)] * C(Z) ¿Qué puede hacerse en paralelo? Tiempos de cada operación 1 2 A(X) B(Y) C(Z) + * = 13 / 6 = 2,2 1 3 2 ¿Grado? MUY COMÚN, pero .... ¡Poco relevante! (Grado  3)

34 arqAva Tipo / Fuentes (Control, Datos, Flujo) Introducción-34
PARALELISMO DE DATOS (Espacial) Operaciones sobre datos regulares (vectores) aplicando la misma operación sobre cada elemento 2 1 3 4 5 7 8 6 9 + A C B Suma de Vectores, etc. ¡LIMITACIONES! Más datos que U.P. Operaciones escalares MENOS COMÚN, pero .... ¡Más relevante! (Grado  )

35 arqAva Tipo / Fuentes (Control, Datos, Flujo) Introducción-35
PARALELISMO DE FLUJO (Temporal) Idea intuitiva => Cadena de montaje de coches Secuencia de datos homogéneos de entrada Peluquería Personas Despeinadas (Di) Lavar => Cortar => Marcar Proceso divisible en subtareas secuenciales (filtros) LCM 1Hora 3 Mill. 11:00 (2) D5,D4,D3 P1 10:45 (1) D4,D3,D2 10:00 (1) 10:15 (1) D2 10:30 (1) D3,D2 10:40 (3) (2) (1) 11:00 (4) (3) (2) D5 P1 10:30 (2) (1) D3 10:45 (3) (2) (1) D4 10:15 (1) D2 10:20 (2) (1) 10:00 (1) L C M 20’ 20’ ’ 1,5 M 1,5M ,5M Secuencial => 1P x Hora Vs Pipeline => 1P x 20’

36 arqAva Tipo / Fuentes (Control, Datos, Flujo) Introducción-36
PARALELISMO DE FLUJO (II) LCM 1Hora 3 Mill. 11:00 (2) D5,D4,D3 P1 11:00 (4) (3) (2) D5 P1 L C M 20’ 20’ ’ 1,5 M 1,5M ,5M Control Flujo Datos 3 30 106 Grado ¡Ojo! Mejora no siempre de N (3) ¿Y si C ==> 30’? Otros ejemplos: CPU Segmentada Voz, CD ALGO COMÚN, pero .... ¡No muy relevante! (Grado  30)

37 arqAva Acoplamiento Introducción-37
Grado de dependencia entre las partes (Hw/Sw) Datos Comunes Cantidad relativa de interacciones Sincronismo Grano Fino Grueso FUERTE Pi Pj DC DÉBIL Pi Pj Poca localidad Cuellos de botella Mucha localidad Buena característica

38 arqAva Escalabilidad Introducción-38
Aumento de prestaciones con coste lineal o nlogn NO ESCALABLE 2 3 4 5 1 6 10 ESCALABLE 4 9 16 25 12 24 40 1 1,3 1,5 1,6 0,5 1,0 1,5 2,0 ,5

39 arqAva Clasificación de Flynn (1972) Introducción-39
Combina Flujo de Datos y Flujo de Instrucciones con (Single) Único y Múltiple, dando 4 combinaciones: Flujo de Datos Múltiple Único Flujo de Intrucc. SISD MISD MIMD SIMD SISD Una Instrucción un Dato Von Neumann SIMD Una Instrucción muchos Datos Vectoriales / Sistólicos MISD Muchas Instrucciones un Dato Pipeline? MIMD Muchas Instrucciones muchos Datos Multiprocesadores / Multicomputadores

40 arqAva Modelos SISD y MISD Introducción-40
SISD: Una Instrucción un Dato (Von Neumann) I UC UP MP D MISD: Muchas Instrucciones un Dato (Pipeline?) MP Programa Datos UC1 UC2 UCN UP1 UP2 UPN I1 In I2 D

41 arqAva Modelo SIMD Introducción-41
SIMD: Una Instrucción muchos Datos (Vectoriales, ....) UC UP1 MP UPi UPn Memoria Común R E D Host Síncronas LockStep UC UP1 UPi UPn ML1 MLn MLi Memoria Distribuida D1 Dn Di D1 Dn Di I I I I Cuello de botella Acoplamiento fuerte Acoplamiento débil No escalable

42 arqAva Modelo MIMD Introducción-42
MIMD: Muchas Instrucciones muchos Datos M. Común (Multiprocesador) UC1 UP1 M.P. UPi UPn BUS RED D1 Dn Di I1 UCi UCn In Ii M. Distribuida (Multicomputador) M P Red a t1 t2 aa a t1 t2 Acoplamiento Fuerte Acoplamiento Débil Memoria común vs Paso de mensajes

43 arqAva Clasificación de Flynn Ampliada Introducción-43
Arquitecturas Paralelas GRID Computing ? CLOUD Computing ? SISD SIMD MISD MIMD Procesadores Vectoriales Array de Procesadores Sistólicos Von Neumann ?? Multi-procesadores Multi-computadores UMA NUMA COMA Distintas formas de organizar la memoria común MPP COW NOW Beowulf Symetric Multi Processor Distributed Shared Memory

44 arqAva Perspectiva histórica Introducción-44
SIMD Se inicia en 1965, se vende en 1972 y funciona en 1975 Fiasco ILLIAC IV Presupuesto $6 Mill y costó $31 Mill 1/4 de máquina Se esperaban 1000 MF y se obtuvieron 15MF ¿Dormidas para propósito general?, pero tienen su nicho: Procesamiento de Imagen, Señal, Genética, Búsquedas MIMD HWANG (1993) IDENTIFICA TRES GENERACIONES: Hipercubo con Encaminamiento Sw Malla con Encaminamiento Hw (Sw de grano medio) µP y comunicaciones en el mismo chip (grano fino) ¿2010? Multiprocessor systems-on-chips (MPSoCs) Niagara Hoy 4..8 núcleos en ¿Se llegará a 1.000?

45 arqAva Perspectiva histórica Introducción-45

46 arqAva Tendencias Introducción-46
MÁQUINAS BASADAS EN µP COMERCIALES ¿MUCHOS µP SENCILLOS O POCOS Y POTENTES? ¿QUÉ TIPO DE MÁQUINA PARALELA? MÁQUINAS MÁS POTENTES: ¿CUÁLES Y PARA QUÉ? ¿QUÉ SISTEMA OPERATIVO?

47 arqAva Las máquinas más potentes (Junio/2010) Introducción-47
¿Qué micros se utilizan? Intel 81,2% AMD 9,8% IBM POWER 8,4% Micros convencionales de gama alta Dell SUN Intel 99% HP SGI Cray IBM

48 arqAva Las máquinas más potentes (Junio/2010) Introducción-48
¿Cientos o miles de micros? Total Max Med Min 10.263 1.792

49 arqAva Las máquinas más potentes (Junio/2010) Introducción-49
¿Qué arquitecturas dominan? MPP SMP Cluster Constelación SIMD Mono

50 arqAva Implantación en el mercado (Julio/2008) Introducción-50
“Overview of Recent Supercomputers” Bull NovaScale C-DAC PARAM Padma Cray Inc. XT3 Cray Inc. XT4 Cray Inc. XT5 Cray Inc. XMT Fujitsu/Siemens M9000 Fujitsu/Siemens PRIMEQUEST Hitachi BladeSymphony Hitachi SR11000 HP Integrity SuperDome IBM eServer p575 IBM BlueGene/L&P IBM System Cluster 1350 Liquid Computing LiquidIQ NEC Express5800/1000 NEC SX-9 SGI Altix 4000 SiCortex SC series Sun M9000 Memoria Común Distri. Total 1 SIMD 2 7 11 MIMD 18

51 arqAva Las máquinas más potentes (Junio/2010) Introducción-51
¿Cuáles? Centros: 5, 3, 2, 2, 0, 2, 3, 3, 1, 7, 6, 7, 5, 3 Puesto: 233, 314, 456, 427, , 267, 424, 5, 11, 5, 9, 26, 60, 87

52 arqAva Las máquinas más potentes (Junio/2010) Introducción-52
¿En qué se utilizan? ¿ Cada vez más en la industria ?

53 arqAva Las máquinas más potentes (Junio/2010) Introducción-53
¿Qué S.O. usan? Windows 5 => 1%

54 arqAva ¿Quién se come a quién? Introducción-54
FIN now.cs.berkeley.edu/


Descargar ppt "Arquitecturas Avanzadas Curso 10/11"

Presentaciones similares


Anuncios Google