La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Introducción: Tendencias Tecnológicas

Presentaciones similares


Presentación del tema: "Introducción: Tendencias Tecnológicas"— Transcripción de la presentación:

1 Introducción: Tendencias Tecnológicas

2 Programa 1. Introducción: Tendencias tecnológicas, costo/ rendimiento/consumo 2. Aspectos básicos de la segmentación. Diseño de un procesador segmentado, tipos de riesgos, segmentación con operaciones multiciclo. 3. Paralelismo a nivel de instrucción: planificación dinámica. Tratamiento de dependencias de control: Predicción de saltos. Especulación. 4. Ejecución de múltiples instrucciones por ciclo. Límites del paralelismo a nivel de instrucción. Procesadores multithreading, Multiprocesadores en un chip ( Multi /Many cores ). 5. Jerarquía de memoria: Cache, reducción de fallos, ocultación de latencia, memoria principal

3 El entorno tecnológico Rendimiento Costo
Contenidos El entorno tecnológico Rendimiento Costo Lecturas recomendadas G. E. Moore " Cramming More Components onto IC", Electronic, april 1965 J. L. Henning. " SPEC CPU2000: Measuring CPU performance in the new millennium."  IEEE Computer, July M Flynn, P Hung, "Microprocessor Design Issues: Thoughts on the Road Ahead", IEEE Micro, May-June 2005, pp16-31, 2005 T. Agerwala, S Chatterjee "Computer Architecture Challenges and Apportunities for the Next Decade" IEEE Micro, May-June 2005, pp58-69, 2005 H McGhan " SPEC 2006 Benchmark Suite", Microprocessor Report , October 10, 2006, V Agerwala, et all “ Clock Rate versus IPC: The End of the Road for Convencional Microarchitectures” ISCA27, pp , 2000

4 El entorno La Ley de Moore Electronic- Abril1965

5 La Ley de Moore se ha cumplido
El entorno La Ley de Moore se ha cumplido Transitors Fuente: Intel Corporation

6 La Ley de Moore se ha cumplido
El entorno La Ley de Moore se ha cumplido Fuente: Intel Corporation

7 La Ley de Moore se ha cumplido
El entorno La Ley de Moore se ha cumplido Fuente: Intel Corporation

8 La Ley de Moore continua
El entorno La Ley de Moore continua Fuente: Intel Corporation

9 La Ley de Moore continua
Hoy Penryn Fuente: Intel Corporation

10 La Ley de Moore Fuente: Intel Corporation

11 La Ley de Moore 9 Manufacturing process details from 1997 to 2011
Fuente: Intel Corporation

12 El entorno Microelectrónica + Microarquitectura
Una industria con un progreso que no tiene equivalente Doblado cada 18 meses ( ): - total de incremento 3,200X - Los coches viajarían a 176,000 MPH; y recorrerían 64,000 miles/gal. - El viaje: L.A. a N.Y. en 5.5 seg (MACH 3200) Doblado cada 24 meses ( ): - total de incremento 36,000X - Los coches viajarían a 2,400,000 MPH; y recorrerían 600,000 miles/gal. El viaje: L.A. a N.Y. en 0.5 seg (MACH 36,000) [John Crawford, Intel, 1993]

13 La Ley de Moore continua
Fuente: Intel Corporation

14 Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) La energía consumida depende del tiempo y de la potencia. En la gráfica la altura representa la potencia y el área tramada en oscuro es la energía.

15 Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) Fuente: Intel Corporation

16 Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) Fuente: Intel Corporation

17 Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) Tres componentes Conmutación P= Cx V2x f ↑↑↑ Fugas ( gate leakage ) Cortocircuito ( subtreshold leakage)

18 Energía y potencia 1º problema consumo
¿ Que hacer para seguir mejorado el rendimiento de los sistemas? Mejora a nivel de un core. Balance power-performance Integrar múltiples cores en un chip. Balance complejidad del core-numero de cores Chip heterogeneos y aceleradores on chip

19 Espacio de diseño 1º problema consumo
Mejor rendimiento por watio 18FO4 Mejor IPC Menos etapas Mas etapas FO4 Fan-out of four ( retado de un inversor con 4 cargas ), medida del retardo de una etapa de un pipeline New methodology for early-stage, microarchitecture-level power-performance analysis of microprocessors

20 Espacio de diseño 1º problema consumo Técnicas Power-aware
Clock gating, Diferentes dominios de reloj, Cores simples, Voltage gating( UF, bloques de cache), Resizing adaptivo, Voltaje dinámico y escalado de frecuencia

21 Espacio de diseño- cores-
1º problema consumo Espacio de diseño- cores- Numero versus complejidad Cores simples mejor Tipo de paralelismo que explotan

22 2º problema retardo interconexiones
Retardo de la interconexiones

23 2º problema retardo interconexiones
Retardo de la interconexiones Ciclo Multi - Many cores

24 La Ley de Moore Retos de futuro 2015

25 El entorno: tendencias
Resumen de evolución en tecnología de implementación Uso de los computadores La cantidad de memoria necesaria crece entre 1.5 y 2 por año. Más bits para direccionamiento. Programación en LAN. Los compiladores son fundamentales, son el interfase entre las aplicaciones y el computador. ¿ Una arquitectura debe ser diseñada para soportar el paso del tiempo ? Cambios en tecnología, Sw y aplicaciones. Arquitectura IBM (1964) ,X86 (1978), Sparc(1992)

26 El entorno: tendencias
Latencia y ancho de banda en los últimos 20 años Procesador: ‘286, ‘386, ‘486, Pentium, Pentium Pro, Pentium 4 (21x,2250x) Ethernet: 10Mb, 100Mb, 1000Mb, Mb/s (16x,1000x) Modulo de Memoria: 16bit plain DRAM, Page Mode DRAM, 32b, 64b, SDRAM, DDR SDRAM (4x,120x) Disco : 3600, 5400, 7200, 10000, RPM (8x, 143x) CPU alta, Memoria Baja (“Memory Wall”) Processor: 2250X, 22X Latency

27 Rendimiento Dos conceptos clave Avión Wa a París 6.5 hours 3 hours
Velocidad 970 kph 2160 kph Pasajeros 470 132 Throughput (pkph) 455900 285120 Boeing 747 Concorde Tiempo de Ejecución (TEj) : Tiempo que tarda en completarse una tarea ( Tiempo de respuesta, latencia ) Rendimiento ( Performance, Throughput) : tareas por hora, día ,… "X es n veces más rápido que Y" significa TEj(Y) Performance(X) = = n TEj (X) Performance(Y) Reducir el TEj incrementa el rendimiento

28 Medidas del rendimiento
Aplicación Respuestas por mes, hora, segundo Operaciones por segundo TPC Lenguajes de Programación Compilador (millones) de Instrucciones por segundo: MIPS (millones) de (FP) operaciones por segundo: MFLOP/s ARI (ISA) Datapath Megabytes por segundo Control Unidades Funcionales Ciclos por segundo (frecuencia de reloj) Transistores cables La única medida fiable es el tiempo de ejecución programas reales Dos aspectos: Rendimiento del computador, Rendimiento del procesador

29 Rendimiento Rendimiento del procesador T CPU= N * CPI * t
N Compiladores y LM CPI LM, implementación, paralelismo t implementación, tecnología Ciclos medios por instrucción CPI CPI = (TCPU * Clock Rate) / Numero de Instrucciones = Ciclos / Numero de Instrucciones n TCPU = Tiempo de ciclo *  CPI i * I i p CPI =  CPI i * F i donde Fj es la frecuencia de aparición de la instrucción J i = 1 i = 1 Ejemplo : ALU 1 ciclo( 50%), Ld 2c(20%), St 2c(10%), saltos 2c(20%) CPI ALU 0.5, Ld 0.4, St 0.2, salto TOTAL CPI = 1.5 Invertir recursos donde se gasta el tiempo

30 Rendimiento

31 Rendimiento global del computador : Benchmarks
La única forma fiable es ejecutando distintos programas reales. Programas “de juguete”: 10~100 líneas de código con resultado conocido. Ej:: Criba de Erastótenes, Puzzle, Quicksort Programas de prueba (benchmarks) sintéticos: simulan la frecuencia de operaciones y operandos de un abanico de programas reales. Ej:: Whetstone, Dhrystone Programas reales típicos con cargas de trabajo fijas (actualmente la medida más aceptada) SPEC89: 10 programas proporcionando un único valor. SPEC92: 6 programas enteros (SPECint92) y 14 en punto flotante (SPECfp92).Sin limites en opciones de compilación SPEC95: 8 programas enteros (SPECint95) y 10 en punto flotante (SPECfp95). Dos opciones en compilación: la mejor para cada programa y la misma en todos (base) SPEC programas enteros y 14 en punto flotante. Dos opciones de compilación ( la mejor: spec--, la misma spec--_base Otros HPC:LINPACK, SPEChpc96, Nas Parallel Benchmark Servidores: SPECweb, SPECSFS( File servers), TPC-C Graficos: SPECviewperf(OpenGL), SPECapc( aplicaciones 3D) Winbench, EEMBC SPEC2006

32 Rendimiento Un Ejemplo: Intel Xeon 5160 (Core2, 3.0Ghz, 1333Mhz)

33 SPEC de los últimos procesadores ( SPEC2000)
Rendimiento SPEC de los últimos procesadores ( SPEC2000) Retirados febrero 2007 Core Pemtium4 NetBurst CORE Viene de Banias ( Pemtium M ). Micro macro fusión. Ajuste dinámico ancho de buses ( 128). Apagado de busqueda de instrucciones y predecoder para blucles en la cola de instrucciones. Desambiguación de memoria especulativa.( antes solo sobre stores conocidos) 14 etapas del pipe. ROB 96 entradas, 3 ALUs versus 2 en P4. 5 issue fuera de orden. 4 decoders. Prebusquedas Hw en L1 y L2 L2 4Mb compartidos. ( opteron 1MB por core)

34 Rendimiento SPEC2006 vesus SPEC2000
Evolución de la jerarquía de memoria (256KB, 256MB a 4MB, 1GB) Más programas más complejos

35 Rendimiento SPEC2006 vesus SPEC2000

36 Rendimiento Evolución de los SPEC

37 Rendimiento Un Ejemplo: Intel Xeon 5160 (Core2, 3.0Ghz, 1333Mhz)

38 SPEC de los últimos procesadores ( SPEC2006)
Rendimiento SPEC de los últimos procesadores ( SPEC2006) Core Pemtium4 NetBurst CORE Viene de Banias ( Pemtium M ). Micro macro fusión. Ajuste dinámico ancho de buses ( 128). Apagado de busqueda de instrucciones y predecoder para blucles en la cola de instrucciones. Desambiguación de memoria especulativa.( antes solo sobre stores conocidos) 14 etapas del pipe. ROB 96 entradas, 3 ALUs versus 2 en P4. 5 issue fuera de orden. 4 decoders. Prebusquedas Hw en L1 y L2 L2 4Mb compartidos. ( opteron 1MB por core)

39 Rendimiento SPECint95

40 Rendimiento SPECint2000

41 Rendimiento

42 Ejemplos

43 Fabricación de un CI

44 Coste : El fundamental, el coste del CI
Complejidad y RAM on chip Numero de pines y material (<10 a >40 ) coste de CI = Die coste Testing coste Packaging coste Final test yield Die coste = coste del Wafer Dies por Wafer * Die yield >90% Material, Proceso, Diámetro Wafer yield (100%), Defectos 0.6 a 1.2 cm2 Wafer El costo de CI (Die)  f(área del die)2 Die

45 Algunos ejemplos reales
Coste Algunos ejemplos reales

46 Evolución en la vida comercial
Coste Evolución en la vida comercial

47 Tendencias

48 Tendencias

49 Tendencias

50 Tendencias

51 Tendencias

52 Ejemplos de multicores. Many cores
Sony/IBM/Toshiba Cell (9 cores) Microsoft/IBM Xbox360 (3 cores) IBM Cyclops64 (80 cores, in development) Sun Niagara (8 cores) Intel Larrabee en desarrollo, subset x86, heterogéneo

53


Descargar ppt "Introducción: Tendencias Tecnológicas"

Presentaciones similares


Anuncios Google