Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Introducción: Tendencias Tecnológicas
2
Programa 1. Introducción: Tendencias tecnológicas, costo/ rendimiento/consumo 2. Aspectos básicos de la segmentación. Diseño de un procesador segmentado, tipos de riesgos, segmentación con operaciones multiciclo. 3. Paralelismo a nivel de instrucción: planificación dinámica. Tratamiento de dependencias de control: Predicción de saltos. Especulación. 4. Ejecución de múltiples instrucciones por ciclo. Límites del paralelismo a nivel de instrucción. Procesadores multithreading, Multiprocesadores en un chip ( Multi /Many cores ). 5. Jerarquía de memoria: Cache, reducción de fallos, ocultación de latencia, memoria principal
3
El entorno tecnológico Rendimiento Costo
Contenidos El entorno tecnológico Rendimiento Costo Lecturas recomendadas G. E. Moore " Cramming More Components onto IC", Electronic, april 1965 J. L. Henning. " SPEC CPU2000: Measuring CPU performance in the new millennium." IEEE Computer, July M Flynn, P Hung, "Microprocessor Design Issues: Thoughts on the Road Ahead", IEEE Micro, May-June 2005, pp16-31, 2005 T. Agerwala, S Chatterjee "Computer Architecture Challenges and Apportunities for the Next Decade" IEEE Micro, May-June 2005, pp58-69, 2005 H McGhan " SPEC 2006 Benchmark Suite", Microprocessor Report , October 10, 2006, V Agerwala, et all “ Clock Rate versus IPC: The End of the Road for Convencional Microarchitectures” ISCA27, pp , 2000
4
El entorno La Ley de Moore Electronic- Abril1965
5
La Ley de Moore se ha cumplido
El entorno La Ley de Moore se ha cumplido Transitors Fuente: Intel Corporation
6
La Ley de Moore se ha cumplido
El entorno La Ley de Moore se ha cumplido Fuente: Intel Corporation
7
La Ley de Moore se ha cumplido
El entorno La Ley de Moore se ha cumplido Fuente: Intel Corporation
8
La Ley de Moore continua
El entorno La Ley de Moore continua Fuente: Intel Corporation
9
La Ley de Moore continua
Hoy Penryn Fuente: Intel Corporation
10
La Ley de Moore Fuente: Intel Corporation
11
La Ley de Moore 9 Manufacturing process details from 1997 to 2011
Fuente: Intel Corporation
12
El entorno Microelectrónica + Microarquitectura
Una industria con un progreso que no tiene equivalente Doblado cada 18 meses ( ): - total de incremento 3,200X - Los coches viajarían a 176,000 MPH; y recorrerían 64,000 miles/gal. - El viaje: L.A. a N.Y. en 5.5 seg (MACH 3200) Doblado cada 24 meses ( ): - total de incremento 36,000X - Los coches viajarían a 2,400,000 MPH; y recorrerían 600,000 miles/gal. El viaje: L.A. a N.Y. en 0.5 seg (MACH 36,000) [John Crawford, Intel, 1993]
13
La Ley de Moore continua
Fuente: Intel Corporation
14
Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) La energía consumida depende del tiempo y de la potencia. En la gráfica la altura representa la potencia y el área tramada en oscuro es la energía.
15
Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) Fuente: Intel Corporation
16
Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) Fuente: Intel Corporation
17
Energía y potencia ( energía por unidad de tiempo)
1º problema consumo Energía y potencia ( energía por unidad de tiempo) Tres componentes Conmutación P= Cx V2x f ↑↑↑ Fugas ( gate leakage ) Cortocircuito ( subtreshold leakage)
18
Energía y potencia 1º problema consumo
¿ Que hacer para seguir mejorado el rendimiento de los sistemas? Mejora a nivel de un core. Balance power-performance Integrar múltiples cores en un chip. Balance complejidad del core-numero de cores Chip heterogeneos y aceleradores on chip
19
Espacio de diseño 1º problema consumo
Mejor rendimiento por watio 18FO4 Mejor IPC Menos etapas Mas etapas FO4 Fan-out of four ( retado de un inversor con 4 cargas ), medida del retardo de una etapa de un pipeline New methodology for early-stage, microarchitecture-level power-performance analysis of microprocessors
20
Espacio de diseño 1º problema consumo Técnicas Power-aware
Clock gating, Diferentes dominios de reloj, Cores simples, Voltage gating( UF, bloques de cache), Resizing adaptivo, Voltaje dinámico y escalado de frecuencia
21
Espacio de diseño- cores-
1º problema consumo Espacio de diseño- cores- Numero versus complejidad Cores simples mejor Tipo de paralelismo que explotan
22
2º problema retardo interconexiones
Retardo de la interconexiones
23
2º problema retardo interconexiones
Retardo de la interconexiones Ciclo Multi - Many cores
24
La Ley de Moore Retos de futuro 2015
25
El entorno: tendencias
Resumen de evolución en tecnología de implementación Uso de los computadores La cantidad de memoria necesaria crece entre 1.5 y 2 por año. Más bits para direccionamiento. Programación en LAN. Los compiladores son fundamentales, son el interfase entre las aplicaciones y el computador. ¿ Una arquitectura debe ser diseñada para soportar el paso del tiempo ? Cambios en tecnología, Sw y aplicaciones. Arquitectura IBM (1964) ,X86 (1978), Sparc(1992)
26
El entorno: tendencias
Latencia y ancho de banda en los últimos 20 años Procesador: ‘286, ‘386, ‘486, Pentium, Pentium Pro, Pentium 4 (21x,2250x) Ethernet: 10Mb, 100Mb, 1000Mb, Mb/s (16x,1000x) Modulo de Memoria: 16bit plain DRAM, Page Mode DRAM, 32b, 64b, SDRAM, DDR SDRAM (4x,120x) Disco : 3600, 5400, 7200, 10000, RPM (8x, 143x) CPU alta, Memoria Baja (“Memory Wall”) Processor: 2250X, 22X Latency
27
Rendimiento Dos conceptos clave Avión Wa a París 6.5 hours 3 hours
Velocidad 970 kph 2160 kph Pasajeros 470 132 Throughput (pkph) 455900 285120 Boeing 747 Concorde Tiempo de Ejecución (TEj) : Tiempo que tarda en completarse una tarea ( Tiempo de respuesta, latencia ) Rendimiento ( Performance, Throughput) : tareas por hora, día ,… "X es n veces más rápido que Y" significa TEj(Y) Performance(X) = = n TEj (X) Performance(Y) Reducir el TEj incrementa el rendimiento
28
Medidas del rendimiento
Aplicación Respuestas por mes, hora, segundo Operaciones por segundo TPC Lenguajes de Programación Compilador (millones) de Instrucciones por segundo: MIPS (millones) de (FP) operaciones por segundo: MFLOP/s ARI (ISA) Datapath Megabytes por segundo Control Unidades Funcionales Ciclos por segundo (frecuencia de reloj) Transistores cables La única medida fiable es el tiempo de ejecución programas reales Dos aspectos: Rendimiento del computador, Rendimiento del procesador
29
Rendimiento Rendimiento del procesador T CPU= N * CPI * t
N Compiladores y LM CPI LM, implementación, paralelismo t implementación, tecnología Ciclos medios por instrucción CPI CPI = (TCPU * Clock Rate) / Numero de Instrucciones = Ciclos / Numero de Instrucciones n TCPU = Tiempo de ciclo * CPI i * I i p CPI = CPI i * F i donde Fj es la frecuencia de aparición de la instrucción J i = 1 i = 1 Ejemplo : ALU 1 ciclo( 50%), Ld 2c(20%), St 2c(10%), saltos 2c(20%) CPI ALU 0.5, Ld 0.4, St 0.2, salto TOTAL CPI = 1.5 Invertir recursos donde se gasta el tiempo
30
Rendimiento
31
Rendimiento global del computador : Benchmarks
La única forma fiable es ejecutando distintos programas reales. Programas “de juguete”: 10~100 líneas de código con resultado conocido. Ej:: Criba de Erastótenes, Puzzle, Quicksort Programas de prueba (benchmarks) sintéticos: simulan la frecuencia de operaciones y operandos de un abanico de programas reales. Ej:: Whetstone, Dhrystone Programas reales típicos con cargas de trabajo fijas (actualmente la medida más aceptada) SPEC89: 10 programas proporcionando un único valor. SPEC92: 6 programas enteros (SPECint92) y 14 en punto flotante (SPECfp92).Sin limites en opciones de compilación SPEC95: 8 programas enteros (SPECint95) y 10 en punto flotante (SPECfp95). Dos opciones en compilación: la mejor para cada programa y la misma en todos (base) SPEC programas enteros y 14 en punto flotante. Dos opciones de compilación ( la mejor: spec--, la misma spec--_base Otros HPC:LINPACK, SPEChpc96, Nas Parallel Benchmark Servidores: SPECweb, SPECSFS( File servers), TPC-C Graficos: SPECviewperf(OpenGL), SPECapc( aplicaciones 3D) Winbench, EEMBC SPEC2006
32
Rendimiento Un Ejemplo: Intel Xeon 5160 (Core2, 3.0Ghz, 1333Mhz)
33
SPEC de los últimos procesadores ( SPEC2000)
Rendimiento SPEC de los últimos procesadores ( SPEC2000) Retirados febrero 2007 Core Pemtium4 NetBurst CORE Viene de Banias ( Pemtium M ). Micro macro fusión. Ajuste dinámico ancho de buses ( 128). Apagado de busqueda de instrucciones y predecoder para blucles en la cola de instrucciones. Desambiguación de memoria especulativa.( antes solo sobre stores conocidos) 14 etapas del pipe. ROB 96 entradas, 3 ALUs versus 2 en P4. 5 issue fuera de orden. 4 decoders. Prebusquedas Hw en L1 y L2 L2 4Mb compartidos. ( opteron 1MB por core)
34
Rendimiento SPEC2006 vesus SPEC2000
Evolución de la jerarquía de memoria (256KB, 256MB a 4MB, 1GB) Más programas más complejos
35
Rendimiento SPEC2006 vesus SPEC2000
36
Rendimiento Evolución de los SPEC
37
Rendimiento Un Ejemplo: Intel Xeon 5160 (Core2, 3.0Ghz, 1333Mhz)
38
SPEC de los últimos procesadores ( SPEC2006)
Rendimiento SPEC de los últimos procesadores ( SPEC2006) Core Pemtium4 NetBurst CORE Viene de Banias ( Pemtium M ). Micro macro fusión. Ajuste dinámico ancho de buses ( 128). Apagado de busqueda de instrucciones y predecoder para blucles en la cola de instrucciones. Desambiguación de memoria especulativa.( antes solo sobre stores conocidos) 14 etapas del pipe. ROB 96 entradas, 3 ALUs versus 2 en P4. 5 issue fuera de orden. 4 decoders. Prebusquedas Hw en L1 y L2 L2 4Mb compartidos. ( opteron 1MB por core)
39
Rendimiento SPECint95
40
Rendimiento SPECint2000
41
Rendimiento
42
Ejemplos
43
Fabricación de un CI
44
Coste : El fundamental, el coste del CI
Complejidad y RAM on chip Numero de pines y material (<10 a >40 ) coste de CI = Die coste Testing coste Packaging coste Final test yield Die coste = coste del Wafer Dies por Wafer * Die yield >90% Material, Proceso, Diámetro Wafer yield (100%), Defectos 0.6 a 1.2 cm2 Wafer El costo de CI (Die) f(área del die)2 Die
45
Algunos ejemplos reales
Coste Algunos ejemplos reales
46
Evolución en la vida comercial
Coste Evolución en la vida comercial
47
Tendencias
48
Tendencias
49
Tendencias
50
Tendencias
51
Tendencias
52
Ejemplos de multicores. Many cores
Sony/IBM/Toshiba Cell (9 cores) Microsoft/IBM Xbox360 (3 cores) IBM Cyclops64 (80 cores, in development) Sun Niagara (8 cores) Intel Larrabee en desarrollo, subset x86, heterogéneo
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.