TARDPCurso 05/06 Prophet/Critic Hybrid Branch Prediction Ayose Falcón, Stark, Ramirez, Lai y Valero ISCA’04 Pablo Carazo Minguela – Junio/2006.

Slides:



Advertisements
Presentaciones similares
Práctica de Estar 2B. --Hola, Susana. ¿Cómo _____? -- ______ bien, gracias.
Advertisements

A FAST ALGORITHM FOR DNA SEQUENCES.
Ella los las El bolígrafo La mochila Los bolígrafos Las mochilas.
ENSAYOS (Composiciones)
Virtual PC.
PROCESADORES SUPERESCALARES
Introducción a los Sistemas Operativos Memoria Virtual
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Predicción de saltos.
Pipelines: Riesgos.
EL Sistemas Digitales Ing. José Alberto Díaz García Escuela de Ingeniería Electrónica Arquitectura Segmentada Pipeline (Segmentación)
Arquitectura de Conjunto de Instrucciones (ISA)
INTEGRANTES MEDINA ORTIZ MISSAEL MARTIN GONZALEZ MADRIGAL OMAR
Pablo Cesar Tapia Catacora
Applied Econometrics Economía Política Formación del valor de las mercancías, composición de capital y otras categorias, además, una forma de calcular.
a to amarillo yellow amigos Friends anaranjado Orange.
UCMUCM 1 2 primeros años en el Departamento: Optimización de la Transformada Wavelet en Microprocesadores de propósito general a) Mejorar el acceso a memoria.
UP C Un Análisis Cuantitativo de Spec95 Agustín Fernández Departament d’Arquitectura de Computadors Universitat Politècnica de Catalunya “Todo lo que usted.
Visualizador de señales digitales SDLC++ José Domingo Álvarez Hervás.
1 Gestión eficiente de la LSQ basada en mecanismos de filtrado Fernando Castro ArTeCS Group.
Pipelining Predicción dinámica de brincos. Universidad de SonoraArquitectura de Computadoras2 Introducción En base a la historia de la instrucción, predecir.
PROCESADORES SUPERESCALARES
Unidad 2: Segmentación Dependencias de Control Docente: ing. José Díaz Chow.
Memoria Cachés. Universidad de SonoraArquitectura de Computadoras2 Introducción Caché es el nivel de memoria situada entre el procesador y la memoria.
Overview Sistemas Computacionales
Universidad de Las Palmas de Gran Canaria DCIC Universidad de Las Palmas de Gran Canaria 2008 Autor: Christian Pérez Fajardo.
INTERVALO DE CONFIANZA
Soporte HW para Administración de Memoria Cecilia Hernández
Objective Distinguish the rules to form the plural of a noun.
PROGRAMACIÓN ESTRUCTURADA. PROGRAMACÍÓN IMPERATIVA El programa detalla los pasos necesarios para realizar una tarea. Existe un estado global de programa.
El procesador Creando un solo datapath. Universidad de SonoraArquitectura de Computadoras2 Introducción 1. Crear un solo datapath a partir de los datapaths.
Perceptrón Multicapa Aplicaciones. Perceptrón Multicapa MLP Latitud Longitud... Altitud Radiación solar Aproximación de funciones MLP Estado de un reactor.
Bernardo Frontana de la Cruz Marco Antonio Gómez Ramírez Irene Patricia Valdez y Alfaro Junio de 2014.
CPU 8088 vs. Pentium TEEL 4011 Prof. Jaime José Laracuente-Díaz.
The Normal Distribution To calculate the probability of a Normal distribution between a and b:
Seminario De Graduación Microcontroladores Avanzados
Español II Negative Expressions. In English a sentence with 2 negative words is incorrect. – Ex. “I don’t know nothing.” is incorrect – Ex. “I don’t know.
Procesamiento de Imágenes Digitales Propagación del Error en Codificación de Video Escalable Pablo Fernández Riejos Roberto Fuentes González Francisco.
Memoria virtual. Introducción Muchos procesos, una memoria Programas demasiado grandes para caber en memoria principal Espacio de direccionamiento mucho.
Memoria virtual.
Introducción a la Simulación de Eventos Discretos José Daniel García Sánchez Grupo de Arquitectura Comunicaciones y Sistemas Universidad Carlos III de.
Saber y conocer “to know”.
Organización del Computador I Verano Memoria Virtual Basado en el capítulo 7 del libro de Patterson y Hennessy Verano 2004Profesora Borensztejn.
Arquitecturas AvanzadasCurso 07/08 Coherence Decoupling: Making Use of Incoherence Jaehyuk Huh y otros ASPLOS’04.
Cap. 6: Pipelining. Encauzamiento de procesadores
Ingeniería de Software
Preterite -ar. The preterite tense is used to refer to actions that occurred at a fixed point in time. I called at 1:00. I called at 1:00. Llamé a la.
Maria Camila Torres Quiroz 10I2 Cefa 2012
Influence of OB LEDs on transmission length measurements (EXTENDED) HAROLD YEPES-RAMIREZ IFIC, October 26 nt
ARQUITECTURA DE COMPUTADORES Semestre A-2009 Clase 20 La mayor parte del contenido de estas láminas, ha sido extraído del libro Computer Organization and.
Rendimiento de la CPU y sus factores
ARQUITECTURA DE COMPUTADORES Semestre A-2009 Clase 14 La mayor parte del contenido de estas láminas, ha sido extraído del libro Computer Organization and.
Presentación del Sistema Versión Final del Producto.
Introducción a la Optimización de Consultas. Francisco Moreno.
ARQUITECTURA DE COMPUTADORES Semestre A-2009 Clase 17 La mayor parte del contenido de estas láminas, ha sido extraído del libro Computer Organization and.
Son los atributos de un sistema que son visibles para un programador, es decir aquellos atributos que impactan directamente en la ejecución lógica de un.
Ventajas y desventajas de la inspección visual (VI).
INTERVALOS DE CONFIANZA
Hacer with expressions of time When you are talking about how long something has been happening or how long ago it happened, you will use the verb hacer.
Questions in Spanish.
Análisis y Diseño de Algoritmos Programa #1 Samuel Garrido Daniel.
Vocabulario Unidad 2 Lección 1
Laboratorio de Estadística administrativa Distribuciones de Muestreo Teorema del límite central Tamaño de muestra Marzo de 2007.
Score de comportamiento para tarjetas de crédito MAESTRÍA EN ADMINISTRACIÓN DE RIESGOS.
I Kamilo Osorio Restrepo 8°B Juan David Velez. TIPOS DE PROCESADORES Y SUS FUNCIONES PRINCIPALES CISC. Complex Instruction Set Computing. Posee un número.
Una comparación cultural
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE CIENCIAS ECONOMICAS INFERENCIA ESTADISTICA TEMA: ESTIMACION PUNTUAL, PROPIEDADES DE LAS ESTIMACIONES;
Conceptos Básicos Junio Computador Informática.
Chapter 4 grammar Indefinite articles Cuánto, mucho And poco 1.
Reader’s Workshop Taller Literario How to choose a book Cómo elegir un libro.
Transcripción de la presentación:

TARDPCurso 05/06 Prophet/Critic Hybrid Branch Prediction Ayose Falcón, Stark, Ramirez, Lai y Valero ISCA’04 Pablo Carazo Minguela – Junio/2006

TARDPResumenCurso 05/06 Híbrido ¿novedoso? Profeta Crítico pasado futuro Híbrido 8K+8K vs 16K 2Bc-gskew Reduce errores hasta un 39% Aumenta  PC 7,8.. 18% Reduce  PC leídas en un 8,6% Resultados BBB

TARDP3 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

TARDPIntroducción4 Valdebernardo profeta crítico ??

TARDP5 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

PredicAPredicB BHSR PC Selec | Fusión Híbrido bitFuturo TARDPTrabajos relacionados6 PredicAPredicB BHSR PC =? Salto1 Salto2 Sobre-escritura BHSR PC Predictor CT 0110 reduc Estimador Confianza BHSR’ Novedoso t PiCi

TARDP7 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

TARDPPrimera aproximación8 Profeta Predicción LQRSTUVWXY P PC BHSR t QRSTUVWXYP Crítico Crítica BOR QRSTUWXYPV ¿Unos ciclos más tarde? UVWXYABCDP UVWXYABCDP Pasado Futuro P DCBA

¡Ojo! A B E H D C GF IJ TT TARDPPrimera aproximación (Un ejemplo)9 WXYZ Error => Crítico se entrena NOPQ ¿Esto es frecuente? + Interferencia …WXYZ …NOPQ PC ¡n*2 fallos! Sig (A, T) => Crítico (A,T) Profeta T Crítico T T T T ¿Cuánto?

TARDP Primera aproximación (Tasa de interferencias) 10 Chang, Evers y Patt (1996) gcc y gshare con 8K entradas Entradas con 32 interferencias o menos Entradas con 325 interferencias o más ¡ 325 interferencias de media ! Instrucciones Bcc Interferencias Neutras Destructi. Constructi ¡Filtrado!

TARDP11 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

BOR dirSalto Crítico predicc. TARDPFiltrando el Crítico12 El Profeta acierta ≈ % => El Crítico se centre en el otro 5..10% Filtro tag Hash =? AciertoCrítica FalloProfecía Falla Meter salto en el Crítico

TARDP13 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

TARDPJuntándolo todo (I)14 Reinman, Austin y Calder (1999): Escalado de conexionesFront-End desacoplado FTQ L1 I-Cache Segmentada Decodi. Ejecución MUX sigPC sigBloque L1 FTB ultBloque miss [jump, jsr, rst] miss Bcc L2 FTBL2 I-Cache Profeta Crítico profeta crítico ??

Crítico TARDPJuntándolo todo (II)15 Profeta I-Cache & Fetch A FTQ ABC DEFGHIJKL B CDE F BOR 4 b futuro IHG Ideal: FTQ casi siempre bastante llena 2xCiclo 1xCiclo 6µOpxCiclo Bcc cada 13µOP Pega: No hay suficientes bits de futuroCon 8b 0,1% veces ¡ Usar los que haya ! ¿Crítico corrige predicción? Efecto limitado a la FTQ

TARDP16 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

TARDPSimulación17 Micro tipo Pentium 4 * 2 3,8GHz; 6  OPC; L1I 64KB; L1D 32KB; L2 2MB; FTQ 32 Predictores utilizados: Gshare, 2Bc-gskew y Perceptron 108 bancos de pruebas: tpcc, premiere, msvc7, unzip, facerec, …

TARDP18 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

TARDPResultados19 Importancia de los bits de futuro Precisión de la predicción Distribución de las críticas Productividad del conjunto

TARDPResultados (Importancia de los bits de futuro)20 Profeta: 8KB perceptron + Crítico: 8KB gshare etiquetado Unos pocos bits OKMás no rentables? ¿8 OK?

TARDPResultados (Precisión de la predicción)21 Mejoras: % Con 32KB parecido

TARDPResultados (Distribución de las críticas)22 ProCrí ProCrí ProCrí ProCrí ¿ Profeta + [Crítico] ? 3Bcc => 1 Crítico4Bcc => 1 Crítico Profeta 23 ¡ Acierta el 98,7% !

TARDPResultados (Productividad del conjunto)23

TARDP24 ÍNDICE Introducción Trabajos relacionados Primera aproximación Filtrando el crítico Juntándolo todo Simulación Resultados Conclusiones

TARDPConclusiones25 Híbrido 8K+8K vs 16K 2Bc-gskew Reduce errores hasta un 39% Aumenta  PC 7,8.. 18% Reduce  PC leídas en un 8,6% Resultados BBB Según los propios autores Needs fast hardware to compute prediction/mispredictions and refile the FTQ before branches consumed by I-Cache Large tag  small coverage, small tag  contention; Therefore it is not universal How to select branches to cover in the filtered critic FIN