Arquitecturas Avanzadas Curso 10/11

Slides:



Advertisements
Presentaciones similares
ASIGNATURA: MATEMÁTICA
Advertisements

Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
RELACIÓN POSTULADOS POR SEXO
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
Modas Página Internet: Correo Electrónico:
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Multiprocesadores 3.1 Dominios de aplicación
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Estructura Económica de México Prof. Abelardo Mariña Flores trimestre 2010-P.
1 XML Extensible Markup Language HTML HyperText Markup Language normas06_01.xml.
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA5 Libertad y Orden DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA CENSO GENERAL 2005 REPÚBLICA.
Estadísticas e Indicadores de Deserción Estudiantil Diana Marcela Durán Coordinadora Grupo de Fomento a la Permanencia Bucaramanga Abril 13 de
Grupo de Sequía del Servicio Meteorológico Nacional
Phone2Wave-Server Manual de Operación.
TELEFONÍA IP.
Microprocesadores para comunicaciones Escuela Técnica Superior de Ingenieros de Telecomunicación Organización y estructura de las memorias caché.
Evolución Tasas de Interés Promedio del Sistema Financiero *
Parte 3. Descripción del código de una función 1.
Vocabulario querer comerlo -paja por supuesto - madera
de Joaquín Díaz Garcés (Angel Pino)
FUNCIONES DE UNA VARIABLE REAL
EL OSO APRENDIZ Y SUS AMIGOS
EL COMERCIO TEXTIL EN CIFRAS Séptima Edición - Cifras y Datos correspondientes al ejercicio Un Triple Compromiso: Con el Sector. Con la Economía.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Indicadores CNEP Escuela
ARANCEL DE ADUANAS luism ortegon.
Ecuaciones Cuadráticas
TIPOS DE PROCESADORES DE ULTIMA GENERACIÓN.
¡Primero mira fijo a la bruja!
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
Arquitecturas Paralelas IF - EHU Arquitecturas Paralelas 7. Coherencia de Datos en computadores DSM - Introducción - Directorios de coherencia: MP/MC -
Química U.2 Unión entre átomos y propiedades de las sustancias
MINIMO COMÚN MÚLTIPLO DE DOS NÚMEROS a y b
1. Datos prensa. Fuente: ACEM
Quetzalpapalotl Quetzalpapalotl – Gevederde Slang, vlindergod.
0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.
PARTIDA DOBLE FRAY LUCA PACIOLLI ( ) Padre de la Contabilidad
By: Nicholas, Rayna, Nathaniel, Calvin
Los números. Del 0 al 100.
MSc. Lucía Osuna Wendehake
Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.
1. 3 ATENCIÓN ELOGIO EXTINCIÓN ¿POR QUÉ SE MANTIENE LA CONDUCTA? Análisis de: 9.
LOS NÚMEROS.
Vocabulario: (Los números)
Vocabulario: Para Empezar (Numbers & Colors)
uno cero dos seis siete nueve Los Números DIEZ cinco ocho tres
Los Numeros.
FACULTAD DE DERECHO PROTAGONISTAS PROMOCIÓN aniversario
Diagrama CAUSA_EFECTO ó ISHIKAWA ó ESPINA DE PESCADO
1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Indicaciones: 1.- Tener en cuenta que esta estrategia, solo funciona asociando las cuentas los días lunes. 2.- Los cálculos son aproximados con un margen.
Herramienta FRAX Expositor: Boris Inturias.
TEMA 10. SISTEMAS OPERATIVOS DISTRIBUIDOS
Arquitecturas Paralelas
Tema 5: Multiprocesadores
Arquitecturas Paralelas Curso 14/15
arqAvaPar Procesadores Multinúcleo (Intel) MIMD-79
Transcripción de la presentación:

Arquitecturas Avanzadas Curso 10/11 Horas 5 7 2 4 INTRODUCCIÓN CONECTIVIDAD MÁQUINAS MIMD MÁQUINAS SIMD SUPERESCALARES

arqAva Clasificación de Flynn Ampliada MIMD-2 Arquitecturas Paralelas SISD SIMD MISD MIMD Procesadores Vectoriales Array de Procesadores Sistólicos Von Neumann ?? Multi-procesadores Multi-computadores UMA NUMA COMA Distintas formas de organizar la memoria común MPP COW Beowulf Symetric Multi Processor Distributed Shared Memory

Modelos MPP, COW, Beowulf Procesadores multinúcleo arqAva Temario MIMD-3 MÁQUINAS MIMD Multiprocesadores Modelos UMA, NUMA y COMA Coherencia de cachés Husmeo (snoopy) Directorios Multicomputadores Modelos MPP, COW, Beowulf Procesadores multinúcleo Bibliografía: “Advanded Computer Architecture...” Kai Hwang-1993 [19..23, 348..363] “Structured Computer Organization” A.S. Tanenbaum-1999 [564..586] “Parallel Computer Architecture …” Culler y Singh-1999 [269..301, 553..571]

arqAva Multiprocesadores MIMD-4 Un único espacio de direcciones de memoria visible a todos los µPs move P1 P2 Pn Memoria $0000000 $FFFFFFF 50 move #50,$20 Pi move $1000000,R5 100 move #100,$1000000 25 move #25,$4000000 Existen distintas formas de implementar este espacio de memoria

arqAva Multiprocesadores (UMA) MIMD-5 Acceso Uniforme a Memoria: Cada Pi mismo tiempo de acceso a todas y cada una de las posiciones de memoria P1 P2 Pn C1 C2 Cn M1 M2 Mk Bus Común Symetric Multi Processor ¿Coherencia? A A’ ¿Límites? ¿Ventajas? Puede complicarse algo para aumentar las prestaciones

arqAva Multiprocesadores (UMA) MIMD-6 Ejemplo: Sun Enterprise 10000 (1998) ¿ 2010 ? Crossbar de 16x16 (Gigaplane-XB) => 19,87GB*seg 1 15 Tarjetas de 40x50 cm. coherencia cachés UltraSPARC 333MHz 1 GB de memoria Mantiene modelo UMA ¿Al límite (64µP)?

arqAva Multiprocesadores (UMA) MIMD-7

arqAva Multiprocesadores (UMA) MIMD-8 Evolución servidores gama alta de SUN con UltraSPARC † Hasta 8/01/2009 ..12 ..24 ..52 ..106 ..36 ..72

arqAva Multiprocesadores (UMA) MIMD-9 Evolución servidores gama alta de SUN con SPARC64 VI y VII M4000 ..16 M5000 ..32 M8000 ..64 M9000 ..256

arqAva Multiprocesadores (UMA) MIMD-10 Ejemplo: SPARC Enterprise M9000 => 64 SPARC64 VII ¿Coste? 8 Placas 4 CPU’s 4 núcleos 2 Threads Hasta 2TB 2,52GHz 64KB L1 I 64KB L1 D 6MB L2 368,5GB/s

arqAva Multiprocesadores (UMA) MIMD-11 Con descuentos => 3.298.483$ www.tpc.org/tpch Oct/2010 #2 3.000GB Results Ejemplo: SPARC M9000 2.841.219$ 32 SPARC64 VII 512GB memoria 963.234$ 78TB 1.416.010$ Mantenimiento 1.376.503$ Latencias (Sun Fire E25K) Misma placa => 180..207 nseg Otra Placa => 333 , 440 nseg ¿UMA? 2009..2010 Compra SUN

arqAva Multiprocesadores (NUMA) MIMD-12 Acceso No Uniforme a Memoria: El acceso a memoria remota es más lento que el acceso a memoria local Red Global M1 M2 Mn Red P1 P2 Pn MG1 MG2 MGk 2. Tremoto (Pn,M2) M1 P1 Mn Pn M2 P2 R e d 1. Tlocal (P1,M1) 1. Tlocal 2. Tglobal 3. Tremoto Más procesadores Distributed Shared Memory

arqAva Multiprocesadores (NUMA) MIMD-13 Todavía dentro de NUMA, se contemplan dos modelos M1 P1 Mn Pn M2 P2 R e d NC-NUMA Sistemas sin cachés CC-NUMA P1 C1 M1 Pn Cn Mn P2 C2 M2 Red de interconexión Sistemas con Cachés Coherentes A A’

arqAva Multiprocesadores (CC-NUMA) MIMD-14 Ejemplo: Sequent NUMA-Q 2000 Tarjetas con 4 Pentium Pros y hasta 4GB IBM Power 795 Coherencia Cachés El más grande (199?): 63 nodos (252µP) 238Bytes (256GB) Anillo SCI Hasta 64K nodos

arqAva Multiprocesadores (COMA) MIMD-15 Acceso sOlo a Memoria Caché: Es un submodelo de NUMA, donde la memoria principal de cada procesador, se trata como una caché. NUMA => Un dato está asignado de forma estática a una memoria local determinada => Muchos accesos remotos (lentos) A Memoria Virtual Una solución: Los datos se ubican dinámicamente en las memorias de los procesadores que los demandan ¿Dónde está A? Cn C1 C2 RED P1 P2 Pn A A ¿Expulsar A? A

arqAva Coherencia de Cachés MIMD-16 Conceptos que se presupone conocidos: Concepto de caché y su ubicación en la jerarquía de memoria Distintos modelos: Asociativa Correspondencia directa Asociativa por conjuntos Políticas de reemplazo (Azar, LRU, ...) Políticas de escritura: Acierto: Escritura Inmediata “Write Through” Escritura Diferida “Write Back” Fallo: No ubicar al escribir Ubicar al escribir MP 4GB L2 2*4MB Línea 64 Bytes

arqAva Coherencia de Cachés MIMD-17 XX ------------------------ XX YY --------- D3BC ------- YY 012 --------- 4567 ------------ F 2222 3 00000000 00000040 00000080 000000C0 00400800 FFFFFFC0 FFFFFF80 FFFFFF40 FFFFFF00 ld $00400824, R5 2222 3 012 --------- 4567 ------------ F YY --------- D3BC ------- YY 00400800 Etiqueta Desp 26 6 Asociativa 004008 00 10 4 26 26 6 Bloque Desp 0000 0001 0020 2222 3 012 --------- 4567 ------------ F Correspondencia directa YY --------- D3BC ------- YY Eti Desp 10 16 6 Línea ld $00400824, R5 FFFF 00 008 00 10 4 00 01 10

arqAva Coherencia de Cachés MIMD-18 Problemática con: Datos compartidos P1 X P2 cachés MP Write Through P1 X’ P2 X P1 X’ P2 X Write Back ¡P2.W! P1.W ¡P3.R! ¡P2.R! Problemática con: Migración de procesos P1 X’ P2 X cachés MP P1 X’ P2 X P1 X’ P2 X WriteBack ¿Write Through?

arqAva Coherencia de Cachés MIMD-19 Problemática con: Entrada / Salida P1 X P2 X P1 X P2 Write Through P1 X’ P2 X Write Back cachés X’ X output X X’ input MP E/S BUS ¿Solución?: Snoopy: Para sistemas basados en bus Cotillear, espiar la actividad del bus Directorios: Para redes estáticas, multietapa, etc. Directorios cachés que indican en qué cachés hay copias de los datos

arqAva Coherencia de Cachés (Snoopy) MIMD-20 El espionaje no debe retardar el ciclo de bus (Hw adicional) P1 C1 VTD BUS P2 C2 Pn Cn M.P. E/S VT Espía 3FA45 48ABC 1 Válida Tag Línea de Datos $3FA456

arqAva Coherencia de Cachés (Snoopy) MIMD-21 Para conseguir coherencia, básicamente hay dos políticas: Cachés WriteThrough P1 P2 Pi Pn X Y X Y Inv. Línea 64B Act. Dato (1..8)B W* => 1 Inv. P1 P2 Pi Pn X’ X Y X Y Invalidación Actualización P1 P2 Pi Pn X’ X Y X Y WriteBack X’ Y X’ X’ Y ¿Mejor?

arqAva Coherencia de Cachés (Snoopy) MIMD-22 Protocolo 1: Caché de escritura inmediata e invalidación Cada bloque en uno de dos estados (Inválido, Válido) Cuando Pi va a escribir, se adueña del bus y: Manda señal de invalidar Escribe en M.P. Rj,Zi Wj,Zj Zi,Wj Ri,Wi Rj,Zj Diagrama de Estados Ri/j => Pi/j lee bloque Wi/j => Pi/j escribe bloque Zi/j => Pi/j reemplaza bloque INV VAL Ubicar en escritura Idea => La M.P. siempre coherente con las copias válidas en caché Pega => Mucho tráfico en el bus (Cada W en caché => W en M.P.)

arqAva Coherencia de Cachés (Snoopy) MIMD-23 Protocolo 1: Comportamiento ante (Read/Write)+(Hit/Miss) P1W C3 A C1 A C1 C2 C3 MP A C1 A’ C2 C3 A MP WH: W en MP e Invalidar C2 A’’ MP C2 A’ MP A’ P1R P2W P3R (P1R | P3R)* RM: La MP suministra el bloque RH: La caché suministra el dato WM: Como WH o puede que: RM + WH (ubicar en W)

arqAva Coherencia de Cachés (Snoopy) MIMD-24 Protocolo 2: Caché de escritura diferida e invalidación (propietaria) Conseguir que W* => Una única Invalidación ¿Señales Bus? El estado VAL se desdobla en dos: ReadOnly (Shared) ReadWrite (Modified) C1 A MP C2 C3 C1 A MP C2 A’ C3 Write Hit Copia/s en cachés y MP coherentes Lecturas locales sin tráfico de bus MP propie- taria de A Read Hit P2W A Copia única en la caché MC propie- taria de A’ R/W locales sin tráfico bus Escritura => Invalidar y pasar a RW ¿Read/Write miss?

arqAva Coherencia de Cachés (Snoopy) MIMD-25 Protocolo 2: Comportamiento ante fallo de lectura o escritura ReadMiss WriteMiss C2 A’ C3 MP C1 C2 A C1 A C2 A’ C3 A’ MP C2 C3 RW C1 A’’ C1 A’ C3 A’’’ MP A’’ P2R P1W MP A P2W P3W P3R RO: La MP suministra el bloque RO: La MP suministra el bloque Se regresa a RO (W en MP) RW : La C2 suministra el bloque : La C1 escribe en MP La C3 toma la propiedad

arqAva Coherencia de Cachés (Snoopy) MIMD-26 Protocolo 2: Diagrama de transición de estados Ri,Wi Zj Wi Rj Rj,Wj Zi,Zj Ri,Rj Zj Ri Wj,Zi INV RW RO Idea => Consistencia con el modelo de caché de escritura diferida Pega => Tráfico innecesario en el bus Primer W en caché => INV siempre (¿No hay copias?)

arqAva Coherencia de Cachés (Snoopy) MIMD-27 Protocolo 3: MESI (Pentium, PowerPC, ...) ¿Goodman 1983? Como Protocolo 2, pero sin invalidar si no hay más copias El estado RO se desdobla en dos: “E” sólo una copia o “S” varias Modificado: Bloque en caché modificado y única copia Exclusivo: La única copia en caché, consistente con MP Shared: Hay una o más copias en otras cachés y en MP Inválido: El bloque no tiene datos válidos en la caché El comportamiento es el siguiente: C1 A C2 MP C3 P1 lee bloque A (P1R) E P2R C1 A C2 MP C3 S

arqAva Coherencia de Cachés (Snoopy) MIMD-28 Protocolo 3: MESI (Seguimiento de su comportamiento) C1 A C2 MP C3 S P2W C1 A C2 A1 MP C3 M I P3R C1 A C2 A2 MP A1 C3 M I P2W C1 A C2 A1 MP C3 S I P1W C1 A3 C2 A2 MP C3 A1 I M

arqAva Coherencia de Cachés (Snoopy) MIMD-29 Protocolo 3: Diagrama de transición de estados MESI Rj,Wj Wj Rj Wi Ri,Wi Ri Ri,Rj M S I E Intel QuickPath Interconnect Source Snoop MESIF F: Cache to Cache ¿ Mereció la pena ?

arqAva Coherencia de Cachés (Directorios) MIMD-30 Con decenas/cientos de procesadores, no hay bus común ¿Aplicable coherencia por husmeo? C M => Difusión (inviable con N grande) Si N = 36, lo normal es que no haya 35 copias en 35 cachés (2..5) Solución => Informar (comando/mensaje) sólo a los nodos cuyas cachés contengan una copia del dato accedido (R/W) Directorio centralizado 1976 Tang distribuido 1978 Censier ... limitados encadenados completos 1990 Chaiken ...

arqAva Coherencia de Cachés (Directorios limitados) MIMD-31 Red de interconexión P0 M0 Nodo 0 P1 M1 Nodo 1 P255 M255 Nodo 255 Nodo Bloque Off dr => 8 18 6 Mtotal = 232 => 4GB Mlocal = 224 => 16MB Mcache = 220 => 1MB con líneas de 64B Limitación => Sólo una copia (bien en ML o bien en una caché) Nodo 1 desea leer dato A en $FF000504 => Nodo 255, bloque 20, off 4 En caché 1 En Nodo 255 (C | M) En Nodo i (C) Nodo 1 le pide el dato al Nodo 255

arqAva Coherencia de Cachés (Directorios limitados) MIMD-32 Red de interconexión P0 M0 Nodo 0 P1 M1 Nodo 1 P255 M255 Nodo 255 A A A Anfitrión A M255 C255 Ci Nodo 1 Nodo 255 A(255:20:4) directorio 218-1 C Nodo 20 1 8 1 255 1 0 Tamaño directorio: 218 * 9 = 288KB 1,76% de 16MB

arqAva Coherencia de Cachés (Directorios limitados) MIMD-33 P0 M0 Nodo 0 P1 M1 Nodo 1 P255 M255 Nodo 255 N1 escribe A’(255:20:8) A’ A’ A A 1 1 1 0 1 0 1 1 Coherencia trivial (Sólo una copia en el sistema) N1 lee A(255:20:4): N0 lee A’(255:20:4): N1 no la ve en su caché N0 no la ve en su caché N1 pide A a N255 N0 pide A’ a N255 N255 consulta directorio N255 consulta directorio N255 actualiza directorio y suministra A desde M255 N255 actualiza directorio y redirige petición a N1 N1 suministra A’ desde C1 Atómico

arqAva Coherencia de Cachés (Directorios completos) MIMD-34 Para permitir más de una copia en caché (sean 3), ¿Directorio?: U S M 20 35 2 3 255 4 E Nodos Estado => Necesario para coherencia: Uncached, Shared y Modified 8 218-1 Tamaño directorio (supuestos 255 nodos): 218 * (2+3*8) = 832KB 5,08% de 16MB Para permitir copia en cualquier caché, ¿Directorio?: E 1 2 3 4 5 255 S 1 ------------ => 8MB 50% Se complica el mantenimiento de la coherencia No es escalable en cuanto a ocupación adicional de memoria

arqAva Coherencia de Cachés (Directorios completos) MIMD-35 Nodo 255 S 1 1 1 0 0 ------- 0 A M A’ M 0 0 1 0 0 ------- 0 M 0 0 1 0 0 ------ 0 U S U S S N3 desea escribir A’: ¿ N1.R => A’ ? N3 ve que no tiene la propiedad N255 envía permiso W a N3 y actualiza directorio N3 pide exclusividad a N255 N255 enviará mensajes para invalidar copias en N1 y N2 N3 recibe permiso, escribe y envía confirmación a N255 N1 y N2 responderán a N255 que invalidaron sus copias N255 da por finalizada la transacción

arqAva Coherencia de Cachés (Directorios completos) MIMD-36 Ejemplo: DASH Univ. Standford, 1992 => SGI Origin 2000 $$$$ CPU caché Mem 1 3 2 7 6 5 4 11 10 9 8 12 13 14 15 ¿ Escalable ? Cluster directorio E: U,S,M S 1 2 15 Intercluster interface Snooping

arqAva Coherencia de Cachés (Directorios completos) MIMD-37 Los directorios completos no son escalables: N1 P1 M1 N7 P7 M7 N255 P255 M255 N63 P63 M63 E 1 2 3 4 5 6 7 S 1 => 288KB 1,8% Cada nuevo nodo: ensanchar un bit todos los directorios E 1 2 3 4 5 63 S 1 ------------  2MB 12,5% E 1 2 3 4 5 255 S 1 ------------  8MB 50%

arqAva Coherencia de Cachés (Directorios encadenados) MIMD-38 Los directorios completos llenos de ceros: 2 6 4 5 8 255 1 Cabecera Directorio Encadenado 0 1 0 0 0 1 0 0 0 .......... 0 0 0 1 0 0 0 0 0 .......... 0 0 0 0 0 0 0 0 0 .......... 0 0 0 0 1 0 0 1 0 .........1 1 0 0 0 0 0 0 0 0 .......... 1 2 3 4 5 6 7 8 9 255 E N35 1 1 1 1 1 1 1 1 1 .........1 1 2 3 4 5 7 254 255 6 ¿Cómo implementar esta visión del directorio?: Ahorrar memoria Normalmente pocas copias de un dato Ocasionalmente un dato puede estar en todas las cachés

arqAva Coherencia de Cachés (Directorios encadenados) MIMD-39 Mtotal = 232 => 4GB Mlocal = 224 => 16MB Mcache = 220 => 1MB con líneas de 64B 1ª aproximación: Cabecera y directorio centralizados en cada nodo B : $230000BA 35:3:A nodo bloque off 8 18 6 35:0:4 A : $23000004 2 6 4 5 8 255 1 3 7 254 M35 N35 P35 A N2 M2 P2 P6 N6 M6 B 5 8 255 ● 2 Cab ● 6 Dir Cache de 218 entradas: una por bloque Gestión libre y punteros N35 Cache de ¿? entradas: ¿3 por bloque?

arqAva Coherencia de Cachés (Directorios encadenados) MIMD-40 Mtotal = 232 => 4GB Mlocal = 224 => 16MB Mcache = 220 => 1MB con líneas de 64B Una solución: Cabecera centralizada y directorio distribuído ¿Tamaño del directorio? Número de líneas en las caches ¿Cómo formar las listas? C : $23100504 nodo bloque off 8 18 6 tag línea 12 14 6 ? C 2 6 35 35:16404:4 561:20:4 Cabecera 218 2 N35 P35 M35 C N2 P2 M2 N6 P6 M6 16404 20 20 6 35 20 Directorio Encadenado Distribuído 214

arqAva Coherencia de Cachés (Directorios encadenados) MIMD-41 Veamos el funcionamiento: C:$23100504 35:16404:4 561:20:4 nodo bloque tag línea C 2 6 35 561 Tag Sig S 2 E Cab 561 2 Tag Sig N1 1 561 6 Tag Sig 561 35 Tag Sig N35 N2 N6 ¿N1 lee C? Miss + Pedir C a N35 + Inclusión por cabecera

arqAva Coherencia de Cachés (Directorios encadenados) MIMD-42 Veamos el funcionamiento: C:$23100504 35:16404:4 561:20:4 nodo bloque tag línea 561 Tag Sig S 2 E Cab 561 2 Tag Sig N1 1 561 6 Tag Sig 561 35 Tag Sig ? 1 S N35 N2 N6 ¡ Por la misma entrada compiten 212 bloques ! 35:32788:16 562:20:16 ¿N1 lee D:$23200510

arqAva Coherencia de Cachés (Directorios encadenados) MIMD-43 Veamos el funcionamiento: C:$23100504 35:16404:4 561:20:4 nodo bloque tag línea 561 Tag Sig S 2 E Cab 562 Tag Sig 561 6 Tag Sig 561 35 Tag Sig 2 S 1 N35 N1 N2 N6 Tamaño Cab+Dir 360K => 2,20% D : $23200510 ¿N35 escribe en C? ¡ Invalidar copias existentes !

arqAva Coherencia de cachés (Directorios Encadenados) MIMD-44 Ejemplo: Sequent NUMA-Q 2000 Intel QuickPath Interconnect Home Snoop MESIF Tarjetas con 4 Pentium Pros y hasta 4GB Snoopy Estados estables y transitorios Cab A E Tag S 6 7 13 6 Cabecera 226 entradas 4GB Caché 32MB Dir. Enc. Anillo SCI Hasta 64K nodos 219 entradas 32MB

arqAva Multicomputadores MIMD-45 Cada Pi con memoria privada inaccesible a los demás (load/store) M. Distribuida (Multicomputador) M P Red Hace atractivo a los multiprocesadores Los Pi se comunican mediante el envío y recepción de mensajes Hace más escalable a los multicomputadores 64 Sun E 10000 256 Sun M9000 30.508 Cray XT4 224.162 Jaguar Cray XT5

arqAva Multicomputadores (MPP) MIMD-46 MPP => Procesadores Masivamente Paralelos ¡Cambios acelerados! Red local Discos y E/S Red de interconexión de altas prestaciones UCPs Memoria Nodos Procesador Comunicación µP comerciales: Intel EM64T, IBM Power, AMD x86_64 Red de interconexión propietaria y de altas prestaciones Baja latencia y elevado ancho de banda Gran capacidad de E/S (Terabytes..Petabytes) Tolerancia a fallos (Probable que falle un µP a la semana)

arqAva Multicomputadores (MPP) MIMD-47 Ejemplo: Iniciativa ASCI => ASC

arqAva Multicomputadores (MPP) MIMD-48 Ejemplo: Intel/Sandia Red (Dic/1996..Sep/2005) 4608 procesadores: 4536 cómputo 32 servicios 32 discos 6 red 2 bootstrap 32 38 2 Otro plano Kestrel board PentPro 64 MB E/S NIC Kestrel board 6 enlaces paralelos a 400MB/seg Nodos de E/S con 640 discos (1TB)

arqAva Multicomputadores (COW) MIMD-49 COW/NOW => Cluster / Network Of Workstations Estaciones de trabajo (PC’s, iMac’s, etc...) conectadas en red comercial (Ethernet (Fast, Giga), FDDI, ATM, etc...) distribuídos centralizados Máquinas dedicadas para aplicaciones específicas Aprovechar los tiempos muertos de cientos de máquinas de una organización Coste prácticamente cero Software para distribuir aplicaciones: PVM, MPI Rendimiento moderado y uso limitado www.beowulf.org

arqAva Multicomputadores (COW) MIMD-50 Beowulf => Conjunto de nodos minimalistas aglutinados en red Verano de 1994 en el CESDIS (16DX4 con Ethernet) Todos sus componentes son de costes mínimos: Micros, Placas Base, Discos y Tarjetas de red y se ensamblan en uno o varios armarios (racks) Software de libre distribución (Linux, GNU, PVM, MPI) Latencia de comunicación acotada y baja (MPPs..COWs-Distri.) Hágaselo usted mismo Afinamiento del S.O. para incremetar la eficiencia

arqAva Multicomputadores (MPP vs Beowulf) MIMD-51 84,8% 14,8%

arqAva Multicomputadores (MPP vs Beowulf) MIMD-52 www.lanl.gov/projects/asci www.cita.utoronto.ca/webpages/mckenzie/index.html ASCI Q (Febrero/2002) McKenzie (Enero/2003) 2048 nodos AlphaServer * 4 => 8192 13,9 Teraflops 29.000 millones de pesetas 256 nodos Xeon 2,4 GHz * 2 Linux RedHat 7.3, GigaEthernet 1,2 Teraflops * 100 mPts

arqAva Multicomputadores (MPP vs Beowulf) MIMD-53 www.cs.vu.nl/das3/ Distributed ASCI Supercomputer 2007 † Medalla IEEE 2007 Advanced School for Computing and Imaging 5 Universidades holandesas: Andy Tanenbaum (DAS1) 92..340  792 núcleos AMD Opteron 2,2..2,6GHz 3..10  33TB RAM 130TB disco Myri-10G y 1-10GigaEthernet Scientific Linux 5

arqAva Multicomputadores (MPP vs Beowulf) MIMD-54 http://www-03.ibm.com/systems/x/hardware/rack/x3650m3/index.html 1 / 2 Intel Xeon Six Core ..3,33 GHz 1x2,26GHz + 4GB + 500GB => 5.483$ Red Hat Enterprise Linux 5, … 10Gigabit Ethernet, InfiniBand Hasta 1024 nodos (4 | 6 procesadores) Intelligent Cluster

arqAva Multicomputadores (MPP vs Beowulf) MIMD-55 www.microway.com www.hp.com www.penguincomputing.com ..84 Intel Xeon 4 | 6 Hasta 16 Itaniumx2 2....20  Xeon 4

arqAva Multicomputadores (MPP vs Beowulf) MIMD-56 21 servidores Supermicro Intel Core 2 Q6600 2,4GHz + 4GB 84 núcleos + 84GB 20.600€  21 servidores 1.000€  armario Sep/2008

arqAva Multicomputadores (Alta disponibilidad) MIMD-57 ? www-1.ibm.com/servers/esdd/tutorials/clustering Tipo de negocio Impacto por hora de caída Centro de reservas aéreas 89.500$ Operaciones bursátiles 6,45 millones $ Venta por catálogo 90.000$ Autorización tarjetas de crédito 2,6 millones $ Canales de venta de hogar 113.750$ Servicio de paquetería 150.250$ 9 90% sin fallos 99 99% 999 99,9% 99999 5,39’ caído al año ¿Regla de los cinco nueves?

arqAva Procesadores Multinúcleo (Intel) MIMD-58 ¿Por qué varios núcleos? ConsumoDin = C * A * V2 * F www.intel.com/pressroom/kits/quadcore ∆ F

arqAva Procesadores Multinúcleo (Intel) MIMD-59 Trabajar con frecuencias más bajas y … ? + rendimiento

arqAva Procesadores Multinúcleo (Intel) MIMD-60 Multinúcleo  Mejores rendimientos esperados ? 2006 cumpliéndose espectativas

arqAva Procesadores Multinúcleo (Intel) MIMD-61 Dos pequeños mejor que uno grande 0.87x 0.51x

arqAva Procesadores Multinúcleo (Intel) MIMD-62 ¿Qué procesadores están en marcha? 2010

arqAva Procesadores Multinúcleo (Intel) MIMD-63 ¿Qué procesadores están en marcha [roadmap]? 11 Marzo 2010 Core i7-980X 999$

arqAva Procesadores Multinúcleo (Intel) MIMD-64 ¿Qué aspecto tienen? Smart Cache Caches independientes

arqAva Procesadores Multinúcleo (Intel) MIMD-65 Cache compartida vs independiente

arqAva Procesadores Multinúcleo (Intel) MIMD-66 Intel Core 2 Extreme QX6700 (4 núcleos a 2,66 GHz) Smart Cache 4MB Core 2 Quad Q8300 + 4GB + 500GB 399€

arqAva Procesadores Multinúcleo (Intel) MIMD-67 Intel Core i7 Mayo/2009: Core i7 920 + 6GB + 500GB 962 €

arqAva Procesadores Multinúcleo (Intel) MIMD-68 Intel Core i7-980X

arqAva Procesadores Multinúcleo (Intel) MIMD-69 Intel Core i7-980X

arqAva Procesadores Multinúcleo (AMD) MIMD-70 AMD Quad-Core Phenom X4

arqAva Procesadores Multinúcleo (AMD) MIMD-71 AMD Quad-Core Phenom (Jerarquía de caches) L1I 64KB L1D 64KB

arqAva Procesadores Multinúcleo (AMD) MIMD-72 AMD Quad-Core Phenom ¿Bueno, bonito y barato? Consumo Phenom AMD Quad 9850 + 4GB + 1TB 680 €

arqAva Procesadores Multinúcleo (AMD) MIMD-73 AMD Six-Core Istanbul [server] y ¿desktop Thuban 2010?

arqAva Procesadores Multinúcleo (AMD) MIMD-74 AMD Six-Core: Thuban Phenom II X6

arqAva Procesadores Multinúcleo (AMD) MIMD-75 Roadmap

arqAva Procesadores Multinúcleo (IBM) MIMD-76 Agosto/2009: IBM presenta el POWER 7 [8 núcleos] 256KB L2 * núcleo + 32MB L3 compartida CELL SPARC T3

arqAva Procesadores Multinúcleo (Oracle) MIMD-77 20/Sep/2010: Oracle presenta el SPARC T3 [16 núcleos: 128Threads] 18.639$ 6MB L2

arqAva Procesadores Multinúcleo (Tilera) MIMD-78 26/10/2009 => Tilera [TileGx]: www.tilera.com 16, 36, 64, 100 cores – 1..1,5 GHz - 32K L1I , 32K L1D . 256K L2

arqAva Procesadores Multinúcleo (Coherencia) MIMD-79 Cache compartida: Bus vs Red UMA  UCA NUMA  NUCA

arqAva Procesadores Many-core (Intel) MIMD-80 http://techresearch.intel.com/spaw2/uploads/files/SCC_Platform_Overview.pdf Mayo 2010: Intel lanza de forma selectiva el SCC [prototipo] 48 IA-32 núcleos Memoria común sin coherencia  Sw

arqAva Procesadores Multinúcleo (Pegas) MIMD-81 Multicore Is Bad News for Supercomputers. Samuel K. Moore – IEEE SPECTRUM Nov-2008

arqAva Procesadores Multinúcleo (¿Solución?) MIMD-82 Intel Technology Journal, Volume 11, Issue 3, 2007 FIN