arqParPresentaciónCurso 14/15 Departamento:Sistemas Informáticos (A.T.C.) (Bloque IV - Planta 4ª) Profesores: Pablo Carazo D TABLÓN DE ANUNCIOS: Normas del Curso Tutorías Notas Exámenes PRÁCTICAS:Laboratorio 4405 Martes y11’00 a 13’00 Jueves18’00 a 19’00
arqParPresentación2 Secretaria L y J (15’00 a 18’00) Mi despacho Tablón
“Aumento de prestaciones” Alta productividad Alto rendimiento 3 en un año Más tareas en el mismo tiempo Un año 6 meses Misma tarea en menos tiempo + gente + ahínco mejor + CPU’s + GHz algoritmo arqParPresentación3
arqParObjetivo4 Poner a trabajar juntos a varios procesadores ( ) Decenas de núcleos RED ¿Buses? 15 Miles de núcleos Intel AMD Oracle 8 núcleos 8 núcleos 16 núcleos
OBJETIVOS: “Aumento de prestaciones” arqParPresentación5 ALTERNATIVAS AL MODELO DE VON NEWMANN Poner a trabajar juntos a varios procesadores ( ) PARALELISMO INTERNO Arquitecturas superescalares IMPLEMENTACIONES CONCRETAS (Prácticas) PARALELISMO DE DATOS Sistólicos Vectoriales GPU’s y CUDA Intel AMD Oracle 8 núcleos 8 núcleos 16 núcleos
arqPar Presentación6 Programa de TeoríaHoras 1INTRODUCCIÓN5 2CONECTIVIDAD6 3MÁQUINAS MIMD7 4MÁQUINAS SIMD y SIMT6 5SUPERESCALARES5 Bibliografía Transparencias => WWW “Interconnection networks. …” José Duato y …, 2003 “Parallel Computer Architecture. A Hw/Sw approach”. David E. Culler y Jaswinder Pal Singh, 1999 “Modern Processor Design....” J.P. Shen y M.H. Lipasti, 2005
arqPar Presentación7 Programa de Prácticas Entorno Cluster de 8 PC’s -4 núcleos- (En total 32 núcleos) + … Lenguaje de programación “C” MPI “Message Passing Interface” Planificación Febrero Formar ¿grupos? de prácticas Mar... Hacer una práctica... 23Abril 2 turnos aprendizaje entorno MPI Paralelizar Ordenación, Primos, Viajante, Cifrado, Genéticos,..... Gráficos (Fractales, Sobel,...) ¿ Mayo => CUDA + Parallella ?
arqPar Presentación8
arqPar Presentación9
arqPar Presentación10 FFT + Fgauss + FFT’
arqPar Presentación11
Ordenación maestro esclavo1esclavo2esclavoN Muy habitual un proceso x núcleo arqPar Presentación12 Un modelo de Práctica: Ordenación paralela ¿Cómo es nuestro cluster?
arqParPresentación13 Pentium Core 2 Quad Q6600 2,4GHz 8ML2 4GB 500GB Red E.U.I. Switch GigaEthernet pc1pc2pc3pc5pc4 pc6 pc7 pc8 Core i7
arqParPresentación14 Pentium Core 2 Quad Q8200 2,4GHz 4ML2 2GB 300GB PC10 PC11
arqParPresentación15 2 Xeon E5520 Quad 2,26GHz 8ML3 12GB 500GB
arqParPresentación16 3 * NVIDIA GEFORCE GTX 660 2GB GDDR5 960 núcleos 1,03 GHz
arqParPresentación17 34,245 seg 1,329 seg8,840 seg MPI 4 núcleos 1,809 seg MPI 32 núcleos
arqParPresentación18 Parallella Epiphany-16 Desktop Computer 16 núcleos 600MHz => 19,2 GFlops Zynq dual core ARM-A91GB SDRAMµSDµHDMI µUSB Gigabit Ethernet
arqParPresentación19
arqParPresentación20
arqParPresentación21 Conocimientos que vienen bien: Arquitectura de Computadores: Caches, pipeline, … Redes de Computadores: Redes locales, … Unix y Linux: Entorno de prácticas Linux Fundamentos de Programación: Programar en C Programación Orientada a Objetos y Concurrente
arqParPresentación22 Actividad Horas presenciales Horas no presenciales Horas totales Clases Prácticas Presentación artículos Tests Tutorías Totales
arqParPresentación23 Evaluación no continua [Decirlo antes del 2 Marzo] Teoría6 puntos Prácticas4 puntos T + P >= 5 Evaluación continua Teoría4 puntos (Asistencia [1] + tests [3]) Trabajo2 puntos (Exposición o Escrito) Prácticas4 puntos (Funcionando en núcleos) “Descripción y uso del supercomputador #1 TOP500 Nov 2013” "Why On-Chip Cache Coherence is Here to Stay“, 2012 “Bulldozer: An Approach to Multithreaded Compute Performance”, 2011 “Efficient Hardware Barrier Synchronization in Many-Core CMPs”, 2012 “An Introduction to the Intel QuickPath Interconnect”, 2009 => ¡ La NO asistencia se penaliza ! Competencia Análisis y Síntesis