Optimización de Software (segunda parte)

Optimización de Software (segunda parte)
66.20 Organización de Computadoras

Tipos de Optimizaciones
 Intraprocedurales (locales). Aplican a procedimientos individuales. Interprocedurales (globales). Aplican a varios procedimientos simultáneamente. Cambio de algoritmos. Utilizar algoritmos con mejor orden de complejidad. De la Jerarquía de Memoria. Consideran la jerarquía de memoria de base.  

Jerarquías de Memoria La memoria incrementa su velocidad en un 10% a 20% anual. El procesador lo hace en un 50% anual. La brecha creciente la compensan las memorias caché.

Jerarquías de Memoria (cont.)
Las memorias caché capturan la localidad espacial y temporal de datos e instrucciones. En algunos procesadores, están separadas (I-cache y D-cache). Organizaciones típicas: Correspondencia Directa (Direct Mapped) Asociativa por Conjunto, de k vías (k-Way Set Associative). Completamente Asociativa (Fully Associative). Localidad: Espacial: datos contiguos en memoria. Temporal: accesos repetidos a los mismos datos. Organizaciones: El Pentium 4 tiene un cache L1 de 8KB de datos 4-way set associative, con líneas de 64 bytes. El cache L1 de instrucciones fue reemplazado por el Execution Trace Cache, que almacena µOPs (12000) en lugar de instrucciones x86. No se especifica el tamaño de este cache en términos de bytes. Esto tiene la ventaja de almacenar instrucciones decodificadas. El cache L2 viene de distintos tamaños, desde 256KB a 2MB. El de 256KB es 8way set associative, con lineas de 128 bytes. No necesariamente esto es así para los demás caches. Incluso el P 4 Extreme Edition tiene cache L3.

Jerarquías de Memoria (cont.)
La organización de correspondencia directa sufre de thrashing. El esquema asociativo por conjunto lo reduce o elimina.

Optimizaciones de la Jerarquía de Memoria
Lectura adelantada (prefetching) de datos e instrucciones. Reemplazo de elementos de arreglos por escalares. Transformación de bucles. Rellenado de arreglos (array padding). Reducción de solapamiento (aliasing).

Lectura Adelantada (prefetching)
Especula con los accesos futuros a datos e instrucciones. Se implementa a nivel de hardware y, en algunas arquitecturas, puede controlarse desde el software. Útil en estructuras repetitivas (bucles). Suficiente un prefetch por bloque de la caché.

Lectura Adelantada (prefetching) (cont.)
El lenguaje ANSI C permite aplicarlo a datos. Compilar de la siguiente manera: gcc -march=pentium4 ejemplo01.c -o ejemplo01

Si el prefetch se hace cerca del instante de uso, podría ser demasiado tarde. Conviene aplicarlo con mayor anticipación. Es necesario desenrollar el bucle. Por otro lado, si se realiza muy por adelantado, pueden producirse reemplazos indeseados (los nuevos datos pueden reemplazar algunos que aun no fueron utilizados o están siendo utilizados, o los nuevos datos podrían ser reemplazados por otros datos antes de ser utilizados). Factor de desenrollado r: nro de elementos del array que entran en 1 línea de cache. Es decir, para un cache con líneas de 32 bytes, y un arreglo de doubles, tendría 4 elementos por línea (r=4). En el ejemplo falta una optimización: los ultimos d = DELTA_PREFETCH / r = 2 fetchs no son necesarios (no se accede a esos datos). Hay que modificar el límite del 2do for a MAX-DELTA_PREFETCH y hay que agregar: for(;i<MAX;i++) acum += x[i]; ¿FACTOR DE DESENROLLADO?

¿Con cuánta anticipación debe leerse (prefetch) un bloque desde memoria principal a caché? Deberá considerarse: Cuántos ciclos insume el prefetch para traer el bloque a la caché. Cuántos ciclos insume una iteración del bucle. Por ejemplo: TP = Tiempo prefetch TI = Tiempo iteración TP TI = 1/3 TP

Se debe generar un pipeline para que el bucle no deba esperar. x[0] … x[7] x[8] … x[15] x[16] … x[23] x[24] … x[31] Distancia d = 3 x[32] … x[39] x[40] … x[47] En el ejemplo anterior, d = DELTA_PREFETCH / r = 16 / 8 = 2 PROCESA x[0] … x[7] x[8] … x[15] x[16] … x[23] x[24] … x[31] … En general  d = TP / TI

Reemplazo de Elementos de Arreglos por Escalares
Pocos compiladores intentan mantener los elementos de un arreglo en registros, entre iteraciones sucesivas.

Reemplazo de Elementos de Arreglos por Escalares (cont.)
Reemplazar el elemento de una arreglo por una variable temporal, para que pueda mantenerse en un registro.

Transformación de Bucles
 Fusión / Fisión. Desenrollado. Intercambio. Operación en bloques. 

Transformación de Bucles (cont.)
Intercambio. Según el lenguaje, un arreglo multidimensional podría almacenarse en memoria, ordenado por filas o por columnas. Orden por filas (row-major order) Orden por columnas (column-major order)

Se busca acceder al arreglo en pasos unitarios (unit stride). Esto permite aprovechar la localidad espacial en la memoria caché de datos. Orden por filas (row-major order) Orden por columnas (column-major order)

En lenguajes como ANSI C y Pascal se utiliza el esquema row-major order. Lenguajes como Fortran, utilizan column-major order. Por lo tanto, deben intercambiarse los bucles, de ser necesario:

Operación en bloques. Permite decrementar la cantidad de desaciertos (misses) en bucles anidados. Mejora la localidad temporal (mantiene en la caché, datos que se usarán en el corto plazo).

Ejemplo: multiplicación de matrices. Elevada cantidad de accesos conflictivos a la caché.

Solución: operar en bloques pequeños. Se reducen los accesos conflictivos, ya que los bloques pequeños pueden ser mantenidos en la caché. Notar que en este caso hace falta inicializar la matriz C en cero.

Rellenado de Arreglos (array padding)
Suma de matrices. C (64 bytes) B (64 bytes) A (64 bytes)

Rellenado de Arreglos (array padding) (cont.)
THRASHING Memoria caché DM 64 bytes 8 bytes por línea

Memoria caché DM 64 bytes 8 bytes por línea

Se cambia la forma en que los arreglos son almacenados en memoria principal. Reduce los accesos conflictivos. Disminuye el thrashing y, por consiguiente, la cantidad de desaciertos. Como desventaja, utiliza mayor cantidad de memoria. El padding es una técnica muy utilizada en general. Por ejemplo, cuando se debe mantener una colección de un grán número de estructuras en memoria, se suelen crear de un tamaño tal que evite el alineamiento y reducir así el reemplazo de líneas de caché. Una regla a seguir sería evitar que estos objetos tengan un tamaño que sea potencia de 2.

Reducción de Solapamiento (aliasing)
Un dato en memoria puede ser accedido de diferentes maneras. Es importantes disminuir el aliasing para lograr optimizaciones más agresivas. ¿Redundante?

Reducción de Solapamiento (aliasing) (cont.)
… p = &a; No sería redundante, si p fuese un “alias” de a. El programador puede “prometerle” al compilador que no existen “alias”. Así, le permite realizar optimizaciones más agresivas (como eliminación de código redundante).

Tipos de Optimizaciones
 Intraprocedurales (locales). Aplican a procedimientos individuales. Interprocedurales (globales). Aplican a varios procedimientos simultáneamente. Cambio de algoritmos. Utilizar algoritmos con mejor orden de complejidad. De la Jerarquía de Memoria. Consideran la jerarquía de memoria de base.   

Herramientas de Profiling
Un profiler es una herramienta para análisis de performance. Mide la ejecución de un programa y recoge información estadística. Reporta la duración y frecuencia de llamada a rutinas. Una de las técnicas más usadas es la instrumentación de código (estática o dinámica). Algunos de los más usados: Gprof, Valgrind y JProbe.

La Herramienta Gprof Site: Soporta los lenguages C/C++ y Fortran. Integrado a la biblioteca GNU Binutils. Aplica la técnica de instrumentación estática de código. Compilar con la opción –pg gcc -Wall -ansi -pedantic -pg prog.c -o prog

La Herramienta Valgrind
Site: (última versión: 3.1.1) Soporta cualquier lenguaje compilado. Público y de código abierto, para ambientes Linux-x86, Linux-AMD64 y Linux-PPC32. Aplica la técnica de instrumentación dinámica de código. Ejecutar de la siguiente manera: valgrind --tool=memcheck prog

La Herramienta JProbe Site: http://www.quest.com/jprobe/
Lenguaje Java. Comercial (aunque existe una versión freeware sin soporte). Independiente de la plataforma. Aplica la técnica de instrumentación dinámica de código (dentro de la JVM, a nivel de bytecode). Dispone de una interfaz gráfica.

Ejercicio #1: Padding en P4
2-KB Memoria caché L1 en el Pentium 4. 64 bytes 32 líneas Cada fila tiene el tamaño de una vía. Debido a que el bucle se mueve primero por lineas, así como está, cada 5 loops internos se produce un reemplazo de una línea de cache, a la que solo se accedió una vez. La solución viene de agregar padding de forma tal que se rompa esta alineación entre las filas y las vías. Optimizar aplicando padding.

Ejercicio #2: Prefetching
Optimizar utilizando lectura adelantada (prefetching). Determinar: Factor de desenrollado del bucle. Distancia d. DATOS: Línea caché: 32 bytes Tamaño double: 8 bytes Costo acumulación: 25 ciclos Costo prefetch: 300 ciclos

Optimización de Software (segunda parte)
66.20 Organización de Computadoras

Optimización de Software (segunda parte)

Presentaciones similares

Presentación del tema: "Optimización de Software (segunda parte)"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Optimización de Software (segunda parte)

Presentaciones similares

Presentación del tema: "Optimización de Software (segunda parte)"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback