Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porJosé Carlos Paz Modificado hace 5 años
1
J.A. Moríñigo, A.J. Rubio-Montero, P. García, R. Mayo-García
Ciencia abierta a partir repositorios de ejecuciones en supercomputadores J.A. Moríñigo, A.J. Rubio-Montero, P. García, R. Mayo-García Sevilla 29 de mayo de 2019
2
Índice Ciencia abierta Repositorios de datos computacionales Aplicaciones
3
Ciencia abierta La Ciencia abierta es uno de los avances más importantes del ámbito científico 3
4
Ciencia abierta Nos es fácil pensar en campos científico-tecnológicos donde esto es imprescindible Secuenciación genómica Climatología y meteorología Física de altas energías Materiales de interés energético Humanidades … Artículos 4
5
Y por supuesto, no sólo datos “en bruto”, sino también imágenes
Ciencia abierta Y por supuesto, no sólo datos “en bruto”, sino también imágenes Datos Metadatos Pero en el mundo de las Ciencias de la Computación, ¿son útiles los datos para hacer ciencia abierta? Este trabajo pretende dar una respuesta positiva… 5
6
CAP La Computación de Altas Prestaciones da respuesta a un sin fin de problemas Los computadores han servido para hacer simulaciones numéricas de fenómenos físicos, químicos, biológicos, socioeconómicos, de tratamiento de datos, etc. Estas simulaciones sirven para corroborar/realizar modelos, prever comportamientos, encontrar soluciones, diseñar nuevas instalaciones… Ha cambiado por tanto el modelo en el que se realizan ciencia y tecnología en la actualidad Mejorar la eficiencia computacional y energética de los supercomputadores a partir de datos de ejecuciones podría redundar positivamente en el resto de ciencias 6
7
Repositorios de datos de ejecuciones
Parallel Workload Archive1 Trazas de ejecuciones de 38 supercomputadores Con un período relativamente corto de tiempo (~1 año) 1 7
8
Repositorio de datos de ejecuciones de Euler
Euler, antiguo clúster en producción del CIEMAT 240 nodos con Dual Xeon quad-core Rpeak de 23 Tflops y Rmax de 19,55 Tflops (2008) Base de datos con los logs de las ejecuciones Datos de 9 años ~10 millones de trabajos Disponible en ~80 MB comprimida En proceso en PWA 8
9
Repositorio de datos de ejecuciones de Euler
La base de datos recoge información anonimizada de los trabajos ejecutados mediante 18 parámetros Job Number Submit Time Wait Time Run Time Number of Allocated Processors Average CPU Time Used - both user and system Used Memory Requested Number of Processors Requested Time Requested Memory Status User ID Group ID Executable Queue Number Partition Number Preceding Job Number Think Time from Preceding Job 9
10
Repositorio de datos de ejecuciones de Euler
Horas de CPU consumidas por año (el límite superior es el máximo anual posible) 10
11
Repositorio de datos de ejecuciones de Euler
Horas a las cuales se enviaban trabajos a lo largo del día (existentes también por día de la semana o del mes) 11
12
Repositorio de datos de ejecuciones de Euler
Relación de trabajos según su paralelismo (recordad que los nodos eran quad-core) 12
13
Repositorio de datos de ejecuciones de Euler
Fragmento del mapa de correlación basado en covarianza de los usuarios de Euler 13
14
Utilidad para terceros
Diseño de nuevos algoritmos de planificación Prueba de procedimientos matemáticos de correlación Prueba de nuevas metodologías de inteligencia artificial Diseño de políticas de uso más eficientes Prueba de simuladores de gestores de recursos Caracterización para una mejor tolerancia a fallos y predicción de errores 14
15
¡¡¡GRACIAS!!! Rafael Mayo García CIEMAT Departamento de Tecnología - Unidad de Informática Científica Avda. Complutense, – Madrid 15
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.