Curso de Postgrado ‘GRIDS y e-Ciencia’ ” UTILIZACION DE UNA INFRAESTRUCTURA GRID” J. Salt Grupo de GRID Computing del IFIC IFCA, Santander; de Junio de 2004
Contenidos Descripcion de GoG ( la Infraestructura GRID del IFIC) Utilizacion en I+D de tecnologias GRID Utilizacion como infraestructura de Produccion Conclusiones y Perspectivas Participacion esencial del Servicio de Informatica del IFIC en la operacion del GoG Grupo: F. Fassi, A. Fernandez, S. Gonzalez, V.Lara, J. Lozano, L. March, J. Salt, J. Sanchez
1.-DESCRIPCION DE GOG, LA INFRAESTRUCTURA GRID DEL IFIC
Ordenadores de cálculo 192 Ordenadores (134 IFIC + 58 ICMOL) 96 Atlhon 1.2 GHz 1Gbyte SDRAM 96 Athlon 1.4 GHz 1Gbyte DDR Disco duro local de 40 GBytes FastEthernet agregando con gigabit ethernet.
Adquisiciones recientes Robot STK L700e700 4 Servidores de disco 2 Servidores de cinta
Almacenamiento disco discos para datos contrCPUNetworkCapacidad RAID 1 gse0120x80GB 2x120GB IDE2x Atlhon 1.5 GHz1x100Base-T 1x1000Base-SX 920 GB gse0216x120GBSATA2 x XEON 2.0 GHz1x1000Base-T 1x1000Base-SX 960 GB gse0312x160GBSATA2 x XEON 2.8 GHz2x1000Base-T960 GB gse0412x160GBSATA2 x XEON 2.8 GHz2x1000Base-T960 GB gse0512x160GBSATA2 x XEON 2.8 GHz2x1000Base-T960 GB gse0612x160GBSATA2 x XEON 2.8 GHz2x1000Base-T960 GB 5720 GB
Almacenamiento en cinta celdasLectoresinterfaceCapacidad (sin comp.) IBM x LTO Gen1 100 GB (sin compr.) SCSI5.4 TB STK L700e x LTO Gen2 200 GB (sin compr.) FibreChannel138 TB interfaceCPUNetwork tpsrv1SCSI1x Athlon 1.5 GHz1x100Base-T tpsrv2FC2 x XEON 2.8 GHz2x1000Base-T tpsrv3FC2 x XEON 2.8 GHz2x1000Base-T
Almacenamiento de datos En septiembre de 2002 se instaló CASTOR con: 1 TapeServer 1 Compaq TL891DLX (1 lector DLT8000, 10 slots) CASTOR en producción desde entonces. Durante el 2003 migración a la librería IBM Diciembre de 2003 se añadio la librería de STK y los dos nuevos servidores de cinta.
2.- UTILIZACION PARA EL I+D DE TECNOLOGIAS GRID
CROSSGRID: Resource Broker Hace de punto único donde enviar los trabajos. Un Usuario debe describir las necesidades de su trabajo y el RB se encargará del envío y recogida de resultados cuando finalice. Selección autómatica de recursos donde correr los trabajos. Reenvio de trabajos en caso de fallo. Mantiene historia de las distintas fases por las que pasa un trabajo (Logging & Bookeping) Cuando acaba el trabajo, recoge los resultados que serán guardados hasta que el usuario los requiera.
CROSSGRID: Helpdesk User Support del Proyecto: desarrollo, implementacion y mantenimiento de un Helpdesk Ver la presentacion de Farida Fassi
EGEE : Organizaciones Virtuales Las Organizaciones Virtuales (VO) agrupan usuarios de diferentes dominios. que desean compartir sus recursos Un Usuario debe pertenecer al menos a una VO. Los diferentes Recursos deben soportar la VO para poder mandar trabajos: RB debe aceptar trabajos de esa VO Un Computing element (CE), representando un conjunto de recursos soporta una o más Vos, que permiten el correr trabajos de las mismas.
Un Storage Element (SE) servira archivos a las VO’s ‘soportadas’ Los Servicios de Replica (RLS) tambien deben soportar las VO’s que efectuen consultas.
3.- UTILIZACION COMO INFRAESTRUCTURA DE PRODUCCION
El Reto de la Computación en LHC
Almacenamiento- Ratio de registro de datos 0.1 – 1 GBytes/sec Acumulando a 5-8 PetaBytes/year 10 PetaBytes de disco Procesamiento 200,000 de los PC’s más rápidos actuales
* El GoG en Pre-Grid En el IFIC se ha realizado producción de Monte Carlo para los experimentos: ATLAS, LHCb y CMS. En ATLAS se ha producido tanto simulación, como reconstrucción (IFIC). LHCb En LHCb solo se ha producido simulación (UB) En CMS tanto generación, como simulación (IFCA)
Simulación y Reconstrucción en números para ATLAS Tipo de sucesos Tamaño por suceso (MB) Con pile- up a baja lumi (MB) Con pile- up a alta lumi (MB) Tiempo por suceso (s) Tiempo por suceso a baja lumi (s) Tiempo por suceso a alta lumi (s) Di-jets WH gg WH bb
Simulación y Reconstrucción en números, para ATLAS Colaboración (Pentium III 500 MHz) IFIC (Athlon 1.4 GHz) Número de sucesos 50x x10 6 Ficheros Horas de CPU 1722K horas30K horas Capacidad 30 Tbytes3 Tbytes
Contribución a los Data Challenge 1 de ATLAS por parte del IFIC Valencia IFIC 5*10 7 events generated 1*10 7 events simulated 3*10 7 single particles 30 Tbytes files 1: Australia 2: Austria 3: Canada 4: CERN 5: Czech Republic 6: France 7: Germany 8: Israel 9: Italy 10: Japan 11: NorduGrid (Denmark, Norway, Sweden) 12: Russia 13: Spain (Valencia) 14: Taiwan 15: UK 16: USA
Resumen para ATLAS en el IFIC Sucesos simulados: 890 Kevt Sucesos reconstruidos: 250 Kevt Volumen de datos almacenados en disco: 1.5 TB Volumen de datos almacenados en cinta: 4 TB Los datos han sido volcados tanto al CERN (20%) como a Lyon (70%)
Generación y Simulación en números para CMS Sucesos generados en el IFIC: 100 Sucesos simulados en el IFIC: 100 Kevt Horas de CPU: 4400 horas Tiempo por suceso: 160 s Tamaño por suceso: 0.46 MB Volumen de datos producidos: 46 GB Los sucesos se transfieren al IFCA
**El GoG en modo GRID 80% del GoG en LCG-2 Ejercicio del Data Challenge 2 (DC2) de ATLAS en LCG-2 Coordinacion ‘centralizada’ del envio de trabajos Mover a los usuarios del IFIC al modo GRID
Grid *EN PRUEBAS* para usuarios de GoG Modo Grid *EN PRUEBAS* para usuarios de GoG Guia para el usuario; Obtencion de los certificados Alta en la Organización Virtual de ATLAS Se ha ejecutado ATLAS a la grid (versión dada en la release del Grid) Se ha utilizado la distribución estándar de RPM’s usada en los DC1. Se puede hacer tanto simulación como reconstrucción. La simulación ha corrido bien en todos los sitios:
4.- CONCLUSIONES Y PERSPECTIVAS
Actividades I+D en GRID OK, in progress Explotacion (EGEE) de comienzo reciente: ‘in progress’ Buen funcionamiento de los DC1 (pre- GRID): OK Ejercicio del Data Challenge 2 (DC2) de ATLAS en LCG-2: muchos problemas, ‘in progress’
Analisis Distribuido de datos LHC (ATLAS). Prototipo de Sistema de Analisis. Problema complejo, primeros pasos Mover a los usuarios del IFIC al modo GRID opinion: El éxito reside en enseñar bien el nuevo sistema y minimizando el aprendizaje de la capa GRID para aquellos que no lo necesiten)
Iniciativa IRISGRID: e-Ciencia en España Iniciativas a nivel autonomico
GESTION DE RECURSOS: ARQUITECTURA GENERAL GSI Job Manager Llamadas al API Gram para pedir reserva del recurso Y creacion de procesos Llamadas al API del MDS Para localizar recursos Preguntar el estado Actual del recurso Crear RSL Library Parse Petición Creación de procesos Process Control y Monitorización Resource Broker / SA MDS: Grid Index Info Server Gatekeepe r (CE) MDS: Grid Resource Info Server Local Resource Manager Llamadas al API del MDS Para localizar recursos Creacion de callbacks Para notificar cambios De estado SCHEDULING WN Storage Element (SE) UI PORTAL/ RAS VO
Single Job Submission (from site j) Running in another site (in site i) Grid Global Service (CERN) Site i network II JSS LB Globus Site j